Appelé ingénierie des fonctionnalités en français, le feature engineering est une étape préalable au développement du machine learning. Elle consiste à prétraiter les informations brutes dans le but de les utiliser comme données d’apprentissage.

Définition du feature engineering

Le feature engineering est un terme relatif à l’Intelligence artificielle. Il désigne l’étape à laquelle on traite les données brutes afin de les rendre utilisables en machine learning ou en données d’apprentissage automatique. Pour cause, elles doivent être présentées dans des caractéristiques et formats qui leur sont spécifiquement adaptés, c’est-à-dire par :

numéro de client,
article,
pièce,
dossier,
échelle chronologique,
valeur ou volume relatif…

Cela permet de les classer dans un ordre bien précis afin de faciliter la tâche à laquelle elles sont prévues. Grâce à cette procédure, il est plus facile de distinguer chacune d’elles et d’identifier les éventuelles anomalies. En découle ensuite un modèle prédictif plus sûr et performant avec moins de biais et de dérive.

Le feature engineering en data science

Comme son nom l’indique, la data science consiste à produire des connaissances après avoir exploré et analysé un ensemble d’informations. À l’origine, elle était utilisée dans l’analyse décisionnelle ou business intelligence, mais également dans le Big Data. Dernièrement, son usage s’est étendu à l’Intelligence Artificielle et à la conception de modèles d’apprentissage. C’est dans ce domaine qu’elle recouvre le feature engineering dont l’objectif est de traiter au préalable les données et caractéristiques d’apprentissage avant les étapes d’entraînement.

Exemples d’ingénierie de fonctionnalités

Comme elle tient une place importante dans le machine learning, l’intelligence artificielle et la data science, l’ingénierie de fonctionnalités est utilisée de différentes manières, pour :

identifier des caractéristiques,
gérer les valeurs associées, surtout celles manquantes,
numériser les données qui n’ont pas d’éléments de comparaison,
enrichir les data sets, etc.

Les techniques de feature engineering utilisées en machine learning

Plusieurs techniques de feature engineering existent également lors de cette étape préalable de traitement d’informations avant la création d’un modèle de machine learning. Il y a en premier la méthode de l’importance qui alloue une note pour évaluer l’importance d’une caractéristique. Il y a ensuite l’extraction des caractéristiques qui consiste à utiliser les informations brutes pour engendrer d’autres caractéristiques. La sélection des caractéristiques vient à la fin, une méthode via laquelle le système choisit les ensembles et les sous-ensembles les plus appropriés.

Les techniques d’ingénierie de fonctionnalités pour les time séries

Le feature engineering se sert en outre de techniques adaptées pour les séries chronologiques ou temporelles. On parle des fonctions relatives à la date qui permettent de concevoir une prévision suivant une échelle de temps variable. Il y a aussi l’horodatage qui utilise le même principe que la précédente technique, mais qui est plus précis. En effet, il fait la différence entre les heures ouvrables et celles non ouvrables. Le décalage, lui, choisit une variable dans un laps de temps plus ou moins long. Pour cela, il considère la valeur et les variations des informations dans le passé.

L’ingénierie de fonctionnalités en NLP

Le Natural Language Processing ou le traitement automatique des langues se sert aussi du feature engineering de plusieurs manières. Il l’utilise par exemple dans :

les process de traduction automatique,
l’analyse syntaxique,
la reconnaissance optique de caractères,
la synthèse vocale…

Le but est de rassembler l’Intelligence Artificielle et la linguistique dans un monde numérique.

En effet, le NLP doit saisir les façons d’énoncer un mot, une phrase ou un texte, ainsi que les manières dont il faut les articuler. Pour cause, cette étape de décodage ou de déchiffrage est indispensable pour en comprendre la signification. Au feature engineering ainsi de saisir ces éléments de contexte, d’en extraire ensuite des données brutes afin d’en générer des caractéristiques de base du dataset d’apprentissage. Celui-ci inclut entre autres :

le nombre de mots dans les textes à traiter,
le nombre de mots en majuscule,
le nombre de mots en minuscule,
le nombre de ponctuations,
le nombre de mots uniques,
la longueur moyenne des phrases…

Vous souhaitez en savoir plus ? N’hésitez pas à nous contacter.

Non classifié(e), RH

Qu’est-ce que le portefeuille d’identité numérique européen ?

Qu’est-ce que le feature engineering ?

Définition du feature engineering

Le feature engineering en data science

Exemples d’ingénierie de fonctionnalités

Les techniques de feature engineering utilisées en machine learning

Les techniques d’ingénierie de fonctionnalités pour les time séries

L’ingénierie de fonctionnalités en NLP

Tout sur les ESN ou les SSII

Comment instaurer une politique de sécurité informatique performante ?

Quel avenir pour le Mainframe ?

URSSAF : procédure d’un contrôle

La place du numérique dans les TPE et PME

Cinq manières d’optimiser la cybersécurité de son entreprise

Services

Légal

Nous trouver