BLOG

Qu’est-ce que le Machine Learning?

Learning Machine learning…

C’est un peu un Buzz Word… En fait, le machine learning – ou apprentissage automatique – n’est pas une discipline nouvelle. Mais elle prend tout son sens avec l’arrivée des Big Data.

Cela consiste en la mise en place d’algorithmes ayant pour objectif d’obtenir une analyse prédictive à partir de données, dans un but précis.

C’est en quelque sorte l’apprentissage par l’exemple. En fait, on va créer un programme qui crée un programme, plutôt que de tenter de définir des règles qui définissent avec certitude un évènement. On imagine qu’avec une masse importante de données, définir des règles serait fastidieux!

Un changement de paradigme

Avec le Machine Learning, on cherche davantage à établir des corrélations entre 2 évènements plutôt qu’un lien de causalité.

⇒ Exemple: on peut détecter une corrélation entre la consommation de sucre et les maladies cardiaques, sans pour autant dire que l’une est la cause de l’autre.
En revanche, la correlation est utile si par exemple on souhaite identifier les personnes susceptibles de porter de maladies cardiaques. Il faudra en revanche faire le deuil de comprendre POURQUOI il y a une corrélation…

Les différents types de Machine Learning

Le machine learning se décompose en 2 étapes: une phase d’entraînement (on apprend sur une partie des données) et une phase de vérification (on teste sur la seconde partie de données).

Nous aurons donc 3 phases: la Représentation / l’Evaluation / l’Optimisation. La phase de réprésentation consiste à trouver le modèle mathématique le plus adapté. Il existe un nombre important de modélisations. L’évaluation mesure l’écart entre le modèle et la réalité des données de tests. Enfin, l’optimisation vise à amenuiser cet écart.

Nous pouvons dénombrer 3 méthodes basiques:

– la Classification: modélisation de plusieurs groupes de données dans des classes existantes. Par exemple: la classification des types d’orchidées, la tendance d’un parti politique…

– le Clustering: ressemble à la classification mais ce ne sont pas des classes connues.

– la Régression: les données sont liées à d’autres données numériques par une corrélation (une droite, une courbe, une tendance).

Le graphique ci-dessous illustre les 3 méthodes sur des données similaires:

3 types de ML

 

Pour imaginer toute la complexité des modèles, voici pour le plaisir un exemple des différentes corrélations de Pearson:

Corrélation de Pearson

 

Quelle différence entre apprentissage automatique supervisé et non supervisé?

La question revient souvent.

L’apprentissage supervisé revient à construire un modèle de corrélation entre 2 ou plusieurs variables a priori connues – on ‘sent’ qu’il y a un lien entre telle et telle variable – alors que l’apprentissage non supervisé va prendre en compte l’ensemble des variables d’un problème et va en extraire les correlations les plus fortes. Ce qui est bien plus puissant car cela va au-delà des préjugés humains et met en relief des corrélations cachées qu’aucun d’entre nous n’aurait pu imaginer.

Quelques exemples pratiques de Machine Learning

La voiture autonome de Google
Classification des emails dans gmail
La traduction en temps réel de Skipe / La reconnaissance vocale Siri d’Apple
Détection de fraude dans le monde de la banque
Reconnaissance faciale

Publier un commentaire