Le courant neuronal de recherche en intelligence artificielle s’est construit sur la conviction que les mécanismes d’apprentissage du cerveau humain pouvaient être appliqués à la machine. Dès les années 1950, certains utopistes cherchent à modéliser son architecture pour entraîner des systèmes informatiques à accomplir des tâches complexes. Dans son ouvrage intitulé Quand la machine apprend, Yann Le Cun nous ouvre les portes de son univers. Si vertigineux qu’il puisse paraître, cet article vise à en dégager les grandes lignes afin de comprendre comment la machine apprend.
Les principes de l’apprentissage supervisé
Notre cerveau est un réseau de neurones interconnectés par des synapses modifiables par l’apprentissage. Les chercheurs en IA se sont basés sur cette observation pour construire des réseaux de neurones artificiels. Plus précisément, il s’agit de fonctions mathématiques calculées par un programme d’ordinateur. Leur rôle est de calculer une somme pondérée de leurs signaux d’entrée et de produire un signal de sortie lorsqu’elle dépasse un certain seuil.
Pour construire un réseau aussi perfectionné, la machine est d’abord entraînée à la reconnaissance : on parle alors d’apprentissage supervisé. En fait, on cherche alors à paramétrer une fonction pour que les signaux d’entrée donnent les réponses attendues. Ce système d’IA est très utilisé dans la reconnaissance d’images et le traitement naturel du langage. Par exemple, reconnaitre une émotion au regard d’une expression sur un visage, traduire un texte, proposer des produits en fonction d’un profil d’appétence.
La quête de la fonction adéquate
Partons d’un cas de recherche actuel. Pour construire une voiture autonome, il est d’abord nécessaire de rassembler les données d’un bon conducteur. On peut par exemple compiler des couples qui associent une position de la voiture et l’angle de volant associé. L’apprentissage supervisé consiste alors à trouver une fonction f qui, à chaque x de l’ensemble d’apprentissage (la position), associe le y correspondant (l’angle du volant).
Cela revient à déterminer les paramètres de cette fonction afin de minimiser l’erreur entre les résultats de sortie de la machine et les résultats désirés pour chaque x d’entrée. Cette erreur moyenne est mesurée par une autre fonction, appelée « fonction de coût » qu’on cherche donc à réduire. Si la machine sort la bonne réponse, c’est que les paramètres sont correctes. Dans le cas contraire, on les ajuste.
Les étapes de l’apprentissage
Cet apprentissage par minimisation de coût est un principe clé du fonctionnement de l’IA. Il est utilisé pour des modèles simples comme le perceptron mais aussi pour la quasi totalité des méthodes d’apprentissage supervisé, dont les réseaux de neurones multicouches développés par Yann Le Cun.
Tâchons de résumer ce qui a été dit plus haut pour en distinguer les principales étapes :
- la collection de l’ensemble d’apprentissage qui sert de base d’entraînement de la machine
- proposer une première fonction f qui dépend de paramètres inconnus à identifier. Il peut y en avoir plusieurs voire des millions.
- étudier une deuxième fonction, la fonction de coût, qui mesure l’erreur pour chaque exemple d’apprentissage puis sa moyenne sur l’ensemble d’apprentissage
- identifier les paramètres de la fonction de départ qui minimisent cette erreur
La recherche tournée vers le deep learning
Les possibilités ouvertes par l’apprentissage sont ensuite infinies. Une fois que la fonction a été trouvée, la machine est capable d’associer n’importe quel y à un x donné. Autrement dit, la propriété fondamentale d’une machine apprenante est la généralisation. Elle est capable de donner la bonne réponse pour des exemples qui ne lui ont pas été soumis durant l’apprentissage ! Aujourd’hui, l’empilement des couches de neurones au coeur du deep learning permet aux systèmes de réaliser des tâches toujours plus complexes. Ils sont entraînés de bout en bout par des millions de données. On ajuste les paramètres de chaque couche du réseau pour minimiser le coût depuis la sortie jusqu’à l’entrée. Finalement, les premières couches identifient elles-mêmes les bons motifs de l’image à détecter pour accomplir la tâche souhaitée.
L’imitation du cerveau se perfectionne donc en continu et permet l’avénement de l’apprentissage machine qui s’impose au coeur des applications les plus spectaculaires. Néanmoins, il reste encore bien du chemin à parcourir. Pour rassurer les plus pessimistes, les capacités de généralisation et la malléabilité de notre cerveau entretiennent jusqu’à présent la supériorité intellectuelle de l’homme sur la machine.
A propos de StoryShaper :
StoryShaper est une start-up innovante qui accompagne ses clients dans la définition de leur stratégie digitale et le développement de solutions d’automatisation sur-mesure.
Sources : StoryShaper, Yann Le Cun, Quand la machine apprend, 2019