Le machine learning désigne un ensemble de méthodes d’apprentissage automatique utilisées en intelligence artificielle qui visent à entraîner des systèmes à partir de bases de données pour effectuer des tâches complexes.
Le Big Data fournit donc la matière indispensable à l’apprentissage : il « nourrit » la machine. Allié à la progression fulgurante de la vitesse de calcul, il a contribué à l’expansion prodigieuse du machine learning depuis 2010. En retour, l’apprentissage machine a permis de tirer profit de toutes les ressources du Big Data.
Le Big Data comme moteur d’apprentissage
Un système de machine learning est auto-organisateur, il crée ses propres modèles à partir des données qu’il analyse. Elles sont l’instrument qui lui permet d’ajuster progressivement ses paramètres pour effectuer une tâche complexe. Plus les données sont abondantes, plus le système se perfectionne et diminue ses erreurs.
Le Big Data est donc devenu indispensable pour pallier le manque de données disponibles. Elles sont désormais accessibles en temps réel et peuvent être analysées à grande échelle. Leur volume et leur diversité répondent aux besoins d’entraînement des systèmes les plus perfectionnés, notamment les modèles de deep learning basés sur des couches de neurones artificiels.
Le machine learning, analyste du Big Data
Une fois entraînée, la machine est un outil précieux pour le Big Data Analytics. Elle apporte une méthode de traitement : l’extraction de motifs complexes à partir de volumes massifs de données, l’indexation sémantique, le marquage de données, la récupération rapide de l’information ou encore la simplification des tâches discriminantes. Cette technologie vise principalement à identifier des corrélations et des tendances de certaines données dont la pertinence n’était pas visible au départ.
Aujourd’hui, le machine learning est utilisé pour alimenter des moteurs de recommandation sur Netflix, Youtube, Amazon ou Spotify, des moteurs de recherche web, des assistants vocaux, guider des voitures autonomes, traduire du texte, analyser des sentiments sur les réseaux sociaux…
Ces opportunités démultipliées ont conduit diverses organisations à investir dans le développement de produits utilisant le Big Data Analytics pour traiter leur suivi, leur expérimentation, leur analyse des données, leurs simulations et d’autres connaissances et besoins métier.
Comment machine learning et Big Data servent à la reconnaissance d’images ?
Les géants d’Internet tels que Google et Facebook utilisent les données de leurs utilisateurs pour optimiser leurs performances et former leurs systèmes de machine learning à la reconnaissance d’images par apprentissage supervisé. Les collections de photos et les images partagées sur leurs pages web sont en permanence passées au crible par des réseaux convolutifs (un type de modèle d’apprentissage en pointe du deep learning).
Pour ce faire, Google et Facebook font d’abord étiqueter à la main des millions d’images par des employés et même par leurs utilisateurs. Par exemple, nous contribuons à ce travail minutieux nécessaire à l’apprentissage supervisé dès que nous répondons aux sollicitations fastidieuses telles que : « Dans quelle image y’a-t-il une voiture ? ». Ces données sont ensuite réutilisées par les ingénieurs pour entrainer les réseaux convolutifs à étiqueter à leur tour les milliards d’images restantes. A la fin de l’apprentissage, les modèles seront capables de retrouver les mêmes éléments sur des données non étiquetées.
Ainsi, des listes d’images prêtes à être utilisées pour répondre aux requêtes des utilisateurs sont stockées dans les serveurs de leurs data centers. Quand on tape dans le moteur de recherche « Tour Eiffel », la liste constituée est prête à être mobilisée pour fournir une réponse immédiate. Et il en va de même pour des millions de mots ou de phrases…
Conclusion
Le machine learning et le Big Data sont intimement liés. Lorsqu’ils sont couplés, ils mettent à disposition des entreprises des outils puissants capables d’optimiser la rentabilité des données traitées. Cette révolution en marche implique des défis techniques qui sont sans cesse relevés. Mais au-delà, les entreprises devront faire face aux enjeux éthiques d’une adoption à grande échelle tout en accompagnant la transformation de leurs processus en interne.
A propos de StoryShaper :
StoryShaper est une start-up innovante qui accompagne ses clients dans la définition de leur stratégie digitale et le développement de solutions d’automatisation sur-mesure.
Sources : StoryShaper, Yann Le Cun, Quand la machine apprend, 2019