Qu'il s'agisse des réseaux communautaires, les plateformes e-commerces ou encore des services de messagerie, les grands acteurs de la Toile font de plus en plus usage du « Machine Learning «, un sous-ensemble de l'intelligence artificielle permettant aux machines d'apprendre par elles-mêmes dans le but d'automatiser les traitements. Trois types d'applications principales peuvent s'articuler autour du « Machine Learning » : les recommandations, les catégorisations ou encore le clustering.
Crédit:ml.cmu.edu
Comment effectuer des recommandations davantage personnalisées pour les internautes ? Tel est l'un des objectifs principaux des site e-commerce tel qu'Amazon. Pour ce faire, des algorithmes tels que Pearson, Euclidean ou Cosine peuvent être utilisés afin de mettre en place des processus de Collaborative Filtering ou intelligence collective. Les recommandations sont soit basées sur le produit, par exemple en retournant un livre suite à l'achat d'un magazine, soit articulées sur les utilisateurs, comme la suggestion de produits en fonction des achats effectués par un ami.
M. Leroux explique que le but est de « repérer les similarités et identifier les goûts communs pour formuler une proposition ». Pour ce faire l'algorithme se base sur des notes explicites (nombre d'étoiles laissées sur une vidéo) ou implicites (achats, pages visitées...). La recommandation est également utilisée pour influencer les moteurs de recherche, ou suggérer de nouvelles relations sur un réseau social.
Le « Machine Learning » est également utilisé pour le classement automatique de données et effectuer une analyse prédictive en fonction de catégories déjà connues.
Concrètement, il s'agit du dispositif d'analyse faciale implémenté au sein de Picasa, de la détection de spam sur Gmail ou Outlook.com, de la recommandation de musique sur Apple Genius ou encore des technologies de reconnaissance de caractères (OCR).
Parmi les algorithmes pour ce type d'usage, nous retrouvons celui de Bayes ou de Support Vector Machines. Le premier tente d'émettre une déduction issue de certaines propriétés connues tandis que le second classifie les données par propriétés et détermine un nouveau sous-ensemble. La catégorisation est également utilisée pour juger de l'aspect positif ou négatif d'un commentaire publié sur Internet, pour la détection d'anomalies ou encore de fraudes fiscales.
Le troisième type d'application du « Machine Learning » est le Clustering ou la mise en place d'un dispositif permettant de faire remonter des regroupements naturels à partir d'éléments similaires.
Les "tendances" de Twitter ou encore les sujets phares de Google News utilisent ces types d'algorithmes, parmi lesquels nous retrouvons K-Means, Fuzzy ou encore Canopy. Les chercheurs en font usage pour déterminer de nouvelles espèces tout comme les médecins pour repérer des maladies.
Il y a peu, le Machine Learning était toutefois réservé au domaine de la recherche et présentait un certain nombre de contraintes limitant son adoption : petite communauté, faible documentation, licences peu adaptées au commerce, difficulté de déploiement...
Tanguy Leroux explique toutefois que les travaux articulés autour d'Apache Mahout, initiés en 2008, forment une énorme avancée en la matière. Mahout regroupe l'ensemble des algorithmes associés au « Machine Learning » et les met à disposition de manière gratuite. Retrouvez davantage d'informations sur cette page.
A lire également :
BLEND Web Mix : le fondateur d'OverBlog ouvre le bal