Google a mis au point un nouveau système de filtrage de spams baptisé RETVec (Resilient & Efficient Text Vectorizer). Il s'agit de « l'une des plus importantes améliorations de défense de ces dernières années », assure la société dans un billet de blog.
Les e-mails contenant des arnaques ont, dans la plupart des cas, un intitulé qui diffère des courriels conformes. Les acteurs malveillants ont souvent recours à des manipulations de texte pour tromper les systèmes de filtrage de spams. Cela inclut les homoglyphes (caractères qui ressemblent à des lettres), les émojis ou encore les mots-clés. S'ils sont facilement repérables à l'œil humain, la tâche s'avère plus complexe pour les outils informatiques. Avec son nouveau dispositif, Google promet une efficacité grandement améliorée pour filtrer les spams dans Gmail.
Des résultats probants
RETVec est basé sur un modèle TensorFlow d'apprentissage automatique. Il est capable d'analyser la similarité visuelle pour identifier le sens des mots plutôt que leur contenu réel. Au cours de l'année écoulée, Google l'a testé en interne « afin d'évaluer son utilité et a constaté qu'il était très efficace pour les applications de sécurité et de lutte contre les abus ».
Les résultats ont été probants. « Le remplacement du vecteur de texte précédent du classificateur de spam Gmail par RETVec nous a permis d'améliorer le taux de détection de spam de 38 % par rapport à la base et de réduire le taux de faux positifs de 19,4 % », détaille la firme de Mountain View.
Le système réduit aussi les coûts de calcul
Autre avantage du système, il permet de « réduire considérablement les coûts de calcul », tout en prenant en charge « toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte ». En effet, le modèle est doté de 200 000 paramètres, contre des millions pour les autres. Il est ainsi suffisamment léger pour être exécuté sur un appareil local.
Google l'a désormais déployé à la messagerie Gmail. RETVec est disponible en open source sur GitHub, afin de permettre à d'autres développeurs de l'intégrer en tant que classificateur de texte.
Sources : Google, Ars Technica