L'événement Meta Connect a été l'occasion pour la firme de Mark Zuckerberg de dévoiler ses dernières innovations en matière de réalité augmentée (AR) et surtout, d'intelligence artificielle (IA). Elle a ainsi dévoilé Llama 3.2, un modèle multimodal capable d'interpréter et combiner plusieurs formes d'entrées comme le texte, les images, l'audio, et la vidéo.
Les concurrents de Meta, Google et OpenAI, ont déjà lancé leurs propres modèles multimodaux. Mais pour ce qui est de Meta, la prise en charge de la vision pourrait jouer un rôle déterminant pour ses aspirations dans le secteur de la réalité augmentée. C'est d'ailleurs la stratégie désormais assumée de Mark Zuckerberg : exploiter le potentiel de l'IA pour accélérer et améliorer l'expérience AR.
Plusieurs déclinaisons, dont deux pour smartphones
« Il s'agit de notre premier modèle multimodal open source, et il va permettre de nombreuses applications intéressantes qui nécessitent une compréhension visuelle », a expliqué le P.-D.G. lors de la conférence organisée à Menlo Park dans la Silicon Valley.
Llama se décline en plusieurs modèles de vision, le premier avec 11 milliards de paramètres et le second, avec 90 milliards de paramètres. Deux autres versions beaucoup plus légères ont été pensées, en collaboration avec ARM, pour tourner sur les smartphones. Elles revendiquent 1 milliard de paramètres et 3 milliards de paramètres. Ce type de technologie pourrait permettre, à terme, d'utiliser son smartphone en lui parlant directement.
Meta a fait la démonstration du modèle intégré à ses lunettes intelligentes Ray-Ban Series. Par exemple, l'appareil sera en mesure de dicter des recettes à l'utilisateur, selon les ingrédients qui se trouvent sur un présentoir dans un magasin. Mark Zuckerberg a également présenté plusieurs fonctions d'IA expérimentales sur lesquelles l'entreprise travaille, dont un logiciel permettant la traduction en temps réel, le doublage automatique de vidéos dans différentes langues, ainsi qu'un avatar pour les créateurs qui peut répondre aux questions des fans en leur nom.
L'Europe pourrait ne pas en bénéficier
Meta espère attirer de nombreux développeurs. Étant open source, ses modèles peuvent être téléchargés et exécutés localement sans frais, bien qu'il y ait certaines restrictions sur l'utilisation commerciale à grande échelle. Il est en outre plus simple de les modifier ou de les optimiser pour des tâches spécifiques.
Mais il n'est pas certain que nous puissions y accéder en Europe. Souvenez-vous, l'entreprise a indiqué qu'elle ne lancerait pas ses IA multimodales sur le Vieux Continent, en raison du paysage réglementaire trop strict, selon elle. Dans une récente lettre ouverte, Meta a même appelé les décideurs européens à changer de stratégie, au risque d'empêcher les citoyens de profiter des dernières innovations technologiques.
- Intégration multiplateforme
- Modèles open-source Llama 3
- Fonctionnalités de génération d'images et vidéos