L'intelligence artificielle franchit un nouveau cap avec l'arrivée imminente du mode Live Camera de ChatGPT. OpenAI prépare discrètement le déploiement d'une fonctionnalité qui s'inscrit dans une stratégie plus large de développement d'agents IA autonomes.
Depuis la présentation de GPT-4o en mai 2024, les utilisateurs attendent cette capacité visuelle. L'assistant multimodal va désormais pouvoir analyser en temps réel ce qui se trouve devant sa caméra, dans un contexte de compétition féroce avec d'autres acteurs du secteur comme Anthropic.
La vision en temps réel, nouvelle frontière de l'IA
Les premières versions alpha ont déjà impressionné les testeurs. Un utilisateur, Manuel Sainsily, a même comparé l'expérience à « un FaceTime avec un ami super intelligent » capable d'analyser en temps réel son nouvel animal de compagnie. Les indices repérés dans la version beta de l'application suggèrent que la fonctionnalité sera baptisée « Live camera ». Un avertissement intéressant prévient déjà les utilisateurs : pas question d'utiliser cette IA pour des décisions critiques concernant la santé ou la navigation.
La Live camera sera d'abord réservée aux abonnés ChatGPT Plus et Enterprise, avec un déploiement prévu dans les prochaines semaines sur iOS et Android. Une stratégie prudente qui permettra de tester et affiner la technologie avant un déploiement plus large. La fonctionnalité devrait également rejoindre les versions Windows et macOS à terme. On avait d'ailleurs eu le droit à une démo de cette version pour Mac au printemps dernier.
La bataille des agents intelligents
Cette fonctionnalité s'inscrit dans une stratégie plus large de développement d'agents IA capables d'interagir avec l'environnement. OpenAI n'est pas seul dans cette course : Anthropic a déjà présenté des capacités similaires d'automatisation de tâches informatiques.
Sam Altman, PDG d'OpenAI, a récemment souligné que « les agents seront la prochaine grande avancée ». L'entreprise développe en interne un projet baptisé Operator, capable d'exécuter des tâches autonomes dans un navigateur web, directement en concurrence avec les solutions d'Anthropic. Google n'est pas en reste avec Gemini, qui prépare sa propre version 2.0 pour décembre 2024. La firme de Mountain View travaille également sur des capacités de vision en temps réel avec son projet Astra.
Source : Manuel Sainsily sur X, Neowin
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code