Bien décidé à damer le pion à GPT-4o d'OpenAI et à Gemini de Google, Amazon vient de lancer un tout nouveau modèle vocal IA, Nova Sonic.

La course à la meilleure intelligence artificielle bat son plein et dans ce domaine, Amazon avait un peu de retard à rattraper. Ayant lancé une version avancée de son assistant Alexa fin février, le géant de l'e-commerce a développé sa propre IA, Nova AI, capable, entre autres, de raisonner et de surfer seule sur le web.
Cette semaine, Amazon est allé encore plus loin en dévoilant un nouveau modèle vocal boosté à l'intelligence artificielle.
Un modèle prenant en compte le contexte acoustique
Cela fait plus de dix ans qu'Amazon s'intéresse de près aux technologies conversationnelles. Déjà bien avancé dans le domaine avec des outils tels qu'Alexa ou encore Polly, la firme s'est penchée sur la question du contexte acoustique. Son nouveau modèle vocal, Nova Sonic, est capable de prendre en compte le ton de son interlocuteur pour des dialogues plus naturels.
Dans un article de blog paru hier, Amazon a présenté ses avancées. Au lieu d'utiliser plusieurs modèles différents, Nova Sonic « unifie les capacités de compréhension et de génération en un seul modèle ». L'IA est capable de comprendre « les nuances de la conversation humaine, notamment les pauses et les hésitations naturelles de l'orateur. »
Une IA facilitant le développement d'applications vocales
Avec ce nouveau modèle, Amazon souhaite, plus que jamais, rester compétitif dans le domaine des IA vocales. La firme a d'ailleurs précisé que Nova Sonic était le « modèle le plus rentable de l'industrie, par rapport aux modèles qui ont des fonctionnalités similaires de conversations vocales en temps réel et dont les prix publics sont disponibles. »
Cette technologie est capable de générer des transcriptions de ses conversations avec l'utilisateur. À partir de ces textes, les développeurs peuvent « appeler des outils et des API spécifiques afin de créer des agents IA vocaux ». Nova Sonic peut aussi générer des rapports, fournir des données précises et poser des questions de manière proactive.
30 décembre 2024 à 11h48
Il est possible de tester dès maintenant ce modèle vocal sur la plateforme de développement Bedrock par le biais d'une API de streaming bidirectionnelle. Rohit Prasad, vice-président senior et responsable scientifique de l'AGI chez Amazon, a notamment expliqué à TechCrunch que des composants de cette technologie avaient été intégrés à Alexa+.
Un peu plus tôt dans la semaine, Amazon a annoncé le lancement du modèle de génération vidéo Nova Reel 1.1. Bénéficiant d'une latence et d'une qualité améliorés, cette technologie permet aux utilisateurs de générer des vidéos multi-scènes de deux minutes maximum.
Source : The Verge
- Large compatibilité plateformes
- Réponses IA 24/7
- Interface fluide et personnalisable