L'intelligence artificielle générative d'AWS, Amazon Bedrock, a franchi un nouveau cap ces derniers jours en profitant des nouvelles capacités du modèle Claude AI d'Anthropic, qui le rend extrêmement attractif.
Amazon Bedrock a, il y a quelques jours, introduit le nouveau Claude 2.1, dernière version du modèle de langage (LLM) concurrent de ChatGPT. Ce dernier promet d'ouvrir de nouvelles perspectives créatives grâce à ses capacités améliorées et à son intégration dans le service entièrement géré d'Amazon Bedrock, hébergé dans le cloud AWS (Amazon Web Services). Lors de l'AWS re:Invent de Las Vegas, Clubic a tenté d'en savoir plus sur sa technologie, son accessibilité et son formidable potentiel.
Amazon Bedrock, le nouveau couteau suisse de l'IA générative
Mais d'abord, c'est quoi, Amazon Bedrock ? La plateforme émerge comme un service entièrement géré, facilitant l'accès aux meilleurs modèles de langage de Meta, Anthropic, AI21 Labs, Cohere, Stability AI et Amazon. Le service offre un éventail de fonctionnalités permettant aux clients de développer des applications d'IA génératives, des chatbots et bien plus encore, tout en garantissant la confidentialité et la sécurité des données, avec un meilleur contrôle opérationnel, chaque modèle n'étant, pris seul à seul, pas suffisamment sûr.
Qu'en est-il donc de Claude 2.1 ? La dernière itération du modèle de langage d'Anthropic a trouvé sa place dans Amazon Bedrock. Avec une fenêtre contextuelle étendue à 200 000 jetons (contre 100 000 auparavant), Claude excelle dans le traitement de documents volumineux (juridiques, médicaux et autres), jusqu'à 500 pages. Anthropic rapporte des gains significatifs avec des hallucinations en chute libre (-50 %), une réduction notable des fausses déclarations par rapport aux versions précédentes.
Les modèles de langage (LLM) n'ont pas d'état et répondent à chaque question de manière indépendante, en gardant le contexte de la conversation. La clé est donc de leur permettre de conserver un historique plus important, de limiter les possibilités de toxicité et d'avoir une compréhension de plus gros documents, pour avoir un impact meilleur sur les réponses.
La clé : inclure du contexte dans les questions posées au chatbot
Pour inclure des informations supplémentaires dans le modèle, il existe deux techniques : le fine-tuning et le RAG (retrieval augmented generation). Comment fonctionnent-elles ?
Le fine-tuning consiste à prendre un modèle de base, à y ajouter des données, à refaire un entraînement léger avec les nouvelles données au-dessus du modèle de base. Comme nous l'explique Sébastien Stormacq, principal developer advocate d'Amazon Web Services, « ça peut coûter cher en temps, parce que c'est un réentraînement qui peut prendre des heures ou des jours en fonction de la taille des documents que vous voulez rajouter à votre modèle. Au final, ce n'est plus un Claude, mais un Claude customisé pour vous, et ce modèle, il faut l'héberger et le déployer sur des machines, c'est ce qu'Amazon Bedrock permet de faire ».
Et la seconde technique ? « Pour donner du contexte à un modèle, il faut inclure le contexte dans la question », répond Sébastien. « Si je demande, dans le contexte de mon chat d'entreprise, d'avoir les réglementations entre telle date et telle date sur les instruments financiers, un système informatique va prendre ma question, mais en plus, va aller chercher tous les documents pertinents sur cette question, les donner au modèle dans la question, et le modèle va digérer ça pour nous livrer une réponse ».
À la recherche de la similarité sémantique, pour rendre les réponses encore plus pertinentes
Plus la fenêtre pour passer de l'information au modèle est grande, plus on peut lui passer des documents de contexte, donc plus la réponse que l'on va recevoir sera pertinente. « Si on pose la question consistant à retrouver tels documents réglementaires sur telle chose, comment est-ce que nous allons savoir que dans nos pétabytes de documents, ce sont ces trois documents là qu'il faut aller chercher ? L'idée, c'est d'indexer tous les documents : on fait une énorme base de données avec tous les documents », nous image Sébastien Stormacq.
Si on indexe traditionnellement les documents avec des mots clés, ce ne sera pas le cas ici. « On transforme chaque document en un vecteur, donc une suite de chiffres. Et cette transformation est faite de telle façon à ce que deux documents qui parlent de la même chose auront des vecteurs qui seront proches, qui seront similaires les uns aux autres ». Une recherche sémantique qui fait mouche.
« L'exemple que je donne toujours, c'est qu'il y a des documents qui parlent du Far West, et vous posez une question sur le Cowboy. Si vous faites de la recherche par mots-clés, "Cowboy" ne va pas apparaître dans "Far West", donc le document, l'information ne va pas ressortir. Tandis que si l'on transforme les deux en vecteurs, il y aura une similarité sémantique, parce que ce sont des documents qui parlent de la même chose ». Donc un document qui parle de Cowboy pourrait apparaître lorsque vous ferez une recherche sur Far West, et inversement.
L'intérêt majeur des vecteurs dans les réponses fournies
Comment génère-t-on ces vecteurs ? « Vous prenez tous vos documents : vous les coupez en petits morceaux, vous les passez à la moulinette d'un modèle pour avoir des vecteurs pour chaque morceau du document, puis vous mettez tout cela dans une base de données spécialisée pour faire des recherches sur les vecteurs très facilement ». Pour chaque morceau du document, un vecteur est un message dans une base de données spécialisée pour faire des recherches sur les vecteurs très facilement. Arrive alors la fameuse question, « quels sont les documents réglementaires ? »
Cette question est passée à un LLM qui va la transformer en un vecteur. « On fait une recherche par vecteur dans la base de données, qui va me trouver 5 ou 10 documents pertinents par rapport à la réponse. On extrait ces documents-là de la base de données, on les injecte dans le prompt avec la question originale de l'utilisateur, on met tous les documents, et là le LLM met tout le contexte pour faire une réponse pertinente correcte par rapport à ça », décrit Sébastien Stormacq.
Avec Claude 2.1, les utilisateurs peuvent explorer de nouvelles possibilités créatives tout en bénéficiant d'une gestion simplifiée de l'infrastructure grâce à la puissance du cloud AWS, propulsant ainsi l'IA générative vers de nouveaux horizons passionnants.