Les modèles d’IA générative d’Anthropic impressionnent par leur efficacité. Pourtant, même leurs concepteurs admettent : personne ne comprend vraiment ce qui se passe à l’intérieur. Dario Amodei, patron d’Anthropic, le dit sans détour dans son dernier billet.

© Anthropic
© Anthropic
L'info en 3 points
  • Anthropic admet l'opacité des modèles IA génératifs qui évoluent sans comprendre leur fonctionnement interne. Cette complexité nuit à leur prédiction et fiabilité.
  • Le Mystère de l'IA : Les chercheurs d'Anthropic s'efforcent de dévoiler le fonctionnement interne des modèles avec de nouvelles méthodes d’interprétabilité.
  • Malgré les progrès, les IA de taille croissante dépassent encore la capacité des chercheurs à les comprendre pleinement.

Depuis 2021, Anthropic développe des modèles d’IA générative, comme Claude, qui impressionnent par leurs capacités. Pourtant, même leurs concepteurs admettent qu’ils ne comprennent pas vraiment comment ces systèmes fonctionnent à l’intérieur. Dario Amodei, le patron d’Anthropic, l’explique clairement dans un billet récent. Il rappelle que les mécanismes internes des IA ne sont pas conçus de manière explicite, mais émergent au fil de l’entraînement, un peu comme la croissance d’une plante. Cette opacité complique la détection des erreurs ou comportements inattendus, ce qui pose un vrai problème pour la sécurité et la fiabilité. Anthropic travaille donc à mieux comprendre ces modèles, en développant des outils d’interprétabilité. Mais la tâche reste immense.

Claude AI
  • Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
  • Personnalisation avancée
  • Conception éthique

Les modèles d’IA générative restent impossibles à expliquer

Dario Amodei ne se défausse pas. Il écrit : « Les personnes extérieures au domaine sont souvent surprises et alarmées d'apprendre que nous ne comprenons pas le fonctionnement de nos propres créations d'IA. Leur inquiétude est justifiée : ce manque de compréhension est sans précédent dans l'histoire de la technologie ». Il compare les IA génératives à des plantes : « Nous définissons les conditions générales qui orientent et façonnent la croissance, mais la structure exacte qui en émerge est imprévisible et difficile à comprendre ou à expliquer  ».

Un logiciel classique fonctionne autrement. Un développeur sait pourquoi son code affiche un bouton ou déclenche une action. Avec l’IA générative, tout devient flou. « Lorsqu'un système d'IA générative fait quelque chose, comme résumer un document financier, nous n'avons aucune idée, à un niveau spécifique ou précis, des raisons de ses choix – pourquoi il choisit certains mots plutôt que d'autres, ou pourquoi il commet parfois une erreur malgré son exactitude habituelle » explique l'ancien de chez OpenAI. Les modèles traitent des matrices de milliards de nombres. Ils prennent des décisions, mais personne ne sait vraiment comment.

Cette opacité inquiète les chercheurs, à l'instar de Chris Olah chez Anthropic. « Notre incapacité à comprendre les mécanismes internes des modèles nous empêche de prédire de manière significative de tels comportements et, par conséquent, de les exclure  ». Même les filtres de sécurité ne suffisent pas. Les IA trouvent parfois des moyens de contourner les règles, ou génèrent des réponses inattendues. Les risques restent difficiles à cerner, car il manque des preuves directes : « Nous ne pouvons pas “prendre les modèles en flagrant délit” en train de nourrir des pensées trompeuses et avides de pouvoir. Il ne nous reste que de vagues arguments théoriques », ajoute-t-il.

©WSJ

L’interprétabilité mécaniste avance, mais le mystère persiste

L’équipe veut comprendre ce qui se passe à l’intérieur de ses modèles. Dario Amodei raconte : « Depuis plusieurs années, nous (Anthropic et le secteur en général) tentons de résoudre ce problème, de créer l'équivalent d'une IRM extrêmement précise et exacte qui révélerait pleinement le fonctionnement interne d'un modèle d'IA ». Les débuts de l’interprétabilité mécaniste remontent aux modèles de vision. Les chercheurs ont trouvé des neurones qui détectent des objets simples, comme une voiture ou une roue. Chez Anthropic, ils cherchent à appliquer ces méthodes aux modèles de langage.

Le résultat donne quelques neurones interprétables, mais surtout un chaos de concepts entremêlés. « Nous avons rapidement découvert que si certains neurones étaient immédiatement interprétables, la grande majorité était un pastiche incohérent de nombreux mots et concepts différents. Nous avons appelé ce phénomène “superposition” ». Pour avancer, l’équipe utilise des autoencodeurs clairsemés. Cette technique permet d’isoler des combinaisons de neurones qui correspondent à des idées plus précises. « Nous avons pu trouver plus de 30 millions de caractéristiques dans un modèle commercial de taille moyenne (Claude 3 Sonnet) ».

Une fois ces caractéristiques repérées, l’équipe peut jouer avec. Dario Amodei donne un exemple : « Nous avons utilisé cette méthode pour créer “Golden Gate Claude”, une version d'un modèle d'Anthropic où la caractéristique “Golden Gate Bridge” était amplifiée artificiellement, ce qui a conduit le modèle à devenir obsédé par le pont, l'évoquant même dans des conversations sans rapport ». Les chercheurs suivent aussi des groupes de caractéristiques, appelés circuits, qui montrent comment le modèle relie les idées pour aboutir à une réponse. « Trouver et identifier 30 millions de caractéristiques constitue une avancée significative, mais nous pensons qu'un modèle, même de petite taille, pourrait contenir un milliard de concepts, voire plus », nuance le papa de Claude.

La course continue. Les modèles grossissent, les concepts se multiplient. « Le domaine de l'IA dans son ensemble est plus avancé que nos efforts en matière d'interprétabilité et progresse lui-même très rapidement. Nous devons donc agir vite si nous voulons que l'interprétabilité mûrisse suffisamment pour avoir de l'importance ». Conclut Dario Amodei. Chez Anthropic, la recherche avance, mais le mystère reste entier.