Sélectionner la langue

French

Down Icon

Sélectionnez un pays

America

Down Icon

Le manuel d'interprétation de l'IA : ce que la recherche d'Anthropic signifie pour votre stratégie LLM d'entreprise

Le manuel d'interprétation de l'IA : ce que la recherche d'Anthropic signifie pour votre stratégie LLM d'entreprise

Participez à l'événement auquel les chefs d'entreprise font confiance depuis près de deux décennies. VB Transform rassemble les personnes qui élaborent de véritables stratégies d'IA pour les entreprises. En savoir plus

En avril, le PDG d'Anthropic, Dario Amodei, a lancé un appel urgent pour comprendre la manière dont les modèles d'IA pensent.

Cela arrive à un moment crucial. Alors qu'Anthropic lutte pour les classements mondiaux de l'IA, il est important de souligner ce qui le distingue des autres grands laboratoires d'IA. Depuis sa création en 2021, lorsque sept employés d'OpenAI ont démissionné en raison d'inquiétudes concernant la sécurité de l'IA, Anthropic a construit des modèles d'IA qui adhèrent à un ensemble de principes humains, un système appelé IA constitutionnelle . Ces principes garantissent que les modèles sont « utiles, honnêtes et inoffensifs » et agissent généralement dans le meilleur intérêt de la société. Parallèlement, la branche recherche d'Anthropic explore en profondeur la manière dont ses modèles perçoivent le monde et pourquoi ils produisent des réponses utiles (et parfois néfastes).

Le modèle phare d'Anthropic, Claude 3.7 Sonnet, a dominé les benchmarks de codage lors de son lancement en février, prouvant que les modèles d'IA peuvent exceller en termes de performances et de sécurité. La récente sortie de Claude 4.0 Opus et Sonnet place à nouveau Claude en tête des benchmarks de codage . Cependant, sur le marché actuel de l'IA, rapide et ultra-concurrentiel, les concurrents d'Anthropic, comme Gemini 2.5 Pro de Google et o3 d'Open AI, affichent eux aussi des performances impressionnantes en matière de codage, tout en dominant déjà Claude en mathématiques, en écriture créative et en raisonnement général dans de nombreux langages.

Si l'on en croit les réflexions d'Amodei, Anthropic anticipe l'avenir de l'IA et ses implications dans des domaines critiques comme la médecine, la psychologie et le droit, où la sécurité des modèles et les valeurs humaines sont primordiales. Et cela se voit : Anthropic est le laboratoire d'IA de pointe qui se concentre exclusivement sur le développement d'IA « interprétables », c'est-à-dire de modèles nous permettant de comprendre, avec un certain degré de certitude, ce que pense le modèle et comment il parvient à une conclusion particulière.

Amazon et Google ont déjà investi des milliards de dollars dans Anthropic, tout en développant leurs propres modèles d'IA. L'avantage concurrentiel d'Anthropic est donc peut-être encore naissant. Comme le suggère Anthropic, des modèles interprétables pourraient réduire considérablement les coûts opérationnels à long terme liés au débogage, à l'audit et à la réduction des risques dans les déploiements d'IA complexes.

Sayash Kapoor , chercheur en sécurité de l'IA, suggère que si l'interprétabilité est précieuse, elle n'est qu'un outil parmi d'autres pour gérer les risques liés à l'IA. Selon lui, « l'interprétabilité n'est ni nécessaire ni suffisante » pour garantir la sécurité des modèles ; elle est d'autant plus importante lorsqu'elle est associée à des filtres, des vérificateurs et une conception centrée sur l'humain. Cette vision plus large considère l'interprétabilité comme faisant partie d'un écosystème plus vaste de stratégies de contrôle, notamment dans les déploiements d'IA réels où les modèles sont des composants de systèmes décisionnels plus vastes.

Jusqu'à récemment, beaucoup pensaient que l'IA n'atteindrait pas des avancées comparables à celles qui permettent aujourd'hui à Claude, Gemini et ChatGPT de bénéficier d' une adoption exceptionnelle sur le marché. Si ces modèles repoussent déjà les frontières de la connaissance humaine , leur utilisation généralisée s'explique par leur capacité à résoudre un large éventail de problèmes pratiques nécessitant créativité ou analyse détaillée. Face à des problèmes de plus en plus critiques, les modèles doivent impérativement produire des réponses précises.

Amodei craint que lorsqu'une IA répond à une invite, « nous n'avons aucune idée… pourquoi elle choisit certains mots plutôt que d'autres, ou pourquoi elle commet parfois une erreur alors qu'elle est généralement précise. » De telles erreurs – hallucinations d'informations inexactes ou réponses non conformes aux valeurs humaines – empêcheront les modèles d'IA d'atteindre leur plein potentiel. De fait, nous avons observé de nombreux exemples d'IA qui continuent de lutter contre les hallucinations et les comportements contraires à l'éthique .

Pour Amodei, la meilleure façon de résoudre ces problèmes est de comprendre comment pense une IA : « Notre incapacité à comprendre les mécanismes internes des modèles signifie que nous ne pouvons pas prédire de manière significative de tels comportements [nuisibles], et avons donc du mal à les exclure… Si, au contraire, il était possible de regarder à l'intérieur des modèles, nous pourrions être en mesure de bloquer systématiquement tous les jailbreaks, et également de caractériser les connaissances dangereuses que possèdent les modèles. »

Amodei considère également l'opacité des modèles actuels comme un obstacle au déploiement de modèles d'IA dans des contextes financiers ou de sécurité critiques, car nous ne pouvons pas définir pleinement les limites de leur comportement, et un petit nombre d'erreurs pourrait être très préjudiciable. Dans les prises de décision qui affectent directement les humains, comme les diagnostics médicaux ou les évaluations hypothécaires, la réglementation exige que l'IA explique ses décisions.

Imaginez une institution financière utilisant un modèle de langage étendu (MLE) pour la détection des fraudes : l'interprétabilité pourrait permettre d'expliquer à un client une demande de prêt refusée, comme l'exige la loi. Ou une entreprise manufacturière optimisant ses chaînes d'approvisionnement : comprendre pourquoi une IA suggère un fournisseur particulier pourrait générer des gains d'efficacité et éviter des goulots d'étranglement imprévus.

C'est pour cela, explique Amodei, qu'Anthropic redouble d'efforts en matière d'interprétabilité et notre objectif est d'arriver à ce que "l'interprétabilité puisse détecter de manière fiable la plupart des problèmes de modèle" d'ici 2027.

À cette fin, Anthropic a récemment investi 50 millions de dollars dans Goodfire , un laboratoire de recherche en IA qui réalise des avancées majeures dans le domaine des scanners cérébraux. Ember, sa plateforme d'inspection de modèles, est un outil agnostique qui identifie les concepts appris au sein des modèles et permet aux utilisateurs de les manipuler. Lors d'une récente démonstration , l'entreprise a montré comment Ember peut reconnaître des concepts visuels individuels au sein d'une IA de génération d'images, puis permettre aux utilisateurs de les peindre sur une toile pour générer de nouvelles images conformes à leur conception.

L'investissement d'Anthropic dans Ember témoigne de la difficulté de développer des modèles interprétables, qui ne lui permet pas de disposer des ressources humaines nécessaires pour y parvenir seul. La création de modèles interprétables créatifs nécessite de nouvelles chaînes d'outils et des développeurs qualifiés.

Contexte plus large : le point de vue d'un chercheur en IA

Pour décortiquer le point de vue d'Amodei et apporter un contexte indispensable, VentureBeat a interviewé Kapoor, chercheur en sécurité de l'IA à Princeton. Kapoor est coauteur de l'ouvrage « AI Snake Oil » , une analyse critique des affirmations exagérées concernant les capacités des principaux modèles d'IA. Il est également coauteur de « AI as Normal Technology », dans lequel il préconise de traiter l'IA comme un outil standard et transformateur, au même titre qu'Internet ou l'électricité, et promeut une perspective réaliste sur son intégration dans les systèmes du quotidien.

Kapoor ne conteste pas l'utilité de l'interprétabilité. Cependant, il se montre sceptique quant à son utilisation comme pilier central de l'alignement de l'IA. « Ce n'est pas une solution miracle », a-t-il déclaré à VentureBeat. Nombre des techniques de sécurité les plus efficaces, comme le filtrage post-réponse, ne nécessitent aucune ouverture du modèle, a-t-il précisé.

Il met également en garde contre ce que les chercheurs appellent le « sophisme de l'impénétrabilité » : l'idée selon laquelle si nous ne comprenons pas parfaitement le fonctionnement interne d'un système, nous ne pouvons pas l'utiliser ou le réguler de manière responsable. En pratique, la transparence totale n'est pas le critère d'évaluation de la plupart des technologies. Ce qui compte, c'est la fiabilité des performances d'un système en conditions réelles.

Ce n'est pas la première fois qu'Amodei met en garde contre les risques d'une IA dépassant notre compréhension. Dans sonarticle d'octobre 2024, « Machines of Loving Grace », il esquisse une vision de modèles de plus en plus performants, capables d'agir concrètement (et peut-être de doubler notre espérance de vie).

Selon Kapoor, il convient ici de faire une distinction importante entre la capacité et la puissance d'un modèle. Les capacités des modèles augmentent sans aucun doute rapidement et pourraient bientôt développer suffisamment d'intelligence pour trouver des solutions à de nombreux problèmes complexes auxquels l'humanité est confrontée aujourd'hui. Mais la puissance d'un modèle dépend des interfaces que nous lui fournissons pour interagir avec le monde réel, y compris le lieu et la manière dont il est déployé.

Amodei a également soutenu que les États-Unis devraient conserver leur avance en matière de développement de l'IA, notamment grâce à des contrôles à l'exportation limitant l'accès aux modèles performants. L'idée est que les gouvernements autoritaires pourraient utiliser les systèmes d'IA de pointe de manière irresponsable, ou profiter de l'avantage géopolitique et économique que représente leur déploiement en premier.

Pour Kapoor, « même les plus fervents partisans du contrôle des exportations s'accordent à dire que cela ne nous donnera qu'un an ou deux au maximum. » Il estime que nous devrions traiter l'IA comme une « technologie normale », au même titre que l'électricité ou Internet. Bien que révolutionnaires, ces deux technologies ont mis des décennies à se généraliser. Kapoor pense qu'il en va de même pour l'IA : la meilleure façon de conserver un avantage géopolitique est de se concentrer sur le long terme, en transformant les industries pour qu'elles utilisent l'IA efficacement.

Kapoor n'est pas le seul à critiquer la position d'Amodei. La semaine dernière, à VivaTech à Paris, Jansen Huang, PDG de Nvidia, a exprimé son désaccord avec les propos d'Amodei. Huang s'est demandé si le pouvoir de développer l'IA devait être limité à quelques entités puissantes comme Anthropic. Il a déclaré : « Si vous voulez que les choses soient faites de manière sûre et responsable, faites-le ouvertement… Ne le faites pas dans le noir en me disant que c'est sûr. »

En réponse, Anthropic a déclaré : « Dario n’a jamais prétendu que “seul Anthropic” pouvait créer une IA sûre et performante. Comme le démontreront les archives publiques, Dario a plaidé en faveur d’une norme nationale de transparence pour les développeurs d’IA (dont Anthropic) afin que le public et les décideurs politiques soient informés des capacités et des risques des modèles et puissent se préparer en conséquence. »

Il convient également de noter qu'Anthropic n'est pas seul dans sa quête d'interprétabilité : l'équipe d'interprétabilité DeepMind de Google, dirigée par Neel Nanda, a également apporté de sérieuses contributions à la recherche sur l'interprétabilité.

En fin de compte, les meilleurs laboratoires et chercheurs en IA démontrent clairement que l'interprétabilité pourrait être un facteur de différenciation clé sur le marché concurrentiel de l'IA. Les entreprises qui priorisent l'interprétabilité dès le début peuvent acquérir un avantage concurrentiel significatif en développant des systèmes d'IA plus fiables, conformes et adaptables.

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de votre abonnement. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow