Confiance dans l'IA agentique : pourquoi l'évaluation de l'infrastructure doit être prioritaire

Alors que les agents d'IA entrent en phase de déploiement réel, les organisations sont contraintes de définir leur place, de les développer efficacement et de les déployer à grande échelle. Lors de la conférence Transform 2025 de VentureBeat, des leaders technologiques se sont réunis pour discuter de la manière dont ils transforment leur activité grâce aux agents : Joanne Chen, associée générale chez Foundation Capital ; Shailesh Nalawadi, vice-président de la gestion de projet chez Sendbird ; Thys Waanders, vice-président senior de la transformation de l'IA chez Cognigy ; et Shawn Malhotra, directeur technique chez Rocket Companies.
« L'attrait initial de ces déploiements pour les agents d'IA réside généralement dans l'économie de capital humain – le calcul est assez simple », a déclaré Nalawadi. « Cependant, cela sous-estime la capacité de transformation offerte par les agents d'IA. »
Chez Rocket, les agents d’IA se sont avérés être des outils puissants pour augmenter la conversion des sites Web.
« Nous avons constaté qu'avec notre expérience basée sur les agents, l'expérience conversationnelle sur le site Web, les clients sont trois fois plus susceptibles de se convertir lorsqu'ils passent par ce canal », a déclaré Malhotra.
Mais ce n'est qu'un aperçu. Par exemple, un ingénieur de Rocket a créé en seulement deux jours un agent permettant d'automatiser une tâche hautement spécialisée : le calcul des droits de mutation lors de la souscription d'un prêt hypothécaire.
« Ces deux jours d'efforts nous ont permis d'économiser un million de dollars par an », a déclaré Malhotra. « En 2024, nous avons économisé plus d'un million d'heures de travail pour nos équipes, principalement grâce à nos solutions d'IA. Il ne s'agit pas seulement de réduire les dépenses. Cela permet également à nos équipes de se concentrer sur les personnes qui réalisent ce qui est souvent la plus grosse transaction financière de leur vie. »
Les agents boostent considérablement les performances de chaque membre de l'équipe. Ce million d'heures économisées ne représente pas la totalité du travail d'un employé, répliqué plusieurs fois. Il s'agit de fractions de tâches que les employés n'apprécient pas ou qui n'apportent aucune valeur ajoutée au client. Et ce million d'heures économisées permet à Rocket de gérer davantage de clients.
« Certains membres de notre équipe ont pu gérer 50 % de clients en plus l'année dernière », a ajouté Malhotra. « Cela signifie que nous pouvons améliorer notre productivité, développer notre activité et, encore une fois, nos taux de conversion sont plus élevés, car ils consacrent plus de temps à comprendre les besoins du client qu'à effectuer un travail de routine, contrairement à l'IA. »
« Une partie du parcours de nos équipes d'ingénieurs consiste à passer de l'approche de l'ingénierie logicielle – écrire une fois, tester, et le résultat est identique mille fois – à une approche plus probabiliste, où l'on pose la même question à un LLM et où il obtient des réponses différentes selon une certaine probabilité », a déclaré Nalawadi. « Cela a notamment permis de fédérer du personnel. Pas seulement des ingénieurs logiciels, mais aussi des chefs de produit et des concepteurs UX. »
Ce qui a aidé, c'est que les LLM ont beaucoup progressé, explique Waanders. Il y a 18 mois ou deux ans, s'ils créaient quelque chose, il fallait absolument choisir le bon modèle, sinon l'agent ne fonctionnerait pas comme prévu. Aujourd'hui, dit-il, nous en sommes à un stade où la plupart des modèles courants se comportent très bien. Ils sont plus prévisibles. Mais aujourd'hui, le défi consiste à combiner les modèles, à garantir leur réactivité, à orchestrer les bons modèles dans le bon ordre et à intégrer les bonnes données.
« Nous avons des clients qui génèrent des dizaines de millions de conversations par an », a déclaré Waanders. « Si vous automatisez, disons, 30 millions de conversations par an, comment cela se traduit-il dans le monde du LLM ? Ce sont des choses simples que nous avons dû découvrir, depuis la simple mise à disposition du modèle auprès des fournisseurs cloud. Par exemple, obtenir un quota suffisant avec un modèle ChatGPT. Ce sont tous des apprentissages que nous avons dû faire, et nos clients aussi. C'est un monde entièrement nouveau. »
Au-dessus de l'orchestration du LLM se trouve l'orchestration d'un réseau d'agents, a expliqué Malhotra. Une expérience conversationnelle repose sur un réseau d'agents, et l'orchestrateur décide à quel agent confier la requête parmi ceux disponibles.
« Si l'on considère l'idée d'avoir des centaines, voire des milliers d'agents capables de faire des choses différentes, on se retrouve avec des problèmes techniques vraiment intéressants », a-t-il déclaré. « Le problème prend de l'ampleur, car la latence et le temps sont importants. Le routage des agents sera un problème très intéressant à résoudre dans les années à venir. »
Jusqu'à présent, la plupart des entreprises lançant l'IA agentique ont d'abord commencé par la développer en interne, car les outils spécialisés n'existaient pas encore. Mais développer une infrastructure LLM ou une infrastructure d'IA générique ne permet pas de se différencier et de créer de la valeur. Une expertise spécialisée est nécessaire pour aller au-delà de la conception initiale, déboguer, itérer et améliorer ce qui a été construit, ainsi que pour maintenir l'infrastructure.
« Nous constatons souvent que les conversations les plus fructueuses avec nos clients potentiels ont tendance à se dérouler avec des personnes ayant déjà développé une solution en interne », explique Nalawadi. « Ils comprennent rapidement qu'il est possible de passer à la version 1.0, mais avec l'évolution du monde et de l'infrastructure, et la nécessité de remplacer une technologie par une nouvelle, ils n'ont pas la capacité d'orchestrer tout cela. »
Théoriquement, l'IA agentique ne fera que gagner en complexité : le nombre d'agents au sein d'une organisation augmentera, ils apprendront les uns des autres et le nombre de cas d'utilisation explosera. Comment les organisations peuvent-elles se préparer à ce défi ?
« Cela signifie que les mécanismes de contrôle et d'équilibrage de votre système seront davantage sollicités », a déclaré Malhotra. « Pour un processus réglementaire, une personne est présente pour s'assurer que quelqu'un l'approuve. Pour les processus internes critiques ou l'accès aux données, disposez-vous d'une observabilité ? Disposez-vous des alertes et d'une surveillance adéquates pour être informé en cas de problème ? Il s'agit de redoubler d'efforts pour détecter les problèmes, de comprendre où une intervention humaine est nécessaire et de faire confiance à ces processus pour les détecter. Mais compte tenu du pouvoir que cela confère, il est impératif de le faire. »
Alors, comment pouvez-vous être sûr qu’un agent d’IA se comportera de manière fiable à mesure qu’il évolue ?
« C'est vraiment difficile si vous n'y avez pas pensé dès le départ », a déclaré Nalawadi. « En bref, avant même de commencer à construire, vous devez disposer d'une infrastructure d'évaluation. Assurez-vous de disposer d'un environnement rigoureux qui vous permette de savoir ce qu'est un bon agent d'IA, et de disposer de cet ensemble de tests. Consultez-le régulièrement pour apporter des améliorations. Une façon très simple de considérer l'évaluation est de la considérer comme les tests unitaires de votre système agentique. »
Le problème, c'est que ce n'est pas déterministe, a ajouté Waanders. Les tests unitaires sont essentiels, mais le plus grand défi est qu'on ne sait pas ce qu'on ignore : quels comportements incorrects un agent pourrait afficher, comment il pourrait réagir dans une situation donnée.
« Vous ne pouvez le découvrir qu’en simulant des conversations à grande échelle, en le poussant dans des milliers de scénarios différents, puis en analysant comment il résiste et comment il réagit », a déclaré Waanders.
venturebeat