OpenAI : GPT-5 est le modèle le plus avancé pour répondre aux questions médicales

GPT-5 est devenu le modèle le plus fiable d'OpenAI dans le domaine médical, affirme l'entreprise : selon les résultats de l'évaluation sur la plateforme HealthBench, développée avec la participation de 250 médecins en exercice, le modèle a surpassé les versions précédentes en termes de précision et de qualité des réponses. Les tests ont analysé 5 000 conversations simulant des consultations entre patients et assistants numériques.
Le modèle est déjà utilisé dans les secteurs pharmaceutique et des assurances. Par exemple, Amgen utilise le GPT-5 dans le développement de médicaments, exploitant ses capacités d'analyse approfondie des données scientifiques et cliniques. Oscar Health a souligné la grande efficacité du GPT-5 dans l'interprétation de réglementations médicales complexes lors de la prise en charge de cas patients spécifiques.
L'introduction du modèle dans les activités des services fédéraux américains a également été annoncée. GPT-5 est disponible en trois variantes : GPT-5, GPT-5 mini et GPT-5 nano. OрenAI prévoit que, dans les prochains mois, le modèle trouvera une large application dans de nouveaux scénarios encore inédits.
Cependant, l'intérêt croissant pour l'utilisation de l'IA dans le domaine de la santé s'accompagne d'une attention accrue portée aux questions de sécurité. Des représentants de Microsoft, partenaire stratégique d'OpenAI, ont souligné que les scénarios médicaux sont des cas à forte valeur ajoutée, mais aussi à haut risque. Les erreurs potentielles d'interprétation des données par l'IA peuvent avoir de graves conséquences pour le patient. Cela souligne la nécessité d'un contrôle rigoureux par des experts de l'utilisation du modèle en pratique clinique.
En mars 2024, un groupe de scientifiques autrichiens et allemands a présenté une étude approfondie sur l'application de ChatGPT, y compris sa quatrième version, aux sciences médicales. L'analyse des publications scientifiques depuis la publication de ce LLM (modèle de langage étendu) a montré que le principal domaine d'application des tests est axé sur la formation médicale, la consultation et la recherche, ainsi que sur les différentes étapes du travail clinique, notamment le diagnostic, la prise de décision et la documentation médicale.
Concernant les consultations médicales, les auteurs de l'étude soulignent que ChatGPT présente une grande précision en oncologie (probablement grâce à l'inclusion de sources publiques telles que l'Institut national du cancer dans les données de formation), et que son efficacité dans d'autres spécialités nécessite une évaluation plus approfondie. Globalement, les scientifiques ont constaté que ChatGPT ne répond pas aux normes cliniques les plus strictes ; des modifications spécifiques et des méthodes d'évaluation standardisées sont nécessaires à une mise en œuvre concrète.
Selon l'étude, les méthodes d'évaluation actuelles reposent excessivement sur des avis d'experts subjectifs et manquent d'objectivité et d'évolutivité. Le développement de mesures quantitatives automatisées pour évaluer la qualité des réponses semble prometteur, condition essentielle à l'intégration clinique de cette technologie. La création de versions professionnelles de ChatGPT pour des spécialités médicales spécifiques, soumises à des tests quantitatifs rigoureux, pourrait ouvrir la voie à son utilisation pratique en médecine.
Parallèlement, ChatGPT4 présentait plusieurs défauts importants qui limitaient son application clinique : le modèle fonctionne exclusivement avec des données textuelles, est incapable d'analyser des images et ne possède pas la logique des systèmes experts : ses « justifications » ne sont que des prédictions probabilistes des mots suivants, ce qui peut conduire à des situations paradoxales où la bonne réponse est accompagnée d'une explication absurde. La fiabilité des réponses dépend directement de la qualité des données d'entraînement, tandis que le modèle ne distingue pas les informations fiables des informations fausses, ce qui crée un risque de recommandations dangereuses et biaisées. Un problème particulier réside dans la tendance du modèle à générer des informations plausibles, mais totalement fictives, présentées de manière convaincante. Cela nécessite une vérification experte obligatoire de toutes les conclusions avant leur utilisation en pratique médicale.
Les scientifiques ont également souligné que les réponses de ChatGPT sont souvent superficielles et manquent de profondeur. Le modèle n'est pas un outil médical spécialisé et nécessite une adaptation supplémentaire pour une utilisation clinique. Une limite importante réside dans la dépendance des résultats à la formulation de la question : même une légère modification de la question peut entraîner une réponse totalement différente.
La confidentialité des données constitue une problématique distincte, car l'utilisation d'un modèle propriétaire pour traiter les informations de santé personnelles peut enfreindre les exigences de confidentialité des patients. Ces limites soulignent la nécessité d'affiner considérablement le modèle et d'élaborer des protocoles stricts pour son utilisation dans le secteur de la santé.
Des enquêtes menées aux États-Unis et en Russie révèlent une tendance similaire : l’intérêt pour l’utilisation de l’IA dans le domaine de la santé s’accompagne d’une certaine prudence et d’un niveau de confiance inégal. Par exemple, selon l’Annenberg Public Policy Center, 63 % des Américains sont prêts à se fier aux réponses générées par l’IA pour rechercher des informations médicales, tandis que 79 % consultent régulièrement Internet pour obtenir des informations sur la santé. En Russie, selon les résultats d’une étude MAR CONSULT, les utilisateurs s’intéressent aux nouvelles technologies, mais privilégient l’interaction en face à face avec un médecin, et la méfiance envers l’IA reste élevée : 46 % ne font pas confiance aux algorithmes des machines, 51 % doutent de leur capacité à prendre en compte les caractéristiques individuelles du patient et 36 % s’inquiètent des fuites de données personnelles.
Selon les prévisions des analystes de la compagnie d'assurance suisse Swiss Re, d'ici 2034, les secteurs de la santé et de la pharmacie deviendront les leaders en termes de risques d'assurance liés à l'utilisation de l'IA. L'étude s'appuie sur une analyse de la situation actuelle du marché et des cas d'impact négatif de l'IA dans divers secteurs. Si le secteur informatique est aujourd'hui considéré comme le plus vulnérable, selon les experts, au cours de la prochaine décennie, les risques les plus importants seront liés à l'introduction de l'IA dans la pratique clinique, à la protection des données médicales et à la prise de décision basée sur des modèles d'auto-apprentissage.
Alors que ChatGPT s'intègre rapidement à l'enseignement médical, des chercheurs de l'Université du Sichuan, en Chine, ont mené l'une des premières études à grande échelle sur la perception de cette technologie par les étudiants en médecine. L'enquête a porté sur 1 133 futurs médecins de divers établissements d'enseignement médical de la province du Sichuan. Les résultats ont montré que 62,9 % d'entre eux avaient déjà utilisé ChatGPT dans le cadre de leurs études, le plus souvent pour rechercher des informations médicales (84,4 %) et effectuer des travaux universitaires spécialisés (60,4 %). Parallèlement, 76,9 % des étudiants ont exprimé des inquiétudes quant à la possibilité que le robot d'IA diffuse des informations médicales inexactes, et 65,4 % quant au risque d'emprunt de contenu frauduleux. Malgré cela, plus de 60 % des participants se sont déclarés disposés à utiliser ChatGPT pour résoudre des problèmes pédagogiques lors de leur formation clinique et ont généralement évalué positivement son potentiel dans l'enseignement médical.
vademec