Les grands modèles de langage (LLM), basés sur l'intelligence artificielle (IA) et formés pour traiter et comprendre le langage naturel à grande échelle, présentent un risque pour ceux qui recherchent des conseils en matière de santé, car ils ont tendance à fournir des informations inexactes et incohérentes.
Selon une étude publiée ce lundi dans Nature Medicine, il existe encore un écart énorme entre ce que promettent les modèles de langage (LLM) et leur utilité réelle pour les patients en quête d'informations sur leurs symptômes.
L'étude, dirigée par l'Oxford Internet Institute et le Nuffield Department of Primary Care Health Sciences de l'Université d'Oxford, conclut que ceux qui utilisent l'IA pour décider de la gravité d'une maladie ne prennent pas de meilleures décisions que ceux qui s'appuient sur des méthodes traditionnelles (telles que la recherche sur Internet ou leur propre jugement).
Récemment, les LLM ont été proposés par divers prestataires de soins de santé dans le monde comme outils potentiels pour effectuer des évaluations de santé préliminaires et gérer votre état de santé avant de consulter un médecin.
Pour tester cette capacité de l'IA, les auteurs de l'étude ont évalué si les LLM pouvaient aider les citoyens à identifier avec précision des problèmes de santé, tels qu'un rhume, une anémie ou des calculs biliaires, et à décider s'ils devaient se rendre chez le médecin de famille ou à l'hôpital.
L’étude a révélé que ceux qui utilisaient l’IA ne prenaient pas de meilleures décisions que ceux qui cherchaient des opinions sur Internet ou se fiaient à leur propre jugement.
De vrais utilisateurs, de vrais défis
L'équipe a réalisé un essai randomisé auprès de près de 1 300 participants à qui il a été demandé d'identifier d'éventuels problèmes de santé et de recommander des actions à suivre.
Les scénarios, détaillés par les médecins, allaient d'un jeune homme souffrant de graves maux de tête après une soirée à une nouvelle mère qui se sentait constamment épuisée et essoufflée.
Un groupe a utilisé un LLM pour faciliter sa prise de décision, tandis qu'un groupe témoin a utilisé des sources d'information traditionnelles, telles que la consultation d'Internet.
Les résultats ont révélé un écart important entre les performances théoriques de l’IA et son utilisation pratique.
Après avoir examiné manuellement les interactions entre les humains et les LLM, l'équipe a découvert des échecs importants dans la communication bidirectionnelle : les participants donnaient souvent peu d'informations ou des informations incomplètes au modèle, mais aussi que les LLM généraient des informations trompeuses ou erronées avec des recommandations mêlant bons et mauvais conseils.
L'étude conclut que les LLM actuels ne sont pas prêts à être mis en œuvre dans les soins directs aux patients.
« Concevoir des tests robustes pour les modèles de langage est essentiel pour comprendre comment tirer parti de cette nouvelle technologie », a déclaré Andrew Bean, auteur principal et doctorant à l'Oxford Internet Institute.
« Dans cette étude, nous montrons que l'interaction avec les humains est un défi, même pour les meilleurs modèles. Nous espérons que ce travail contribuera au développement de systèmes d'IA plus sûrs et plus utiles. »
Au vu des résultats de l’étude, les auteurs préviennent que, comme les essais cliniques de nouveaux médicaments, les systèmes d’IA devraient être testés dans le monde réel avant d’être mis en œuvre.
« Ces résultats mettent en évidence la difficulté de créer des systèmes d'IA capables de véritablement soutenir les personnes dans des domaines sensibles et à haut risque tels que la santé », explique Rebecca Payne, médecin généraliste et responsable de l'étude.
« Malgré tout le battage médiatique, l'IA n'est tout simplement pas prête à assumer le rôle du médecin. Les patients doivent être conscients que consulter un modèle de langage au sujet de leurs symptômes peut être dangereux, car ils peuvent mal diagnostiquer et ne pas reconnaître quand une aide urgente est nécessaire. »