ChatGPT est en cours de mutation. Ces derniers mois, le chatbot a changé de comportement. D’après une étude, les réponses à certaines questions se sont considérablement dégradées… Pour d’autres chercheurs, l’IA n’est pas moins intelligente, elle est juste différente.
Dans le cadre de l’étude, les chercheurs ont évalué la manière dont les deux modèles d’IA répondent à quatre types de tâches différentes, comme la résolution de problèmes mathématiques, la réponse à des questions « sensibles/dangereuses », la génération de code informatique, et le raisonnement basé sur des éléments visuels.
Des performances qui se détériorent ?
Mis à l’épreuve par les chercheurs, GPT-4 s’est parfois montré moins performant qu’en mars dernier. Le modèle de langage a fait davantage d’erreurs de « formatage dans la génération de code » et multiplié les erreurs de mathématiques. D’après les chercheurs, « les performances sur certaines tâches se sont considérablement détériorées au fil du temps ».
Les tests réalisés corroborent le ressenti d’une partie des utilisateurs de ChatGPT, qui trouvent que le robot conversationnel est de plus en plus idiot. Selon certains témoignages, le chatbot a perdu une partie de sa créativité avec le temps. A contrario, le chatbot s’est amélioré dans certains domaines. Animé par GPT-3.5, l’IA a par exemple fait preuve d’une plus grande précision.
« Certaines tâches peuvent s’améliorer ou d’autres s’aggraver. C’est pourquoi nous voulions l’évaluer le plus systématiquement possible à différts moments », explique James Zou, professeur à Stanford, à nos confrères de VentureBeat.
Une IA moins facile à manipuler
Enfin, GPT-4 refuse de plus en plus à répondre à des questions considérées comme sensibles. Il semble qu’OpenAI a progressivement resserré les restrictions autour de ChatGPT, vraisemblablement suite aux retours des utilisateurs et aux craintes des régulateurs. L’IA est plus résistante face à des attaques de prompt injection, qui visent à contourner la programmation d’OpenAI pour utiliser le chatbot à des fins malveillantes et illégales.
Plusieurs enquêtes, et les conclusions d’Europol, révèlent que des cybercriminels se servent activement de l’IA pour faciliter leurs opérations. Une fois berné, ChatGPT peut écrire des mails de phishing convaincants ou imaginer de dangereux virus. C’est apparemment de plus en plus difficile de piéger le modèle. En mars, GPT-4 répondait à 78 % des questions visant à le détourner de sa programmation, contre seulement 31,0 % en juin.
Les auteurs de l’étude estiment que le comportement d’un même modèle linguistique peut « changer considérablement en un temps relativement court ». De plus, il s’avère que les modèles d’IA n’évoluent pas forcément de manière linéaire. Dans certains domaines, les chatbots peuvent se mettre à régresser pour une raison inconnue :
« malgré de meilleures performances globales, GPT-4 en juin a commis des erreurs sur des requêtes pour lesquelles il avait visé juste en mars ».
C’est pourquoi il est indispensable de mettre en place « un contrôle continu » des réponses de l’IA, résument les chercheurs. Les auteurs de l’étude regrettent d’ailleurs qu’OpenAI ne divulgue pas beaucoup d’informations sur les rouages internes de sa technologie, ce qui complique grandement la tâche de la recherche. Sur son site, la start-up se justifie en évoquant le « paysage concurrentiel » et « les risques en matière de sécurité des modèles à grande échelle »
Un changement plutôt qu’une détérioration
Sur Twitter, Arvind Narayanan, professeur d’informatique et directeur du Princeton University Center for Information Technology Policy, a estimé que l’étude parvenait à des conclusions erronées au sujet des performances de ChatGPT. Pour lui, les réponses de l’IA ne sont pas moins bonnes, elles sont juste différentes. L’expert estime que « le document montre un changement de comportement, pas une diminution des capacités ». Il y a néanmoins un consensus : ChatGPT est bel et bien en train de changer…
Après avoir analysé l’étude, Arvind Narayanan estime que l’IA résiste surtout de plus en plus aux « stratégies d’incitation soigneusement affûtées de ses utilisateurs ». Ces requêtes, taillées pour manipuler ChatGPT et le pousser à générer des réponses allant dans un sens ou réaliser une tâche précise, fonctionnent de moins en moins, tout simplement à cause du changement de comportement de l’algorithme. C’est pourquoi certains utilisateurs et chercheurs peuvent avoir l’impression que le robot perd en intelligence. Pour parvenir aux mêmes résultats qu’auparavant, les usagers doivent en fait mettre au point de nouvelles requêtes, plus en phase avec la manière de fonctionner de l’IA.