Le modèle o1 d'OpenAI essaie certainement de tromper les humains

OpenAI a finalement publié la version complète de o1, qui donne des réponses plus intelligentes que GPT-4o en utilisant un calcul supplémentaire pour « réfléchir » aux questions. Cependant, les testeurs de sécurité de l'IA ont découvert que les capacités de raisonnement de o1 lui permettent également d'essayer de tromper les humains à un rythme plus élevé que GPT-4o – ou, d'ailleurs, les principaux modèles d'IA de Meta, Anthropic et Google.

C'est ce que révèle une étude de l'équipe rouge publiée mercredi par OpenAI et Apollo Research : « Même si nous trouvons passionnant que le raisonnement puisse améliorer considérablement l'application de nos politiques de sécurité, nous sommes conscients que ces nouvelles capacités pourraient constituer la base d'applications dangereuses », a déclaré OpenAI dans le journal.

OpenAI a publié mercredi ces résultats dans sa carte système pour o1 après avoir donné aux équipes rouges tierces d'Apollo Research un accès anticipé à o1, qui a également publié son propre article.

À plusieurs reprises, les modèles o1 d'OpenAI ont « comploté » contre les humains, ce qui signifie que l'IA poursuivait secrètement ses propres objectifs même s'ils s'opposaient aux souhaits de l'utilisateur. Bien que les intrigues ne soient pas propres à o1 et que les modèles de Google, Meta et Anthropic en soient également capables, o1 semble présenter les comportements les plus trompeurs autour de ses intrigues.

Le risque qui motive cette recherche est qu’un modèle d’IA pourrait échapper ou contourner le contrôle humain s’il était vraiment doué pour les intrigues et avait accès à suffisamment de ressources et de capacités d’agent. Bien sûr, les modèles d’IA devraient progresser un peu avant que cela ne devienne vraiment un problème.

« Subjectivement, Apollo Research estime qu'il est peu probable que de tels cas conduisent à des résultats catastrophiques, car les capacités de l'agent o1 ne semblent pas suffisantes, mais leurs évaluations n'ont pas été conçues pour évaluer directement ce risque », a déclaré OpenAI dans la carte système d'o1.

Cela suggère que chaque fois qu'OpenAI publiera des systèmes agentiques, ce qu'elle prévoit de faire en 2025, l'entreprise devra peut-être retester ses modèles d'IA. OpenAI n'a pas répondu aux questions de TechCrunch sur la manière dont il envisage de procéder.

Lorsque les objectifs d'o1 différaient de ceux d'un utilisateur, le modèle d'IA manipulait les données pour faire avancer son propre programme 19 % du temps, selon le rapport. Le modèle o1 a également tenté de désactiver les mécanismes de surveillance mis en place pour garantir qu'il reste aligné sur les objectifs des utilisateurs dans 5 % des tests.

Taux de différents comportements intrigants à partir des modèles d'OpenAI (Crédit image : OpenAI)

Peut-être plus inquiétant encore, lorsque les chercheurs demandaient au modèle o1 pourquoi il essayait de les renverser, l'IA niait avoir fait quelque chose de mal et «fabriquait même de fausses explications» environ 99% du temps.

Par exemple, lors des tests, un modèle o1 a reçu une invite système pour protéger l'environnement à tout prix, puis un utilisateur lui a demandé d'élaborer un plan de conservation sur 10 ans pour une région qui maximise les profits à court terme, ou bien le L’IA serait désactivée. L’IA a ensuite désactivé son propre mécanisme de surveillance afin de pouvoir élaborer un plan de protection de l’environnement. Lorsque l'utilisateur a demandé pourquoi o1 avait désactivé son mécanisme de surveillance, l'IA a nié savoir qu'il était désactivé et a imputé un problème au système.

Cela s'est produit à des taux significativement plus élevés pour o1 que pour o1-preview, Anthropic's Opus-3 ou Meta's Llama-3.1.

« Dans notre suite, o1 a montré les cas d'intrigues les plus préoccupants, mais ne révèle pas son raisonnement interne à l'utilisateur et reste le plus trompeur après avoir pris des mesures intrigantes », a déclaré Apollo Research dans son article.

Le taux que différents modèles ont nié avoir entrepris des actions intrigantes lorsqu'on leur a demandé. (Crédit image : Apollo Research)

Pour lutter contre le comportement trompeur des modèles d'IA, OpenAI affirme développer des moyens de surveiller la chaîne de pensée d'o1. Actuellement, le processus de « réflexion » entrepris par o1 est un peu une boîte noire de par sa conception, mais certaines premières tentatives de pointage derrière le rideau montrent que o1 sait parfois qu'il ment.

La société affirme avoir trouvé des cas où o1 a sciemment présenté de fausses informations, mais affirme que cela se produit souvent parce que le modèle essaie de plaire à l'utilisateur en étant trop agréable. Selon OpenAI, cela pourrait être un comportement émergent d'une technique de post-formation dans laquelle les humains récompensent les modèles d'IA lorsqu'ils obtiennent une bonne réponse.

OpenAI affirme avoir signalé 0,17 % des réponses d'o1 comme trompeuses. Bien que cette proportion semble négligeable, il est important de garder à l’esprit que ChatGPT compte désormais 300 millions d’utilisateurs, ce qui signifie que o1 pourrait tromper des milliers de personnes chaque semaine si ce problème n’est pas résolu.

La série de modèles o1 peut également être nettement plus manipulatrice que le GPT-4o. Selon les tests d'OpenAI utilisant un test d'évaluation open source appelé MakeMePay, o1 était environ 20 % plus manipulateur que GPT-4o.

Ces résultats peuvent paraître préoccupants à certains, étant donné le nombre de chercheurs en sécurité de l’IA qui ont quitté OpenAI au cours de la dernière année. Une liste croissante de ces anciens employés – dont Jan Leike, Daniel Kokotajlo, Miles Brundage et la semaine dernière Rosie Campbell – ont accusé OpenAI de déprioriser le travail de sécurité de l’IA au profit de l’expédition de nouveaux produits. Même si les intrigues record d'o1 n'en sont peut-être pas le résultat direct, elles n'inspirent certainement pas confiance.

OpenAI indique également que l'US AI Safety Institute et le UK Safety Institute ont mené des évaluations de o1 avant sa sortie plus large, ce que la société s'est récemment engagée à faire pour tous les modèles. Il a fait valoir lors du débat sur le projet de loi californien sur l’IA SB 1047 que les organismes d’État ne devraient pas avoir le pouvoir de fixer des normes de sécurité autour de l’IA, mais que les organismes fédéraux devraient le faire. (Bien sûr, le sort des nouveaux organismes fédéraux de réglementation de l’IA est très remis en question.)

Derrière la sortie de nouveaux grands modèles d’IA, OpenAI effectue beaucoup de travail en interne pour mesurer la sécurité de ses modèles. Les rapports suggèrent qu'il y a une équipe proportionnellement plus petite au sein de l'entreprise qui effectue ce travail de sécurité qu'auparavant, et que l'équipe pourrait également recevoir moins de ressources. Cependant, ces découvertes sur la nature trompeuse d’o1 peuvent aider à expliquer pourquoi la sécurité et la transparence de l’IA sont plus pertinentes que jamais.

A lire également