OpenAI lance un réseau de red teaming pour rendre ses modèles plus robustes

Dans le cadre de ses efforts continus pour rendre ses systèmes d’IA plus robustes, OpenAI a lancé aujourd’hui l’OpenAI Red Teaming Network, un groupe d’experts sous contrat pour aider à éclairer les stratégies d’évaluation et d’atténuation des risques du modèle d’IA de l’entreprise.

L’équipe rouge devient une étape de plus en plus clé dans le processus de développement de modèles d’IA à mesure que les technologies d’IA, en particulier les technologies génératives, entrent dans le courant dominant. L’équipe rouge peut détecter (bien que pas nécessairement corriger) les préjugés dans des modèles comme DALL-E 2 d’OpenAI, qui s’est avéré amplifier les stéréotypes autour de la race et du sexe, et les invites qui peuvent provoquer des modèles de génération de texte, y compris des modèles comme ChatGPT et GPT- 4, pour ignorer les filtres de sécurité.

OpenAI note qu’il a travaillé avec des experts externes pour comparer et tester ses modèles auparavant, y compris des personnes participant à son programme de bug bounty et à son programme d’accès aux chercheurs. Cependant, le Red Teaming Network formalise ces efforts, dans le but « d’approfondir » et « d’élargir » le travail d’OpenAI avec les scientifiques, les instituts de recherche et les organisations de la société civile, indique la société dans un article de blog.

« Nous considérons ce travail comme un complément aux pratiques de gouvernance spécifiées en externe, telles que les audits tiers », écrit OpenAI. « Les membres du réseau seront sollicités, en fonction de leur expertise, pour aider l’équipe rouge à différentes étapes du cycle de vie du développement des modèles et des produits. »

En dehors des campagnes de red teaming commandées par OpenAI, OpenAI affirme que les membres du Red Teaming Network auront l’occasion de dialoguer les uns avec les autres sur les pratiques et les conclusions générales du red teaming. Tous les membres ne seront pas impliqués dans chaque nouveau modèle ou produit OpenAI, et les contributions en temps – qui pourraient être aussi limitées que 5 à 10 ans par an – seront déterminées individuellement avec les membres, explique OpenAI.

OpenAI fait appel à un large éventail d’experts du domaine, y compris ceux ayant une formation en linguistique, biométrie, finance et soins de santé. Aucune expérience préalable avec les systèmes d’IA ou les modèles de langage n’est requise pour être éligible. Mais la société prévient que les opportunités du Red Teaming Network pourraient être soumises à des accords de non-divulgation et de confidentialité qui pourraient avoir un impact sur d’autres recherches.

« Ce que nous apprécions le plus, c’est votre volonté de vous engager et d’apporter votre point de vue sur la façon dont nous évaluons les impacts des systèmes d’IA », écrit OpenAI. «Nous invitons les candidatures d’experts du monde entier et accordons la priorité à la diversité géographique ainsi qu’à la diversité des domaines dans notre processus de sélection.»

La question est : l’équipe rouge est-elle suffisante ? Certains prétendent que ce n’est pas le cas.

Dans un article récent, Aviv Ovadya, collaborateur de Wired et affilié au Berkman Klein Center de Harvard et au Center for the Governance of AI, plaide en faveur d’une « équipe violette » : identifier comment un système (par exemple GPT-4) pourrait nuire à une institution ou à une institution. le bien public puis soutenir le développement d’outils utilisant ce même système pour défendre l’institution et le bien public. Je suis enclin à admettre que c’est une bonne idée. Mais, comme le souligne Ovadya dans sa chronique, il existe peu d’incitations à faire du violet teaming, et encore moins à ralentir suffisamment les versions d’IA pour avoir suffisamment de temps pour que cela fonctionne.

Les réseaux d’équipe rouge comme celui d’OpenAI semblent être les meilleurs que nous obtiendrons – du moins pour le moment.

A lire également