Anthropic affirme que ses nouveaux modèles battent GPT-4

La startup d'IA Anthropic, soutenue par des centaines de millions de dollars en capital-risque (et peut-être bientôt des centaines de millions d'autres), a annoncé aujourd'hui la dernière version de sa technologie GenAI, Claude. Et la société affirme qu'elle rivalise avec le GPT-4 d'OpenAI en termes de performances.

Claude 3, comme on appelle le nouveau GenAI d'Anthropic, est une famille de modèles : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, Opus étant le plus puissant. Tous affichent des « capacités accrues » en matière d'analyse et de prévision, affirme Anthropic, ainsi que des performances améliorées sur des benchmarks spécifiques par rapport à des modèles comme GPT-4 (mais pas GPT-4 Turbo) et Gemini 1.0 Ultra de Google (mais pas Gemini 1.5 Pro).

Notamment, Claude 3 est le premier GenAI multimodal d'Anthropic, ce qui signifie qu'il peut analyser du texte ainsi que des images – similaire à certaines versions de GPT-4 et Gemini. Claude 3 peut traiter des photos, des tableaux, des graphiques et des schémas techniques, en dessinant à partir de PDF, de diaporamas et d'autres types de documents.

Mieux que certains concurrents de GenAI, Claude 3 peut analyser plusieurs images en une seule requête (jusqu'à un maximum de 20). Cela lui permet de comparer et de contraster les images, note Anthropic.

Mais il y a des limites au traitement d'image de Claude 3.

Anthropic a empêché les modèles d'identifier les personnes – sans doute en se méfiant des implications éthiques et juridiques. Et l'entreprise admet que Claude 3 est enclin à commettre des erreurs avec des images de « mauvaise qualité » (moins de 200 pixels) et a du mal à accomplir des tâches impliquant un raisonnement spatial (par exemple, lire un cadran d'horloge analogique) et un comptage d'objets (Claude 3 ne peut pas donner de données exactes). nombre d'objets dans les images).

Claude 3 ne le fera pas non plus générer ouvrages d'art. Les modèles analysent strictement les images – du moins pour le moment.

Qu'il s'agisse de texte ou d'images, Anthropic affirme que les clients peuvent généralement s'attendre à ce que Claude 3 suive mieux les instructions en plusieurs étapes, produise une sortie structurée dans des formats comme JSON et converse dans des langues autres que l'anglais par rapport à ses prédécesseurs. Claude 3 devrait également refuser moins souvent de répondre aux questions grâce à une « compréhension plus nuancée des demandes », estime Anthropic. Et bientôt, les modèles citeront la source de leurs réponses aux questions afin que les utilisateurs puissent les vérifier.

« Claude 3 a tendance à générer des réponses plus expressives et engageantes », écrit Anthropic dans un article de support. « [It’s] plus facile à guider et à diriger par rapport à nos anciens modèles. Les utilisateurs devraient constater qu’ils peuvent obtenir les résultats souhaités avec des invites plus courtes et plus concises.

Certaines de ces améliorations proviennent du contexte élargi de Claude 3.

Le contexte d'un modèle, ou fenêtre contextuelle, fait référence aux données d'entrée (par exemple, le texte) que le modèle prend en compte avant de générer la sortie. Les modèles dotés de petites fenêtres contextuelles ont tendance à « oublier » le contenu des conversations, même très récentes, ce qui les amène à s’éloigner du sujet – souvent de manière problématique. Autre avantage supplémentaire, les modèles à large contexte peuvent mieux saisir le flux narratif de données qu’ils intègrent et générer des réponses plus riches contextuellement (du moins hypothétiquement).

Anthropic indique que Claude 3 prendra initialement en charge une fenêtre contextuelle de 200 000 jetons, soit l'équivalent d'environ 150 000 mots, avec des clients sélectionnés bénéficiant d'une fenêtre contextuelle d'un million de jetons (~ 700 000 mots). Cela est comparable au dernier modèle GenAI de Google, le Gemini 1.5 Pro mentionné ci-dessus, qui offre également une fenêtre contextuelle pouvant atteindre un million de jetons.

Maintenant, ce n’est pas parce que Claude 3 est une mise à niveau par rapport à ce qui l’a précédé qu’il est parfait.

Dans un livre blanc technique, Anthropic admet que Claude 3 n'est pas à l'abri des problèmes qui affligent d'autres modèles GenAI, à savoir les biais et les hallucinations (c'est-à-dire l'invention de trucs). Contrairement à certains modèles GenAI, Claude 3 ne peut pas effectuer de recherche sur le Web ; les modèles ne peuvent répondre aux questions qu'en utilisant des données datant d'avant août 2023. Et bien que Claude soit multilingue, il ne parle pas aussi couramment certaines langues « à faibles ressources » que l'anglais.

Mais Anthropic promet des mises à jour fréquentes de Claude 3 dans les mois à venir.

« Nous ne pensons pas que l'intelligence des modèles soit proche de ses limites, et nous prévoyons de publier [enhancements] à la famille modèle Claude 3 au cours des prochains mois », écrit la société dans un article de blog.

Opus et Sonnet sont désormais disponibles sur le Web et via la console de développement et l'API d'Anthropic, la plateforme Bedrock d'Amazon et Vertex AI de Google. Le haïku suivra plus tard cette année.

Voici la répartition des prix :

Opus : 15 $ par million de jetons d'entrée, 75 $ par million de jetons de sortie
Sonnet : 3 $ par million de jetons d'entrée, 15 $ par million de jetons de sortie
Haïku : 0,25 $ par million de jetons d'entrée, 1,25 $ par million de jetons de sortie

Voilà donc Claude 3. Mais quelle est la vue à 30 000 pieds de tout cela ?

Eh bien, comme nous l'avons signalé Auparavant, l'ambition d'Anthropic était de créer un algorithme de nouvelle génération pour « l'auto-apprentissage de l'IA ». Un tel algorithme pourrait être utilisé pour créer des assistants virtuels capables de répondre à des e-mails, d'effectuer des recherches et de générer des œuvres d'art, des livres et bien plus encore – dont nous avons déjà eu un avant-goût avec des sociétés comme GPT-4 et d'autres grands modèles de langage.

Anthropic y fait allusion dans le billet de blog susmentionné, affirmant qu'il prévoit d'ajouter des fonctionnalités à Claude 3 qui améliorent ses capacités immédiates en permettant à Claude d'interagir avec d'autres systèmes, de coder « de manière interactive » et de fournir des « capacités agentiques avancées ». .»

Ce dernier élément rappelle les ambitions déclarées d'OpenAI de créer un agent logiciel pour automatiser des tâches complexes, comme transférer des données d'un document vers une feuille de calcul ou remplir automatiquement des notes de frais et les saisir dans un logiciel de comptabilité. OpenAI propose déjà une API qui permet aux développeurs de créer des « expériences de type agent » dans leurs applications, et Anthropic, semble-t-il, a l'intention de fournir des fonctionnalités comparables.

Pourrions-nous ensuite voir un générateur d’images d’Anthropic ? Franchement, ça me surprendrait. Les générateurs d’images font aujourd’hui l’objet de nombreuses controverses, principalement pour des raisons liées au droit d’auteur et aux préjugés. Google a récemment été contraint de désactiver son générateur d'images après avoir injecté de la diversité dans les images avec un mépris ridicule du contexte historique. Et un certain nombre de vendeurs de générateurs d'images sont engagés dans des batailles juridiques avec des artistes qui les accusent de profiter de leur travail en formant GenAI sur ce travail sans leur fournir de compensation ni même de crédit.

Je suis curieux de voir l'évolution de la technique d'Anthropic pour former GenAI, « IA constitutionnelle », qui, selon la société, rend le comportement de sa GenAI plus facile à comprendre, plus prévisible et plus simple à ajuster selon les besoins. L’IA constitutionnelle vise à fournir un moyen d’aligner l’IA sur les intentions humaines, en permettant aux modèles de répondre aux questions et d’effectuer des tâches en utilisant un ensemble simple de principes directeurs. Par exemple, pour Claude 3, Anthropic a déclaré avoir ajouté un principe – éclairé par des commentaires participatifs – qui demande aux modèles d'être compréhensifs et accessibles aux personnes handicapées.

Quelle que soit la fin de partie d’Anthropic, elle est là pour le long terme. Selon un pitch deck divulgué en mai de l'année dernière, la société vise à lever jusqu'à 5 milliards de dollars au cours des 12 prochains mois environ, ce qui pourrait bien être la base de référence dont elle a besoin pour rester compétitive avec OpenAI. (Les modèles de formation ne sont pas bon marché, après tout.) Le projet est en bonne voie, avec 2 milliards et 4 milliards de dollars de capital engagé et de promesses de Google et d'Amazon, respectivement, et bien plus d'un milliard combinés d'autres bailleurs de fonds.