L'o3 d'OpenAI suggère que les modèles d'IA évoluent de nouvelles manières, mais les coûts aussi

Le mois dernier, les fondateurs et investisseurs de l'IA ont déclaré à TechCrunch que nous étions désormais dans la « deuxième ère des lois de mise à l'échelle », notant à quel point les méthodes établies pour améliorer les modèles d'IA montraient des rendements décroissants. Une nouvelle méthode prometteuse qui, selon eux, pourrait conserver les gains est la « mise à l'échelle du temps de test », qui semble être à l'origine des performances du modèle o3 d'OpenAI, mais elle présente ses propres inconvénients.

Une grande partie du monde de l'IA a pris l'annonce du modèle o3 d'OpenAI comme une preuve que les progrès de la mise à l'échelle de l'IA n'ont pas « heurté un mur ». Le modèle o3 obtient de bons résultats aux tests de référence, surpassant largement tous les autres modèles à un test d'aptitude générale appelé ARC-AGI, et obtenant 25 % à un test de mathématiques difficile pour lequel aucun autre modèle d'IA n'a obtenu plus de 2 %.

Bien sûr, chez TechCrunch, nous prenons tout cela avec des pincettes jusqu'à ce que nous puissions tester o3 par nous-mêmes (très peu de personnes l'ont essayé jusqu'à présent). Mais avant même la sortie d'o3, le monde de l'IA est déjà convaincu que quelque chose d'important a changé.

Le co-créateur de la série de modèles o d'OpenAI, Noam Brown, a noté vendredi que la startup annonçait les gains impressionnants d'o3 trois mois seulement après l'annonce de o1 par la startup – un délai relativement court pour un tel saut de performances.

« Nous avons toutes les raisons de croire que cette trajectoire va se poursuivre », a déclaré Brown dans un tweet.

Le co-fondateur d'Anthropic, Jack Clark, a déclaré lundi dans un article de blog qu'o3 est la preuve que l'IA « les progrès seront plus rapides en 2025 qu'en 2024 ». (Gardez à l’esprit que cela profite à Anthropic – en particulier sa capacité à lever des capitaux – de suggérer que les lois sur la mise à l’échelle de l’IA se poursuivent, même si Clark complète un concurrent.)

L'année prochaine, Clark affirme que le monde de l'IA combinera la mise à l'échelle du temps de test et les méthodes traditionnelles de mise à l'échelle avant la formation pour obtenir encore plus de retours sur les modèles d'IA. Peut-être suggère-t-il qu'Anthropic et d'autres fournisseurs de modèles d'IA publieront leurs propres modèles de raisonnement en 2025, tout comme Google l'a fait la semaine dernière.

La mise à l'échelle du temps de test signifie qu'OpenAI utilise davantage de calcul pendant la phase d'inférence de ChatGPT, la période de temps après que vous ayez appuyé sur Entrée à une invite. On ne sait pas exactement ce qui se passe dans les coulisses : OpenAI utilise soit davantage de puces informatiques pour répondre à la question d'un utilisateur, soit exécute des puces d'inférence plus puissantes, soit exécute ces puces pendant des périodes plus longues – 10 à 15 minutes dans certains cas – avant le lancement. L'IA produit une réponse. Nous ne connaissons pas tous les détails de la création d'o3, mais ces tests sont les premiers signes que la mise à l'échelle du temps de test pourrait contribuer à améliorer les performances des modèles d'IA.

Même si o3 peut donner à certains une confiance renouvelée dans les progrès des lois de mise à l'échelle de l'IA, le dernier modèle d'OpenAI utilise également un niveau de calcul inédit, ce qui signifie un prix par réponse plus élevé.

« La seule mise en garde importante ici est peut-être de comprendre que l'une des raisons pour lesquelles O3 est tellement meilleur est que son exécution coûte plus cher au moment de l'inférence – la possibilité d'utiliser des moyens de calcul au moment du test pour certains problèmes, vous pouvez transformer le calcul en une meilleure réponse. », écrit Clark sur son blog. « C'est intéressant car cela a rendu les coûts de fonctionnement des systèmes d'IA un peu moins prévisibles. Auparavant, vous pouviez déterminer combien il en coûtait pour servir un modèle génératif en examinant simplement le modèle et le coût de génération d'un résultat donné. »

Clark et d'autres ont souligné les performances d'o3 sur le benchmark ARC-AGI – un test difficile utilisé pour évaluer les avancées en matière d'AGI – comme indicateur de ses progrès. Il convient de noter que réussir ce test, selon ses créateurs, ne signifie pas un modèle d'IA a atteint AGI, mais c'est plutôt un moyen de mesurer les progrès vers cet objectif nébuleux. Cela dit, le modèle o3 a dépassé les scores de tous les modèles d'IA précédents qui avaient effectué le test, obtenant un score de 88 % dans l'une de ses tentatives. Le deuxième meilleur modèle d'IA d'OpenAI, o1, n'a obtenu que 32 %.

Graphique montrant les performances de la série o d'OpenAI au test ARC-AGI.Crédits images :Prix ​​ARC

Mais l’axe des x logarithmique sur ce graphique peut être alarmant pour certains. La version la plus performante d'o3 utilisait plus de 1 000 $ de calcul pour chaque tâche. Les modèles o1 utilisaient environ 5 $ de calcul par tâche, et o1-mini n'utilisait que quelques centimes.

Le créateur du benchmark ARC-AGI, François Chollet, écrit dans un blog qu'OpenAI a utilisé environ 170 fois plus de calcul pour générer ce score de 88 %, par rapport à la version à haute efficacité d'o3 qui a obtenu un score inférieur de 12 % seulement. La version la plus performante d'o3 a utilisé plus de 10 000 $ de ressources pour terminer le test, ce qui rend trop coûteux la compétition pour le prix ARC – une compétition invaincue pour que les modèles d'IA réussissent le test ARC.

Cependant, Chollet affirme que o3 reste néanmoins une percée pour les modèles d’IA.

« o3 est un système capable de s'adapter à des tâches qu'il n'a jamais rencontrées auparavant, se rapprochant sans doute des performances au niveau humain dans le domaine ARC-AGI », a déclaré Chollet sur le blog. « Bien sûr, une telle généralité a un coût élevé, et ne serait pas encore tout à fait économique : vous pourriez payer un humain pour résoudre des tâches ARC-AGI pour environ 5 $ par tâche (nous le savons, nous l'avons fait), tout en ne consommant que quelques centimes. en énergie. »

Il est prématuré de s'attarder sur le prix exact de tout cela : nous avons vu les prix des modèles d'IA chuter l'année dernière, et OpenAI n'a pas encore annoncé combien coûtera réellement l'o3. Cependant, ces prix indiquent la quantité de calcul nécessaire pour briser, même légèrement, les barrières de performances fixées par les principaux modèles d'IA actuels.

Cela soulève quelques questions. A quoi sert réellement o3 ? Et combien de calculs supplémentaires sont nécessaires pour réaliser davantage de gains en matière d'inférence avec o4, o5 ou quel que soit le nom qu'OpenAI donne à ses prochains modèles de raisonnement ?

Il ne semble pas que o3, ou ses successeurs, soient le « pilote quotidien » de qui que ce soit, comme pourraient l'être GPT-4o ou Google Search. Ces modèles utilisent tout simplement trop de calcul pour répondre à de petites questions tout au long de votre journée, telles que « Comment les Browns de Cleveland peuvent-ils encore participer aux séries éliminatoires de 2024 ? »

Au lieu de cela, il semble que les modèles d'IA avec un calcul échelonné du temps de test ne soient utiles que pour des questions d'ensemble telles que : « Comment les Browns de Cleveland peuvent-ils devenir une franchise du Super Bowl en 2027 ? Même dans ce cas, cela ne vaut peut-être que les coûts de calcul élevés si vous êtes le directeur général des Cleveland Browns et que vous utilisez ces outils pour prendre des décisions importantes.

Les institutions aux poches profondes sont peut-être les seules à pouvoir se permettre d’o3, du moins pour commencer, comme le note Ethan Mollick, professeur à Wharton, dans un tweet.

Nous avons déjà vu OpenAI lancer un niveau de 200 $ pour utiliser une version de calcul élevée de o1, mais la startup aurait envisagé de créer des plans d'abonnement coûtant jusqu'à 2 000 $. Lorsque vous voyez la quantité de calcul utilisée par o3, vous pouvez comprendre pourquoi OpenAI l'envisagerait.

Mais l’utilisation d’o3 pour des travaux à fort impact présente des inconvénients. Comme le note Chollet, o3 n'est pas AGI, et il échoue toujours dans certaines tâches très simples qu'un humain effectuerait assez facilement.

Cela n'est pas nécessairement surprenant, car les grands modèles de langage ont toujours un énorme problème d'hallucination, que o3 et le calcul au moment du test ne semblent pas avoir résolu. C'est pourquoi ChatGPT et Gemini incluent des clauses de non-responsabilité sous chaque réponse qu'ils produisent, demandant aux utilisateurs de ne pas se fier aux réponses à leur valeur nominale. Vraisemblablement, AGI, si jamais elle était atteinte, n'aurait pas besoin d'une telle clause de non-responsabilité.

Une façon de débloquer davantage de gains dans la mise à l’échelle du temps de test pourrait être de meilleures puces d’inférence d’IA. Les startups qui s'attaquent à ce problème ne manquent pas, comme Groq ou Cerebras, tandis que d'autres startups conçoivent des puces d'IA plus rentables, comme MatX. Anjney Midha, associé général d'Andreessen Horowitz, a précédemment déclaré à TechCrunch qu'il s'attend à ce que ces startups jouent un rôle plus important dans la mise à l'échelle du temps de test à l'avenir.

Bien que o3 constitue une amélioration notable des performances des modèles d’IA, il soulève plusieurs nouvelles questions concernant l’utilisation et les coûts. Cela dit, les performances d'o3 ajoutent du crédit à l'affirmation selon laquelle le calcul au moment du test est le prochain meilleur moyen de l'industrie technologique pour faire évoluer les modèles d'IA.

TechCrunch propose une newsletter axée sur l'IA ! Inscrivez-vous ici pour le recevoir dans votre boîte de réception tous les mercredis.

A lire également