Cogito profond

Une nouvelle entreprise, Deep Cogito, est sortie de la furtivité avec une famille de modèles d'IA disponibles ouvertement qui peuvent être commutés entre les modes de «raisonnement» et de non-saison.

Des modèles de raisonnement comme O1 d'Openai ont montré une grande promesse dans des domaines comme les mathématiques et la physique, grâce à leur capacité à se vérifier efficacement en travaillant sur des problèmes complexes étape par étape. Ce raisonnement a cependant un coût: un calcul et une latence plus élevés. C'est pourquoi des laboratoires comme Anthropic recherchent des architectures de modèle «hybrides» qui combinent des composants de raisonnement avec des éléments standard et non renvoyants. Les modèles hybrides peuvent rapidement répondre à des questions simples tout en passant du temps supplémentaire compte tenu des requêtes plus difficiles.

Tous les modèles Deep Cogito, appelés Cogito 1, sont des modèles hybrides. Cogito affirme qu'ils surpassent les meilleurs modèles ouverts de la même taille, y compris les modèles de Meta et Chinese IA Startup Deepseek.

«Chaque modèle peut répondre directement […] ou se réflexion sur l'auto-réflexion avant de répondre (comme les modèles de raisonnement) », a expliqué la société dans un article de blog. »[All] ont été développés par une petite équipe en environ 75 jours. »

Les modèles Cogito 1 varient de 3 milliards de paramètres à 70 milliards de paramètres, et Cogito dit que des modèles allant jusqu'à 671 milliards de paramètres les rejoindront dans les semaines et les mois à venir. Les paramètres correspondent à peu près aux compétences de résolution de problèmes d'un modèle, avec plus de paramètres étant généralement meilleurs.

Cogito 1 n'a pas été développé à partir de zéro, pour être clair. Deep Cogito s'est construit sur les modèles QWEN d'Open Llama de Meta et Alibaba pour créer les siens. La société affirme qu'elle a appliqué de nouvelles approches de formation pour stimuler les performances des modèles de base et permettre un raisonnement dépensable.

Selon les résultats de la référence interne de Cogito, le plus grand modèle Cogito 1, Cogito 70b, avec le raisonnement surpasse le modèle de raisonnement R1 de Deepseek sur quelques mathématiques et évaluations du langage. Cogito 70B avec raisonnement désactivé éclipse également le modèle LLAMA 4 Scout récemment publié de META sur LiveBench, un test d'IA à usage général.

Chaque modèle Cogito 1 est disponible pour télécharger ou utiliser via des API sur les feux d'artifice des fournisseurs de cloud AI et ensemble AI.

Les performances de Cogito 1 par rapport aux autres modèles d'IA populaires disponibles populairesCrédits d'image:Cogito profond

«Actuellement, nous sommes encore aux premiers stades de [our] Courbe de mise à l'échelle, n'ayant utilisé qu'une fraction de calcul généralement réservée au modèle traditionnel de modèle de grande langue / formation continue « , a écrit Cogito dans son article de blog. » Pour aller de l'avant, nous étudions les approches complémentaires post-formation pour l'auto-amélioration. « 

Selon les documents déposés auprès de California State, Deep Cogito, basé à San Francisco, a été fondé en juin 2024. La page LinkedIn de la société répertorie deux cofondateurs, Drishan Arora et Dhruv Malhotra. Malhotra était auparavant chef de produit chez Google AI Lab Deepmind, où il a travaillé sur la technologie de recherche générative. Arora était ingénieur logiciel principal chez Google.

Deep Cogito, dont les bailleurs de fonds incluent South Park Commons, selon PitchBook, vise ambitieusement à construire une «superintelligence générale». Les fondateurs de l'entreprise comprennent l'expression signifiant l'IA qui peut effectuer des tâches mieux que la plupart des humains et «découvrir des capacités entièrement nouvelles que nous n'avons pas encore imaginées».

A lire également