Medal, une plate-forme de téléchargement et de partage de clips de jeux vidéo, a créé un nouveau laboratoire de recherche frontalier sur l'IA qui utilise son trésor de vidéos de jeux pour former et construire des modèles de base et des agents d'IA capables de comprendre comment les objets et les entités se déplacent dans l'espace et le temps – un concept connu sous le nom de raisonnement spatio-temporel.
Appelée General Intuition, la startup parie que l'ensemble de données de Medal – qui comprend 2 milliards de vidéos par an provenant de 10 millions d'utilisateurs actifs mensuels sur des dizaines de milliers de jeux – surpasse les alternatives comme Twitch ou YouTube pour la formation des agents.
« Lorsque vous jouez à des jeux vidéo, vous transférez essentiellement votre perception, généralement via une vue à la première personne de la caméra, vers différents environnements », a déclaré Pim de Witte, PDG de Medal and General Intuition, à TechCrunch. Il a noté que les joueurs qui téléchargent des clips ont tendance à publier des exemples très négatifs ou positifs, qui constituent des cas extrêmes très utiles pour la formation. « Vous obtenez ce biais de sélection en faveur précisément du type de données que vous souhaitez réellement utiliser pour le travail de formation. »
Ce fossé de données est ce qui aurait attiré l'attention d'OpenAI, qui, à la fin de l'année dernière, a tenté d'acquérir Medal pour 500 millions de dollars, selon The Information. (Ni OpenAI ni General Intuition ne commenteraient le rapport.)
C'est également ce qui a conduit General Intuition à lever la somme énorme de 133,7 millions de dollars en financement de démarrage, dirigé par Khosla Ventures et General Catalyst avec la participation de Raine.
La startup entend utiliser ces fonds pour développer son équipe de chercheurs et d'ingénieurs axée sur la formation d'un agent général capable d'interagir avec le monde qui l'entoure, en visant des premières applications dans les jeux et les drones de recherche et de sauvetage.
De Witte affirme que l'équipe fondatrice a déjà fait des progrès : le modèle de General Intuition peut comprendre des environnements sur lesquels il n'a pas été formé et prédire correctement les actions qui s'y déroulent. Il est capable de le faire uniquement grâce à une entrée visuelle ; les agents ne voient que ce qu'un joueur humain verrait, et ils se déplacent dans l'espace en suivant les entrées du contrôleur. Selon l’entreprise, cette approche peut s’appliquer naturellement aux systèmes physiques tels que les bras robotiques, les drones et les véhicules autonomes, qui sont souvent manipulés par des humains à l’aide de contrôleurs de jeux vidéo.
La prochaine étape de General Intuition est double : générer de nouveaux mondes simulés pour former d’autres agents et naviguer de manière autonome dans des environnements physiques totalement inconnus.
Cette approche technique façonne la manière dont l’entreprise envisage de commercialiser sa technologie et la distingue de ses concurrents qui construisent des modèles mondiaux.
Même si General Intuition construit également des modèles mondiaux sur lesquels former ses agents, ces modèles ne constituent pas un produit. Contrairement à d'autres créateurs de modèles mondiaux comme DeepMind et World Labs, qui vendent respectivement leurs modèles mondiaux Genie et Marble pour la formation des agents et la création de contenu, General Intuition se concentre sur d'autres cas d'utilisation pour éviter les problèmes de droits d'auteur.
« Notre objectif n'est pas de produire des modèles qui concurrencent les développeurs de jeux », a déclaré de Witte.
Au lieu de cela, les applications de jeu de la startup se concentrent sur la création de robots et de personnages non-joueurs qui peuvent surpasser les « robots déterministes » traditionnels ou des personnages préprogrammés qui produisent le même résultat à chaque fois.
« [The bots] peut s'adapter à n'importe quel niveau de difficulté », a déclaré à TechCrunch Moritz Baier-Lentz, membre fondateur de General Intuition et partenaire de Lightspeed Ventures. « Il n'est pas obligatoire de créer un robot divin qui bat tout le monde, mais si vous pouvez évoluer progressivement et remplir des liquidités pour n'importe quelle situation de joueur afin que son taux de victoire soit toujours autour de 50 %, cela maximisera son engagement et sa rétention.
De Witte a également une expérience dans le travail humanitaire, ce qui explique l'accent mis par la startup sur l'alimentation de drones de recherche et de sauvetage, qui doivent parfois naviguer dans des environnements inconnus et extraire des informations sans GPS.
En fin de compte, de Witte et Baier-Lentz considèrent la fonctionnalité principale de l'intuition générale – le raisonnement spatio-temporel – comme un élément crucial dans la course vers l'intelligence générale artificielle (AGI). Alors que les principaux laboratoires d'IA se concentrent sur la création de grands modèles de langage toujours plus puissants, General Intuition estime que la véritable AGI nécessite quelque chose qui manque fondamentalement aux LLM.
« En tant qu'humains, nous créons du texte pour décrire ce qui se passe dans notre monde, mais ce faisant, nous perdons beaucoup d'informations », a déclaré de Witte. « Vous perdez l'intuition générale autour du raisonnement spatio-temporel. »
