World Labs de Fei-Fei Li accélère la course mondiale aux modèles avec Marble, son premier produit commercial

World Labs, la startup fondée par le pionnier de l'IA Fei-Fei Li, lance son premier produit commercial de modèle mondial. Marble est désormais disponible via les niveaux freemium et payants qui permettent aux utilisateurs de transformer des invites textuelles, des photos, des vidéos, des mises en page 3D ou des panoramas en environnements 3D modifiables et téléchargeables.

Le lancement du modèle mondial génératif, publié pour la première fois en version bêta limitée il y a deux mois, intervient un peu plus d'un an après que World Labs soit sorti furtivement avec un financement de 230 millions de dollars, et place la startup devant ses concurrents construisant des modèles mondiaux. Les modèles mondiaux sont des systèmes d’IA qui génèrent une représentation interne d’un environnement et peuvent être utilisés pour prédire les résultats futurs et planifier des actions.

Des startups comme Decart et Odyssey ont publié des démos gratuites, et Genie de Google est toujours en aperçu de recherche limité. Marble diffère de ceux-ci – et même du modèle en temps réel de World Labs, RTFM – car il crée des environnements 3D persistants et téléchargeables plutôt que de générer des mondes à la volée pendant que vous explorez. Selon la société, cela entraîne moins de morphing ou d'incohérence et permet aux utilisateurs d'exporter des mondes sous forme d'éclaboussures, de maillages ou de vidéos gaussiennes.

Marble est également le premier modèle de ce type à proposer des outils d'édition natifs d'IA et un éditeur 3D hybride qui permet aux utilisateurs de bloquer les structures spatiales avant que l'IA ne remplisse les détails visuels.

Crédits images :Laboratoires mondiaux

« Il s'agit d'une toute nouvelle catégorie de modèles qui génère des mondes 3D, et c'est quelque chose qui va s'améliorer avec le temps. C'est quelque chose que nous avons déjà beaucoup amélioré », a déclaré Justin Johnson, co-fondateur de World Labs, à TechCrunch.

En décembre dernier, World Labs a montré comment ses premiers modèles pouvaient générer des scènes 3D interactives basées sur une seule image. Bien qu'impressionnantes, les scènes quelque peu caricaturales n'étaient pas entièrement explorables car les mouvements étaient limités à une petite zone et il y avait des erreurs de rendu occasionnelles.

Lors de mon essai de l'aperçu bêta, j'ai découvert que Marble générait des mondes impressionnants uniquement à partir d'invites d'images, depuis des environnements de type jeu jusqu'aux versions photoréalistes de mon salon. Les scènes se sont transformées sur les bords, bien que cela ait apparemment été amélioré dans le lancement d'aujourd'hui. Cela dit, un monde que j'avais généré dans la version bêta à l'aide d'une seule invite était plus beau et correspondait mieux à mon intention que la même invite ne le fait actuellement.

Je n'ai pas encore testé les fonctionnalités d'édition, bien que Johnson affirme qu'elles rendent Marble pratique pour les projets de jeux, d'effets visuels et de réalité virtuelle (VR) à court terme.

« L'un de nos principaux thèmes pour Marble à l'avenir est le contrôle créatif », a déclaré Johnson. « Il devrait toujours y avoir un chemin rapide pour générer quelque chose, mais vous devriez être capable de plonger encore plus profondément et d'avoir beaucoup de contrôle sur les choses que vous générez. Vous ne voulez pas que la machine prenne simplement le volant et vous éloigne de toute cette créativité.  »

Pipeline d'entrée et de sortie de MarbleCrédits images :Laboratoires mondiaux

L'approche de Marble en matière de contrôle créatif commence par la flexibilité de saisie. La version bêta n'acceptait que des images uniques, obligeant le modèle à inventer des détails inédits pour une vue à 360 degrés. Avec le lancement complet, les utilisateurs peuvent désormais télécharger plusieurs images ou courts clips pour montrer un espace sous différents angles et faire en sorte que le modèle génère des jumeaux numériques assez réalistes.

Ensuite, nous avons Chisel, un éditeur 3D expérimental qui permet aux utilisateurs de bloquer les dispositions spatiales grossières (pensez aux murs, aux boîtes ou aux avions), puis d'ajouter des invites de texte pour guider le style visuel. Marble génère le monde, dissociant la structure du style – de la même manière que HTML fournit la structure d'un site Web et que CSS ajoute de la couleur. Contrairement à l'édition basée sur du texte, Chisel vous permet de manipuler directement des objets.

La fonction Chisel de Marble dissocie la structure du styleCrédits images :Laboratoires mondiaux

« Je peux simplement y aller et saisir le bloc 3D qui représente le canapé et le déplacer ailleurs », a déclaré Johnson.

Une autre nouvelle fonctionnalité qui vous donne plus de contrôle d'édition est la possibilité d'étendre un monde.

« Une fois que vous avez généré un monde, vous pouvez l'étendre jusqu'à une fois », a déclaré Johnson. « Lorsque vous vous déplacez vers une partie du monde qui commence à se désagréger, vous pouvez essentiellement demander au modèle de s'y développer ou de générer davantage de monde à proximité de l'endroit où vous vous trouvez actuellement, puis d'ajouter plus de détails dans cette région. »

Les utilisateurs qui souhaitent créer des espaces extrêmement grands peuvent combiner plusieurs mondes avec le « mode compositeur ». Johnson m'a démontré cela avec deux mondes qu'il avait déjà construits : une salle faite de fromage avec des chaises en raisin et une autre salle de réunion futuriste dans l'espace.

Le chemin vers l’intelligence spatiale

Environnement de vaisseau spatial créé en marbre avec invite de texte superposée (notez comment les lumières se reflètent de manière réaliste sur les murs du hub)Crédits images :Laboratoires mondiaux/TechCrunch

Marble est disponible via quatre niveaux d'abonnement : Gratuit (quatre générations à partir de texte, d'image ou de panorama), Standard (20 $/mois, 12 générations plus entrée multi-image/vidéo et édition avancée), Pro (35 $/mois, 25 générations avec extension de scène et droits commerciaux) et Max (95 $/mois, toutes les fonctionnalités et 75 générations).

Johnson pense que les premiers cas d'utilisation de Marble seront les jeux, les effets visuels pour les films et la réalité virtuelle.

Les développeurs de jeux ont des sentiments mitigés à propos de la technologie. Une récente enquête de la Game Developers Conference a révélé qu'un tiers des personnes interrogées pensaient que l'IA générative avait un impact négatif sur l'industrie du jeu vidéo, soit 12 % de plus que ce que l'enquête indiquait un an plus tôt. Le vol de propriété intellectuelle, la consommation d’énergie et la diminution de la qualité du contenu généré par l’IA figuraient parmi les principales préoccupations exprimées. Et l’année dernière, une enquête de Wired a révélé que des studios de jeux comme Activision Blizzard utilisaient l’IA pour réduire les coûts et lutter contre l’attrition.

Dans le domaine des jeux, Johnson voit les développeurs utiliser Marble pour générer des environnements d'arrière-plan et des espaces ambiants, puis importer ces actifs dans des moteurs de jeu comme Unity ou Unreal Engine pour ajouter des éléments interactifs, de la logique et du code.

« Il n'est pas conçu pour remplacer l'ensemble du pipeline de jeux existant, mais simplement pour vous fournir des actifs que vous pouvez ajouter à ce pipeline », a-t-il déclaré.

Pour le travail VFX, Marble évite l'incohérence et le mauvais contrôle de la caméra qui affectent les générateurs vidéo AI, selon Johnson. Ses ressources 3D permettent aux artistes de mettre en scène des scènes et de contrôler les mouvements de la caméra avec une précision parfaite, a-t-il déclaré.

Bien que Johnson ait déclaré que World Labs ne se concentrait pas sur les applications de réalité virtuelle (VR) pour le moment, il a noté que l'industrie était « affamée de contenu » et enthousiasmée par le lancement. Marble est déjà compatible avec les casques Vision Pro et Quest 3 VR, et chaque monde généré peut aujourd'hui être visualisé en VR.

Le marbre peut également avoir des cas d’utilisation potentiels pour la robotique. Johnson a noté que contrairement à la génération d'images et de vidéos, la robotique ne bénéficie pas d'un vaste référentiel de données de formation. Mais avec des générateurs comme Marble, il devient plus facile de simuler des environnements de formation.

Selon un récent manifeste de Fei-Fei Li, PDG et co-fondateur de World Labs, Marble représente la première étape vers la création d’un « modèle mondial véritablement spatialement intelligent ».

Li pense que « la prochaine génération de modèles mondiaux permettra aux machines d’atteindre une intelligence spatiale à un tout nouveau niveau ». Si de grands modèles de langage peuvent apprendre aux machines à lire et à écrire, Li espère que des systèmes comme Marble pourront leur apprendre à voir et à construire. Elle dit que la capacité de comprendre comment les choses existent et interagissent dans des espaces tridimensionnels peut éventuellement aider les machines à faire des percées au-delà du jeu et de la robotique, et même dans la science et la médecine.

« Nos rêves de machines véritablement intelligentes ne seront pas complets sans l'intelligence spatiale », a écrit Li.

rebecca.bellan@techcrunch.com ou Russell Brandom à russell.brandom@techcrunch.com. Pour une communication sécurisée, vous pouvez les contacter via Signal à @rebeccabellan.491 et Russellbrandom.49.

A lire également