Vous vous souvenez du ballon « espion » chinois de 2023 ? Sinon, voici un rappel : il y a environ un an, un ballon à haute altitude en provenance de Chine a survolé l’espace aérien américain sans être détecté. Repéré plus tard – et abattu – par l’US Air Force, le ballon s’est avéré difficile pour les civils curieux de retracer son origine – jusqu’à ce que des sociétés d’IA comme Synthetaic montrent que cela pouvait être réalisé avec des images satellite.
La saga des ballons s’est avérée être une solide opportunité de démonstration de produit pour Synthetaic, comme par hasard, attirant l’attention des investisseurs, dont l’entrepreneur de défense Booz Allen Hamilton.
Cette semaine, Synthetaic a levé 15 millions de dollars dans le cadre d’un cycle de série B codirigé par Lupa Systems et TitletownTech, une société de capital-risque formée d’un partenariat entre les Green Bay Packers et Microsoft, avec la participation d’IBM Ventures et de Booz Allen Hamilton susmentionné. Portant le total de Synthetaic à 32,5 millions de dollars, les nouveaux fonds seront consacrés à l’accélération de la commercialisation de la technologie de vision par ordinateur de l’entreprise et au quasi-doublement des effectifs de Synthetaic pour atteindre 80 employés d’ici la fin de l’année, selon le PDG Corey Jaskolski.
« La quantité de données d’image générées augmente de façon exponentielle, ce qui souligne la demande croissante de solutions d’IA avancées pour gérer et analyser cette vaste mine d’informations », a déclaré Jaskolski à TechCrunch dans une interview par courrier électronique. « Nous avons constaté que la génération d’informations à partir de ces vastes quantités de données reste un problème et une priorité importants pour de nombreux secteurs tels que la défense, la géospatiale, la sécurité vidéo ou la surveillance par drone. Les solutions d’IA de Synthetaic en matière d’apprentissage non supervisé et d’analyse de données nous positionnent stratégiquement pour naviguer dans ce paysage technologique en évolution.
Jaskolski, diplômé du MIT et ancien directeur de la technologie chez National Geographic, est du genre aventureux. il est a plongé parmi les icebergs en Antarctique, est descendu à 12 500 pieds sous la surface de l’océan pour explorer l’épave du Titanic, a dirigé un effort en hélicoptère pour dresser une carte du versant napolitain de l’Everest et s’est aventuré au plus profond des grottes inondées tout en cataloguant les victimes des sacrifices humains mayas et la période glaciaire. des squelettes d’ours.
Alors, qu’est-ce qui a poussé un globe-trotter défiant la mort comme Jaskolski à fonder Synthetaic ? C’est assez simple, dit-il : la prise de conscience que l’IA, dont il avait observé le potentiel pour aider à classer les informations mondiales, était freinée par la nécessité d’annoter manuellement les données.
« L’étiquetage humain est la norme pour la formation en IA », a déclaré Jaskolski. « À mesure que les modèles d’IA grandissent, ils fonctionnent mieux, mais ils ont besoin de plus de données pour s’entraîner car ils disposent de plus en plus de paramètres internes réglables. Pendant longtemps, la solution industrielle à ce problème consistait littéralement à demander à des millions de personnes de dessiner des cases sur des objets et de former l’IA, mais et si nous n’avions pas besoin de données humaines étiquetées ? »
Synthetaic, lancé en 2019, propose un outil — Catégorisation automatique rapide des images, ou RAIC en abrégé, conçue pour automatiser l’analyse de grands ensembles de données, à savoir les images satellite et les vidéos, ne contenant pas d’étiquettes.
De nombreux modèles d’IA sont formés en demandant à des groupes de personnes – des annotateurs – d’étiqueter les données afin qu’un modèle puisse apprendre à associer certaines annotations (c’est-à-dire des étiquettes) aux caractéristiques des données. Par exemple, un modèle qui a reçu de nombreuses photos de chats avec des annotations pour chaque race finira par « apprendre » à faire la distinction entre les bobtails et les poils courts.
L’IRAC, en revanche, utilise des données synthétiques (des données dont les étiquettes sont générées automatiquement) pour former des modèles.
Dans le cas du ballon chinois, cela a permis à la plate-forme Synthetaic de repérer le ballon en utilisant simplement un croquis de ce à quoi le ballon pourrait ressembler depuis l’espace et des images satellite récentes de la zone où le ballon a été abattu.
« L’IRAC signifie être capable de gérer des ensembles de données rares ou complexes, d’accélérer le développement de l’IA et d’améliorer la modélisation prédictive sans les contraintes de quantité ou de qualité des données. » » dit Jaskolski. « Cela positionne l’IRAC comme un atout stratégique pour stimuler l’innovation, l’efficacité opérationnelle et l’avantage concurrentiel, en particulier dans les cas d’utilisation où les données constituent un goulot d’étranglement à l’adoption et à la mise en œuvre de l’IA.
Synthetaic n’est pas la seule entreprise à explorer l’utilisation de données synthétiques dans la formation de modèles.
Synthesis AI, qui a levé 17 millions de dollars lors d’un tour de table en avril 2022, développe une plate-forme qui génère des données synthétiques pour former des systèmes d’IA de différents types. Scale AI a lancé il y a deux ans un programme qui permet aux ingénieurs en apprentissage automatique d’améliorer les ensembles de données existants du monde réel avec des échantillons synthétiques. Ailleurs, des entreprises comme Parallel Domain créent des données synthétiques pour des cas d’utilisation spécifiques comme la conduite autonome.
Gartner prédit que 60 % des données utilisées pour le développement de projets d’IA et d’analyse seront générées de manière synthétique d’ici 2024. Mais alors que l’industrie va de l’avant, certains experts craignent que les inconvénients – et les dangers potentiels – des données synthétiques soient ignorés.
Dans une étude de janvier 2020, des chercheurs de l’Arizona State University ont montré qu’un système d’IA entraîné sur un ensemble de données d’images de professeurs pouvait créer des visages très réalistes – mais des visages majoritairement blancs et masculins. Le système a amplifié les biais de l’ensemble de données d’origine, qui – sans surprise – concernait principalement des professeurs de sexe masculin et blanc.
Les clients de Synthetaic n’ont pas été effrayés par les risques, pour ce que ça vaut.
La startup affirme avoir travaillé avec l’US Air Force pour tester la détection d’objets basée sur l’IA dans les données géospatiales et avec The Nature Conservancy, l’organisation environnementale à but non lucratif, pour identifier des espèces d’oiseaux que l’on croyait auparavant éteintes. Synthetaic a également un contrat avec AFWERX, le laboratoire de recherche de l’Air Force, pour développer des technologies d’étiquetage d’objets, de modélisation d’IA et de détection d’objets dans des images capturées par satellite.
Jaskolski estime que L’IRAC a des applications dans d’innombrables autres domaines, du prototypage d’IA à la surveillance et à la modération de contenu par drone. Soulignant le travail de Synthetaic avec CNN pour analyser les images de guerre de Gaza et le partenariat avec Planet Labs pour vendre des analyses en plus des données d’imagerie de la Terre, il affirme que les activités de Synthetaic sont robustes face au ralentissement de l’industrie technologique – et aux vents contraires macroéconomiques plus larges.
« La technologie de Synthetaic offre une approche transformatrice de la formation et de la création de modèles d’IA, répondant aux besoins critiques des décideurs techniques » » dit Jaskolski. « Pour les responsables de la suite C, le RAIC de Synthetaic signifie être capable de gérer des ensembles de données rares ou complexes, d’accélérer le développement de l’IA et d’améliorer la modélisation prédictive sans les contraintes de quantité ou de qualité des données. Cela positionne l’IRAC comme un atout stratégique pour stimuler l’innovation, l’efficacité opérationnelle et l’avantage concurrentiel, en particulier dans les cas d’utilisation où les données constituent un goulot d’étranglement à l’adoption et à la mise en œuvre de l’IA.