Tout ce que vous savez sur la vision par ordinateur pourrait bientôt être faux

Ubicept veut que la moitié des caméras du monde voient les choses différemment

La vision par ordinateur pourrait être beaucoup plus rapide et meilleur si nous ignorons le concept d’images fixes et analysons directement le flux de données d’une caméra. C’est du moins la théorie sous laquelle fonctionne la toute nouvelle idée originale du laboratoire MIT Media, Ubicept.

La plupart des applications de vision par ordinateur fonctionnent de la même manière : une caméra prend une image (ou une série rapide d’images, dans le cas de la vidéo). Ces images fixes sont transmises à un ordinateur, qui effectue ensuite l’analyse pour déterminer ce qu’il y a dans l’image. Cela semble assez simple.

Mais il y a un problème : ce paradigme suppose que la création d’images fixes est une bonne idée. En tant qu’humains habitués à voir de la photographie et de la vidéo, cela peut sembler raisonnable. Les ordinateurs s’en moquent, cependant, et Ubicept pense qu’il peut rendre la vision par ordinateur bien meilleure et plus fiable en ignorant l’idée des cadres.

L’entreprise elle-même est une collaboration entre ses co-fondateurs. Sebastian Bauer est PDG de l’entreprise et postdoctorant à l’Université du Wisconsin, où il travaillait sur les systèmes lidar. Tristan Swedish est désormais CTO d’Ubicept. Avant cela, il était assistant de recherche et titulaire d’une maîtrise et d’un doctorat. étudiant au MIT Media Lab pendant huit ans.

« Il y a 45 milliards de caméras dans le monde, et la plupart d’entre elles créent des images et des vidéos qui ne sont pas vraiment regardées par un humain », a expliqué Bauer. « Ces caméras sont principalement destinées à la perception, pour que les systèmes prennent des décisions en fonction de cette perception. Pensez à la conduite autonome, par exemple, comme un système où il s’agit de reconnaissance des piétons. Il y a toutes ces études qui sortent qui montrent que la détection des piétons fonctionne très bien en plein jour mais particulièrement mal en basse lumière. D’autres exemples sont les caméras pour le tri industriel, l’inspection et l’assurance qualité. Toutes ces caméras sont utilisées pour la prise de décision automatisée. Dans des pièces suffisamment éclairées ou à la lumière du jour, elles fonctionnent bien. Mais dans des conditions de faible luminosité, en particulier en cas de mouvement rapide, des problèmes surgissent.

La solution de l’entreprise consiste à contourner le « image fixe » comme source de vérité pour la vision par ordinateur et à mesurer à la place les photons individuels qui frappent directement un capteur d’imagerie. Cela peut être fait avec un réseau de diodes à avalanche à photon unique (ou un réseau SPAD, entre amis). Ce flux brut de données peut ensuite être introduit dans un réseau de portes programmables sur le terrain (FPGA, un type de processeur super spécialisé) et analysé plus en détail par des algorithmes de vision par ordinateur.

La société nouvellement fondée a présenté sa technologie au CES de Las Vegas en janvier et a des projets assez audacieux pour l’avenir de la vision par ordinateur.

« Notre vision est d’avoir la technologie sur au moins 10 % des caméras au cours des cinq prochaines années et sur au moins 50 % des caméras au cours des 10 prochaines années », a projeté Bauer. « Lorsque vous détectez chaque photon individuel avec une résolution temporelle très élevée, vous faites du mieux que la nature vous permet de faire. Et vous voyez les avantages, comme les vidéos de haute qualité sur notre page Web, qui font simplement exploser tout le reste.

TechCrunch a vu la technologie en action lors d’une récente démonstration à Boston et a voulu explorer comment la technologie fonctionne et quelles sont les implications pour la vision par ordinateur et les applications d’IA.

Une nouvelle forme de vision

Les appareils photo numériques fonctionnent généralement en saisissant une exposition d’une seule image en « comptant » le nombre de photons qui frappent chacun des pixels du capteur sur une certaine période de temps. À la fin de la période de temps, tous ces photons sont multipliés ensemble, et vous avez une photographie fixe. Si rien dans l’image ne bouge, cela fonctionne très bien, mais la chose « si rien ne bouge » est une mise en garde assez importante, surtout en ce qui concerne la vision par ordinateur. Il s’avère que lorsque vous essayez d’utiliser des caméras pour prendre des décisions, tout bouge tout le temps.

Bien sûr, avec les données brutes, la société est toujours en mesure de combiner le flux de photons dans des images, ce qui crée une vidéo magnifiquement nette sans flou de mouvement. Peut-être plus excitant, se passer de l’idée de cadres signifie que l’équipe d’Ubicept a pu prendre les données brutes et les analyser directement. Voici un exemple de vidéo de la différence spectaculaire que cela peut faire dans la pratique :

A lire également