Connectez Overshoot à une source vidéo, formulez une instruction en langage simple, comme “détecte les intrusions” ou “compte les véhicules”. Et obtenez des réponses en continu, au rythme de la vidéo, en moins de 200 millisecondes : ce qui est, selon ses créateurs, dix fois plus rapide que n’importe quelle plateforme d’inférence existante.
Derrière cette apparente simplicité se cache en réalité un vrai défi d’ingénierie. Si l’interprétation de l’image et de la vidéo par les IA est désormais bien maîtrisée, le faire en temps réel, en continu, et sur un flux vidéo, c’est une tout autre histoire. “La vidéo et les images sont fondamentalement différentes du texte”, nous explique Younes El Hjouji. Le texte est fait de mots, chacun porteur d’un sens distinct, que l’IA traite comme tels. La vidéo, elle, est une succession d’images (généralement 30 par seconde) souvent très similaires entre elles. Cela change radicalement la manière dont on les traite et dont on mobilise la puissance de calcul. Donner à l’IA la capacité de voir en temps réel exige une infrastructure d’un genre nouveau, différente de celle qui fait tourner les chatbots. C’est justement ce que construit Overshoot, qui compte déjà plus de 300 développeurs sur sa plateforme.
