Passer au contenu

Trois labos à la pointe de l’analyse vidéo

La reconnaissance des objets, de la voix ou des sous-titres est en cours d’exploration pour rendre la vidéo accessible aux moteurs de recherche.

Mitsubishi discerne les objets

Reconnaître des objets dans une vidéo, tel est l’objectif de l’équipe de Miroslaw Bober.En Angleterre, au sein du Visual Information Lab de Mitsubishi, l’ordinateur du docteur Miroslaw Bober parvient à reconnaître des objets filmés par une caméra. Son logiciel compare instantanément les éléments d’une scène à une quarantaine de sujets déjà connus, de l’animal (vache, éléphant) au véhicule (voiture, camion). “Le programme analyse en fait la proportion des couleurs pour identifier l’objet, qu’il soit immobile ou en mouvement. Les résultats sont étonnants, le taux de réussite est de 95 % ! “, assure le chercheur. Le logiciel fonctionne sur un PC à 800 MHz. Léger, il pourrait être intégré dans des caméras professionnelles. Le résultat de la description, intégré au fichier vidéo, permettrait un archivage plus rapide.

France Telecom retrouve la chanson

Henri Sanson explore la reconnaissance des mélodies chez France Telecom.Un jour, vous pourrez retrouver toutes les chansons ou les bandes-annonces de film juste en fredonnant la mélodie. Chez France Telecom, l’équipe d’Henri Sanson, responsable au laboratoire Hyperlangages et Dialogue Multimédia, a créé un logiciel capable de retrouver un extrait sifflé ou chantonné parmi 50 000 morceaux codés à partir de leur partition, et enregistrés au format musical Midi. Pour l’instant, le système fonctionne pour des lignes mélodiques simples, jouées par un seul instrument. Pour un morceau de jazz, il faudra attendre encore un peu. “D’ici à trois ans, on pourra reconnaître la mélodie d’un film comprenant deux ou trois instruments. A condition d’avoir la partition musicale. Mais personne n’arrive encore à retrouver un extrait à partir des sons originaux “, résume Henri Sanson.

Kinomai identifie le présentateur

L’ordinateur analyse le journal télévisé et identifie le présentateur ou l’invité grâce à la reconnaissance de la voix et des textes affichés à l’écran.Le journal télévisé est en passe d’être décortiqué grâce aux outils de la jeune start-up française Kinomai. Celle-ci utilise à la fois des logiciels de reconnaissance de la voix, des contours des visages ou des caractères inscrits sur l’écran pour comprendre le contenu du programme. Combinées entre elles, ces techniques sont plus efficaces pour identifier avec une fiabilité suffisante le thème d’un reportage ou l’identité d’une personnalité. “Dans un journal télévisé, le nom des invités est souvent indiqué par un sous-titre. Notre méthode consiste à établir une comparaison entre le texte de ce sous-titre et les paroles prononcées par le présentateur. De cette façon, l’ordinateur peut identifier précisément les personnes présentes sur le plateau “, explique Olivier Duizabo, PDG de Kinomai.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Didier Castelnau