S'abonner :  Newsletters    Magazines
[ TECHNOLOGIE ]
Comment ça marche : le MPeg4
Le MPeg4 est-il le standard multimédia de demain ? Interactivité, compression vidéo innovante : sur le papier, le potentiel est là. Mais il est aujourd'hui sous-exploité...

MdS , L'Ordinateur Individuel, le 10/11/2004 à 07h00

Platines DivX, télévision haute définition, TNT : il ne se passe pas un jour sans que l'on parle de MPeg4. Pourtant, dans tous ces cas, le terme est impropre. Au mieux, ces technologies sont des dérivés, des ersatz basés sur le MPeg4. Car ce standard multimédia ne saurait être réduit à de la simple compression vidéo. En apportant, notamment, de l'interactivité, il ouvre une ère nouvelle dans le codage de l'image animée.

La vidéo sous pression

Depuis sa naissance, la vidéo numérique souffre d'un problème de poids. En mode Pal (le standard européen), une seconde de vidéo est composée de 24 images de 768 x 576 pixels, ce qui représente un peu plus de 20 Mo... sans le son ! Difficile, dans ces conditions, d'imaginer stocker ou faire circuler de la vidéo « brute de décoffrage » : pour la diffuser, il faudrait disposer de « tuyaux » capables de soutenir un débit d'au moins 20 Mo/s, soit plus de 160 Mbit/s ! Du coup, il est indispensable de compresser le signal, en limitant les pertes d'informations inhérentes à ce genre d'opération.

C'est ce à quoi travaille un groupe de scientifiques : le Motion Picture Expert Group (MPEG). Sa mission : définir les standards de la vidéo numérique. En 1993, cette communauté s'est donc penchée sur l'élaboration d'un nouveau standard, dédié plus spécifiquement au bas débit : le MPeg4. Il s'agissait, au début, de permettre la diffusion de vidéos sur les écrans de téléphones portables. Mais très vite, les recherches ont pris un tour nouveau.

Le MPeg a, en effet, modifié la manière de penser la compression vidéo. Là où le MPeg1 et 2 se contentent d'encoder des pixels, sans s'occuper de ce qu'ils représentent, le MPeg4 s'intéresse au contenu, et introduit la notion d'objets. Chaque image de la vidéo est ainsi décomposée : un personnage, une voiture, un fond fixe, une voix, une musique... On parle d'objets médias, regroupés en grandes familles (les objets vidéos, les objets sons, etc.). Chacun peut bénéficier d'un traitement spécifique adapté à sa nature (voir encadré).

Un tel système permet un gain de place évident : imaginons une speakerine sur un fond fixe. Codé une fois, le fond n'a plus besoin, ensuite, d'être traité. Pour décrire ces objets, le MPeg4 a un langage : le Bifs (Format binaire pour les scènes), qui détaille leur taille, leur forme, etc., ainsi que leurs mouvements. Mais le Bifs permet aussi de définir le comportement des objets en fonction de l'utilisateur ; en clair, d'introduire de l'interactivité dans la vidéo. Un clic sur un sportif à l'écran (défini comme l'objet vidéo sportif), et on obtient toutes ses statistiques.

Sur les bases du MPeg2

Si la compression orientée objets est l'une des révolutions apportées par le MPeg4, ce n'est pas la seule. Images animées, son, images fixes : tous connaissent aussi leur lot d'innovations. Mais c'est la compression vidéo qui intéresse le plus les professionnels de l'image. Les prouesses du MPeg4 en la matière sont telles que, partis pour de la vidéo sur GSM, les chercheurs ont accouché d'un format adapté aux larges écrans (avec une définition pouvant atteindre 4 096 x 4 096 pixels) et aux touts petits.

Deux types de compressions sont principalement appliqués : une compression intra-image (pour chaque image) et une compression dite temporelle. Le MPeg4 partage, en cela, un large héritage avec le MPeg2. La compression intra-image repose principalement sur ce que l'on appelle la transformation en cosinus discrète (DCT), une fonction mathématique permettant de transformer une image en fréquences. Les informations superflues se trouvant concentrées dans les hautes fréquences, il est très facile alors de les éliminer.

Pour que la DCT soit efficace, il faut, auparavant, découper chaque image en une mosaïque de petits blocs, de 8 x 8 ou 16 x 16 pixels : les macroblocs. Plus la surface de travail est faible, plus le traitement est pertinent. La compression temporelle fonctionne différemment : en vidéo, deux images qui se suivent se ressemblent ; bien peu de macroblocs diffèrent d'une image à l'autre.

Rien ne sert de tous les coder dans leur intégralité. On définit donc des images complètes, appelées images I (images clés ou keyframes), qui contiennent tous les macroblocs. Entre, on intercale des images P (prédictives) et B (bidirectionnelles), qui ne contiennent que ce qui a changé. Cette séquence d'images IPB forme un Gop (Group of Pictures).

Plus les images clés sont espacées, plus le Gop est grand et plus la qualité de l'image diminue. Mais le MPeg4 peut se permettre un Gop important (il est virtuellement illimité avec ce standard), grâce à de nouveaux algorithmes qui évitent les erreurs dans les images incomplètes P et B.

Pillage organisé

En bouleversant la manière de penser la compression vidéo, le MPeg4 ouvre un nouveau champ de possibilités. Toutefois, bien peu, aujourd'hui, semblent prêts à suivre cette voie. Apple, Real ou Microsoft (membres du MPEG) ont ainsi développé des formats de compression et de décompression vidéo basés sur le MPeg4. Mais ils ont délaissé l'orientation objets. Seule la compression vidéo pure semble intéresser les industriels, qui s'en sont inspirés pour créer le DivX ou le H264. On a gagné en qualité. La révolution, elle, attendra...

Glossaire

MPeg

Groupe d'experts internationaux chargés de définir les standards de la vidéo numérique. De leur réflexion sont nés : en 1988, le MPeg1 (VideoCD) ; en 1992, le MPeg2 (DVD-vidéo, télévision satellite, câble numérique ; en 1998, le MPeg4.

Bifs ( Binary Format for Scenes)

Format binaire pour les scènes. Langage permettant de décrire la composition d'une scène codée en MPeg4. Hérité du VRML, le standard actuel de description des mondes 3D sur le Web, il décrit les objets et leur comportement spatial, temporel et interactif.


Les différents cas de figure
Les éléments de la vidéo sont séparés en objets

La séquence vidéo (non compressée) représente un monstre sur un fond fixe s'agitant en musique. Ces trois éléments (monstre animé, fond fixe, musique) sont séparés par l'encodeur MPeg4, pour devenir des objets médias.

Une des plus grandes erreurs est de penser que l'encodeur peut retrouver les objets comme par magie ; séparant de lui-même, le fond du monstre. Un tel algorithme n'existe pas encore, sauf dans le cas de quelques encodeurs temps réel réservés aux événements sportifs. Ce que l'on sait seulement faire, aujourd'hui, c'est fournir séparément les objets à l'encodeur.

Les objets sont regroupés

Les trois objets sont réunis. L'encodeur leur adjoint un fichier texte, écrit en langage Bifs . Y sont décrits, notamment, les objets, ainsi que leur comportement dans le temps et dans l'espace. Indispensable pour que le décodeur s'y retrouve. Ces quatre éléments sont ensuite encapsulés dans un même fichier, dont l'extension est MP4.

L'objet musique est travaillé

Pour l'objet musique aussi, l'encodeur a un traitement spécifique. Il dispose de différents codecs, suivant le type de son (musique, voix de femme, voix d'homme, etc.). Le plus connu est l'Advance Audio Coding (AAC), qui existait déjà en MPeg2. Il se base, comme cela a toujours été le cas avec le MPeg-audio, sur l'algorithme Musicam, fondé sur les mécanismes de perception de l'oreille humaine : ce que l'oreille ne perçoit pas est exclu.

Les améliorations du MPeg4 concernent surtout la précision d'analyse dans ce domaine. De plus, grâce au langage Bifs, le son peut être positionné dans l'espace afin, par exemple, de gérer automatiquement l'obstruction d'un bruit par un mur.

L'objet image est traité

L'objet fond fixe ne subit pas le même traitement qu'un personnage. L'encodeur a, pour lui, une compression spécifique, à base d'ondelettes (wavelet). C'est la même technologie que l'on retrouve, par exemple, dans le Jpeg2000.

Par rapport au Jpeg, on estime le gain de place, pour la même qualité, à environ 25 %.

L'objet vidéo est compressé

L'objet vidéo monstre (une séquence vidéo du monstre seul, sans le fond) est traité par l'encodeur. En Pal, on compte 24 images par seconde (24 plans objets vidéo, en langage MPeg4). Chacune est découpée en macroblocs de 8 x 8 pixels, afin qu'il soit possible de leur appliquer un traitement de transformation en cosinus discrète (DCT) ; une sorte de compression JPeg, en fait.

A l'aide de ces macroblocs, l'encodeur définit ensuite des images de référence (images I). Entre, il intercale des images P (prédictives) et B (bidirectionnelles), qui correspondent aux différences perceptibles entre deux images I. Pour créer ces images P et B, l'encodeur recherche les macroblocs identiques entre les images et indique leur déplacement grâce à un vecteur de mouvement. Alors que le MPeg2 était limité à un seul vecteur, le MPeg4 peut en définir jusqu'à 4 par macrobloc.



> Comparatif : SPAM
Suites de sécurité : toutes les informations pour bien se protéger !

publicité
Application iPhone 01netpro
L’actualité Pro 24h/24, sur votre iPhone avec SAP.

classement FAI
Retrouvez chaque semaine le classement des fournisseurs d'accès avec ip-label 1 Bouygues Telecom 2 Free 3 Orange > Plus de détails
offres d'emploi
> Jeu en ligne :
Everest Poker
Atteignez les sommets du poker mondial...

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.