Encoder en WMA - WMA, WMA Pro et WMA Lossless - La compression WMA : qu'est-ce que c'est ?

Cette section explique les différentes techniques qui peuvent être exploitées pour compresser un signal audio. La plupart de ces techniques sont communes à de nombreux formats de compression (MP3, WMA, OGG, AAC, ...) : on ne sera pas surpris de retrouver dans les paragraphes suivants une partie des explications données dans notre dossier sur la compression MP3. Que les internautes ayant déjà lu le dossier MP3 passent directement en bas de cette page.

Quelle est la technique de compression WMA ? En fait, on devrait plutôt parler d'un ensemble de techniques utilisées pour arriver au résultat final. Ce résultat final, c'est le fichier WMA contenant le morceau de musique que l'on a compressé. Parmi ces techniques, certaines sont dites destructrices d'autres non. Une compression destructrice, c'est une compression qui est réalisée en perdant de l'information. Cela signifie que si l'on décompresse (ou décode) le signal compressé (ou encodé) à l'aide d'une technique d'encodage destructeur (en anglais, on parle de lossy codec), on ne retrouvera pas le signal de départ. On a perdu des données lors de l'encodage. Le WMA est donc un codage destructeur.

Parmi les techniques de compression destructrices, on a essentiellement des méthodes qui exploitent les propriétés de l'oreille humaine. On dit que l'on utilise un modèle psycho-acoustique. Expliquons-nous un peu... Normalement, notre oreille entend les fréquences situées dans la gamme [20 Hz - 20 kHz] comme on peut le voir sur la figure ci-dessous. En fait, il faudrait moduler ce diagramme car cela dépend aussi de l'âge.

Seuil de perception de l'oreille humaine

Si un morceau de musique contient des fréquences hors de cette gamme, on peut purement et simplement les supprimer sans perte de qualité audio puisque l'oreille humaine ne les entend pas. Pour aller plus loin, on peut dire que l'on entend surtout correctement les fréquences situées dans la gamme [2 kHz - 5 kHz]. En effet, moins de 5dB de niveau sonore suffit pour entendre les fréquences situées dans cette bande alors qu'il faut plus de 20dB pour entendre les fréquences situées en dessous de 100Hz ou au dessus de 10kHZ. Ces constatations peuvent être exploitées pour réduire la taille des fichiers. On peut par exemple décider que toutes les fréquences au dessus de 15kHz seront supprimées. Voilà donc une technique de compression toute simple.

Autre technique de compression utilisée pour encoder un fichier audio en MP3, le principe des fréquences masquées. Si dans un groupe de fréquences, certaines ont un niveau sonore beaucoup plus élevé que d'autres, il n'est pas nécessaire de conserver les fréquences de niveau sonore faible : on ne les entendra pas. Pour utiliser une comparaison plus marquante, imaginez que vous êtes dans votre jardin et que vous entendez des oiseaux. Si un avion passe au dessus de votre tête (même très haut), vous n'entendrez plus les oiseaux car le son qu'ils produisent est beaucoup plus faible que celui généré par l'avion. C'est comme si les oiseaux n'existaient plus ou avaient arrêté de chanter. On voit bien qu'il n'est pas nécessaire de coder toutes les fréquences présentes dans un morceau pour que l'oreille humaine le perçoive correctement quand même. Enfin, si les deux voies d'un son stéréo présentent des séquences semblables, au lieu de dupliquer ces séquences, on stocke une seule voie et l'information qu'à ce moment là, voie droite et voie gauche sont identiques.

Au rang des techniques non destructrices, que trouve-t-on ? Principalement des techniques de codage. Expliquons nous. Un son, c'est une fréquence. Une seconde de musique c'est donc une succession de fréquences. Imaginons que dans la suite d'échantillons composant une seconde de musique (rappelons qu'il y a 44100 échantillons dans une seconde de musique issue d'un CD audio) on ait plusieurs fois de suite la même fréquence, par exemple 10 fois. Si au lieu de stocker ces 10 points, on en stocke 1 seul et le nombre de fois où il se répète, on a besoin de coder 2 nombres et non 10. Si, de plus, on applique cette méthode à des fréquences non plus identiques mais très proches les unes des autres (si proches que l'oreille humaine moyenne ne puisse les distinguer), on peut encore gagner en place. Cette fois, la compression est destructrice puisque l'on remplace une fréquence par une autre (presque identique).

On utilise également l'algorithme de Huffman (1952) comme méthode de codage des informations. Cette méthode est utilisée dans tous les algorithmes de compression (compression de fichiers texte, compression d'images, compression de sons). Elle repose sur l'utilisation d'un code de longueur variable et la probabilité d'apparition d'un événement (en l'occurrence ici d'une fréquence). Plus une fréquence apparaît souvent, plus son code sera court (nombre de bits faible pour la représenter). Le fichier est lu une 1ère fois et on dresse un tableau des fréquences apparaissant et le nombre de fois où elles apparaissent. On en déduit le code approprié. Ce codage est utilisé en dernier lieu. C'est la phase finale de la compression. C'est un codage non destructeur.

Le WMA exploite en 1^er lieu les propriétés de l'oreille pour réduire la taille d'un morceau, puis on traite l'aspect stéréo et enfin on applique des codages en terminant par le codage de Huffman. L'utilisation de toutes les possibilités de réduction évoquées dépend de la place que l'on souhaite accorder à une minute de son compressé et donc du taux de compression que l'on va devoir appliquer. Pour l'encodage de fichiers son en WMA on parle plutôt en terme de bitrate que de taux de compression. Le bitrate est le nombre de bits que l'on autorise pour coder une seconde. On aura donc la relation suivante : plus on veut compresser un morceau (pour qu'il prenne le moins de place possible) plus le bitrate à choisir devra être faible.

Les fichiers encodés à l'aide du codeur WMA portent l'extension .wma. Dans sa forme originale, le codec WMA sorti en 1999 encodait des sons numériques provenant de signaux sonores analogiques échantillonnés à une fréquence pouvant aller de 8 kHz à 48 kHz, sur 8 ou 16 bits, en mono ou stéréo. L'encodage se faisait à bitrate constant, ce dernier pouvant se régler à n'importe quelle valeur comprise entre 5 kbits/s et 192 kbits/s. Microsoft indiquait alors qu'un morceau encodé à 192 kbits/s en WMA ne pouvait pas se distinguer de son homologue wave issu d'un CD audio et qu'une qualité audio dite proche du CD était atteinte pour 96 kbits/s. A qualité audio identique, un fichier encodé en WMA (96 kbits/s) occupe 25% de place en moins qu'un fichier encodé en MP3 (128 kbits/s). On pourra revoir à ce titre le tableau des bitrates que nous avons dressé pour le MP3. Les techniques de compression WMA et MP3 étant semblables, la différence se fait sur une meilleure exploitation des caractéristiques de l'oreille humaine. Cette amélioration a été rendue possible grâce aux progrès des chercheurs dans la compréhension de l'oreille humaine. En effet, rappelons que le standard MP3 date du début des années 1990 tandis que le WMA date de 1999.

Aujourd'hui, le WMA se décline en de nombreuses versions. Le WMA Standard, le WMA Pro, le WMA Lossless et le WMA Voice. Le WMA Standard est celui que tout le monde connait et, pour le moment, c'est le seul lisible sur les platines DVD de salon et les baladeurs numériques. On peut encoder à bitrate constant (CBR : Constant Bit Rate) ou variable (VBR) depuis l'apparition du codec WMA 9 en 2004. Le WMA Standard encode du mono ou du stéréo échantillonné avec une fréquence pouvant aller jusqu'à 48 kHz et en utilisant une résolution sur 16 bits. A bitrate constant, on peut régler ce dernier de 5 kbits/s à 192 kbits/s. Si l'on encode à bitrate variable, on ne parle plus de bitrate pour régler la qualité de la compression mais de niveaux de qualité. On encode à VBR 100, 98, 90, 75, 50, 25 ou VBR 10. Pour donner des équivalents permettant une comparaison entre CBR et VBR, lors d'un encodage à VBR 10, le bitrate varie entre 27 kbits/s et 64 kbits/s tandis qu'à VBR 100, le bitrate varie entre 420 kbits/s et 1 100 kbits/s ! En VBR, le son est codé avec une meilleure qualité que celle obtenue avec un codage CBR.

Le WMA Pro (pour WMA Professional) est un codec qui entend rivaliser avec les formats AAC, Dolby Digital et DTS. A ce titre, il peut prendre en compte l'audio multi voies (jusqu'à 8 voies donc les sons surround 7.1 sont supportés). Le WMA Pro peut encoder à bitrate constant ou variable de l'audio échantilloné avec une fréquence pouvant aller jusqu'à 96 kHz et en utilisant une résolution sur 24 bits. A bitrate constant, on peut monter jusqu'à 768 kbits/s !

Microsoft met gratuitement - sur son site - à disposition des utilisateurs de PC sous Windows l'encodeur WMA. Le player (Windows Media Player) est fourni automatiquement avec Windows depuis Windows 98. Vous pouvez cependant vous procurer la dernière version sur le site Web de Microsoft ou à partir de notre rubrique Freeware.