Comme dans la partie sur la couleur, l’image numérique et la vidéo, une introduction sur les notions de base concernant le son s’est imposée. Je ne dirai pas un mot ici sur l’anatomie et le fonctionnement de l’oreille interne et de l’oreille externe, ni sur la conduction osseuse, la tonotopie ou l’écoute spatiale, la typologie sonore, le timbre, la tessiture ni même sur l’étude d’un sonagramme ou d’un spectrogramme.
Ce qui concerne le mp3 me semble beaucoup plus intéressant, on est tout de même capable de compresser un fichier audio jusqu’à 1/10e de sa taille originale sans distinguer de différence à l’écoute.
Je l’avais signalé dans l’article MPEG, codecs et conteneurs vidéos, le mp3 (MPEG Audio Layer III) constitue la troisième partie du modèle MPEG 1. Elle est reprise et complétée dans la norme MPEG 2 en 1994. Le premier baladeur mp3 est apparu en 1998 et le format mp3 s’est vite imposé face à ses concurrents et sur internet dès le début des années 2000. Aujourd’hui, tous les constructeurs d’appareils électroniques, les sites de ventes sur Internet et les plateformes d’écoutes en ligne (type web radio) utilisent le mp3. Seul l’iTunes Store d’Apple vend de la musique dans un format différent.
L’organisme connu pour être à l’origine du mp3 et de sa normalisation est allemand, c’est le Fraunhofer Institute.
Karlheinz Brandenburg (deuxième en partant de la droite), en 1987 avec l’équipe qui a travaillé sur la technologie de compression audio. En partant de la gauche, Harald Popp, Stefan Krägeloh, Hartmut Schott, Bernhard Grill, Heinz Gerhäuser, Ernst Eberlein et Thomas Sporer.
Le mp3 est en fait un algorithme de compression permettant de faciliter le téléchargement et le stockage de fichiers audio. Le mp3 a pour objectif de réduire la taille de ces fichiers sans faire subir une trop grande perte de qualité à l’écoute. Concrètement, il s’agit d’annuler les sons ‘les moins importants‘, donc de supprimer des informations ‘non audibles‘. Le spectre des fréquences audio est donc altéré en fonction d’un taux de compression. La qualité audio à l’écoute d’un morceau de musique reste acceptable à 128 kbit/s (kilobits par seconde), en-dessous le son devient parasité, enroué.
Pour mieux comprendre le principe, il faut parler de signal analogique et de signal numérique. Un signal analogique est continu tandis qu’un signal numérique est une suite de mesures prises à des instants successifs. On va donc effectuer un échantillonnage et une quantification du signal à intervalles fixes ou variables.
Le signal est divisé en trames de plusieurs échantillons (leur nombre et leur durée sont normalisés) cette phase est nommée Modulation d’impulsion codée. Ensuite, une conversion est effectuée sur le signal afin de le manipuler plus facilement, c’est l’algorithme Transformée de Fourier Rapide. Puis trois filtres psycho-acoustiques de masquage sonore viennent s’appliquer, c’est une étape importante de l’encodage. Un nouveau découpage est réalisé et les fréquences rencontrées le plus souvent sont quantifiées. On va alors réaliser une compression particulière (méthode de Huffman) qui va coder les données les plus redondantes sur des séquences plus courtes que les données les moins redondantes. On ajoute des informations sur l’échantillonnage, sur les trames, etc. C’est-à-dire, des infos utiles au moment du décodage. Et on termine avec des renseignements sur le fichier (titre, genre, etc.). Le décodage suit la procédure inverse.
Oui c’est un peu dense, et probablement pas très utile dans la vie quotidienne. Mais je trouve ça intéressant de savoir comment cet encodage est réalisé, au moins dans les grandes lignes…
En conclusion, je retiendrai une citation de l’écrivain et inventeur Arthur C. Clarke glissée dans la présentation de l’enseignant : Toute technologie suffisamment avancée est indiscernable de la magie.
Pour finir, j’ai choisi de vous passer un morceau utilisé dans les recherches du Fraunhofer Institute comme séquence de test : Tom’s Diner de Suzanne Vega.