Indietro Torna alla pagina Università

MP3

MP3 è uno standard nato dal gruppo di lavoro MPEG (Moving Pictures Experts Group). Scopo di questo gruppo è specificare e standardizzare schemi di codifica a basso bit-rate, sia audio che video, mirando ad elevata qualità e alla trasparenza rispetto all'utente finale. Applicazioni note dei lavori di MPEG si trovano nel DVD e nella trasmissione satellitare digitale.

Si parla di codifica percettiva, nel senso che si cerca di sfruttare le capacità/debolezze dell'orecchio umano in modo da ricostruire solo il segnale udibile.

Quindi:

  1. Si rimuovono le componenti ridondanti, derivanti dalla correlazione tra i campioni.
  2. Si rimuovono le parti che l'orecchio non può distinguere correttamente, sia in termini di ampiezza che di frequenza.

Siccome i codificatori percettivi si avvantaggiano delle proprietà dell'orecchio umano, il solo modo per confrontarli è attraverso test di ascolto soggettivi perché anche se è possibile calcolare il SNR (rapporto segnale/rumore) tra segnale ricostruito e l'originale, questo non è indicativo della qualità del suono ricostruito.

L'udito non si può modellare come un filtro lineare, perché l'orecchio percepisce bene solo in determinate bande critiche. Si comporta come un banco di filtri passabasso, con bande di ampiezza tra i 50Hz e i 5KHz, a seconda delle frequenze che il filtro seleziona. Le bande di questo banco di filtri, inoltre, si sovrappongono. Un primo modello approssimato considera 26 bande che coprono i 20KHz udibili.

Studi psicoacustici hanno inoltre messo in evidenza un fenomeno chiamato del mascheramento. Cosa comporta? Un segnale debole (mascherato) è reso non udibile da un segnale più forte (mascherante) quando i due segnali sono più vicini della risoluzione in frequenza dell'udito umano. Esiste pertanto una soglia di mascheramento, sotto la quale i segnali non sono percepibili. Essa dipende dal livello di pressione sonora, frequenza del mascherante e dalle caratteristiche del mascherante e del mascherato (tono o rumore). Quello visto fino ad ora è un mascheramento in frequenza, ma esiste anche un mascheramento nel tempo. Accade quando due suoni si manifestano molto vicini nel tempo. Il suono più forte maschererà il più debole, anche se quest'ultimo si manifesta prima. Ciò è dovuto alla minima risoluzione temporale dell'orecchio umano, sotto la quale non si riescono a distinguere due suoni, ed inevitabilmente si percepisce solo il più forte.

Fino ad oggi sono state proposte varie versioni per lo standard MPEG, alcune delle quali sono ancora in via di sviluppo. Vi mostro ora solo le principali caratteristiche di MPEG-1.
 
MPEG-1 Audio

Nasce nel novembre del 1992. Esso opera a 3 frequenze di campionamento (32, 44.1 e 48 kHz). Utilizza uno o due canali ed ha quattro modi di funzionamento: mono, dual-mono, stereo e joint-stereo. È strutturato in 3 livelli (Layers), a seconda delle caratteristiche del modello di quantizzazione e codifica dei campioni audio.

Layer 1 : bit-rate 192kb/s
Layer 2 : bit-rate 128kb/s, (usato per DAB, CD-ROM, CD-I, Video CD, ecc.)
Layer 3 (=MP3): bit-rate meno di 128kb/s, (usato per audio su ISDN).

Layer 1, 2, 3 sono livelli perché il codificatore/decodificatore di livello più elevato incorpora quello di strato inferiore.

Non metto alcun esempio di mp3, poiché penso che bene o male tutti ne abbiamo ascoltato uno. Sottolineo solo il fatto che la qualità percepita è elevata, ma non permette lo streaming, bisogna cioè scaricare tutto il file prima di ascoltarlo. Sul piano della compressione siamo di fronte a un fattore 10 rispetto al PCM. Se, come abbiamo visto, un minuto di musica del CD occupa circa 10 MB, in formato MP3 ne occupa circa di 1 MB.

 

Indietro Torna alla pagina Università