la codifica digitale PCM

La maggioranza dei sistemi di registrazione digitale lavora essenzialmente allo stesso modo. Un segnale audio in ingresso è inserito in quello che è noto come un convertitore Analogue-to-Digital (A-D). Questo convertitore A-D prende una serie di misurazioni del segnale a intervalli regolari, e le memorizza come un numero. La lunga serie di numeri risultanti è immagazzinata in un supporto dal quale può essere recuperato con il playback, essenzialmente lo stesso processo invertito: una lunga serie di numeri è recuperata da un mezzo di deposito, ed è passato a quello che è conosciuto come convertitore Digital-to-Analogue (D-A). Il convertitore D-A prende i numeri ottenuti dalla misurazione del segnale originale, e li usa per costruire un'approssimazione molto vicina al segnale originale, che può essere trasferito ad un amplificatore e quindi ad un sistema di diffusori acustici per l'ascolto.

Il nome generico per il sistema di registrazione digitale, è Pulse Code Modulation (PCM), ed è usato in tutti i moderni campionatori, registratori digitali ed interfacce audio per computer. Per ottenere una riproduzione fedele di un segnale audio, la codifica PCM mira ad effettuare un'accurata lettura della forma d'onda del segnale. Chi ha visto un oscilloscopio, o ha familiarità con campionatori e software di audio-editing, avrà avuto modo di vedere le tipiche forme d'onda: linee ondulate usate per rappresentare il suono. semionda analogicaIn termini più semplici, una forma d'onda è un tipo di grafico dove l'asse orizzontale rappresenta il tempo, e l'asse verticale rappresenta l'ampiezza (in figura a sinistra è rappresentato un semplice segnale).
L'ampiezza, è legata al livello del suono. Per esempio quando un ad un oscilloscopio viene collegato un microfono posto in un ambiente rumoroso, l'ampiezza dell'onda corrisponde all'ammontare della pressione dell'aria sul diaframma del microfono, e questa al volume del suono (misurato strumentalmente).
Generi diversi di suono corrispondono a caratteristiche e diverse forme d'onda. La forma d'onda di certi suoni strumentali può spesso essere chiaramente visibile come una ripetizione di cicli (l'onda mostrata in figura si ripete più volte), e la quantità di ripetizioni in un dato intervallo di tempo varierà secondo il tono del suono (i cicli che si ripetono con maggior frequenza saranno udibili come suoni di alta frequenza). Suoni che non hanno un tono distinto, d'altra parte, corrispondono a forme d'onda più irregolari.

Prendendo e memorizzare una serie molto accurata di misurazioni di una forma d'onda analogica, il sistema di codifica PCM può ricostruire un'approssimazione molto vicina del suono corrispondente a quella forma d'onda. In un sistema PCM di alta-qualità, l'approssimazione può essere così accurata che un suono registrato è praticamente indistinguibile dalla sua sorgente.
Comunque, perché il sistema lavori bene, deve operare fra determinati limiti. Per questo, ci sono essenzialmente due variabili da considerare. La prima di queste è nota come frequenza di campionamento, e la seconda è nota come profondità di bit.

La frequenza di campionamento descrive il numero di volte che un segnale audio in ingresso è misurato o "campionato" in un dato periodo di tempo. E' tipicamente indicata in kilohertz (kHz, migliaia di cicli per secondo) e per registrare in "CD-quality" audio, è richiesta una frequenza di campionamento di 44.1kHz.

campionamento a 16 bit

La profondità di bit determina l'accuratezza con quale è effettuata ciascuna misurazione o campione. Quando in un sistema PCM di audio digitale il convertitore A-D misura un segnale in ingresso e memorizza la misurazione come un numero, questo numero è rappresentato come una serie di 0 e 1, anche noti come numeri binari. La profondità di bit, perciò, si riferisce alla lunghezza delle parole binarie (cioè sequenze di 0 e 1) usate per descrivere ciascun campione del segnale d'ingresso preso dal convertitore A-D. Parole più lunghe permettono la rappresentazione di una serie più ampia di numeri, e quindi misurazioni più accurate e riproduzioni più fedeli di un segnale (maggior dinamica e minor distorsione). In un sistema a 16-bit, ciascun campione è rappresentato come una parola binaria lunga 16 cifre. Poichè ciascuna di queste 16 cifre può essere uno 0 o un 1, sono possibili 65.536 (216) valori per ciascun campione.

il teorema di Fourier

Un importante teorema la cui conoscenza intuitiva è necessaria per comprendere l'importanza della frequenza di campionamento, è dovuto a Fourier.
La figura sotto, illustra visivamente i risultati del Teorema di Fourier: qualsiasi onda può essere considerata come la somma di un insieme di onde, di cui la prima è detta fondamentale, e le onde successive prendono il nome di armoniche.

Nell'esempio illustrato, si è scelta un'onda quadra perché, pur trattandosi di un caso particolare, permette di chiarire facilmente il senso del teorema di Fourier.

rappresentazione del Teorema di Fourier applicato ad un'onda quadra

Come si vede, l'onda risultante segue un andamento con profilo "quadrato". In effetti, non è quadrato, ma lo approssimerebbe in modo migliore se invece di usare la somma di una fondamentale e tre armoniche di ordine dispari, avessimo considerato un numero molto maggiore di armoniche (almeno 21).
In particolare, le armoniche sono frequenze multiple della frequenza fondamentale e di minore ampiezza (intensità). Ad esempio, se il LA fondamentale "internazionale" vibra a 440 kHz, la seconda armonica avrà frequenza di 880 kHz, la terza 1760 kHz, e così via. In questo caso, la sesta armonica ha una frequenza di 28160 kHz e dunque si trova ben oltre il limite di frequenza udibile dall'orecchio umano; d'altra parte, la sua presenza - sommandosi alle armoniche udibuli - può avere effetti udibili sul timbro del suono.

Il numero delle armoniche ed i loro rapporti di intensità determinano il timbro, cioé la ricchezza del suono (si possono distinguere le stesse note emesse da strumenti differenti). Un "do" può essere emesso sia da un violino che da una sirena... è la presenza delle armoniche con le loro rispettive intensità che ci permettono di distinguere le sorgenti.

fattori che determinano le dimensioni dei file audio

Per rendere più maneggevoli i file audio, è necessario ridurre la loro dimensione, e ci sono vari modi per farlo. Un metodo è ridurre la lfrequenza di campionamento: se è dimezzata (22.05 k Hz invece di 44.01 kHz), viene considerata la metà delle misurazioni del segnale in ingresso, e così è prodotta solo la metà dei dati (un altro modo è una registrazione monofonica, che dimezza ulteriormente la quantità di dati necessaria). Tuttavia, queste scelte hanno alcuni seri effetti collaterali sulla qualità del suono.

Il range della voce umana varia dai 500 Hz ai 2 kHz. L'orecchio umano percepisce le frequenze che vanno dai 20 Hz ai 20 kHz, ed è più sensibile tra i 2 e i 4 kHz.
Il range dinamico, ossia l'intervallo dal suono più basso al più alto percepibile, è di 96 dB (Decibel).

In generale, frequenze di campionamento di 11025 Hz sono adatte per la registrazione del parlato, 22050 Hz per ottenere una qualità tipo radio (o dei vecchi dischi 78 giri caratterizzati da risposta in frequenza tra 50-8000 kHz), mentre 44100 Hz per registrazioni di qualità CD.
Ridurre a metà (da 44.1 a 22.05 kHz) la frequenza di campionamento comporta una perdita di risoluzione, e quindi una minore fedeltà durante la riproduzione. Sarebbe un'esagerazione dire che la qualità del suono è ridotta a metà, ma la registrazione è comunque in alcuni punti meno accurata per la metà. In particolare, la risposta in frequenza del sistema di registrazione è dimezzata. In effetti questo comporta che molte delle altre frequenze contente nel suono originale sono perdute e con esse molte armoniche, portando a registrazioni scarse per brillantezza e chiarezza.

La correlazione tra frequenza di campionamento e risposta in frequenza è data dal "Teorema di Shannon-Nyquist", secondo il quale, perché un segnale sia accuratamente riprodotto da PCM, devono essere presi almeno due campioni di ciascun ciclo di forma d'onda.
In pratica perciò, la frequenza più alta che può essere accuratamente registrata è la metà della frequenza di campionamento usata. Questo è conosciuto come il Limite di Nyquist. Un "CD-quality" convenzionale ottenuto dal tradizionale sistema di registrazione digitale, usa una frequenza di campionamento di 44.1 kHz, e quindi può solo riprodurre frequenze fino a 22.05 kHz. Tutte le frequenze sopra questo limite sono scartate. Questo non è generalmente considerato un problema, dal momento che le ricerche hanno mostrato che la maggior parte degli esseri umani sono capace di udire poco o nulla sopra quella frequenza. Però, se la frequenza di campionamento è ridotta a 22.05 kHz, tutte le frequenze oltre 11.025 kHz saranno scartate, e questo comporterà una degradazione ben udibile nella qualità del suono. Molti strumenti musicali producono frequenze oltre questo intervallo, e le registrazioni fatte con una frequenza di campionamento ridotta possono restituire immagini sonore scarse per brillantezza e chiarezza.

Un metodo alternativo di ridurre la dimensione di un file audio è ridurre la profondità di bit del sistema di registrazione usato per crearli. Per esempio, un campionamento a 8-bit può essere usato invece di uno a 16-bit. Proprio come la riduzione della frequenza di campionamento, questo ha indubbiamente l'effetto desiderato di ridurre l'ammontare di dati generati per fare una registrazione. Se ciascun campione del segnale in ingresso è memorizzato come un 8-bit piuttosto che un 16-bit di parola binaria, allora la registrazione produce solo un byte per campione piuttosto che due. Questo virtualmente raddoppia la capacità del mezzo del supporto di memorizzazione usato, in quanto dimezza realmente la grandezza dei file.

campionamento a 8 bit

Una riduzione nella profondità di bit, però comporta alcuni effetti indesiderabili per la qualità del suono. Come abbiamo visto, un sistema a 16-bit permette 65.536 o (216) valori possibili per ciascun campione preso. Si potrebbe pensare che un sistema a 8-bit permetta esattamente la metà della risoluzione audio, ma questo sarebbe ottimistico: una parola bianaria di 8-bit ha in effetti solo 256 (28) valori possibili. Ciò comporta un campionamento notevolmente meno accurato del segnale in ingresso, e, per conseguenza, registrazioni di qualità inferiore. Infatti, con meno valori possibili per definire ciascun campione, un sistema di registrazione a 8-bit è a volte forzato a rappresentare male una quantità piuttosto significativa (vedi figura sopra). Questo travisamento può essere descritto come una riduzione nel rapporto segnale/disturbo del sistema, e conduce a registrazioni che producono un suono aspro, innaturale e con scarsa dinamica.

A dispetto dei problemi inerenti la riduzione nella frequenza di camponamento e la profondità di bit del PCM audio, questi metodi sono usati spesso in applicazioni dove la qualità del suono è considerata un minore priorità rispetto alla conservazione delle risorse del sistema (per esempio, in commenti parlati, un camponamento a 8 bit e 22.05 kHz è del tutto accettabile).

Varie altre raffinate varianti della PCM, quali DPCM (Differential Pulse Code Modulation) ed ADPCM (Adaptive Differential Pulse Code Modulation), sono state sviluppate anche allo scopo di ridurre le dimensioni dei file senza sacrificare troppo la qualità del suono. Questi formati, fondamentalmente aiutano a migliorare l'ordinaria PCM con metodi più efficienti di gestione e memorizzazione dei dati. Tuttavia, al meglio delle loro prestazioni, non producono riduzioni sufficienti nella dimensione dei file per risolvere il problema di come offrire registrazioni sonore di alta qualità in applicazioni per opere multimediali e per Internet. Per fare questo, è richiesto un approccio completamente diverso.

Il problema della dimensione dei file

Un sistema a 16-bit con una frequenza di campionamento di 44.1kHz è largamente accettato come riferimento per l'audio digitale consumer, e quando i fabbricanti offrono "CD-quality" audio, descrivono fondamentalmente un sistema che opera, o è capace di funzionare, fra questi limiti. Comunque, uno svantaggio dell'audio PCM è che mentre la qualità del suono può essere eccellente, la memorizzazione delle registrazioni richiede notevoli risorse qualunque mezzo sia usato. Questo è matematicamente inevitabile: 44.100 campioni per secondo a 16-bit produrranno 88.200 bytes di dati (poiché ci sono 8 bit per ogni byte) per secondo e due volte questo valore (176.400 bytes per secondo) per un segnale stereofonico. Così, registrare un minuto di audio stereofonico richiede 10.584.000 bytes (circa 10 megabytes) di spazio disponibile su un supporto di registrazione (hard disk o CD-ROM).

Mentre queste dimensioni sono accettabile per quanto riguarda i convenzionali audio CD (in quanto possono memorizzare circa 74 minuti di registrazione musicale), per altre applicazioni la cosa può essere problematica. In situazioni dove le registrazioni sonore devono essere registrate e memorizzate in file su un computer, è di solito necessario ridurre la dimensioni di un file quanto più possibile, per sfruttare al massimo le limitate risorse del sistema. Per la memorizzazione e lo scambio, si può anche ricorrere ad un tradizionale processo di compressione (per esempio, file in formato Zip), ma in questo modo il file prodotto non può essere letto (riprodotto) in tempo reale ed inoltre, la riduzione delle dimensioni è generalmente inferiore al 30 per cento.

Quando i computer sono connessi a Internet, la necessità di ridurre le dimensioni dei file diviene pressante. Lo spazio a disposizione sui server web è limitato e può essere costoso; inoltre, le linee del telefono non hanno la larghezza di banda necessaria per permettere la trasmissione di file molto grandi a meno di accettare tempi biblici. Per soddisfare le esigenze di spazio, si ricorre alla Perceptual Coding.

nemesi

Questo articolo può essere liberamente pubblicato su qualsiasi rivista interamente o in estratto, purché sia citata la fonte e l'indirizzo di questo sito. Copyright Marcello Guidotti, 2001