Audio digital

El audio digital es la codificación digital de una señal eléctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtiene de dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.

Muestreo digital de una señal de audio.

El muestreo consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de tiempo ( tasa de muestreo). Para cubrir el espectro audible (20 a 20 000 Hz) suele bastar con tasas de muestreo de algo más de 40 000 Hz (el estándar CD-Audio emplea una tasa un 10% mayor con objeto de contemplar el uso de filtros no ideales). Con 32 000 muestras por segundo se tendría un ancho de banda similar al de la radio FM o una cinta de casete; es decir, permite registrar componentes de hasta 15 kHz, aproximadamente.

Para reproducir un determinado intervalo de frecuencias se necesita una tasa de muestreo de poco más del doble ( Teorema de muestreo de Nyquist-Shannon). Por ejemplo en los CD, que reproducen hasta 20 kHz, se emplea una tasa de muestreo de 44,1 kHz (frecuencia Nyquist de 22,05 kHz).

La cuantificación consiste en convertir el nivel de las muestras fijadas en el proceso de muestreo, normalmente un nivel de tensión, en un valor entero de rango finito y predeterminado. Por ejemplo, utilizando cuantificación lineal, una codificación lineal de 8 bits discriminará entre 256 niveles de señal equidistantes (28). También se pueden hacer cuantificaciones no lineales, como es el caso de cuantificadores logarítmicos como la Ley Mu o la Ley A, que, a modo de ejemplo, aún usando 8 bits funcionan perceptualmente como 10 bits lineales para señales de baja amplitud en promedio, como la voz humana por ejemplo.

El formato más usado de audio digital PCM lineal es el del CD de audio: 44,1 kHz de tasa de muestreo y cuantificación lineal de 16 bits (que mide 65536 niveles de señal diferentes) y que, en la práctica, permite registrar x analógicas con componentes hasta los 20 kHz y con relaciones señal a ruido de más de 90 dB.


Ejemplo de reconstrucción de una señal de 14,7 kHz (línea gris discontinua) con sólo cinco muestras. Cada ciclo se compone de sólo 3 muestras a 44 100 muestras por segundo. La reconstrucción teórica resulta de la suma ponderada de la función de interpolación g(t) y sus versiones correspondientes desplazadas en el tiempo g(t-nT) con , donde los coeficientes de ponderación son las muestras x(n). En esta imagen cada función de interpolación está representada con un color (en total, cinco) y están ponderadas al valor de su correspondiente muestra (el máximo de cada función pasa por un punto azul que representa la muestra).

De acuerdo con el Teorema de muestreo de Nyquist, la tasa de muestreo, esto es, el número de muestras con las que se realiza el proceso de muestreo en una unidad de tiempo, determina exclusivamente la frecuencia máxima de los componentes armónicos que pueden formar parte del material a digitalizar.[3]


Con objeto de evitar el fenómeno conocido como aliasing, es necesario eliminar todos los componentes de frecuencias que exceden la mitad de la tasa de muestreo, es decir, del límite de Nyquist, antes del proceso de digitalización ( conversión A/D). En la práctica, estos componentes se atenúan fuertemente mediante un filtro activo analógico paso-bajo que se aplica a la señal analógica de interés antes de su digitalización y que para este objetivo se denomina filtro antialiasing. En el proceso de reconstrucción posterior (conversión D/A) de la reproducción se deberá aplicar en esencia el mismo filtrado analógico mediante un filtro que, empleado en este proceso, se denomina de reconstrucción.

Tamaño de las muestras

El número de bits que conforman las muestras en un proceso determinado de cuantificación determina la relación señal a ruido máxima que debe tener la señal (la salida de un micrófono y, consecuentemente, el material sonoro que recoge, la salida de un máster analógico, etc.) que se pretende cuantificar y, por tanto, limita también el rango dinámico que debe tener para su cuantificación completa, de modo parecido a como la capacidad de un recipiente (bits por muestra) limita el volumen de líquido (rango del material sonoro a cuantificar) que puede contener.

Sea el número de bits con los que se cuantifican las muestras, la relación señal (para sinusoidal máxima que cubre todo el rango) a ruido de cuantificación teórica se obtiene en dB:[4]

Por tanto, una cuantificación de 16 bits permite un máximo teórico para la relación señal sinusoidal a ruido de cuantificación de 98,09 dB (122,17 dB para 20 bits, valor muy cercano al límite real que permite el ruido de Johnson-Nyquist (también conocido como ruido térmico) de los mejores convertidores A/D actuales). En la práctica, el límite de una señal analógica para que pueda ser cuantificada sin merma dinámica es, aproximadamente, el 90% del límite teórico.[5]​ Por lo tanto, el límite que debe tener una señal (por ejemplo, la señal directa de un micrófono o la que resultara de un máster analógico) para ser cuantificada con seguridad con sólo 14 bits es de unos 78 dB, aún cuando el límite teórico sea de 86,05 dB en este caso.

Una vez que la relación señal a ruido de cuantificación que permite un proceso de cuantificación dado excede la relación señal a ruido máxima del material sonoro que se pretende cuantificar, esta podrá ser cuantificada totalmente sin pérdidas en su rango dinámico. Pasado este umbral, de nada sirve aumentar el número de bits por muestra del proceso de cuantificación: no resultará en una conversión más fiel. Por ejemplo, una relación señal a ruido de cuantificación de 90 dB (una relación práctica que permiten sobradamente los 16 bits por muestra de un CD-Audio) es suficiente para cuantificar cualquier grabación musical normal, cuyo rango de intensidad sonora puede ir desde los 25 dB(SPL) del ruido de fondo de un estudio de grabación hasta los 115 dB(SPL), casi el umbral del dolor de la audición humana,[6]​ en la posición del micrófono durante una grabación en dicho estudio.

El tamaño de las muestras necesario en un proceso de cuantificación digital se determina, por tanto, a partir del análisis del ruido de fondo y de la intensidad máxima del material sonoro a registrar. Aumentar por encima de lo necesario el tamaño de las muestras es sólo un desperdicio de ancho de banda, especialmente en los formatos finales de distribución. No supone mejora alguna, ni siquiera mensurable, ya que sólo serviría para registrar el ruido con más bits, es decir, más bits inútiles cuyo valor dependerá exclusivamente del azar o, según se ajuste la ganancia, para dejar los bits más significativos a cero en todas las muestras (o una combinación de ambas cosas). De modo parecido, un recipiente de capacidad mayor a la del líquido que se pretende depositar en él no mejora en medida alguna la calidad o cantidad de dicho líquido respecto al uso de un recipiente de menor capacidad siempre que ésta capacidad menor sea aún suficiente para el volumen del líquido. Dicho de otro modo, al contrario de lo que es una creencia errónea muy extendida,[7]​ el tamaño de las muestras a emplear en una cuantificación depende del material sonoro que se pretende cuantificar y nada tienen que ver la fidelidad de la reconstrucción en la reproducción o los límites psicoacústicos humanos (por la percepción de dicha fidelidad) con esta determinación, por ejemplo. Si un material sonoro a digitalizar "cabe" en 10 bits por muestra, cuantificar a 14 bits (o 20) no hace más fiel su reconstrucción posterior ni, consecuentemente, es posible percibir diferencias subjetivas que no resulten de la sugestión.

Other Languages
العربية: صوت رقمي
Deutsch: Digitalaudio
Ελληνικά: Ψηφιακός ήχος
English: Digital audio
galego: Son dixital
hrvatski: Digitalni zvuk
Bahasa Indonesia: Audio digital
italiano: Audio digitale
Bahasa Melayu: Audio digital
Nederlands: Digitale audio
norsk nynorsk: Digital lyd
português: Som digital
slovenčina: Digitálny zvuk
Türkçe: Sayısal ses
українська: Цифровий звук
中文: 數位音訊