Síntesis de habla

Stephen Hawking es una de las personas más famosas en emplear un sintetizador de voz para comunicarse

La síntesis de habla es la producción artificial del habla. El sistema computarizado que es usado con este propósito es llamado computadora de habla o sintetizador de voz y puede ser implementado en productos software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla.[1]

El habla sintetizada puede ser creada a través de la concatenación de fragmentos de habla grabados que son almacenados en una base de datos. Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos y difonos permite un mayor rango de sonidos pero carece de claridad. Para usos específicos, el tamaño del almacenamiento de palabras completas u oraciones permite una mayor calidad de audio. De manera alternativa, un sintetizador puede incorporar un modelo de tracto vocal u otras características de la voz humana para recrear completamente una voz "sintética".[2]

La calidad de un sintetizador de voz se juzga por la similitud que tenga con la voz humana y su habilidad para ser entendido con claridad. Un programa de conversión de texto en habla inteligible permite que las personas con discapacidades visuales o dificultades para leer puedan escuchar textos en una computadora. Muchos sistemas operativos tienen sintetizadores de voz integrados desde principios de los noventa.

Diagrama de un sistema TTS típico

Un sistema o "motor" de texto a habla (TTS) está compuesto de dos partes:[4] el cual es implementado en la voz de salida.

Historia

Antes de que el procesamiento de señal electrónico fuera inventado, hubo quienes intentaron construir máquinas para imitar el habla humana. Algunas de las primeras leyendas de la existencia de los "Brazen Heads" involucraron a Silvestre II (d. 1003 AD), Alberto Magno (1198–1280) y Roger Bacon (1214–1294).

En 1779 el científico danés Christian Kratzenstein, mientras trabajaba en Academia de Ciencias de Rusia, construyó modelos del tracto vocal humano que podían reproducir los sonidos de las cinco vocales (en notación el de Alfabeto Fonético Internacional para el inglés, son [aː], [eː], [iː], [oː] y [uː]).[7]

En la década de los treinta, los laboratorios Bell desarrollaron el vocoder, el cual automáticamente analizaba el habla a través de su nota fundamental y resonancias. De su trabajo con el vocoder, Homer Dudley desarrolló un sintetizador operado por un teclado llamado The Voder, el cual fue exhibido en la New York World's Fair de 1939.[8]

El "Pattern playback" fue construido por el Dr. Franklin S. Cooper y sus colegas en los laboratorios Haskins a finales de los cuarenta y finalizado en los cincuenta. Han habido varias versiones de este dispositivo de hardware, pero solo una existe. La máquina convierte las imágenes de patrones acústicos en habla de la manera en forma de un espectrograma a sonido. Usando este dispositivo, Alvin Liberman y sus colegas lograron descubrir indicadores acústicos para la percepción de segmentos fonéticos (vocales y consonantes).[9]

Los sistemas dominantes en los ochentas y noventas eran el sistema DECtalk, basado en el trabajo de Dennis Klatt en MIT,[11] que después se convertiría en un de los primeros sistemas multi-lenguajes independientes, haciendo un uso extensivo de los métodos de procesamiento de lenguajes naturales.

Los primeros sintetizadores de habla tenían un sonido robótico y poseían poca inteligibilidad. La calidad del habla sintetizada ha sido mejorada, pero el audio de salida de la síntesis de habla contemporánea aún es distinguible del habla humana.

Debido a la proporción de costo-rendimiento, los sintetizadores de habla se han convertido cada vez más baratos y accesibles para las personas, más gente será beneficiada por el uso de programas texto-habla.[12]

Dispositivos electrónicos

La computadora y el sintetizador de voz usado por Stephen Hawking en 1999

Los primeros sistemas de computadora basados en la síntesis de voz fueron creado en los cincuenta. El primer sistema general de inglés de texto-habla fue desarrollado por Noriko Umeda et al. en 1968 en Laboratorio Electrotecnico en Japón.[17]

Dispositivos móviles electrónicos incluyendo síntesis de voz comenzaron a aparecer en los setentas. Unos de los primeros fue la calculadora para ciegos Speech+ de Telesensory Systems Inc. (TSI) en 1976.[23] la cual produjo el dispositivo en 1980.

Other Languages
Afrikaans: Spraaksintese
العربية: تصنيع صوتي
български: Речеви синтез
čeština: Syntéza řeči
Esperanto: Parolsintezo
føroyskt: Talusyntesa
français: Synthèse vocale
Bahasa Indonesia: Sintesis bunyi
italiano: Sintesi vocale
日本語: 音声合成
қазақша: Сөз синтезі
한국어: 음성 합성
latviešu: Runas sintēze
Bahasa Melayu: Sintesis pertuturan
Nederlands: Spraaksynthese
norsk nynorsk: Talesyntese
norsk bokmål: Talesyntese
polski: Synteza mowy
português: Síntese de fala
русский: Синтез речи
srpskohrvatski / српскохрватски: Sinteza govora
Simple English: Text to Speech
српски / srpski: Sinteza govora
svenska: Talsyntes
українська: Синтез мовлення
中文: 语音合成