Síntese de fala

Um microcomputador Apricot, de 1984, o qual já possuía limitada capacidade de síntese de voz.

Síntese de voz é o processo de produção artificial de voz humana. Um sistema informático utilizado para este propósito é denominado sintetizador de voz, e pode ser implementado em software ou hardware. Um sistema texto-voz (TTS, na sigla em inglês) converte texto em linguagem normal para voz. Outros sistemas interpretam representação lingüística simbólica (como transcrição fonética) em voz. [1]

Voz sintetizada pode ser criada concatenando-se pedaços de fala gravada, armazenada num banco de dados. Os sistemas diferem no tamanho das unidades de fala armazenada. Um sistema que armazene fones ou alofones fornecem a maior faixa de saída, mas podem carecer de clareza. Para usos específicos, o armazenamento de palavras ou frases inteiras possibilita uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal (caminho percorrido pela voz) e outras características da voz humana, para criar como saída uma voz completamente "sintética". [2]

A qualidade de um sintetizador de voz é determinada por sua similaridade com a voz humana e por sua capacidade de ser entendida. Um programa TTS inteligível permite que pessoas com deficiência visual ou com dificuldades de leitura possam ouvir obras escritas em um computador pessoal. Muitos sistemas operacionais têm incluído capacidade de síntese de voz desde o início da década de 1990. Na década de 1990, surgiram sistemas que fazem a operação inversa de converter voz para texto.

Esquema de um sistema texto-voz.

Um sistema texto-voz é composto de duas partes: [3] um front-end e um back-end. O front-end tem duas tarefas principais. Primeiro, converter texto bruto contendo símbolos como números e abreviações no equivalente de palavras escritas. Este processo é muitas vezes chamado de normalização de texto, pré-processamento ou tokenização. Depois, atribuir transcrições fonéticas a cada palavra e dividir e marcar o texto em unidades como sentenças, frases e cláusulas. Este processo é chamado de conversão de texto para fonema ou grafema para fonema. As transcrições fonéticas e as informações da prosódia compõem a representação lingüística simbólica que é produzida pelo front-end.

Então, o back-end (muitas vezes referido como o sintetizador) converte a representação lingüística simbólica em som. Em certos sistemas, esta parte inclui a computação da prosódia (contorno de tom, durações de fonemas), [4] que é então imposta na fala de saída.

História

Muito antes da invenção do processamento de sinal eletrônico, algumas pessoas tentaram construir máquinas para emular a fala humana. Algumas primeiras lendas do Brazen Head envolveram o Papa Silvestre II (946 – 1003), Albertus Magnus (1198 – 1280), e Roger Bacon (1214 – 1294). Em 1779, o cientista dinamarquês Christian Gottlieb Kratzenstein, que trabalhava na Academia de Ciências da Rússia, construiu modelos do trato vocal humano que podiam produzir os cinco sons das vogais longas (na notação alfabética fonética internacional: [aː], [eː] [Iː], [oː] e [uː]). [5] Em seguida, a "máquina de fala acústico-mecânica" de Wolfgang von Kempelen, de Pressburg, na Hungria, foi descrita em um artigo em 1791. [6] Esta máquina adicionou modelos da língua e dos lábios, permitindo que fossem produzidas tanto consoantes quanto vogais. Em 1837, Charles Wheatstone produziu uma "máquina de falar" com base no projeto de von Kempelen. Em 1846, Joseph Faber exibiu a Euphonia. Em 1923, Paget ressuscitou o projeto de Wheatstone. [7]

Na década de 1930, Bell Labs desenvolveu o vocoder, que automaticamente analisou a fala em seus tons e ressonâncias fundamentais. Do seu trabalho no vocoder, Homer Dudley desenvolveu um sintetizador de voz operado por teclado chamado The Voder (Voice Demonstrator), exibido na Feira Mundial de Nova York de 1939. Dr. Franklin S. Cooper e seus colegas do Haskins Laboratories começaram a construir o Pattern Playback no final dos anos 1940 e terminaram o projeto em 1950. Das várias versões diferentes deste dispositivo hardware, apenas uma continua existindo atualmente. A máquina converte imagens dos padrões acústicos do discurso na forma de um espectrograma de volta ao som. Usando este dispositivo, Alvin Liberman e seus colegas descobriram pistas acústicas para a percepção dos segmentos fonéticos (consoantes e vogais).

Os sistemas dominantes nas décadas de 1980 e 1990 foram o sistema DECtalk, baseado em grande parte no trabalho de Dennis Klatt no MIT, e o sistema Bell Labs, [8] um dos primeiros sistemas multilíngues de linguagens independentes, fazendo uso extensivo de métodos de processamento de linguagem natural. Os primeiros sintetizadores de voz eletrônicos pareciam robóticos e quase nunca eram inteligíveis. A qualidade da fala sintetizada tem melhorado continuamente, mas a saída A de 2016 dos sistemas de síntese de fala contemporânea permanece claramente distinguível da fala humana real. Em 2005, Kurzweil previu que como a relação custo-desempenho tornou os sintetizadores de voz mais baratos e mais acessíveis mais pessoas poderiam se beneficiar do uso de programas texto-voz. [9]

Dispositivos eletrônicos

Box do computador e do sintetizador de voz, usados por Stephen Hawking em 1999.

Os primeiros sistemas de síntese de fala de computador surgiram no final da década de 1950. Em 1968, Noriko Umeda et al. desenvolveu o primeiro sistema texto-fala em inglês no Electrotechnical Laboratory, no Japão. [10] Em 1961, o físico John Larry Kelly, Jr e seu colega Louis Gerstman [11] usaram um computador IBM 704 para sintetizar discursos, um dos eventos mais proeminentes da história da Bell Labs. O sintetizador de voz de Kelly (vocoder) recriou a canção Daisy Bell, com acompanhamento musical de Max Mathews. Coincidentemente, Arthur C. Clarke estava visitando seu amigo e colega John Pierce nas instalações do Bell Labs Murray Hill. Clarke ficou tão impressionado com a demonstração, que a utilizou na cena culminante do seu roteiro para seu romance 2001: Uma Odisséia no Espaço, [12] na qual o computador HAL 9000 canta a mesma música que o astronauta Dave Bowman coloca para dormir. [13] Apesar do sucesso da síntese de fala puramente eletrônica, a pesquisa em sintetizadores de fala mecânicos continua. [14]

A eletrônica portátil com síntese de fala começou a surgir na década de 1970. Um dos primeiros dispositivos foi a Speech +, calculadora portátil para cegos desenvolvida pela Telesensory Systems Inc. (TSI) em 1976. [15] [16] Outros dispositivos tinham propósitos principalmente educacionais como o Speak & Spell, brinquedo produzido pela Texas Instruments em 1978. [17] A Fidelity lançou uma versão falada do seu computador de xadrez eletrônico em 1979. [18] O primeiro jogo de vídeo para caracterizar a síntese de fala foi o arcade game shoot 'em up Stratovox (conhecido no Japão como Speak & Rescue), lançado pela Sun Electronics em 1980. O primeiro jogo de computador pessoal com síntese de fala foi Manbiki Shoujo (Shoplifting Girl), lançado para o PET 2001 em 1980, para o qual o desenvolvedor do jogo, Hiroshi Suzuki, criou uma técnica de programação zero cross para produzir uma forma de onda de fala sintetizada. [19] Outro exemplo é a versão arcade de Berzerk, também de 1980. No mesmo ano, a Milton Bradley Company produziu o Milton, primeiro jogo eletrônico multi-player usando a síntese da voz.

En otros idiomas
Afrikaans: Spraaksintese
العربية: تصنيع صوتي
български: Речеви синтез
čeština: Syntéza řeči
Esperanto: Parolsintezo
føroyskt: Talusyntesa
français: Synthèse vocale
Bahasa Indonesia: Sintesis bunyi
italiano: Sintesi vocale
日本語: 音声合成
қазақша: Сөз синтезі
한국어: 음성 합성
latviešu: Runas sintēze
Bahasa Melayu: Sintesis pertuturan
Nederlands: Spraaksynthese
norsk nynorsk: Talesyntese
Papiamentu: Síntesis di bos
polski: Synteza mowy
русский: Синтез речи
srpskohrvatski / српскохрватски: Sinteza govora
Simple English: Text to Speech
српски / srpski: Sinteza govora
svenska: Talsyntes
українська: Синтез мовлення
中文: 语音合成