音声合成

音声合成(おんせいごうせい、Speech synthesis)とは、人間音声を人工的に作り出すことである。これを行うシステムをスピーチ・シンセサイザーSpeech synthesizer)、これにより生成した音声を合成音声(ごうせいおんせい)と呼ぶ。

人工的に人の声を合成するシステムであり、テキスト(文章)を音声に変換できることから、しばしばテキスト読み上げtext-to-speech、略してTTS)システムとも呼ばれる。また、発音記号を音声に変換するシステムもある。

歴史

現代的な電子信号処理が発明されるずっと以前から、西アフリカトーキングドラム等のように音声を模倣する試みがなされてきた。

音声を合成する初期の試みとしては、のちに教皇シルウェステル2世となるオーリヤックのジェルベール(1003年没)、アルベルトゥス・マグヌス(1280年没)、ロジャー・ベーコン(1294年没)などの人物が音声合成を試みている。1779年にはドイツ人クリスティアン・クラッツェンシュタインは母音 (a, e, i, o, u) を発声できる機械を製作した[1]

この流れはふいごを使った機械式音声合成器を作ったオーストリア(ハンガリー)のヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文[2]を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。

1837年チャールズ・ホイートストンはフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年、M. FaberはEuphoniaを製作した。ホイートストンの機械は1923年Pagetによって再現されている[3]

1930年代ベル研究所のホーマー・ダドリー(Homer Dudley)は通信用の電子式音声分析・音声合成マシンであるヴォコーダー (Vocoder、Voice Coderの略) を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型のスピーチ・シンセサイザーであるヴォーダー(voder)を製作し、ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる。1940年代、ハスキンズ研究所(Haskins Laboratories)のフランクリン・S・クーパー(Franklin S. Cooper)らはPattern playbackという名の機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン(Alvin Liberman)らはこれを音声学の研究に利用した。

最初のコンピュータを使った音声合成システムは1950年代終盤に開発され、最初のテキスト読み上げシステムは1968年に開発されている。1961年、物理学者John Larry Kelly, Jr.とLouis Gerstmen[4]ベル研究所にてIBM 704を使って音声合成を行った。そして『デイジー・ベル』という歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていたアーサー・C・クラークは、このデモを聴いて感銘を受け、『2001年宇宙の旅』でHAL 9000が歌うクライマックスシーンが生まれた[5]

初期の電子式スピーチ・シンセサイザーの発声は、ロボット的であまり明瞭ではないものが多かった。その後の発達により、今日のTTSシステムはむしろ人間の声と区別が付かない場合が少なくない。(ただし電子式の成功後も、人間型ロボットに発声させるため、機械式音声合成の研究は続けられた。発声メカニズムのコンピュータによるシミュレーションには限界がある一方、ロボットで人間の体の構造を模倣した機械式音声合成により、それより良いシミュレーションができる可能性はあるからである[6])。

他の言語で
Afrikaans: Spraaksintese
العربية: تصنيع صوتي
български: Речеви синтез
čeština: Syntéza řeči
Esperanto: Parolsintezo
føroyskt: Talusyntesa
français: Synthèse vocale
Bahasa Indonesia: Sintesis bunyi
íslenska: Talgerving
italiano: Sintesi vocale
қазақша: Сөз синтезі
한국어: 음성 합성
latviešu: Runas sintēze
Bahasa Melayu: Sintesis pertuturan
Nederlands: Spraaksynthese
norsk nynorsk: Talesyntese
Papiamentu: Síntesis di bos
polski: Synteza mowy
português: Síntese de fala
русский: Синтез речи
srpskohrvatski / српскохрватски: Sinteza govora
Simple English: Text to Speech
српски / srpski: Sinteza govora
svenska: Talsyntes
українська: Синтез мовлення
中文: 语音合成