音声合成

音声合成(おんせいごうせい、Speech synthesis)とは、 人間音声を人工的に作り出すことである。これを行うシステムをスピーチ・シンセサイザーSpeech synthesizer)、これにより生成した音声を合成音声(ごうせいおんせい)と呼ぶ。

人工的に人の声を合成するシステムであり、テキスト(文章)を音声に変換できることから、しばしばテキスト読み上げtext-to-speech、略してTTS)システムとも呼ばれる。また、 発音記号を音声に変換するシステムもある。

歴史

現代的な電子信号処理が発明されるずっと以前から、 西アフリカトーキングドラム等のように音声を模倣する試みがなされてきた。

音声を合成する初期の試みとしては、のちに 教皇 シルウェステル2世となるオーリヤックのジェルベール(1003年没)、 アルベルトゥス・マグヌス(1280年没)、 ロジャー・ベーコン(1294年没)などの人物が音声合成を試みている。1779年にはドイツ人 クリスティアン・クラッツェンシュタインは母音 (a, e, i, o, u) を発声できる機械を製作した [1]

この流れはふいごを使った機械式音声合成器を作った オーストリア(ハンガリー)の ヴォルフガング・フォン・ケンペレンに引き継がれた。彼は 1791年に論文 [2]を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。

1837年チャールズ・ホイートストンはフォン・ケンペレンのデザインを元にしゃべる機械を製作し、 1857年、M. FaberはEuphoniaを製作した。ホイートストンの機械は 1923年Pagetによって再現されている [3]

1930年代ベル研究所のホーマー・ダドリー( Homer Dudley)は 通信用の電子式音声分析・音声合成マシンである ヴォコーダー (Vocoder、Voice Coderの略) を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型のスピーチ・シンセサイザーであるヴォーダー(voder)を製作し、 ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる。1940年代、ハスキンズ研究所(Haskins Laboratories)のフランクリン・S・クーパー( Franklin S. Cooper)らは Pattern playbackという名の機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン( Alvin Liberman)らはこれを 音声学の研究に利用した。

最初のコンピュータを使った音声合成システムは1950年代終盤に開発され、最初のテキスト読み上げシステムは1968年に開発されている。1961年、物理学者John Larry Kelly, Jr.とLouis Gerstmen [4]ベル研究所にて IBM 704を使って音声合成を行った。そして『 デイジー・ベル』という歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていた アーサー・C・クラークは、このデモを聴いて感銘を受け、『 2001年宇宙の旅』で HAL 9000が歌うクライマックスシーンが生まれた [5]

初期の電子式スピーチ・シンセサイザーの発声は、ロボット的であまり明瞭ではないものが多かった。その後の発達により、今日のTTSシステムはむしろ人間の声と区別が付かない場合が少なくない。(ただし電子式の成功後も、人間型ロボットに発声させるため、機械式音声合成の研究は続けられた。発声メカニズムのコンピュータによるシミュレーションには限界がある一方、ロボットで人間の体の構造を模倣した機械式音声合成により、それより良いシミュレーションができる可能性はあるからである [6])。

他の言語で
Afrikaans: Spraaksintese
العربية: تصنيع صوتي
български: Речеви синтез
čeština: Syntéza řeči
Esperanto: Parolsintezo
føroyskt: Talusyntesa
français: Synthèse vocale
Bahasa Indonesia: Sintesis bunyi
italiano: Sintesi vocale
қазақша: Сөз синтезі
한국어: 음성 합성
latviešu: Runas sintēze
Bahasa Melayu: Sintesis pertuturan
Nederlands: Spraaksynthese
norsk nynorsk: Talesyntese
Papiamentu: Síntesis di bos
polski: Synteza mowy
português: Síntese de fala
русский: Синтез речи
srpskohrvatski / српскохрватски: Sinteza govora
Simple English: Text to Speech
српски / srpski: Sinteza govora
svenska: Talsyntes
українська: Синтез мовлення
中文: 语音合成