コードギアスの音声合成のサイトができたらしい。

 そんなふうに題名に書いておきながら、私はコードギアスがいかなるものかを知らない。どうやらアニメやライトノベルのようであるが、公式サイトやwikipediaを見てもよく分からなかった。とにかく、そのアニメのキャラクターの声の音声合成をするサイトができたらしいので、試してみた。本日の日記は、使ってみた感想である。

 まず一言でいえば、とてもよくできている。初音ミクの登場のときに音声合成に驚かれた方も多いと思うが、今回も驚く。私は実のところ初音ミクのときには驚かなかったのであるが、今回のコードギアスには驚かされた。

 音声合成サイトには、男声と女声が用意されているのだが、最初に女声で「現実をねじ曲げたのだ」と合成させてみた。これは多くの(工学系)音声研究者が使っているデータベースの第一文である「あらゆる現実をすべて自分の方へねじ曲げたのだ」を縮めたものである(無料では15文字までしか受けつけてもらえないため)。大体の音声のアプリケーションは、この文を使えば品質がほぼ分かる。実際に聞いてみると(聞いてみてください)、何もパラメータを手動でいじっていないにもかかわらず、極めて自然に聞こえる。素晴らしい。

 さらに、今度は男声で「黒が六十九に封鎖したかに見える」という数年前の囲碁の観戦記の序文を合成させてみた。今度はさすがに声の高低が少々おかしくなったので、調整をした(調整後のパラメータが見られるので見てください)。まず、「封鎖したかに」を一息で言っていたので、これを「封鎖」と「したかに」に分割した。音の高低を自動生成するときには、一区切りが一山になるように生成するはずなので、これで「封鎖・したかに」が二山になる。さらに、この性質にしては抑揚が平板だったので、文節(?)の最初の部分を低くして強調した。アクセントと無声化の部分は自動生成されたものをそのまま使っている。最後の「見える」が少々速いかと思ったので、ゆっくりにした。

 といった具合に操作をしてみると、音声合成の難しさというのが見えてくる。まず、声の高さを語るときには、「高」「低」の二値で説明されてしまいがちだが、パラメータを見れば分かるとおり、音の高さは連続値であり、また直感に反する部分もある。これを字面から推定しなければならないのである。かなり難しいということが分かるだろう。興味を持った人はぜひ実際に試してほしいのだが、高さを少しでも変えると、途端に不自然な声になる(とはいえ不自然になりすぎないようにパラメータの範囲が決められているようではあるが)。

 また、速さの部分も難しいはずである。人は一音一音等間隔に喋っているのではなく、かなり複雑に伸縮させて喋っている。無意識に伸縮させてしまっている。この時間伸縮を機械に生成させるのはかなり難しいはずであるが、見事に再現されている。この難しさは日本語を母語としない話し手の喋り方を思い出してみると分かると思う。リズムが変だと感じたことがあるはずだ。人間の言葉というのはリズム(速度・スピード)の再現が難しいのである。であるが、この速度に関してはほとんどパラメータの修正が要らなかった。見事である。

 このコードギアス音声合成のサイト、見た目よりもはるかに難しいことをしている。ところで、私にはこのサイトのトップページ上部の「手に入れたギアスを使って」という部分の意味が推測できなかったのだが、調べてみるとどうやら、人を操る力をギアスと呼んでいるらしい。音声合成の研究者は(おそらく)「機械が自発的に喋っているように見える」状態を目指していたと思うのだが、「機械を操って喋らせる」という考え方も面白い。今回のパラメータ調整では、例えば「あ」と発音させたいときに「どんな」「あ」をデータベースから選んでくるかというところだけはいじることができなかったが、そこも操れるようになるとより自然なチューニングができるようになるのかもしれないと思った。インタフェースの設計が難しくなるが。