"発話障害者支援のための音声生成器"

　先日、東京大学で開催された音声・聴覚研究会を聴講しに行ってきた*1。ここ数年で音声周りの研究会のレベルが上がっているように思えるのだが、そのことは置いておいて、最も印象に残った発表を紹介する。タグは「音声認識」となっているが、音声合成の研究である。題名は「発話障害者支援のための音声生成器」である。予稿はウェブ公開されていないが、大学の図書館などで閲覧可能のはずである。

　身体的な障害には様々な種類のものが存在するが、その中で声を出すことに関して障害がある場合がある。手は動くし、声帯もあるが、顎や舌が動かずに「あー」という発生しかできない場合である。そういった障害を持つ人は基本的には筆記によって意志を伝えるしかないわけであるが、やはり自分の声を出したくなるものである。この発表は「あー」からいかに「自在に」声を造り出すかを目標としている。単純に考えてしまえば、文字を機械が読み上げるという既存の音声合成技術を使ってしまえばいいようにも思えるが、そうではなく、「発話速度」「大きさ」「曖昧な発生」など発話の全てを自在に制御することを目指している。また、自分の声をベースに合成するということも重要な点である。

　ほとんどの言語は「有声音」と「無声音」に分けることができる。有声音は発声時にのどが震える音、無声音は震えない音である。結論からいってしまえば、発表者たちは無声音に関してはまだ研究中であるらしい。一方で、有声音に関してはすでにかなりのところまで実装されていた。入力はペンタブレットであり、そこにペンで「声の軌跡」を描くことにより「青い家」*2といった発話をかなり明瞭に合成することに成功している。

　では、「声の軌跡」とはなんなのか。日本語の有声音はわずか二つのパラメータさえあればある程度は再現できるとされている*3。有声音ばかりの発音を健常者にさせて機械で解析すると、二つのパラメータが飛び回っていることが分かる。この二つのパラメータをペンタブレットの平面に対応させて「パラメータの軌跡」を描くことによって自在な発声を可能にしている。

　ただし、ここまでは音声の関係者にしてみれば、予想内の発表である。もちろん、それを実際にプログラムしたり研究してみたりしたことは素晴らしいが、あくまで想定の範囲の出来事である。本当に面白いことは、質疑応答の中で起きた。

　とある先生が、「このペンタブレットの扱いに習熟してくると、声を聞かなくてもペンタブレットの動きだけで何を言っているのかが分かるようになるか」という質問をした。答えは「分かる」というものだった。また「ペンタブレット上の軌跡の『形』と、ペンタブレット上の軌跡の通過した『位置』とでは、どちらのほうが読みとりに重要か」という質問もしていた。答えは、「習熟するまでは『位置』だが、習熟してからは『形』」であるとのことだった。

　なぜこの質問が面白いのかといえば、ある意味で「赤ん坊の聴覚発達過程のアナロジー」になっているかもしれないからである。発表者たちは最初はこの音声合成機に習熟していなかった（つまり発音ができなかったし、読みとることもできなかった）。しかし、習熟していくにつれ、発音ができるようになり、読みとることもできるようになった。その読みとりの習熟の際に『絶対位置』から『相対位置』への転換があった。そう考えていくと、あくまで仮説ではあるが、「赤ん坊の聴覚発達過程」でも絶対音から相対音への転換があるのかもしれない。そういうことをこの質疑応答は示唆している（あくまで仮説である）。もしその転換が本当にあって、大人は「相対音」で言葉を認識しているのだとしたら、「絶対音」で理論を組み上げてきた現在の音声認識にとっては結構な打撃となる。

　とにかく非常に面白い研究なのだが、筆頭著者は卒業してしまうのだろうか。そもそも彼は学生なのだろうか（内部事情は分からない）。ぜひこれは研究を続けていってほしいところである。工学は実際にものを造った瞬間に格段に進歩する。

*1:なぜか東大に制服姿の高校生たちがたくさんいた。見学会でも開催されていたのだろうか。

*2:実際にデモをしてくれたのは「おはようございます」「こんにちは」などであったが、これらは無声音を含むためにやや聞きとりづらい。

*3:専門用語では「第一フォルマント」と「第二フォルマント」である。