音声認識用の自然言語を作るとしたら。

 本日の話はたわごとであるが、それなりに面白いような気がするので書く。音声認識とインタフェースに関する話である。

 とある人に音声認識についていろいろと聞かれた。その人はほとんど音声認識について技術的な知識がなく、質問は「今どこまで音声認識はできているのか」という抽象的なところから始まった。その後、話はいろいろと飛んだのだが、最後にその人ならではの視点からの質問が来た。こんな質問である。

「パソコンのキーボードはとても打ちづらい配置になっているが、人はそれに適応した。つまり、人が道具に合わせた。音声認識でも人が道具に合わせることは可能なのか? つまり、音声認識に合わせた人工言語を作ることは可能なのか?」

 最初私は直感的に不可能だと感じたが、数秒考えて「あるといえばある」ということを答えた。音声認識が苦手なのは、子音と子音に伴う無音区間の扱いである。無音区間というのは単語と単語の間とかいう意味ではなく、「あか」と発音したときの/k/の手前にある短い無音区間である(どんな人にも/k/の手前には短い無音区間がある)。この無音区間がなければ音声認識が格段にやりやすくなるので、「母音と半母音と鼻音(/n/や/m/)」だけで構成された言語ならもしかしたら音声認識精度が上昇するかもしれない。

 なお、ほかの解答としては、「語彙が少ない言語」というのも考えられる。

 私の答えは間違っているかもしれないが、相手のこの質問は面白いと感じた。この質問に答えるには、音声認識の弱点について考えなければならないからである。それによって、自分が音声のどこに関心を持っているのかが分かる。