「こんとんじょのいこ」と音声認識。

 現行の音声認識の限界について語っている記事の続きである。復習をしておくと、現行の音声認識は「音声をものさしで測り、その結果を辞典で調べて、結果を出力している」ようなものであると書いた。そして、「ものさし」の悪いところを前回は書いた。今回は「辞典」に関して書く。

 辞典に関して書くと宣言しておきながら、まずはバラエティ番組の「トリビアの泉」の中で紹介された「ムダ知識」について書く。はてなダイアリーキーワードリンクにも書かれているが、「こんとんじょのいこ」と発音するとえなりかずきが「簡単じゃないか」と発音しているように聞こえる、というムダ知識がテレビで放映された。試してみると分かるが、確かに「こんとんじょのいこ」は「簡単じゃないか」に聞こえる。

 このムダ知識を知ったとき、やはり音声認識はおかしかったのだと思った。現行の音声認識が「正常に」動作した場合、「こんとんじょのいこ」は"kontonjonoiko"として認識され、決して"kantanjanaika"とはならない。しかし、人間の「正常な」耳には「こんとんじょのいこ」という発音は「簡単じゃないか」と聞こえることもある。

 機械にとって、"o"という発音はあくまで"o"であり、"a"にはならない。ここに現行の音声認識の弱みがある。なぜ"a"が"o"にならないのかといえば、音声のデータベースには「中心的な"a"」や「中心的な"o"」しかないからである。周りの環境や話し手の癖に応じて"a"と"o"が入れ替わるようなことにはなっていない。今回の記事の事例は「こんとんじょのいこ」のみであるが、問題は「環境への適応の困難さ」や「話者への依存性(明石家さんまの声は機械によれば人間の声ではないらしい)」へと波及する。これは、現行の音声認識の根本的な問題である。

 音声認識の悪い点は、"a"という発音に「中心的な"a"」という虚構の概念を構築してしまったことにある。