音声認識の現時点での限界。

　音声認識技術の限界を三つの例を通して語る。

　一つ目の例は「ふっかつのじゅもん」である。この「ふっかつのじゅもん」についてはおそらくはてなのキーワードリンクを読めば分かると思うので、説明はしない。要するに、五十二文字のランダムなひらがなの羅列である。

「ドラゴンクエスト２」プレイ当時小学校低学年だった私は、このふっかつのじゅもんを一文字ずつ電話で伝えてもらったことがある。電話で伝えてもらった五十二文字のふっかつのじゅもんは、正常に動作した。つまり、私はランダムなひらがなの羅列を１００％の精度で聞きとったことになる。

　一方、現在の音声認識機に同じことをさせたらどうなるのかということを実験してみた。簡単に実験しただけなので、精度の数値に関してはあまり信用してほしくはないのだが、音声認識機は約六割程度の精度でしか「ランダムなひらがなの羅列」を認識してくれなかった。ただこの六割という精度は私の知っている音声認識の能力よりも遥かに悪かった。一般には八割程度は「ひらがなの羅列」を聞きとることができるというのが定説である。いずれにせよ、１００％には到底およばない。今の音声認識機は「ふっかつのじゅもん」を聞きとることができない。

　二つ目の例は雑音である。踊りを踊るロボットや走るロボットなどが注目されている。このロボットは音声認識機を搭載していることも多い。ただし、このように動くロボットは当然のことながら内部にモーターを積んでおり、そのモーターの音は近くに寄れば人間も聞くことのできるくらいの大きさである。

　このモーターの音が邪魔をして、音声認識がうまくいかないことが多々ある。ロボット展示場などの音声認識のデモンストレーションなどで、デモンストレーターの方が相当大きな声を出しているのは、このせいである。自分の出すモーターの音で、ロボットは音声認識の精度を落としている。

　三つ目の例は少々変則的なのであるが、人間の聞きとれない音声を機械が聞きとってしまうという話である。

　例えば、「あ」という音の波形の一部を切りとったとする。そして、その波形を三秒間分くらい繋げたとする。この波形を耳で聞くとどうなるかというと、ブザーが鳴っているように聞こえる。私以外の人間の耳でも試したが、決して「あー」には聞こえず、人間の声にすら聞こえず、ハエが耳許で飛んでいるような音に聞こえる。

　しかしながら、これを音声認識にかけると、不思議なことに「あー」と認識される*1。機械の音声の聞き方は、人間のものとはかなり異なるようである。

　以上、少なくともこれら三つの問題が存在しているが、このあたりの問題に挑戦している人は少ないように思える*2。

*1:「不思議なことに」と書いたが、そうなるように今の音声認識技術は作られている。

*2:または、解決の糸口が見つからないために、発表することができず、目立たないだけかもしれない。