なぜ音声認識はそれっぽくなっているのか。

 どれほど音声認識が杜撰に作られているかということをこれまで書いてきた。今回は「杜撰であるにもかかわらずなぜそれっぽくなっているのか」ということを書こうと思うが、その前に簡単に「なぜ杜撰に作ってしまったのか」ということを書く。

 音声認識の研究は「日本語を喋ったら英語を出力してくれるような自動翻訳機を作りたい」という願望から始まっている。つまり、工学的な動機である。乱暴な言い方をしてしまえば、工学というのはうまくいけば理論がよく分からなくても許される世界なので、うまくいっている限りは理論の見直しをしようという動機は生まれない。機械翻訳はご存じのとおりあまりうまくいっていないが、音声認識は年を追うごとに急速に(数字の上では)進歩していった*1。ゆえに、理論が見直されることはなかった。逆説的ではあるが、音声認識は「わけも分からずにうまくいってしまった」という意味で不幸な分野なのである。そういった経緯で、音声認識は杜撰な理論で成り立っている。

 では、なぜ音声認識はそれっぽい挙動を示しているのか。それは、音声を文字に変換するときに間違えても、認識した文字を再び検査して正しい文字に直しているからである*2。例えば、「いてんきでんね」という認識結果が出たら自動的に「いいてんきですね」と直される。これは音声認識が優秀なのではなく、言語処理が優秀なのである。

 音声認識がそれっぽくなっているのは、他分野の「自然言語処理」のおかげである。

*1:今はその進歩も頭打ちになっている。

*2:厳密には違うのだが、概ねこの説明は外れていないはずである。