音声認識と雑音。

 現在の音声認識の分野では、実際のところは音声認識そのものの研究はされていない。なぜなら、音声認識の研究はもうすでに終わったものと見なしている人が多いからである。だから、この分野では音声認識の弱点を補うか、音声認識の技術を利用して何かほかのことをするかという研究が主流である。

 音声認識の弱点として真っ先に挙げられるのは「雑音」に関するものである。以前書いたことがあるが、現在の音声認識はクーラーの音や音楽が弱くマイクに入ってしまうだけでも性能が著しく低下してしまい、人間が大声を出さざるを得なくなる。それはそもそも音声認識技術そのものが何か致命的に間違えているのではないかと私は思っているのだが、そう考えて行動を起こす人はまれで、大抵は「雑音に強くなるような改良」を施すことを考える。

 簡単に思いつくのは「雑音を引き算してしまう」というものである。これを専門用語でスペクトラル・サブトラクションと呼ぶ。この手法はかなり(数値の上から見れば)有効であり、現在の音声認識技術はほとんどがこの機能を実装しているのではないかと思われる。

 次に考え出された手法は、マイクを複数使うというものである。人間の耳が複数あるのだから、マイクが複数あってもよいという考え方である。具体的には、音源によってマイク間への到達に時間差があることや音の強弱の差があることなどを利用する。

 ただし、これらの考え方はあまり本質的ではないと私は考えている。次の日記では、私の考え方を書こうと思う。