罪悪感。

 私の専攻は情報工学で、音声関連の研究をしている。普段は「雑音除去」の研究をしているが、本日の日記では「音声認識」について書く。

 現在、五月である。研究室に新しい卒業研究生(学部生)が入ってきてから約一ヶ月半が経過している。うちの研究室はだらけているので*1、五月になってようやく、学部生たちに対して音声の専門的なことを教えるという段階になる。遅すぎるスタートである。

 で、その教える内容に私は少々罪悪感を覚えている。なぜなら、教えようとしている内容を私自身が信用していないからである。その内容というのは、世界中で「音声認識」として広く使われている技術の初歩なのであるが、最近になって、「この方法はおかしくないか?」という声が音声の研究者から出始めている。私もおかしいよなあ、と思っている。だから、罪悪感を覚えている。でも、一応基本事項なので、教えざるを得ない。

(ちなみに、理系の大学三年生のために私が作った音声認識技術の紹介ページはこんな感じであるが、特に本日の日記を読むにあたってこれを読む必要はない。http://recognition.web.fc2.com/

 基本事項として教えているのは、大雑把にいえば次のようなことである。

 人によって「あ」とか「い」とかいう音声は、波形の形も違えば使っている周波数帯域も違う。また、電話で喋っているのか実際に会って話しているのかトンネルの中で喋っているのかによっても、音声の性質は異なる。つまり、「人」や「場所」によって音声の性質は変わってくる。ここまでは事実である。

 ここから先、二つの仮説が成り立つ。

 一つは、「人や場所によって音声の性質は変わるが誤差の範囲だ」という考え方である。この考え方に基づく手法では、その「誤差」を膨大な量のデータでカバーすることによって解決している。逆にいえば、膨大な量のデータがなければ、「誤差」をカバーすることができないということである。そして、この考え方で、現在の音声認識は作られている。今回教えるのはこの考え方であり、私はこの考え方に懐疑的である*2

 もう一つは、「人や場所によって変わる音声の性質は誤差の範囲に収まらない」という考え方である。こちらの研究はほとんど進んでいない。進んではいないが、説得力のある考え方であると私は思っている。なぜなら、幼児は限られた範囲の人間の会話に耳を傾けるだけで、それまで聞いたこともないような声を聞くことができるようになるからである。また、大人も日常生活では聞かないような「都合により音声を変えている」声なども聞くことができる。人は、聞いたことのない声も聞くことができる。これらの事実は前者の仮説では説明できない(データによってカバーできていない範囲の声も人間は認識できているから)。ただし、この「誤差の範囲に収まらない」という考え方は前者の考え方を否定しているだけで、それだけでは何も産み出さないため、批判する場合には新しい仮説を立てる必要がある*3

 とにかく、間違っていそうな考え方を力業で補うという「現在の常識」に対して、私は賛成することはできない。また、賛成することのできない考え方を基本事項として教えることに罪悪感を抱いている。かといって、後者の話を始めると学部生たちは混乱してしまう。

*1:だらけていることについてはまたいつか書くと思う。愚痴として書く。

*2:「完璧な鳥」というキーワードでそのうちもう一度語る。

*3:新しい仮説を立てた人の例をそのうち紹介する。