哲学的な問いかけではなく工学的な問いかけ対象としての音素。

 現在の音声認識というのは、「音素認識」から出発している。音素というのはおおよそ、声をローマ字表記したときの一つ一つの文字だと思ってもらえればいい。例えば、「音素」は/o/,/N/,/s/,/o/の四つの音素に分解できる。この音素が認識できれば、それを結合して単語を認識することができ、単語が認識できればそれを結合して文を認識することができる。この二回の結合にもそれぞれよく考えられた技術が用いられているのであるが、音声認識の基本は「音素認識」である。

 ここで、とある先生がかなり重要な問題提起をした(まだウェブ公開されていないので引用ができない)。

1.「音素」というのはある空間上で固定されているのか?
2.「音素」というのはほかの「音素」との関係によって定義されるのか?

 という二択である。文系の音声学の人に聞けば「両方正解」ということになるのかもしれないが、理系の音声工学分野では両方を満たすモデルはまだ作られていない。もっぱら「1」の考え方で音素は定義され、「ケプストラム空間」*1という空間と音素が対応づけられている。

 この問題提起は三年前になされ、そのときに私は「音声工学の世界は激変するだろう」と予想したのであるが、意外と何も変わらず「1」の考え方のみで突き進んでいる。それだけ「1」の考え方がうまくいっているということなのかもしれないし、「2」の考え方は面倒くさそうなのでやりたくないだけかもしれない。今後、上述した「とある先生」がどのように動くかが楽しみである(というか動き回っている)。また、私がどう動くかも楽しみである(この方面ではほとんど動いていないが、何か「物証」が出たら動く)。

 

 ところで、全くの余談で恐縮であるが、うちの大学は本日創立記念日である。真珠湾攻撃の日にモールス信号の大学が創立記念日というのは、何か狙っているのだろうか。

*1:時間空間をフーリエ変換して絶対値のログをとって逆フーリエ変換した空間。