たまには専門のことを。

 音声工学をずっとやってきたはずなのに、最近十件の中に音声が少なかったので、音声のことを書く。音声工学といっても様々な応用分野があり、現在世間に流行しているバイオメトリクスなども古くから研究されていたり、比較的新しいところでは感情認識なども研究されていたりする。全てについて一度に語ることは私にはできないので、音声認識について語る。

 音声認識(機械による自動音声認識)の性能が使い物になるレベルか使い物にならないレベルかということに関しては、様々な人が様々なことを言っているが、どの人も「まだ性能が上がる余地はある」ということに関しては共通して思っているようである。ただし、どの部分をいじれば性能が上がるかということに関しては見解がばらばらである。

 機械による音声認識というのは、大きく二つの部分に分かれている。音響モデルと言語モデルである。どちらもさらに細かく分類することができ、それぞれの人がそれぞれの問題意識に従って改良を積み重ねている。私は、音声認識の研究というのはどの部分を改良しても全体の性能の向上につながると思っている。だから、音声認識には無駄になってしまう研究はないだろうと思う。それぞれの人がそれぞれの方法でアプローチをすればいい。

 さて、私の問題意識を語ろう。音声認識ボトルネックは、スペクトル包絡とその時間変化しか見ていないことなのではないかと思っている。音声認識をするには、これでは入力変数が足りていないのではないかと思える。母音に関してはスペクトル包絡を統計分析すれば充分に認識できるだろうと思える。けれど、子音に関しては、比喩的にいえば「その人の身長を体重から推定しているようなもの」のように思える。スペクトル包絡と子音は無関係ではないだろうが、スペクトル包絡よりもさらに子音を適切に測る特徴量があるように思えてならない。

 スペクトル包絡云々に関しては見解が人それぞれだが、子音に注目している研究室はそれなりに存在している。文系の音韻論の分野では、母音も子音も同じくらい解明されているようだが、工学系の音声の分野では子音について(工学的な観点から)明解に語れる人はおそらくいない。工学系の音声の論文の題名を眺めてみても、子音について語っている人はわずかであり、そのわずかな子音の論文を眺めてみてもまだまだ子音の解明には時間がかかりそうだと感じられる。

 子音の解明が音声工学の全てだと語るつもりはないが、音声工学の飛躍のためには子音に関してさらに時間を割く必要があると思っている。

 現在私は活動できる時間のほとんどを子音に費やしているが、観察をすればするほど母音の常識で子音を語るのは無意味なのではないかと思えてくる。