フォルマントの情報量と日本語五母音。

 本日の日記は音声の母音についてのどうでもいい話である。専門用語多め。

 しばしば母音を語るときに第一フォルマントと第二フォルマントの二つで表すことを前提として話が進められることがあるが、このところ母音をいろいろと触っていて日本語五母音をたった二つのパラメータで表すのは無理なんじゃないかという気がしてきた。フォルマントという概念が悪いとかいうことではなく、「たった二つのパラメータ」というところがポイントである。

 文系でも理系でも多くの研究で第一・第二フォルマント平面の図が使われており、物理モデルを考えてみても長さ20cm程度の管なら共振点の数はそれくらいでいいだろうということになっているが、私の感覚ではそれでは弁別のためのパラメータが足りない。

 このところスペクトルから日本語の母音を読み取る作業をしているのだが(その作業が目的ではなくほかの目的のためにしている)、「あ」と「お」は非常に区別がつきづらい。私がスペクトルから母音を読みとるときに見るポイントは二つあるのであるが(フォルマントではない。どこを見ているかは書かない)、スペクトルを見て「あ」だと思ったら耳では明らかに「お」だったこともあるし、その逆だったこともある。いっそのこと、日本語から「お」が消えてくれれば音声認識がしやすくなるのにと思ったりもする。または、「あ」が消えてくれてもいい。スペクトルから読み取れる情報量に対して日本語の母音数というのは多いんじゃないかという気になってくる。日本語「4」母音ならどれほど嬉しいことか。何か自分には見えないパラメータがどこかにひそんでいるんじゃないかという気になってくる。どこにひそんでいるのか。

 そういうことを考えていて、音声波形(時間軸に振幅が並んでいる最も基本的な波形)を見ていたら、「あ」と「お」の区別がつくことに気づいた。スペクトルは似ているのに「あ」と「お」の音声波形はかたちが全然違うのである。言葉では言いづらいのだが、「あ」と「お」は違う。強いていえば、「あ」の方がゼロ交差回数が多い(とも言い切れないが)。これだけ違うとスペクトルに現れてくれてもいいはずなのに、スペクトルからはほとんど読みとれない。

 波形からスペクトルにするときに意図せずパラメータが何か消えているんじゃないかという気がしている。