白色化した音声。

 本日の日記は、ちょっとした実験の結果である(内容としてはかなり専門的である)。実験のスクリプトはSkyDriveというオンラインストレージに置いておいた。

 音声信号をどこまでいじったら音韻の同一性は崩れるのか(崩れないのか)、ということについての実験なのであるが、これから語ることが有名な話なのか、あまり知られていない話なのかは私は知らない。おそらく、音声工学の初期の頃に似たような実験が盛んにおこなわれていたのではないかと思うが、私は伝え聞いていない。

 さて、どのような実験をしたのかを語ろう。一言でいえば、音声を白色化してそれを聞いてみたのである。まず、「あかさたなはまやらわがざだばぱ」という声を録音した。そして、それをFIRフィルタを使って細かい帯域に分割した。さらに、帯域ごとにフレームに分割した。ここまでで「時間」と「周波数帯域」でばらばらに分割された音声が得られたことになる。これらの断片をパワーで正規化し、もとの一つの音声に戻した。こうして、音声のパワーをどの時刻のどの周波数帯域でもほぼ一定にした。難しいことは何もしていない。

 実験条件を一応書いておく。サンプリング周波数は8kHzである。フレームの窓長は25msでシフト幅は12.5msであり、矩形窓である。FIRフィルタの通過帯域の幅は100Hzである。音声工学を知っている人なら、かなり細かく分割したということが分かると思う。

 白色化前のスペクトログラムは以下の二枚の図のようになっている(見る角度が違う)。横軸が時刻で、縦軸が周波数で、高さ(色)が対数パワーである(座標の値は適当である)。15個の母音の間に子音部分があることが見てとれる。耳で聞いてみてもはっきりと(舌足らずだが)「あかさたなはまやらわがざだばぱ」と聞こえる。


 問題は白色化後である。スペクトログラム二枚は以下のようになっている。ほぼ白色化されているということが見てとれる(パワーが時刻・周波数でほぼ一定になっている)。一般に、音韻性はパワーの大局的な分布に現れているとされているので、パワーが一定で情報量がほとんどないこの状態では音韻性は聞きとれないはずであるが、何回か耳で聞いていると「あかさたなはまやらわがざだばぱ」と聞こえてくる。特に、「まやらわ」のあたりが聞きとりやすい。反対に破裂音はあまり区別ができない(なお、それなりに高級なスピーカーやヘッドホンでないと聞こえてこない)。


 白色化後に音韻性が聞きとれるということについての最も簡単な説明は、この白色化が白色化としては不完全であるというものであろう。全体としては白色化されているように見えても、局所的には白色化されていないので、そこから何らかの情報を拾ってくることができる。とはいえ、音声工学を知っている人からすれば、気持ち悪い現象である。音韻性が音声信号のどこに残っているのかがはっきりしないからである。

 ちゃんとしたデータベースを持っている研究室の人で、暇を持て余している人がいたら、追試をしてみると面白いかもしれません。