残差信号を聴いてみた。

 本日の日記もわりと専門的な話である。

 先日、白色化した音声。という日記を書いたところ、以下のようなトラックバックが寄せられた。

PARCORで音声合成するために残差として単純パルス列を用意します。
(略)
元の音声にピッチに対応するようにパルスを並べた物です。
これでも、なんと言ってるか分かってしまうんですよ。

音韻性とは何なのか?

 先日の私の日記は白色化の話だったが、これもパルス列なので近似すれば白色化の話である。音声を聞いてみたかったので、試してみた。LPC分析をして残差をとり出してみた。引用元ではパルス列を用意したようだが、私は残差を加工せずに聴いてみた(深い意図はない。その方がスクリプトを書くのが楽だったからである)。

 実験条件は、サンプリング周波数8kHzで、LPC分析時にハミング窓を用い、窓長25ms、シフト幅12.5msであり、高域強調はしておらず、LPC分析の次元数は20である。スクリプトなどはSkyDriveにアップロードした。

 元の音声信号は「あらゆる現実を全て自分の方へねじ曲げたのだ」という文である。スペクトログラムは以下の二枚である(見る角度が違う)。横軸が時刻で、縦軸が周波数で、高さ(色)が対数パワーである。座標の値は適当である。見る人が見ればいかにも音声という図であり、また、音声そのものも(舌足らずではあるが)明瞭に聞きとれる。


 残差信号のスペクトログラムは以下の二枚である。パワーの時間変化はあるものの、ほぼ白色になっていることが分かる。また、基本周波数も時間変化していることが見てとれる。音声を聞いてみたところ、「あらゆる現実を全て自分の方へねじ曲げたのだ」に聞こえてしまった。ただし、部分的に取り出して聴いてみると、母音はあまり聞き取れず「あ」とか「う」あたりに聞こえた。むしろ、子音の方がそれなりに弁別できる気がした。「ねじまげたのだ」の「じまげ」の部分だけ聴いてみたところ、「じゃまが」のように聞こえたりもした。「現実を全て」の「じつをす」の部分は「じってんしゃ」のように聞こえた。


 このところ、子音はスペクトルの大局的なパワー分布では弁別することができないのではないかと強く感じている。一方で、母音はパワー分布で弁別できそうだと感じる(前回の実験では、母音の弁別はしていない)。私の感覚が一般的でない可能性も高いのだが、同じように感じている人はいるだろうか。