パワースペクトル列から音韻性が聞きとれるか。

 今度は音声の話。結論からいうと、聞きとれる。この話は短く書く。

 自動音声認識は、まず、音声を時間周波数解析するところから始まる。このとき、位相情報は捨てられ、パワーの情報のみが残される。このパワーの情報だけで充分な音声認識ができるかどうかが気になったので、確かめることにした。

 数次元のケプストラムから音声を復元する実験をした方がいいような気もしたが、それよりも、フレームを短時間フーリエ変換したものの絶対値を計算して、パワースペクトルにしたものから、音声を復元する方が先だと思った。絶対値を計算したところで、位相情報は捨てられる。この位相情報を捨てたパワースペクトル列(つまりスペクトログラム)には音韻性が残っているのか?

 詳細はSkyDriveにアップロードしたソースコードを見てほしいのだが、とにかくパワースペクトル列を時間信号に戻した。それを聞いてみると、ほぼ完全に何を言っているのかが聞きとれた。とりあえず、音韻性を考えるときには、位相情報は要らないようだ(これは昔からいわれていることだけど再確認)。

サンプル音声。
D

 というか、これは別の目的で途中まで書いたスクリプトを本日の日記のために整理し直しただけだったりする。