雑音環境下単語認識のための複素周波数領域における参照再構成法

 自分の論文が出たのでそのことについて書く。日本音響学会の2008年9月の学会誌に載っている。音響学会に問い合わせたところ、自分がウェブにアップロードする分には構わないとのことなので、ヤフーのブリーフケースにアップロードした(でも今の自分の環境からは読めない。別の環境では読める。文字コードのせいだろうか)。onsei->onkyo-gakkai-200809.pdfにある。なお、版組をするときに誤字脱字などは修正され、表の書式も一部変更されている。

2009-01-25追記:ヤフーのブリーフケースが無料サービスを停止するそうなので、マイクロソフトのSkyDriveに移した(健紘->SkyDrive->公開->papers->refrec_onkyogakkai.pdfからもたどれる)。

 内容について書く。建前上のストーリーとしては、題名に書いたとおり、雑音環境下での音声認識を目的としている。機械による自動音声認識は雑音があると性能が劣化するのでそれを防ごうということである。音声の分野ではよく見かける題材である。この建前上のストーリーはやや固い言葉で論文の序論に書いた。本日の日記では本音のストーリーを書く。なぜ本音のストーリーを論文の序論にしなかったのかというと、その有用性を査読者が認めづらいと判断したからである。既存のストーリーの方が査読には通りやすい。

 さて、本音である。私はパターン認識における「距離」に関心がある。何と何が似ていて、何と何が似ていないかを示す尺度である。音声認識にとって、どのような距離尺度を用いるのが妥当であるのかということを私は一から考え直したかった。「音が似ている」というのはどういうことなのかということを自分なりに考え直したかった。最も「似ている」ときというのははっきりしている。波形がぴったりと一致するときである。では波形が一致しないにもかかわらず「音が似ている」ときというのはどういうときなのか、ということを探りたかった。その「似ている」の一部として、「雑音が入っても似ている」ときというのはどういうときなのかということが知りたかった。

 最初に、最も簡単な雑音を重ねることにした。ホワイトガウスノイズという雑音である。ラジオの周波数があっていないときのザーッという音に近い。この雑音のときには、雑音混じりの信号と元の信号との時間波形の相関が高いときに「音声が似ている」ということが分かった。

 では、音楽を重ねたときには、どのような距離尺度を用いれば「音声が似ている」といえるのか、ということを次に考えた。これが今回の論文の肝である。単純に時間波形の相関を計算しても「音声の似ている具合」は測れなかった。かといって、周波数領域のスペクトルの絶対値の相関を計算しても駄目だった。そこで、音声の存在する周波数のみを用いて、スペクトルの絶対値の相関を計算してみたが、それでも納得のいく距離は作れなかった。困った挙げ句に、音声の存在する周波数のみを用いて、時間波形の相関を計算したところ、そこそこうまくいった(専門用語でいうなら、周波数成分の一部を使わずにクロスパワースペクトルを計算している)。

 雑音が混ざっているときの「音声の似ている具合」というのは、周波数領域と時間領域の両方をフルに使わないと計算できないのではないかというのが、今のところの私の感触である。片方だけではどうにもうまくいかなかった(片方だけでどうにかしようという研究が非常に多いのだが、それは単に問題設定が易しいからそれなりに成功しているだけだろう)。

 今回の論文を書くにあたり、最も苦労したのは、参考文献探しである。性能を評価するために対抗手法を探していたのだが、同じ問題設定の論文が見当たらなかったのである。仕方がないので、査読者への回答として、異なる問題設定の論文の手法を対抗手法として採用したが、問題設定そのものが違うので実際のところは何の比較にもなっていない。私の手法を従来手法として使いたい方がいたら、メールをくだされば、MATLAB/OCTAVEスクリプトを送ります。

 ところで、今も私は「音声が似ている具合」について考え続けている。それと同時に「音声が似ていない具合」についても考えている。このあたりの話については、またいつか書こうと思う。