The Use of Overlapped Sub-Bands in Multi-Band, Multi-SNR, Multi-Path Recognition of Noisy Word Utterances

 電子情報通信学会の英論文誌に、私が博士課程のときの後輩(当時修士課程)の論文が出た。The Use of Overlapped Sub-Bands in Multi-Band, Multi-SNR, Multi-Path Recognition of Noisy Word Utterancesである。彼と最も頻繁に最も長い時間ディスカッションしていたのが私なので、私の名前も第二著者として載せてもらっている。後ろの二人は先生である。

 技術とは関係のない話からすると、彼は非常に勤勉だった。頭も使っていたし、手もよく動かした。また、英語は日常会話ならば全く問題なく流暢に喋ることができた。体力もあった。できる学生の典型像である。できる学生というのは、決して「たまにふらっと研究室に来てものすごい手際のよさで研究を終わらせていく」学生ではなく、「長時間研究室に滞在してねばり強く問題の解決にあたっていく」学生を指す。前者の天才肌の学生というのはおそらく空想上の人物像である。現実にいる成果を残していく学生というのは、私の知っている限り、後者のみである。

 さて、論文の話に入ろう。事務的な断りを入れておくが、電子情報通信学会は基本的に自分の論文の写し(PDFなど)を許可なくウェブなどに公開することを認めていない(許可制であるが許可をとっても一部しか載せられない)。ただし、別のかたちで内容を説明することは認めているようである。一般論になるが、論文を投稿する際には、その学会が論文のウェブ公開を認めているかいないかを事前に必ず見ておこう。

 今回の後輩の論文は、広くいえば音声認識の話である。現在の音声認識技術は雑音に弱いという問題を抱えている。では雑音に強くするためにどうするか、というのがこの論文が解決したい問題である。すでに雑音対策については世界中で様々な手法が提案されているが、その中に「サブバンド法」というものがある。日本語に直すと「部分帯域法」となる。この部分帯域法にも様々な手法があるのだが(論文中に参考文献をいろいろと引用しているので気になる人は見るべし)、大雑把に説明すると以下のようなものである。

 音声認識技術というのは、どの周波数にどれくらいのパワーが存在するか、ということを判断材料としている(図1の上)。ここに雑音が加算されると認識誤りが生じる。この認識誤りを防ぐために、周波数帯域を分割してその分割した帯域ごとに音声認識をしようというのが、部分帯域法の基本的な考え方である。雑音が強く存在する部分帯域の認識性能は落ちるが、ほかの帯域は雑音の影響を受けない(図1の下)。ここまでは従来から存在する手法である。


図1

 研究の裏話になるが、この手法を使ってパラメータをいじっていた彼に、私はこういうことを言った。「帯域を分割しても音声認識ができるのはなぜだと思う?」これは私が本当に疑問に感じていたことであり、私は答えを持ち合わせてはいなかった。彼はこの問いに対して何日もいろいろと思考をめぐらせたことと思う。そして、ある結論に辿り着いた。「ちょうど大切な情報が乗ってる周波数のところが分割されたらまずいっすよね」これは私の問いの答えにはなっていないが、紛れもなく彼のオリジナルの考え方である(問いの答えになっていないところが独創性を感じさせる)。そして後日、私の携帯メールに思いついた手法を送ってきた。「分割した境目のところに新しい帯域を作っちゃえばいいと思うんですよ」私はすぐに、面白そうだからやってみろとメールを返した。

 彼の問題意識とアイディアをもう一度説明するとこういうことになる。部分帯域法では、周波数帯域を分割することになる。もしもその分割境界に重要な情報が乗っていたら、音声認識ができなくなる(図2の上)。だったらば、その境界の部分をまたぐような帯域でも音声認識をすればいい(図2の下)。呆気ないほどシンプルな考え方だが、この考え方は国内の音声の会議で好評だったようである(私はその会議に参加していないが)。


図2

 このアイディアの有効性を実験によって確かめたのが、今回の論文である。一見すると誰にでも思いつきそうに感じられるかもしれないが、実際のところ部分帯域法を知っていれば知っているほどこの部分は盲点であり、並の発想力ではここまで辿り着けない。

 私が身内びいきをなかなかしないということは、私の性格をよく知っているid:fuktommyくんが保証してくれるのではないかと思う。保証する必要はないけど。