学部四年生の十月前半、その2。

 本題に入る前に関係のない話をする。2006年人工知能学会全国大会での村上陽一郎先生の講演映像が配信されていたのであるが配信期限が約一ヶ月後(2007年9月30まで)に迫っているそうである。「科学技術」の歴史に関する講演である。面白い講演なので、見てみてください。大雑把にいえば科学と技術は生まれも育ちも違うものであるという内容である。http://www.ai-gakkai.or.jp/jsai/conf/2006/video.html

 以下、本題である。

 二つのマイク間での到来時間差のどちらがどの声であるのかが分からないために、別の二つの到来時間差とどのように対応するのかが分からない。ゆえに、幾何学的な計算ができず、三次元空間での解析的な計算による音源定位ができない。この問題にどう対処するかということを考えたのが十月の前半である。どうやったら三角形のマイクロホンのグループ間での整合性がとれるのか。

 前回の日記で、音声はスパースでしかも二話者が周波数軸上で重畳しない(短時間フーリエ変換の場合)ということを書いた。その一方で、当然のことながら、ある一話者の音声信号の占める周波数は異なるマイクロホン間で共通している。部屋の中に話者が二名存在する場合、使用されている周波数はくっきり二つに色分けされることになる。その色分けされたうちの一色のみを用いれば、マイクロホン間での到来時間差の対応をとることができる。

 問題は、どのように色分けをするかということになる。この問題に対しては音圧差を利用することにした。マイクが複数、話者が一名存在する空間を考えてみると、その話者の音声信号はほぼ必ずある特定のマイクロホンに最も強く入力される。話者が複数になっても同様であり、各話者に対してそれぞれ最も強く入力されるマイクロホンが存在する(位置関係によってはそうならないこともある)。この性質を利用して、マイクロホン間の周波数別の音圧を比較し、どのマイクに最も強く信号が入力されているかによって色分けをした。理論上はマイクの数だけの色があるわけであるが、実際には話者数と色の数がほぼ対応する。

 こうして「三次元空間・複数話者・解析的計算の音源定位」のシミュレーションができるようになった。ただし、学部生にしては多少手法が入り組んでいるため、ゼミでは教授にはあまり手法を理解していただけなかった。私の説明力不足である(助手の先生は理解していたが)。

 そういえば、十月から研究の進捗報告のゼミが始まった。なお、私は先輩の「進捗報告」という文字を見るまで「進捗」という言葉を知らず、読み方も分からなかった。陰でこっそり辞書をひいた。その進捗報告ではその週におこなったことを簡単にパワーポイントにまとめ、それからA4で文字数の少ない簡単なレジュメを作ることになっていた。私はかなりふざけたレジュメを毎週作っていた。このレジュメが数ヶ月後の卒論の形式に大きく影響することとなる。パワーポイントは最初の一回以外はまともに作った。