構造と音声。

 このブログで何度か同じ日のことを話題にしているのであるが、もう一度その日のことを書く。2004年1月下旬のとある日の話である。その日私は音声の研究会に参加し、そして革新的な概念の発表を目の当たりにした。当時修士二年生の修了間近だった私は、これこそが研究と呼ぶにふさわしいのだなあと感じたものである。本日の日記ではその研究の話をする。本日の日記、読むには少々工学的なセンスを要する。

 まずは予備知識からである。音声の工学的な理論はほぼかたまっている。音声信号の一部を数十ミリ秒切り出して、そのスペクトルを眺めると、(ひとによってずれはあるものの)同じ音素なら似たようなスペクトルの形状をしていることが分かっている。誰の「あ」でもスペクトルはだいたい一緒ということである。これには物理的な裏付けもとれている。人間が五十音のどれを喋ったかというのは、のどから唇(および鼻)までの空間の形状によって定まるとされている。人間は、舌の動きや唇の動きによって複雑にのどから唇までの形状を変化させて、五十音を自在に発声している。同じ発音をする場合には、舌や唇の形状は誰でもほぼ一緒であるので、のどから唇までの空間の形状はほぼ一緒になる。そうすると、共振周波数もほぼ一緒になるので、同じ音素なら似たようなスペクトルになる。これが音声の工学的な理論の根っこである。「発音が同じならスペクトルもほぼ同じ(ずれは誤差)」というのが定説である。

 ただ、「ずれは誤差」といっても、無視できるほどの誤差でもなかったので、音声の研究者はデータベースを増やして「全てのずれをカバーする」という方針を打ち立てた。それで充分に自動音声認識としては機能するからである。ただし、二十人に一人くらいはまるで自動音声認識が正常に動作しない話者がいる。特異話者などと呼ばれる話者である。人間にはなんら問題なく聞き取れる声が、機械には聞き取れない。「ずれは誤差」であるはずだったが、誤差の範囲には収まらなかった。そこで、研究者たちは話者の個人差を埋めるための研究に勤しんだ。話者の個人差を埋めるための技術を「話者適応」と呼ぶ。また、話者の声質による誤差のみならず、どのようなマイクを使っているのかという伝送路によるひずみも考えなければならなくなった。この問題も話者適応の問題の一部として吸収された。

 こういった解決法で、自動音声認識というアプリケーションの範囲ではさほどの問題はないのかもしれないが、話者の特性が問題となるアプリケーションが少なからず存在する。第二言語習得支援をテーマとする研究もその一つである。日本人の英語の訛りを矯正するために、音声認識を使おうという研究テーマである。例えば、「L」と「R」の区別ができない日本人のために、「今あなたの発声した音はLですよ/Rですよ」と教示するというものである。このとき、人によってはまるで教示が狂ってしまうことがあり、しかも、さらに問題なのは誰への教示が狂ってしまうのかが分からないという部分である。

 そういう予備知識を説明して、ようやく本日の本題に入る。2004年1月下旬の学会で、音声工学の「発音が同じならスペクトルもほぼ同じ(ずれは誤差)」という定説を覆そうとした人がいた。その人は「発声された音素が同じでもスペクトルは人によって異なる(現に異なっている)」という立場をとったのである。

 その研究の評価できる点は、定説を覆し、且つ、その出発点から第二言語習得支援の高性能なアプリケーションを作ってしまったことにある。口先だけで定説を覆すことなら誰にでもできるが、そこから新たな理論を構築し、しかもその理論が使い物になるということはそうあることではない。

 それまでの常識である「発音が同じならスペクトルもほぼ同じ(ずれは誤差)」という説は、「同一の音素は誰が発音しても似たような音に聞こえる」という感覚とその他の物理的な理論に由来している。この感覚を裏返すと、「別々の音素は誰が発音しても異なる音に聞こえる」となる。短くいえば、音素は弁別できるということである。語学学習の観点から考えても、ネイティブと似たような発音をすることと同じくらい、区別すべき音を区別することは重要である。

 この発想の転換により、話者性の問題を消すことができる。「その音はLである/Rである」という教示をするためには、適切な話者適応の技術が必要となるが、「あなたはLとRの区別がついていない」ということを教示するためには、その人のLとRが似ているか似ていないかという類似度を測ればいいので、話者性の問題は入ってこない(個人内で比較するから)。重要なのは、「模範と学習者の同一音素」の類似度を測る代わりに、「学習者の異なる音素」の類似度を測った点である。

 この例ではLとRしか使ってこなかったが、実際の研究では英語の全ての子音のスペクトルを測り(正確には子音のMFCC系列を抽出してHMMを作っているのだが話が専門的になりすぎるのでスペクトルとする)、その全てのスペクトル間の距離を測っている。この距離としてバタチャリヤ距離という尺度を用いており、この尺度も研究のキーポイントの一つではあるのだが、やはり話が専門的になりすぎるので省略する。ただし、単に弁別できているかどうかを測るだけでは面白くない。そこで、その学習者の発音の弁別の仕方は適切かということを測定する。

 ここで、ようやく第二言語学習の際に必要不可欠な「模範」が出てくる。その研究では、発音の弁別の仕方が適切かどうかを「学習者の子音間の距離」が「模範の子音間の距離」と似ているかどうかで測ろうとしたのである。ここでまた複雑な数学が出てくるが、おこなっていることは「日本人はLとRの距離が短くなるけど、模範はLとWの距離が短くなる傾向がある」などといったものを計算しているだけである。

 そして、この距離による発音の適切さの評価がうまく機能するかどうかを英語母語話者と日本人の被験者によって検証した。まず、英語母語話者と日本語母語話者を一人ずつ適当に選び出し、次に、その他の話者の発音(の距離)がどちらに近いかということを計算する。その結果、英語母語話者の群と日本語母語話者の群の二つにきれいに分かれた。ここで驚かなければならないのは、英語母語話者の発声の収録には個々の被験者でばらばらの電話を用いているということである。伝送路が異なるにもかかわらず英語母語話者同士の距離の数値が似るというのは、工学的に非常に面白い結果である。

 また、発表者はこの研究を「構造主義だ」と語っていた。個人的にはそういった立場表明も面白いと思うのであるが、工学的には主義思想はあまり意味をなさない。ただ、理解の手助けになるだけである。

 革新的且つ高性能のこの研究は、しかし、そのときの研究会では多くの聴講者から強い非難を浴びた。直観的には情報量を削りすぎておりうまくいったのは偶然だ(そこまではっきりと言ってはいないが)という趣旨の批判である。定説を根本から覆そうとしたことに対する反発も少なからずあったことと思う。また、問題意識の共有ができていなかったことも反発の原因だろう。

 その後、その先生は日本と世界を遊説して回り、徐々に賛同者を増やしているところのように見える。また、この理論を用いた自動音声認識の基礎的な検討もしているようである。そして、ようやく人工知能学会で賞をとったりもしたようである。

 ここまでが、研究の紹介である。さらに詳しく知りたい方は、論文を読んでください(パスワードを要求されますが)。http://search.ieice.org/bin/summary.php?id=j90-d_5_1249&category=D&lang=J&year=2007&abst=

 ここのところ技術革新についての日記をいろいろと書いていたが、そのような日記を書いてきた背景には、私が技術革新を目の当たりにしたことがあるという現実がある。今回紹介した技術は、サバティカル(長期休暇)で生まれたものであるらしい。普段の教員生活ではなく、「ギャンブルに出られる時期」に生まれたようである。おそらくその前から構想を練っていたとは思われるが、成果が出なくても許される期間がなかったらこの成果は出なかったのではないかと思う。

 技術革新というのは夢物語ではなく、かといって事務的な研究の延長でもない。もしこのまま事務処理的な研究のみに追われるようになってしまったら、技術革新は起きなくなることだろう。ある研究者から聞いた話であるが、とある国の有名大学に出張に行ったときに、企業からの委託業務のみしかできないその大学の態勢を見て、その国に追い抜かれる心配はないと確信したそうである。その話を聞いた私は、日本を訪問したどこかの国の人が十数年後に同じ感想を抱くのではないかと感じた。