「何かが欠けている音声認識研究」についての話。

 12月21日から22日にかけて、東京大学「第11回音声言語シンポジウム」という学会が開かれ、その初日に東工大古井貞煕先生が「何かが欠けている音声認識研究」という題名で講演をした。本日の日記はその講演に対する感想である。

(ところで本日の日記は下書きの段階で一度消したのであるが、音声研究者3名が読みたいというのでゴミ箱から引っ張り出してきた次第である。その際、加筆修正をした。)

 私の感じた結論を最初に書いておくと、「欠けている何か」を補うのは他分野の人か、博士課程に進学しない修士の学生なのではないかと思っている。そしてその人たちは論文ではなくブログを書くべきだと思っている。と書いてもなんのことか分からないと思うので、これから順をおって書く。

 古井先生の話は「音声認識技術の進歩が止まっている」というところから始まった。古井先生は国内外で有名な音声認識工学の研究者である。日本の音声認識界で知らない人はいないだろうし、先日は海外で基調講演をしてきたばかりである。その先生が、実感として「止まっている」と言っており、各種客観的なデータから「止まっている」ということを読みとっていた。

 私も止まっていると感じているし、そう感じている音声認識技術の研究者は多いようである。実際、20年間進歩がないと言っていた研究者もいた。古井先生の主張はどうやら6年間進歩がないということらしかったが、とにかく6年から20年くらいは進歩がないようである。

 そして、古井先生は「まだ未発見の重要な原理が残されているだろう」と予想した。それがどのような原理かは知らないがとにかく何かが音声認識技術には欠けているのだと、予想だけしていた。どのような分野においても未発見の重要な原理は残っているはずだが、技術的進歩の停滞という問題を打破するためにはそれが必要なのだということである。

 ここまでは私も納得できる話だったのだが、スライドに書かれていなかった話が信じられない内容だった。古井先生は「我々は科学者ではなく工学者なのだから、二年単位・三年単位で成果を出していかなければならない」ということを言ったのである。そのようにおっしゃったということを憶えていた人が他にもいたので、私の聞き違いではない。私が思うに「未発見の重要な何か」は定常的に成果を出す今の主流の研究スタイルからは生まれない。少なくとも五年くらいは成果が出ないかもしれない時間を過ごすという博打を多くの研究者が打たないと生まれない。

 古井先生自身も講演の前半で、最近の論文は成果を積み重ねることのできるものがないと嘆いていた。提案された手法単体ではうまく動くが、組み合わせるとかえって悪くなるというのが、その典型的な例である。その元凶は、成果は出るけど積み重ねることができない研究の計画を立てざるを得ない成果主義があるように私には思えるのだが、古井先生はおそらく「成果が出て、且つ、積み重ねることのできる研究計画」というものが存在すると考えているのだろうと思われる。おそらく、それができるならどの研究者もとっくにそうしているが、残念ながら計画段階で成果が出ることが分かっている研究では「未発見の重要な何か」を見つけることはできないし、見つけかけても見逃すだろう。

 しばしば研究の進歩は「階段状」であると言われる。停滞期と急に伸びる時期があるという意味である。楽観論として、「だから停滞期があってもそのうち急に伸びる」とはよく言われるのだが、私には今が「階段の停滞期」であるとは思えない。ではなんなのかといえば、無視できるほど傾斜の緩やかな上り坂である。その意味を説明するために話を「階段」に戻そう。なぜ急に伸びる時期があるのかといえば、その前に「成果が出ればすごいけどきっと成果が出ないギャンブル」をしているからである。簡単にいえば場外ホームランを狙う余裕があるから急に伸びることがあるのである。そして、全力でスイングするがゆえに、三振の山(停滞期)が築かれるのである。一方で現状では「小さな成果を確実に出す」ことが求められている。査読付き論文を研究室から一年に数編出さねばならないのである。これが古井先生の言っていた「我々は科学者ではなく工学者なのだから、二年単位・三年単位で成果を出していかなければならない」ということである。これでは、無視できるほど傾斜の緩やかな上り坂は上れるかもしれないが、技術が急に伸びることはない。そして、古井先生自身が嘆いていた「積み重ねることのできない成果」が大量に生まれることとなる。

 発言力のある上の人がそういう意識である以上、「定常的な成果を求められている音声工学研究者」が「欠けている何か」を見つけることはないだろうと思えるのである。では、誰なら見つけられるだろうか。そこで私が予想するのが、「時間的に余裕があって成果を出す必要のない人」である。つまり、修士の学生である。現役の修士の学生はもしかしたら自分たちに時間はないと思っているかもしれないが、相対的に見ればこの分野では修士が最も「捨てることのできる時間」を持っている。また、「音声認識技術に先入観がなくて成果を出す必要もない人」も「その何か」を見つける可能性があるかもしれないと思っている。つまり、他分野の研究者である。画像工学屋さんや、流体工学のシミュレーション屋さんあたりが有望かと思う。ここで私が思い浮かべているのは、コンピュータ将棋界にBonanzaという新機軸を持ち込んだ理論化学者のことである。最後に、ニートに限りなく近い生活を送っている私のような人にもチャンスがあるかとは思うが、ニートでなければ新発見ができないというのは健全ではない。

 そして、そういった「音声の論文を書く必要がない人」が音声研究をする場合には、国内研究会で発表して国際会議に出して査読付き論文を書く、といったことはしてほしくない。なぜなら、どれほど小さなものであれ予稿や論文を書くとなると、最低限の決められたフォーマットに落とさなければならなくなり、無意識のうちにギャンブル的な要素を薄めてしまうからである。また、アウトプットがまとまったものでなければならないような気がしてしまうからである。そうではなく、ホームランを狙った思いつきや作ってみたものなどの途中経過をどんどんブログに書いていってほしいと思っている。もちろん、失敗作でもなんでもいい。途中経過でよいのもブログのいいところである。ブログだから、査読者に迷惑をかけることもなく、最悪の場合でも無視されるだけである(大抵のエントリは無視されるとは思うが)。

 本当は、誰か音声の偉い人が「しばらく論文を書くのはやめよう」と言ってくれるのではないかと期待していた。研究をするのをやめるという意味ではなく、論文成果主義からの脱却である。今の論文をとりまくシステムには、局所最適解に陥りやすいという欠点がある。今まさに局所最適解に陥っている音声工学は、このシステムの弊害を真正面から受けているように感じる。今回古井先生が思い切って音声認識技術の進歩の停滞について語ったことは称賛に値すると思うが、なぜ停滞しているのかということについて言及しなかったことは残念だった。

 とにかく私には、この講演は「音声技術には未発見の何かが残っているが、音声研究者はその何かを見つけなくていい」と言っているように聞こえたということである。

 その講演の趣旨を受けての私の提言は、「音声の論文を書く必要のない人が、未発見の何かを見つけるべく、研究の途中経過をブログで見せ合うべきだ」というものである。

 鍵を握っているのは「音声分野の修士の学生」と「分野外の研究者」と「野良博士ニート」だと思っている。日本の音声工学の職業研究者をとりまく環境が悪いので、彼らには期待していない。