音声認識技術の標準化とキラーアプリ、そして自然言語としての音声の否定。

 いつかの音声関連の学会でかなり名の知れた先生が、「音声にはおそらくキラーアプリは存在しない」と言っていた。音声認識技術を使えば何かが劇的に便利になるとかそういうことはないという意味である。そして、「じわじわと時間をかけて音声認識をユーザーに浸透させていくという戦略をとることになる」と続けた。確かに、今の音声認識の水準では、そういう戦略にならざるを得ない。例えば、ニュースの音声を文字に起こすにしても、今の技術では「80%の精度で文字に起こす機械」と「残りの20%を直す人間」の両方が必要となる。だとしたら、「100%を文字に起こす人間」を使った方がコストが安い。ほかの場面でも同様のことがいえる。ゆえに、キラーアプリは存在せず、さりげなく人々に音声認識を使わせていくという方針をとることになる。

 その意見は私には音声認識技術の敗北の宣言のように聞こえた。「機械は人間にはかなわない」と言っているのと同義だからである。この話はもう一度のちほど語る。

 とにかく、残念ながら、精度80%の音声認識をいかにして一般の人々に使ってもらうか、という問題が現在の音声認識分野の重要なトピックになってしまっている。そして、その方針としては、どうやら、「音声のコマンドをできる限り少なくする」という方向に進んでいるらしい。例えば、カーナビゲーション音声認識を考えたとき、「地図拡大」と「地図縮小」と「地図おおきく」と「地図ちいさく」の四通りを受付可能にしてしまうと、認識の最低ラインは25%になる。一方、「地図拡大」と「地図縮小」のみを受付可能にすると、認識の最低ラインはそれだけのことで50%まで向上する。最低ラインが向上するということは、誤認識率も少なくなるということである。ゆえに、音声のコマンドを少なくしようと試みられている。しかしながらここに問題があり、(ひきつづきカーナビゲーションの例であるが)各メーカーごとにコマンドが異なると、ユーザーが混乱してしまう。そこでその解決法として、どのメーカーも同じようなコマンドを使うことが提案されている。そしてそのコマンドの統一は始まりつつある。これが標題の「標準化」の一部である。コマンドを統一してしまえば、ユーザーの混乱が少なくて済み、且つ、認識率も上がる。そうして、精度の低い音声認識を最大限に使ってもらおうと企てられている。

 こうした「標準化」は別の意味にも用いられる。前の段落ではコマンドの統一という意味で用いたが、「認識性能測定法の統一」をしようという動きもあるようである。これは、素人に乱雑な測定の仕方をされて評論されると困るという考えからの動きのようである。

 コマンドの統一の話に戻るが、これは今の技術水準からすればせざるを得ない事柄である。しかしながら、残念でもある。音声というのは自然言語であり、CやJavaなどの人工言語とは異なる。自然言語音声認識で扱ったと見なすには、理想的には、いかなる単語をも受けつける必要がある。決められた言葉のみを受けつけるカーナビゲーションシステムは、自然言語音声認識システムではない。要するに、自然言語としての音声を認めていない。

 話は、最初に戻る。冒頭の先生は、音声認識キラーアプリは存在しないと言った。けれど、私はキラーアプリは存在すると思っている。音声認識性能が人間の聴覚性能と全く同じになったとしたら、それだけでキラーアプリである。なぜなら、機械にはあらゆる単語を憶え込ませておくことができるからである。また、あらゆる言語を扱わせることができるからである。人間の聴覚性能と機械の記憶能力が組み合わさるとき、音声認識は人間の耳を超える。前にも書いたが、人間の能力を凌駕したものは「便利なもの」として使われるのである。*1

 標準化などの苦肉の策で人々に音声認識技術が浸透し始めた頃、世界のどこかで精度100%の認識機が開発されるのではないかと思っている。

*1:英語のリスニングの練習をする必要がなくなるとか。