ヒューマンインタフェースとしての音声認識。

　２００７年１０月、性能ばかりを追い求めていた音声工学者たちが、「音声認識にはユーザが存在するのか？」という根元的な問題について語り合った。情報処理学会の音声言語情報処理研究会である。毎年十月のこの研究会は音声認識の実用面について話し合われており、昨年の議題は「標準化」だった。カーナビゲーションシステムを使うにも、コマンドが各社でばらばらだったらユーザは使いづらい、という類の話である。２００７年のこの研究会では主にヒューマンインタフェースと社会的評価という観点から語られた。

　とある有名企業の子会社の方の発表によれば、その子会社は三年前から音声認識を使い始めたそうである。そのときの苦労話が非常に面白かった。まず、音声認識技術を売りに行くと、説明する前に「使わない」と拒絶反応を示す重役がかなり多いとのことである。そして、その子会社の発表者も、音声認識を使ってみる前までは、使えない技術だと思っていたそうである。ところが、いざ試してみると、予想していたよりもはるかに「使える」ということに驚いたそうである。場面を限れば音声認識が機能することは事実である。例えば、電話番号などを発音するとかなりうまく認識してくれる。発音される単語が十数通りしかないからである。要は音声認識が使えるか使えないかは、システムの設計次第である。音声認識は人間と比べるとまだはるかに性能が及ばないが、そもそも完全に人間の能力を上回る機械など世の中には存在しないのである。車だって自動運転はしてくれないし、アイロンだって使い方によっては服を焦がしてしまう。

　その使い方の問題というのがいわゆるヒューマンインタフェースと呼ばれている部分である。カーナビゲーションシステムを例に挙げると、カーナビゲーションシステムに対するクレームは、画面による案内と音声による案内で大きく異なるのだそうである。クレームはどちらも存在するのだそうだが、画面表示による案内に対するクレームは「うちの前の道路がない」「その喫茶店はすでに潰れていた」「一方通行が間違っている」など具体的なのだそうである。一方で、音声による案内は「音声認識がなんだかうまくいかない」などと抽象的なのだそうである。これは、ユーザに機械の状態が見えているかいないかという違いであるようである。画像は機械の状態を見せている。画面に映し出された場所が違えば、「画面に映し出された場所が違う」とすぐに分かるし、道路が一本少なければ、「道路が足りない」とすぐに分かる。一方で、音声認識は何が悪いのかユーザに分からないのだそうである。何も内部情報を見せていないのだから、そのとおりである。完全なブラックボックスになっているところが現段階では音声認識の弱みになってしまっている。

　また、昨年と似たような議論になるが、いざ音声認識を使う段階になってもどのようなコマンドが存在するのかが分からない。これはＣＵＩと似ている。ＣＵＩもコマンドを知らなければディレクトリ内を一覧することすらできない。一方でＧＵＩは「なんとなく」操作が分かる。この点も音声認識の弱みだということである。ただ、この弱みは音声認識の性能が向上しても残る弱みである。ぜひ、システムの設計の方に解決していただきたい部分である。

　なお、こんなことを書いていながら、私自身は本日の日記の内容をあまり声高に主張するつもりはない。むしろ、音声認識技術の研究はこれから本当に始まるのだと思っている。ただ、これまでこの分野の研究に携わってきた人たちのかなり多くは、現状のままでもシステムの設計次第で充分に商用利用可能であると考えているようなので、そのことは記しておかねばならないと思って書いた。