硬貨識別と音声認識。

 先日、パターン認識の例として、「硬貨識別」と「音声認識」をほぼ同列に書いた。ここにすでに「音声認識」を難しくしている問題がある。「硬貨識別」と「音声認識」は同列に扱ってしまっていい問題なのかどうか、まだ分からないのである。

 まず、先日なぜ私が「硬貨識別」と「音声認識」を同列に書いたのかを簡単に説明する。

 私は「硬貨識別」の実際の方法は知らないが、安易に推測できるのは、「大きさ」と「重さ」を手がかりにしているだろうということである。「大きさが○センチ前後で重さが○グラム前後なら○円硬貨」といった感じに識別しているはずである。この場合、要素技術としては二つに分けることができる。「大きさと重さを測定する部分」と「その情報を過去のデータと照らし合わせる部分」である。喩えるなら、「ものさし」と「辞典」を使っていることになる。

 同様に、音声認識も「ものさし」と「辞典」を使っている。声をとある「ものさし」で測り(実際に数値に変換される)、その数値を過去のデータと照らし合わせることにより、何を喋ったかを識別している。

 つまり、「硬貨識別」も「音声認識」も、現在は同様の手法が用いられている。だから、私は先日の日記で同列に書いたのである。

 けれど、そこにおそらく落とし穴が存在している。このアプローチが通用するのは、何を測れば識別できるのかがはっきりしている場合のみである。硬貨識別の場合には素人にも「大きさと重さ」が分かれば識別できるだろうということが容易に想像できる。一方、音声の場合には、現在、何を測れば識別できるのかが分かっていない状況である。重要なことなので、もう一度書く。

 音声の何を測れば音声が識別できるのかは、まだ、分かっていない。

 では、どのように音声認識をおこなっているのかといえば、適当に「ものさし」を作ることによっておこなっている。当然のことながら、「ものさし」が適当に作られているので、同じ発音をしても人によってかなり異なる数値が出てくるし、日によっても違う数値が出てくる。その杜撰な数値を「膨大な数値を網羅するような辞典」でカバーすることによって、強引に音声認識をおこなっている。ただし、認識精度は約8割といったところである。杜撰なわりにはそこそこの数値である。

 これを簡単に言ってしまえば、「よく分からないものを、それっぽいブラックボックスに通すことによって、それっぽい結果を得ている」ということになる。

 それっぽい結果が得られているのだからいいという考え方もあるが*1、いつか技術の限界が見えてくる考え方であり、実はもうすでに限界が見えてきている。

 後日、現在使われている「ものさし」の何が悪いのか、「辞典」の何が悪いのか、を語る。

*1:それっぽい結果が得られているのだからいいという考え方が大半である。