パターン認識の成功事例。
なぜ音声認識研究は失敗している(と私が思っている)のかを語る前に、認識技術の成功事例について語ろうと思う。
まず、予備知識から説明しておくと、ある事例についてなんらかのラベル(カテゴリ名)をつけることを「パターン認識」と呼んでいる。音声認識はそのパターン認識の一種であり、発声に対して五十音のラベルを当てはめることを目標とする技術である。ほかにもパターン認識には、顔に対して誰であるかを識別する顔認識や、手で書いた文字を認識する手書き文字認識などがある。これら、パターン認識は一般的に、難しい技術である。なぜ難しいのかを語る前に、今日の日記では「やさしいパターン認識」の例を紹介する。
それがパターン認識だと言われると意外かもしれないが、「マークシート」はパターン認識技術の一種である。ある部分が「黒く塗りつぶされているか」「塗りつぶされていないか」を判定するのであるから、パターン認識と呼んでなんら支障はない。これは、パターン認識の最も簡単な例であろうと思う。
また、パターン認識らしいパターン認識の中でも特に成功しているのは、「郵便番号認識」ではないかと思われる。具体的な数値は全く知らないが、おそらく、かなりの精度で認識できているはずである。なぜ郵便番号認識の精度が高いと予想できるのかといえば、問題設定そのものが簡単だからである。まず、葉書は「決まった位置に」認識対象となる数値が現れる。さらに、認識対象となるラベルは0から9およびその他の「合計11種類」しかない。また、認識対象となる文字は識別しやすいように「人工的に」作られている(数字は人間が作った)。これらの理由により、「郵便番号認識」は成功している。
現在の認識技術はとりわけ「人工的に識別しやすく作られたもの」に強くできており、ほかにも、「バーコード」「駅の自動改札」「自動販売機における硬貨や紙幣の識別」には非常に有効である。
翻って、「非人工物」である「音声」「顔」「その他の画像」などには弱い。なぜ弱いのかということは、また後日説明するかもしれない。