「あ」の優劣。

 このブログ上で何度か書いているが、「完璧な鳥」と私が呼んでいる問題についてあらためて語る。

 最初に断っておくが、本日の日記の内容は、科学的に見てかなり危うい議論である。鵜呑みにはせず、そういう考え方をする人もいるのだという程度にとどめておいてほしい。

 音声認識は、入力音声を音響モデルに当てはめるとそのモデルに対するスコアが出てくるようになっている。そのスコアを比較してどの音響モデルに最も合致しているかを出力としている(とりあえず言語モデルは考えない)。このとき、モデルに対するスコアが出てくるのが私にとってはとても気持ち悪い。なぜなら、話者Aと話者Bの「あ」という発音に「あ」としての優劣を計算することができてしまうからである。機械は「あいつの『あ』の方が君の『あ』よりも『あ』らしいよ」と教えてくれるのである。問題が『あ』だから笑っていられるが、これが物体認識だと笑えなくなる。「あいつの方が君よりも人間らしいよ」と言われたら誰だって嫌だろう。とにかく、今の自動音声認識は発音に優劣を与えることができる。明石家さんまは、バラエティ番組で次のようなことを言っていた。「俺の声、機械に『人間の声ではありません』って言われたんよ」。

 優劣の問題も嫌なのであるが、最も違和感の強い問題は「最大スコア」である。「あ」に優劣をつけることができるとすると、同じモデルを使っていれば必ず、「最大スコアの『あ』」を探すことができる。物体認識でいえば、ある鳥モデルに対し「最大スコアの鳥」を探すことができるということである。「最大スコアの鳥」はおそらく架空の鳥であることだろう。漫画家に頼めばもしかしたら、「その漫画家にとって最も鳥らしい鳥の絵」を描いてくれるかもしれないが、私には無理である。「私にとっての最大スコアの鳥」を想像することはできない。同様に、「最大スコアの『あ』」を想像することもできない。

 そもそも、「最大スコア」などとスカラー値を与えることのできる概念というのは、大抵の場合「形容詞的」なものである。「これは最大スコアの青だ」と言うことは可能である。RGBが「0・0・255」なら「最も青らしい青」だろう。そして、Bの大きさによって青としての優劣を比較することにも違和感はない。また、フィギュアスケートに点数をつけることにも違和感はない。現在のフィギュアスケートはテクニカルエレメント、ファイブコンポーネントなど、私にはよく分からない採点方法で採点されているが、その採点にも違和感はない。美しさを客観視しようという試みである。一方で、「あ」や「鳥」にスコアをつけることには違和感がある。これらは「名詞的」な概念である。「鳥らしさ」という日本語は存在するが、「鳥らしさ」=「鳥」ではないと私は感じる。「鳥らしさ」は「形容詞的」な概念であり、「鳥」は「名詞的」な概念である。今のパターン認識は「名詞的な概念」を「形容詞的な尺度」から推定しようとしているのではないだろうか。これが第三の違和感である。

 ところで、日本語では「鳥らしい鳥」および「鳥らしくない鳥」という言い回しが可能である。ところが、「鳥らしくない鳥」を自動認識するのは大変である。なぜなら、「鳥らしくない」というのは「鳥スコア」が低いことであり、「鳥」と判断するには「鳥スコア」が高くなければならない。これは、「鳥らしさ」と「鳥」を同じ尺度で測ろうとしていることから来る問題であろう。「名詞的な概念」と「形容詞的な尺度」を一緒にしてしまっているからこういった問題が起きるのである。これが第四の違和感である。

 違和感をまとめる。

  1. モデルが与えられると「あ」に優劣がつく
  2. モデルが与えられると最大スコアの「あ」が存在する
  3. 「名詞的な概念」と「形容詞的な尺度」が混同されている
  4. 「○○らしくない○○」の認識が難しい

 この内容をとある学会で発表したことがある。我ながら無茶である。ほとんどの理系の研究者たちは私の考え方に批判的だったが、文系の英語の研究をしている方は面白がってくれてアドバイスをくれた。「四つではなく、問題を一つに絞ることができたら解決しやすくなるのではないか」とのことだった。一般に、問題は分散しているよりも集中している方がはるかに解きやすい。

 工学的な実体の存在する問題点は、違和感の一つ目か、あるいは二つ目である。「優劣」の問題か、「最大」の問題である。この二つの問題は地続きであるので、おそらく片方が解決すればもう片方も解決する。ところで、私は本日の日記で「問題」や「解決」などといった言葉を使っているが、まだ何が「問題」であるのかは明確にはなっていない。違和感はあるが、問題はない状況である。まだ、これから違和感を明確にしていくという段階である。とりあえず、語りやすい「優劣」に問題を絞る。

 さて、もう一度「スコアリング」について考える。例えば、「い」と「え」の区別がつかない方言がある。この方言の使い手の「い」を「『(標準語の)い』としてのスコアが低い」とみなすことについて、私はなんら違和感はない。実際、「い」に聞こえないのであるから、「い」として聞きとりづらいと判断する。つまり、「スコアリング」自体は否定できない。ただし、現在の自動音声認識が実際におこなっているように、標準語のはっきりとした発声の「あ」にスコアによる優劣をつけてしまうことには違和感がある(二十人に一人くらい、自動音声認識に著しく不向きな声を持つ人が存在する)。

 音響モデルによる音声認識をもう一度復習しよう。まず、学習サンプルを集め、そこにラベルを振り、そこから統計的な音響モデルを作る。そして、入力サンプルを音響モデルに与え、スコアを算出する。「あ」の優劣が生まれるのは、音響モデルを作った瞬間である。さらに遡れば、学習サンプルを集めて最近傍法の亜種を適用しようと画策した時点で、「あ」の優劣が生まれている。

 つまり、「あ」を認識するために「あ」のサンプルによる最近傍法を適用してはいけないのだろうと思う。では、「何」を認識するために「何」による「どのような」手法を適用すれば、「あ」の優劣が生じることなく自動音声認識がおこなえるのだろうか。

 私の考え方にも、今の音声認識の考え方にも、双方に妥当でない部分があるはずである。それはどこか。



 上記の文章は半年くらい前に書いたものだが、今はとても基礎的で具体的なところからこの問題の答えを探している。「か」を認識するために「か」のサンプルによる最近傍法を適用しても「か」の優劣は出ないのではないか、ということを考えている(この予想に確証が得られたら、また何か書くと思う)。