フリーソフトの音声認識エンジンを使ってみたい人のための本。

 本の紹介をする。

フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで

フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで

 本書は15章からなっているが、フリーソフトを手っ取り早く使ってみたい人、特に、音声認識の現段階の性能を手っ取り早く知りたい人は、12章から読み始めればよい。インストールの仕方などはさすがに詳しくは載っていないが、使い方はかなり詳しく書かれている。

 画像やら音声やらその他の数値データから「それは何か」を推定する技術を「パターン認識」と呼ぶ。上記の本の前半では、(パターン認識の下位分野の)音声認識を例にとって、パターン認識の理論が説明されている。特にパターン認識の「学習理論(いかにパラメータをうまく定めるかという理論)」について詳しく説明がなされている。詳しくといっても、かなり平易であり、大学入試レベルの行列とベクトルの知識があればなんとか読みこなせる(理工系の大学で一年次に習う線型代数の知識があれば、ほぼ確実に読みこなすことができる)。なお、著者の意図にはそぐわないかもしれないが、数式が苦手という方はこの前半部分をすっぱりと読み飛ばしてしまっても後半を読むにあたりさほど問題はない。

 本の後半は「実践編」となっており、実際に音声認識やパラメータの学習をおこなうためのフリーソフトの使い方が書かれている。後半は9章から15章までであるが、先ほど書いたように、12章から14章までを読めば音声認識を試してみるには充分である。「Julius/Julian」という音声認識エンジンについて書かれている。一応、Julius/Julianを配布しているこのサイトにも説明書はあるのだが、(こんなことを書くのは申し訳ないけど)分かりづらい。一方で、上記の本には必要最低限のことがとても詳しく書かれている。特に文法(認識器が受け入れる文の記述法)の書き方についての説明が詳しい。なお11章には学習理論の実践のためにHTKというツールの使い方が書かれており、15章には少しだけ(歌唱用ではない)音声合成ツールの使い方が書かれている。

 企業などで、「音声認識ってどれくらいの性能なのだろう」と導入を検討していたりする人は、ぜひ読んで試してみてください。なお、私はアフィリエイトはおこなっていないので、本を買っても私の利益にはなりません。