音声認識

「あ」の優劣。

このブログ上で何度か書いているが、「完璧な鳥」と私が呼んでいる問題についてあらためて語る。 最初に断っておくが、本日の日記の内容は、科学的に見てかなり危うい議論である。鵜呑みにはせず、そういう考え方をする人もいるのだという程度にとどめておい…

フリーソフトの音声認識エンジンを使ってみたい人のための本。

本の紹介をする。フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/01メディア: 単行本(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (3…

初音ミクなどのVOCALOIDに関するウェブページの訂正とお詫び。

2008年2月8日に初音ミクとかの音声合成のしくみというウェブページをアップロードしました。このページに対しまして、本日(2008年3月26日)、音声合成が専門の方から以下のメールが届きました。ページの誤りを指摘するメールです(全文引用します)。 VOCAL…

ヒューマンインタフェースとしての音声認識。

2007年10月、性能ばかりを追い求めていた音声工学者たちが、「音声認識にはユーザが存在するのか?」という根元的な問題について語り合った。情報処理学会の音声言語情報処理研究会である。毎年十月のこの研究会は音声認識の実用面について話し合われ…

初音ミクなどの音声合成のしくみ。

初音ミクという歌声合成ソフトが売り出されてから約半年が経つ。その間、様々な初音ミクに対する言説を見てきたが、社会的・心理的・哲学的な観点からの言及ばかりで、科学的な観点からの言及が少なかったので、科学的な観点から簡単な解説を書いた。絵本を…

「認識とパタン」。

絶版のようであるが、図書館にはあったので紹介する。実に三十年前の本であるが、未だに議論に決着のついていないことばかりが書かれている。岩波新書である。本日の日記では、私が面白いと感じた部分を抜き出す。私の文章ではなく、引用した文章を中心に読…

構造と音声。

このブログで何度か同じ日のことを話題にしているのであるが、もう一度その日のことを書く。2004年1月下旬のとある日の話である。その日私は音声の研究会に参加し、そして革新的な概念の発表を目の当たりにした。当時修士二年生の修了間近だった私は、…

「や」という発音について。

知っている人は知っている話ではあるが、私もこの前初めて確かめたので、あらためて書こうと思う。 「や」という発音は「い」から「あ」に滑らかに変化することによって発声される。そう聞くと、どこかに「い」と「あ」の境界がありそうな気もするが、そんな…

コンピュータ将棋とgoogleと自動音声認識の機械学習に関して。

本題に入る前に宣伝から入る。電気通信大学の学園祭期間中に「5五将棋大会」なるものが開かれるそうである。詳しくはhttp://minerva.cs.uec.ac.jp/~uec55/を見てください(この宣伝を書くためだけに、このエントリのアップロードの予定を繰り上げた。本当は…

音声認識を試したい人に。

先日、音声言語情報処理研究会という学会に行ってきた。そのときに、宣伝されていたのがこのサイトである。音声認識を使ってみたいという方はお試しください。http://w3voice.jp/ その研究会についてのことは、そのうち書こうと思う。

子音と音声認識。

久々だと思うのだが、音声認識の話題である。異論はあるかもしれないが、現在の自動音声認識は母音やある種の有声子音を中心に発達してきたように思える。DPマッチングや隠れマルコフモデルやデルタ特徴量などで、時間変化も見られるようにはなっているが…

君と君らしくなさについて。

9月28日に「完璧な鳥」について、ポスターセッションで喋ってくる予定である。完璧な鳥がなんなのかということについては、「http://d.hatena.ne.jp/tihara/20060524#p1」と「http://d.hatena.ne.jp/tihara/20070714#p1」を読んでほしい。この話は、単な…

初音ミクが人間的な歌声を出せるのに、なぜ音声合成は機械的な声のままなのか。*1

時流に乗るのはこのブログの流儀に反するが、一応書いておこうと思う。なお、本日の日記で書くことはほとんどが推測である。なぜなら、公式サイトに書かれている "Frequency-domain Singing Articulation Splicing and Shaping" に関する論文が見つからない…

パターンらしさ測定とパターン認識。

実はいまだに「完璧な鳥」という話題について考えている。「完璧な鳥」というのはこのブログの最初の頃に書いた話である。そして、人工知能学会の査読に落ちた話でもある。この話で査読を通そうとは思わないが、看過してはいけない話でもある。概要としては…

音声認識に関するyoutubeを一つ。

Perlを書こうとしている。これが音声認識の現状である。

「音声の構造的表象に基づく英語学習者発音の音響的分析」

かなり長い間、掲載を待っていた論文である。非常に面白い論文であるが、電子情報通信学会論文誌Dのアカウントを持っていないと読めない。ただし、理工系の大学の図書館に行けば論文誌が見つかることと思う。また、個人でアカウントを持っていなくても、大…

"発話障害者支援のための音声生成器"

先日、東京大学で開催された音声・聴覚研究会を聴講しに行ってきた*1。ここ数年で音声周りの研究会のレベルが上がっているように思えるのだが、そのことは置いておいて、最も印象に残った発表を紹介する。タグは「音声認識」となっているが、音声合成の研究…

"On the importance of phase in human speech recognition"

面白い論文があったので紹介する。題名を日本語に訳すと、「人間の音声認識における位相の重要性について」あたりになる。こちらにアブストラクトが載っている(http://ieeexplore.ieee.org/xpls/abs_all.jsp?isnumber=35293&arnumber=1678004&count=35&inde…

音声認識の問題と計算機の能力。

たまに「今のコンピュータでは音声認識は実現不可能だ」と主張する人がいる。特に専門外の先生にこういった主張をする人が多い。よくある論調としては、NP困難のからみで、人間と今の計算機では解の導き方が違うのだとするものが挙げられる。確かに、解の…

音声言語シンポジウム。

12月21日から22日にかけて名古屋大学にて「音声言語シンポジウム」が開催された。私は21日しか行っていないのだが、その日の発表に関する雑感を語る。 と書いたのが行く前なのであるが、とりわけ印象に残る発表はなかった。残念である。 とある先生…

哲学的な問いかけではなく工学的な問いかけ対象としての音素。

現在の音声認識というのは、「音素認識」から出発している。音素というのはおおよそ、声をローマ字表記したときの一つ一つの文字だと思ってもらえればいい。例えば、「音素」は/o/,/N/,/s/,/o/の四つの音素に分解できる。この音素が認識できれば、それを結合…

音声認識技術の標準化とキラーアプリ、そして自然言語としての音声の否定。

いつかの音声関連の学会でかなり名の知れた先生が、「音声にはおそらくキラーアプリは存在しない」と言っていた。音声認識技術を使えば何かが劇的に便利になるとかそういうことはないという意味である。そして、「じわじわと時間をかけて音声認識をユーザー…

"Noise Reduction in Time Domain Using Referential Reconstruction"

文献紹介となっているが、他人のものではなく自分の論文である。電子情報通信学会は基本的に転載禁止なのであるが、要旨だけは公開されているので要旨程度のことなら語っていいものと思われる。なお要旨はこちらにある(http://search.ieice.org/bin/summary…

音声認識と雑音。

現在の音声認識の分野では、実際のところは音声認識そのものの研究はされていない。なぜなら、音声認識の研究はもうすでに終わったものと見なしている人が多いからである。だから、この分野では音声認識の弱点を補うか、音声認識の技術を利用して何かほかの…

トンデモ科学が成立する分野。

今回の記事は非常に短い。要するに「音声認識も自然言語処理もトンデモとマトモの区別がつかない」ということを書くだけである。 主に化学系の分野で「トンデモ科学」が生じることが多いようであるが、それは逆に言えば「トンデモ」と「マトモ」の区別がつき…

なぜ音声認識はそれっぽくなっているのか。

どれほど音声認識が杜撰に作られているかということをこれまで書いてきた。今回は「杜撰であるにもかかわらずなぜそれっぽくなっているのか」ということを書こうと思うが、その前に簡単に「なぜ杜撰に作ってしまったのか」ということを書く。 音声認識の研究…

「こんとんじょのいこ」と音声認識。

現行の音声認識の限界について語っている記事の続きである。復習をしておくと、現行の音声認識は「音声をものさしで測り、その結果を辞典で調べて、結果を出力している」ようなものであると書いた。そして、「ものさし」の悪いところを前回は書いた。今回は…

「ものさし」の何が杜撰なのか。

7月6日にこの日記に書いた「現在の音声認識技術は適当に作られている」という話の続きである。この前は、音声認識について、次のように説明した。 声をとある「ものさし」で測り(実際に数値に変換される)、その数値を過去のデータと照らし合わせることに…

硬貨識別と音声認識。

先日、パターン認識の例として、「硬貨識別」と「音声認識」をほぼ同列に書いた。ここにすでに「音声認識」を難しくしている問題がある。「硬貨識別」と「音声認識」は同列に扱ってしまっていい問題なのかどうか、まだ分からないのである。 まず、先日なぜ私…

パターン認識の成功事例。

なぜ音声認識研究は失敗している(と私が思っている)のかを語る前に、認識技術の成功事例について語ろうと思う。 まず、予備知識から説明しておくと、ある事例についてなんらかのラベル(カテゴリ名)をつけることを「パターン認識」と呼んでいる。音声認識…