2009-01-01から1年間の記事一覧

「何かが欠けている音声認識研究」についての話。

12月21日から22日にかけて、東京大学で「第11回音声言語シンポジウム」という学会が開かれ、その初日に東工大の古井貞煕先生が「何かが欠けている音声認識研究」という題名で講演をした。本日の日記はその講演に対する感想である。(ところで本日の…

「ATOK の辞書をつくる」というエントリの紹介。

本日の日記は、本当にリンクを張るだけなのだが、とにかくよいエントリだと思ったので、紹介する。 ATOK の辞書をつくる 一応書籍の紹介という体裁をとっているのだが、地味なデータベース作りがいかに重要かということが書かれている。私は隣接分野の人間な…

多数決合議と楽観合議とモンテカルロ。

コンピュータ将棋の話である。電気通信大学の伊藤研究室が作った手法に関する話である。 現在、合議と呼ばれるアルゴリズムがある。同一局面に対して複数のCPUを同時に走らせてその結果から次の一手を多数決で決めようというアルゴリズムである。これをあと…

音声認識の特徴量に雑音はどれくらい混ざっているのか。

現在の音声認識は背景雑音にものすごく弱い。人間が気にしないような小さなBGMでも音声認識にとっては致命的である。本日の日記も雑音の話である。 先日、自動音声認識というのは、特徴抽出部とデコーダ(音響モデル・言語モデル)からなっているのだという…

音音研と雑音。

2009年11月5日、「音音研」という集まりに行ってきた。音声と音楽のこぢんまりとした研究会である。そのことについては西本先生が詳しく書いている。あまり知られていないことであるが、この研究会の様子はネット中継されていた。ネットの向こう側にいる人に…

自己制限と「あきらめたらそこで試合終了ですよ」。

かれこれ知り合ってから十年くらいになる海燕さんがラジオで「あきらめたらそこで試合終了ですよ」という科白について語るそうである。そのラジオに先駆けて、「あきらめたらそこで試合終了ですよ」という言葉の意味。というエントリを書いている。本来、私…

パワースペクトル列から音韻性が聞きとれるか。

今度は音声の話。結論からいうと、聞きとれる。この話は短く書く。 自動音声認識は、まず、音声を時間周波数解析するところから始まる。このとき、位相情報は捨てられ、パワーの情報のみが残される。このパワーの情報だけで充分な音声認識ができるかどうかが…

モンテカルロどうぶつしょうぎの試み3。

日記をさかのぼると、「モンテカルロどうぶつしょうぎの試み2」は五月の記事のようである。今回の記事も本当は9月にアップロードしようと思っていて、9月には実験が終わっていたのだが、実験が終わった途端にいろいろと忙しくなり、10月になってしまっ…

区切り。

十年単位のきりのよい日なので、これから十年間でやってみたいことを列挙する。全てできるとは思わないが、まあ、羅針盤のようなものである。五年くらい経ったら全く違ったことをしている気もする。 とにかく続けたいのは、子音についての研究である。このブ…

「え」と「い」の実験。

子音の研究をしているのに、この日記に書いているのは母音のことばかりであるような気がする。とにかく、本日の日記は日本語の「え」と「い」についての実験である。結論から書けば、「え」だろうが「い」だろうがある一定以上の高さの狭い帯域だけを取り出…

様々なオリジナリティ観。

現在、コンピュータ将棋選手権のライブラリ制度についていろいろと議論が交わされている。コンピュータ将棋選手権というのは、年に一度開催されるコンピュータ将棋の大会である。そのライブラリ制度というのは、コンピュータ将棋協会が指定したライブラリ(…

id:kohekoと喋ってきた。

先日、「持っている人」は「持たざる人」の気持ちはなかなか理解できないと思う(追記あり)のブックマークで今度喋りましょうと書いたのだが、早速喋ってきた。ルノアールで四時間ほどである。 とりあえず当たり障りのない話をしておくと、kohekoさんは見か…

y=5x。

大学教員の研究と教育のあり方についての話が話題になっている。大学教員は大抵、「研究:1、教育:1、雑用:8」くらいの時間の使い方をしていると思うので、雑用が減れば問題の八割が解決されることだろう。 でも、本日の日記で書きたいのはそういうこと…

子音の調音位置の弁別法が分からないということと、ゼロ交差グラムの正式名称が知りたいということ。

相変わらず、子音について興味がある。本日の日記は、「b,d,g」の違いがスペクトログラムやその亜種を見ても分からなかったのでスペクトログラムを見ても分からないところに違いがあるのではないかという感想と、DFTによるスペクトログラム以外にも時間周波…

音音研に行ってきた。「音声CAPTCHAの検討」。

東大の西本先生が「音音研」という研究会を主催しているということをウェブ上で知ったので、行ってきた。2009年6月18日のことである。発表者は二組いたが、そのうち一組のことを本日の日記では語る。なお、音音研のサイトにも書かれているが、参加者は発表者…

「世界最先端研究支援強化プログラム(仮称)」について思うこと。

2700億円を30の団体に配って技術の革新を起こそうという政府の計画がある。目的の部分は悪いことではない。政府の考えた事例を見ると、どうやら虚学ではなく実学に偏っているようではあるが、それを非難するつもりもない。問題は、2700億円で技術…

名前を見ても分からない。(追記あり)

どうでもいい話であるが、母校の電気通信大学が、学科を改組するそうである。 電気通信大学自体を知らない人が圧倒的に多いと思うので、誤解されている部分を語っておくと、まず、通信制の大学ではない。普通の四年制の大学である。それから、東京電機大学と…

モンテカルロどうぶつしょうぎの試み2。

前回に引き続き、モンテカルロ将棋の話である。最近巷ではどうぶつしょうぎが話題になっており、その検索語でここに来る人もいるかもしれないので先に断っておくが、本日の日記はどうぶつしょうぎをコンピュータで解析し尽くそうという話ではない。コンピュ…

モンテカルロどうぶつしょうぎの試み。

本日の日記は、専門外のコンピュータ将棋・コンピュータ囲碁の話である。先日コンピュータ将棋のデモンストレーションを見て、やっぱりモンテカルロ法を将棋にも応用したいなと思った。ただし、将棋の場合は細長い読みをしなければならないためモンテカルロ…

ブザー音に関する妄想。

音声波形は周期的に同じ形を繰り返す。けれど、厳密に同じ形が繰り返されているわけではなく、周期ごとにわずかに形を変えている。では、一周期分の波形を切りとってそれだけを長く接続していったらどうなるのか。結果としては、どのような波形であってもブ…

合議システムの疑問手を二つ。

昨日、エンターテイメントと認知科学シンポジウムが電気通信大学で開かれ、二日目の午後のみ見に行ってきた。二日目の午後は、コンピュータ将棋対人間の対戦であり、コンピュータ将棋ソフト四つの多数決によって次の一手を指していったらどうなるのかという…

聞き取りやすい英語への音声変換手法。

日本音響学会の春季研究発表会(全国大会)に行ってきた。一日目のみの見学である。十件の口頭発表と五件のポスター発表を見てきたが、その中で最も印象に残っている発表を紹介する。なお、筆頭著者にはブログに書く旨を伝えてある。 題名は「聞き取りやすい…

とても易しい音声認識の紹介書。

これまでにも色々と音声工学関連の本を紹介してきたが、おそらくこれが最も易しい。人と対話するコンピュータを創っています 音声認識の最前線作者: 古井貞熙出版社/メーカー: 角川学芸出版発売日: 2009/02/27メディア: 単行本購入: 7人 クリック: 69回この…

バランスはちゃんととれているということ。

二月二十二日あたりからの一連の動き*1を見ていると、中には「研究室なんてろくなところじゃないな」という見解に落ち着いてしまう人もいそうな気がするので、こんな話も書いておく。 私の出身大学ではないのだが、友人の修士二年(当時)が先生にこんなこと…

日本語の五母音を二軸にプロットする。

子音の研究が思うように進まないので、ここ二ヶ月ほど母音で遊んでいた。本日の日記ではそのことについて書く。 日本語の五母音を語るとき、工学的にも、文系の音韻論でも、二軸で語られることが多い。ただし、その表現方法はそれぞれの分野で全く異なってい…

あ段にハイパスフィルタを適用する。

本日の日記は、ものすごく簡単な実験についての話である。「あかさたなはまやらわがざだばぱ」という音声を用意し、それにハイパスフィルタを適用するとどう聞こえるのかという実験である。まるで信号処理の初歩のような実験だが、結果を知らない人は意外と…

脳みそで平均と分散。

音声の堅苦しそうな話題が続くと書いていて自分で飽きるので、本日の日記はやわらかい話題である。 信号処理のプログラムを書いていると、何気なく平均演算をしていたり、何気なく標準偏差を計算していたりする。私の最も好きな言語はMATLAB/Octaveなので、…

残差信号を聴いてみた。

本日の日記もわりと専門的な話である。 先日、白色化した音声。という日記を書いたところ、以下のようなトラックバックが寄せられた。 PARCORで音声合成するために残差として単純パルス列を用意します。 (略) 元の音声にピッチに対応するようにパルスを並…

白色化した音声。

本日の日記は、ちょっとした実験の結果である(内容としてはかなり専門的である)。実験のスクリプトはSkyDriveというオンラインストレージに置いておいた。 音声信号をどこまでいじったら音韻の同一性は崩れるのか(崩れないのか)、ということについての実…

私が最初に聞きとった中国語。

本日の日記は音声からの単語獲得の話である。音声言語処理と脳科学と自然言語処理のあたりにまたがる話題ではあるが、この日記の内容はさほど学術的なものではない。 修士の学生の頃、隣の席の同級生は中国人の女性だった。ただし年齢は少々離れている。彼女…