ディジタルパターンプレイバックによる日本語子音キューの分析

 2019年10月28日に日本音響学会の聴覚研究会で発表をしてきた。予稿のPDFや発表スライドはアップロードしないが、音声を聞きそびれた方がいるかもしれないので、合成音をアップロードしておく。また、学会の性質上、予稿やスライドに書けなかった研究動機等もここに記しておく。予稿がほしい方は、国会図書館や大学の図書館で手に入れてください。
 さて、今回の研究の始まりは「子音とは何か」という問いであった。母音と子音は何が異なるのかということである。現在、高精度の音声認識技術が出回っているものの、このことについて明確な答えは出ていない。そして私もこの題材について攻めあぐね、子音と母音の違いを探る前に、まずは子音同士の違いを探ることにした。子音同士の違いを探るという研究は旧くからあり、スペクトログラムから違いを読み取るというものと、スペクトログラムを描いて合成音を聞くというものの二つの研究方針が示されている。私は合成音を聞くという方針を採用した。そのためにスペクトログラムから音を合成する手法をまずは作らねばならないのであるが、このとき機械学習や統計的手法を使うと合成音のどこにどのような影響が出るか分からないため、古典的な信号処理のみで合成することとした。また、素片接続をするとその素片自体に子音の要素が含まれている可能性があるため、素片も用いていない。さらに、分析合成系のように残差信号やそれにあたる信号を人間の音声から抽出すると、そこにも子音の要素が含まれているかもしれないので、駆動音源も人工的に信号処理で生成した。要するに、今回の合成手法には機械学習コーパスも用いていない。合成法については予稿にて簡単に触れている。そういった合成法を用いてスペクトログラムから合成音を生成した。スペクトログラムを描く際には、目標となる子音の生成に何が効果があったのかを分かりやすくするために、なるべく矩形で近似した。また、矩形で近似して子音を生成したのちに、一つ一つ要素を取り除き、それぞれの要素の効果を確かめた。子音の弁別に影響する要素を調べるのが本研究のメインテーマである。詳細は予稿に記した。生成した合成音は、まだまだ人間の声に明瞭度はおよばないが、子音の弁別には充分な音質ではなかろうかと思う。本研究の目的は、明瞭でひずみの少ない合成音を得ることではなく、あくまで何が子音の弁別要素になっているかを探ることである。なお、最初の疑問である母音と子音の違いについてはまだ分からない。
 合成音は以下にある。

consonantCue - Google ドライブ

コンピュータ将棋の駒落ちに関する雑記、その1。

 将棋には「駒落ち」というハンデ戦があります。強い方の人が駒をいくつか使わないというルールです。初期局面は例えばこんな感じです。

 この駒落ちは、将棋の文化としては、「純粋なハンデ戦」としての側面と「指導将棋用のルール」としての側面の主に2つがあります。どちらもルールとしては変わりませんが、強い方の人(これを「上手(うわて)」という)が全力を出すか出さないかなどの違いはあります。弱い方の人(「下手(したて)」)は常に全力です。

 ここまでが前置きです。

 この駒落ちとコンピュータ将棋をからめて、これまでに雑記を5回書いたので、それにリンクを張ります。今日の日記はこのリンク先が主役です。手抜き更新ともいいます。話が進むにつれて徐々に内容が薄くなります。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/NrCybGyDi4r

 11月15日。初回です。

 コンピュータ将棋の駒落ちの論文を探してみたという話です。結論としてはそのものずばりの論文はないのではないかという手応えです。

 なお、二人の方から「コンピュータ将棋の進歩(http://www.amazon.co.jp/dp/432002799X)」に「相手モデルを考慮するゲーム木探索」という項目があると教えていただきました(現在図書館で予約中です)。

 それから、冒頭の引用に登場する「山崎さん」というのは、この記事を書いた人です(「ビジネスとしての将棋を議論した後の「感想戦」」http://gendai.ismedia.jp/articles/-/34059)。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/jQRdigxhsYX

 11月29日。

 人間が上手側で指すときの考え方について、いろいろとウェブページを読んでみたという話です。駒落ちに関するスタンスの話でもあります。結論としては、みんなばらばらのことを考えているというものでした。

 なお、「最強の駒落ち」という本は、先日、「駒落ちのはなし(http://book.mycom.co.jp/book/978-4-8399-4476-6/978-4-8399-4476-6.shtml)」という題名で再編集されたようです。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/AfZGmEqLi5b

 11月29日。前回と同じ日付ではありますが、一晩寝ているはずです。

 駒落ちによる指導についての単なる作文です。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/QRFvkprT4wm

 11月30日。

 真剣勝負としてのコンピュータ将棋の駒落ちについての作文です。結論としては、「下手の読み筋」という盤外の要素を考慮しなければならないのではないかということです。

☆☆☆

http://tihara.hateblo.jp/entry/2012/12/06/121428

 12月6日。少し間を置いています。また、ブログを引越ししました。

 前半は雑文です。駒落ちが好きだという個人的な趣味の話です。

 後半は、ミニチュア将棋に関する短い作文です。

☆☆☆

 今のところはここまでです。

 専門の音声の研究とは違って、このコンピュータ将棋の駒落ちは私には手におえないのではないかという気がしています。というわけで、今回のエントリが、誰かがコンピュータ将棋の駒落ちの研究を始めるきっかけになったらいいなと思っています。

 今後もコンピュータ将棋の駒落ちについては自分なりにゆっくりと考えていきたいなと思っています。ある程度溜まったらまたこのブログに書きます。自分にあまり期待していませんが。

「山中伸弥先生に、人生とiPS細胞について聞いてみた」

 今日の日記は「山中伸弥先生に、人生とiPS細胞について聞いてみた」という本の感想です。

 私のブログを読むような人なら、読んで損のない本だと思います。名著です。

 iPS細胞の研究をする前は何の研究をしていたのか、なぜiPS細胞の研究が必要だと思ったのか。山中さんがどのように研究を進める人なのか。山中さんの研究室の人たちは何をしたのか。山中さんは研究をする上でどのようなことを大切にしているのか。その他いろいろと書かれています。

 読んでいて楽しくなれる本です。山中さんの人柄や優秀さがこれでもかというほど伝わってきます。

 iPS細胞を作ろうと思ったのがどうやら奈良先端大学着任時の1999年前後。そして、初めてiPS細胞が作れたのが2005年。そこからさらに実験データを溜めて世に発表したのが2006年。わずか7年で偉業を達成しています。驚くべき速さです。

 さて、ここから私の感想です。

 そんな優秀な山中さんがこんなことを言っていることに目を奪われました。

 一九九九年十二月に奈良先端科学技術大学院大学助教授として雇ってもらって、しばらく成果が出せませんでした。奈良ではじめた研究で、最初に論文として発表できたのは二〇〇三年五月です。

 およそ3年半、業績を出すことができなかったということです(奈良以前から始めていた研究で食いつないでいたのでしょう)。

 この「3年半」という長さがとても重要な意味を持ってきます。なぜかというと、今、一般的な助教ポスドクなどの働き盛りの若手研究者の任期が3年から5年だからです。任期というのは有期雇用の雇用期限のことです。優秀な人が雇用期限の中で業績を出せずに路頭に迷うことが十分に考えられるのです。

 大学関係者ならまるで業績を出せずに大学を去っていった若手研究者たちを毎年のように見ていることと思います。でも、無能に見えたその人はもしかしたら去った翌年に偉業を成し遂げていたかもしれません。

 本を読んだだけでは正確なことは分かりませんが、今の学術界隈では山中さんの研究方針は受け入れられないのではないかと感じました。山中さんは本の中で「ビジョン」という言葉を使っていますが、まさにそのビジョンが壮大すぎるのです。私はこのようなビジョンの大きな研究は好きですが、壮大すぎるビジョンの研究は上司にとめられます。あなたの人生にとってリスクが大きいからもっと小粒の研究をしなさいと言われます。賢明な若手研究者なら野心的な研究にはまず手をつけません。

 また、山中さんの研究手法にも問題があります。あまりにも目的に対して直接的すぎるアプローチをとっているのです。結果的にはそれがiPS細胞にたどり着くための最短経路だったわけですが、常識的にはスタートからゴールまでの道のりを山中さんよりさらに細かくして、迂回する道のりを通るものです。そうでないと雇用期限までに何の成果も出せないことが十分に考えられるからです。

 ノーベル賞受賞者である山中さんの研究というのは、有期雇用が常識的である現状にはそぐわないのです。

 当時、すでに子供も奥さんもいたそうなので、山中さん自身も今のような有期雇用制度のもとでは別の研究テーマを選んだり、別の研究アプローチをとったりしたはずです。

 現実には山中さんは助教ポスドクではなく助教授(今でいう准教授)でしたし、どうやら無期限の雇用だったと見受けられるので、実力通りに偉業を成し遂げることができましたが、もしも有期雇用だったらほかの人(おそらくほかの国の人)にiPS細胞を先に作られていたと思われます。先に作られるというのは特許が取れないということにつながってきます。大きな損失です。

 そういう有期雇用の現状をなんとかするために、山中さんは自らマラソンに参加して寄付を募っているのではないかという気がしています。

 本当のところは分かりませんが、それがこの本を読んだ私の感想です。引用部分を読んだときには「まじですか」と声に出してしまいました。周りに誰もいなくてよかったです。

google翻訳の技術倫理に悩む。

 今日の日記はgoogle翻訳で日本と中国に関する要らぬ議論が出ているという話です。多少政治的な話題が入りますが、政治的な話題はメイントピックではないです。

 google翻訳で、「中国が日本を侵略した」を英語に訳しても、「日本が中国を侵略した」を英語に訳しても、どちらも "Japan invaded China"となってしまうので、これはgoogleの陰謀に違いないという話が出ています。googleが中国の味方をしているという見方です。

 統計的機械翻訳という概念を知っていれば、この誤訳は「まあそういうこともあるだろうな」で済んでしまう話ではありますが、中身をまるで知らない人にとってみれば、なるほどgoogleが意図的に日本をおとしめているように見えても仕方がないところですね。

 googleというのは、いかに意図を持たずに情報を処理するかということに全力を注いでいる会社なので、まあ意図を持つということはまずないです。意図を持たないせいでミスることは多々あります。今回も意図を持たないことによるミスです。

 細かい技術の話はしませんが、ここまでが昨日知った出来事です。

 ここで技術者・研究者の端くれとして考えてしまうのが、技術倫理の問題です。

 技術者サイドとしては、開発途中のものであってもある程度使えそうなら公開したり売り物にしたりしてしまいたいわけです。で、売り物にしても通常はそれほど深刻な問題は出なかったりします。でもときとしてこういった大きな問題に発展してしまったかもしれない不具合が出てきます。そういったときにどう対処するのか。

 正直なところとしては「そういう技術なんだから許してください、直しません」といいたいところです。例外処理というのは、技術者が嫌うことの一つです。

 それから、開発途中のものを売り物にしていいのかという問題もあります。そもそも世の中に事故発生率が0のものはないので、程度問題ですね。

 今回の件を知って、情報処理技術による事故の影響力を見誤っていたかなということは感じました。google翻訳のような情報処理技術で国際問題が起きることはほぼ0だと思ってましたが、甘かったかもしれません。

 なぜ甘く見積もっていたかというと、まだ翻訳技術(特にgoogle翻訳)には誤訳が多いということは広く知られた話だと思っていたので、翻訳技術を信頼しきってしまう人などいないと思っていたからです。もはや、信頼される技術になってきているようです。

 とはいえ、開発を続けるためには開発途中のものも売り物にせねばならないので、さて、どうするのがいいんでしょうね。

物語自動生成と報道戦略。

 昨日から松原さんの「きまぐれ人工知能プロジェクト 作家ですのよ」が話題になっています。ITメディア日本経済新聞で採り上げられています。

 おそらくそのあたりの記事を読んだ方には、あたかも小説の自動生成が新しいプロジェクトのように映ると思うのですが、実のところかなり前からある人工知能のトピックだったりします。

 私も2005年前後に物語生成周辺を調べたことがあるのですが、日本人の中で論文をたくさん書いていたのは小方孝さんでした。どうやら今は岩手県立大学に研究室を持っているようですが、私が調べた頃は山梨大学にいました。

 山梨大学の「研究活動」のページに論文一覧があり、それを見ると小方さんはすでに1995年に物語生成に関する博士論文を書いていたことが分かります。その後、ずっと物語生成にかかわり続けています。

 そういうことを踏まえての感想なのですが、報道戦略って大切ですね。松原さんが悪いわけではないと思うんですが、今回の報道のされ方は残念でした。それまでの物語生成研究を切り捨てているように見えてしまったので。

ヒッグス粒子が話題です。

 今、ヒッグス粒子が話題です。私も気になったのでヒッグス粒子についていろいろとウェブ上を検索してみたのですが、さっぱり分かりませんでした。重力がどうのこうのとか、クォークとなんとかとフォトンとなんとかとあとそれがないとおかしいとか、そういう日本語は読めるのですが、内容がほぼ理解できません。スピンって何、なんで1/3とかいう数値が出てくるのとか、分からないことだらけです。

 で、思いました。きっと、私の出身研究室でさっぱり音声の研究ができなかった学生たちというのはそういう気分だったんだろうと。きっと、周波数って何、なんで確率が出てくるの、とかそういう気分だったんだろうと。私にとってのヒッグス粒子は、彼らにとっての音声で、しかも彼らは私とは違ってどうにか卒論をやり過ごさないと卒業できないというすごいプレッシャーがかかっていたはずです。もっといえば、中学校の二次方程式でつまづいた人たちも、「は?」という気分だったんだろうと思います。

 ヒッグス粒子に話を戻しますが、いくつかのウェブページをぱらぱらと読んで、ようやく科学に予算をつけたくなくなる気持ちが分かりました。だって、予算をつけても私は楽しめないんですよ。なんか、ヒッグス粒子に携わっている人たちはとても楽しそうですが、私は全く楽しくないんです。それよりはマンガを読んでいたほうが楽しいので、そちらに予算をつけたくなります。

 これまで、なんで学問の予算がここまで削られるんだろうなあと不思議に思ってきましたが、ようやく実感できました。学者以外が楽しくないんじゃ、予算は削られる一方です。

母音のよくある図。

 だからといってどうということもない話。分かる人だけ分かってください。

 世界中の母音を語る上でこの図がよく出てきます。口を開いているとか、前の方で喋っているとか、口が丸いとか、あの図です。

 現在、別の目的のために母音をちょこちょこといじっているのですが、この図の存在とまるでかみあわないんですよ。そのうちかみあうのかもしれませんが、とりあえず今はこの図の存在が私の中で否定されつつあります。

 まあ、音声認識とか音声合成とか工学系の技術はこの図とあまり関係がないので困らないんですが。