ディジタルパターンプレイバックによる日本語子音キューの分析

 2019年10月28日に日本音響学会の聴覚研究会で発表をしてきた。予稿のPDFや発表スライドはアップロードしないが、音声を聞きそびれた方がいるかもしれないので、合成音をアップロードしておく。また、学会の性質上、予稿やスライドに書けなかった研究動機等もここに記しておく。予稿がほしい方は、国会図書館や大学の図書館で手に入れてください。
 さて、今回の研究の始まりは「子音とは何か」という問いであった。母音と子音は何が異なるのかということである。現在、高精度の音声認識技術が出回っているものの、このことについて明確な答えは出ていない。そして私もこの題材について攻めあぐね、子音と母音の違いを探る前に、まずは子音同士の違いを探ることにした。子音同士の違いを探るという研究は旧くからあり、スペクトログラムから違いを読み取るというものと、スペクトログラムを描いて合成音を聞くというものの二つの研究方針が示されている。私は合成音を聞くという方針を採用した。そのためにスペクトログラムから音を合成する手法をまずは作らねばならないのであるが、このとき機械学習や統計的手法を使うと合成音のどこにどのような影響が出るか分からないため、古典的な信号処理のみで合成することとした。また、素片接続をするとその素片自体に子音の要素が含まれている可能性があるため、素片も用いていない。さらに、分析合成系のように残差信号やそれにあたる信号を人間の音声から抽出すると、そこにも子音の要素が含まれているかもしれないので、駆動音源も人工的に信号処理で生成した。要するに、今回の合成手法には機械学習コーパスも用いていない。合成法については予稿にて簡単に触れている。そういった合成法を用いてスペクトログラムから合成音を生成した。スペクトログラムを描く際には、目標となる子音の生成に何が効果があったのかを分かりやすくするために、なるべく矩形で近似した。また、矩形で近似して子音を生成したのちに、一つ一つ要素を取り除き、それぞれの要素の効果を確かめた。子音の弁別に影響する要素を調べるのが本研究のメインテーマである。詳細は予稿に記した。生成した合成音は、まだまだ人間の声に明瞭度はおよばないが、子音の弁別には充分な音質ではなかろうかと思う。本研究の目的は、明瞭でひずみの少ない合成音を得ることではなく、あくまで何が子音の弁別要素になっているかを探ることである。なお、最初の疑問である母音と子音の違いについてはまだ分からない。
 合成音は以下にある。

consonantCue - Google ドライブ