「べ」と「で」と「げ」の違い・その4。

 本日の日記は音声の話である。ようやく一歩研究が前進したかしていないかというところである。分野としては、計算音声学ということになるのだと思う。文系の音声学について工学的にアプローチしてみたということである。

 私は今、/p/と/t/と/k/がどのように違うのかという謎にとり組んでいる(ここ三年間くらいずっととり組んでいる課題である)。広くいわれているのは第二フォルマントの周波数の時間変化で見分けがつくというものだが、「第二フォルマントの周波数の時間変化」そのものが探せない音声があったり、フォルマントを様々に変化させて音声を合成してもうまく/p/,/t/,/k/に聞こえなかったりしていたので(ほかの研究者からもちらほらそういう声が聞こえる)、おそらく広くいわれているこの仮説にはどこかに穴があるのだろうと思っている。そして、自分で地味に見分け方を探してみようとしている。

 研究のアプローチとしては、とにかく/p/,/t/,/k/を再現しようというところから始めている。そして今回ようやく/pi/,/ti/,/ki/が再現できたのではないかということで、ここに記録を書いている。母音が/i/の場合に限るのであるが、それでも大きな一歩である。

 問題をもう一度定義する。/i/の音声を信号処理的に加工して/pi/,/ti/,/ki/を作るのが目標である。なお、調音位置だけを問題としているので、/bi/,/di/,/gi/になってしまっても構わないものとする。

 以下、作り方と同時に、作った音声を60代男性と60代女性に聴いてもらった感想も記す。被験者数が少ないのでもっと多くの人に聴いてもらいたかったところであるが、個人でできるのはこのあたりまでである。この日記の末尾からリンクしたサンプル音声には私の声しか含まれておらず、聴いてもらった音声も主に私の声であるが、研究過程では「重点領域研究「音声言語」・試験研究「音声DB」連続音声データベース*1」というデータベースを使わせていただいた。データベースを提供してくださった国立情報学研究所音声資源コンソーシアムの方々に感謝します。

 まず、元となる/i/のスペクトログラムはこれである。これを加工する。なお、サンプリング周波数は16kHzであり、このスペクトログラムの縦軸(周波数)の最大値は8kHzである。横軸(時刻)は0.3秒程度である。赤が最も振幅が大きく、青が最も振幅が小さい。


図1 /i/

 /ki/への加工法であるが、とてもシンプルである。以下のスペクトログラムのように、第二フォルマント付近に狭い帯域の雑音を作る(黒い矢印で示した部分)。これだけで、およそ「き」に聞こえる。いろいろと自分の耳で聴いてみた感じでは、狭さが重要であり、どれくらいの周波数の高さに雑音があるかということはさほど重要ではないようである。ただし、第二フォルマントよりも低い周波数帯域では、「き」に聞こえなかった。


図2 /ki/っぽく加工

 被験者二名の/ki/に対する感想であるが、どうやらこれから示す/pi/や/ti/よりも明瞭度は相対的に高かったようである。

 次に、/pi/への加工法であるが、少々厄介である。最も肝心なのは、以下のスペクトログラムに示す黒色で囲った部分を低い周波数にずらすという操作である。これだけでかなり/pi/っぽくなってくれる。/pi/には聞こえなくとも唇付近で調音された音っぽくはなってくれる。次に、青で囲った部分に雑音を付与する。これで破裂音っぽくなる。実はこの二つの操作で私の声以外の音声サンプルでは/pi/っぽくなってくれたのであるが、どうやら私の声は特殊らしく、緑で囲った部分の振幅をゼロにしないと/pi/には聞こえてくれなかった。


図3 /pi/っぽく加工

 この/pi/の操作であるが、従来からいわれている「第二フォルマントの周波数の時間変化」の知見とおよそ一致している。

 被験者二名の感想であるが、/pi/については意見が割れた。男性被験者は明瞭度が低いと感じたそうだが、女性被験者にははっきりと/pi/に聞こえたようである。このあたりで、被験者数の重要さが分かる。

 最後に、/ti/への加工法であるが、実はこれはよく分かっていない。なぜかというと/i/を加工すると大抵どう加工しても/ti/っぽくなってしまうからである。これでは/ti/の生成法が分からない。今回は最もシンプルな方法として、下の図のスペクトログラムの緑で囲った部分の振幅を一様にして位相をランダムにするという方法をとった。


図4 /ti/っぽく加工

 この/ti/に対しても被験者二名の意見が割れた。男性被験者は明瞭度が高いと評価した。女性被験者は聞き方によっては/pi/にも聞こえると評価した。

 以上で音声加工方法の本論は終わりである。以下、余談などである。

 今回は身近にいた六十代の男女を被験者としたが、聴覚の世界では六十代を高齢者として扱うことがある。大雑把な高齢者の特徴として、母音の聞き取りに不自由はないが、子音の聞き取りが苦手であることが多いということが挙げられているらしい。今回そんな初期高齢者でも意図どおりに子音が聞き取れたということで、手法は悪くないのではないかと思っている(前回はまるで聞き取ってもらえなかった)。

 また、被験者は音声を聞くのを嫌がるのでほとんど私の声しか聞かせていないのだが、私は様々な人の声で研究を進めた。その中には「桃音モモ」に使われている声もあった。そして、最も加工しづらかったのが「桃音モモ」の声だった(上記の方法でも私にすら子音がそれっぽく聞こえない)。理由は分からない。なお、次に加工しづらかったのは私の声だった(ほかの六名程度で成功したかに思えた手法がいつも私の声で通用しなかった)。

 それから、前回に同様の試みをしたときには、研究遂行者である私にしかそれっぽく子音が聞こえなかったという事態に陥った。自分の作った音に慣れてしまったからである。この研究は慣れとの戦いである。今回ももしかしたら、私と二名の被験者にしかそれっぽく子音が聞こえていないという事態に陥っている可能性もある(二名の被験者には前回も協力をしてもらったため)。これが最も怖いところである。

 最後に、母音/o/に関しても/po/,/to/,/ko/を作ってみたのだが、先に被験者となってくれた男性被験者が、「(子音が聞こえず)/o/としか聞こえない」と言っていたため、今回は/i/のみの日記とした。一応、配布するスクリプトと音声サンプルには/o/のものも同梱した。

 いつもと同様に今回もスクリプトとサンプル音声をSkyDriveに置いておく。自由に使ってもらって構わない。改変・二次配布も許可する。スペクトログラムの画像も同梱している。

 私はこれから一ヶ月ほど耳を休めるが、もし続きを研究したい人がいるなら、自由に続きを研究して自由に発表してください。

*1:板橋秀一「文部省「重点領域研究」による音声データベース」日本音響学会誌,48巻,12号,pp. 894-898 (1992)