「べ」と「で」と「げ」の違い・その3。

 本日の日記は子音の話である。これまでの私の経過を追っている方なら分かっていると思うが、子音の研究の道のりは険しい。

 いつもの繰り返しになるが、私は子音というものを解明したいと思っている。母音についてはその物理特性がかなりのところまで分かっているが、子音についてはほとんど分かっていない。分かっていないままおよそこのあたりだろうと見当をつけてアプリケーションを開発したらなぜか動いてしまったというのが現状なのでなんとかしたい。

 本題に入ろう。今回は、人間が発声した母音のみの音声に、子音を付与することができないだろうかと試みてみた。従来は、人間の子音をそのままくっつけたり、一度それっぽいパラメータにしてからくっつけたりしていたのだが、そうではなくて今回は子音データを参照せずに手作業で加工して子音を付与する。成功すれば、子音というものがぐっと明確になるはずだった。

 というわけで、結論からいえば成功しなかった。とはいえ、研究自体は進んだ。

 まず、今回の対象は/p/,/t/,/k/である。つまり/a/を加工して/pa/を作ったり、/i/を加工して/ti/を作ったりするのが目標である。「あいうえお」という母音から「ぱぴぷぺぽたてぃとぅてとかきくけこ」を作るのが目標である。

 加工の仕方であるが、基本的にこの15モーラで全て異なる。一例として/u/→/ku/の話をしよう。/u/のスペクトログラムは以下のようになっている(加工前)。横軸が時刻(画像いっぱいに約0.3秒)、縦軸が周波数(0-8kHz)、色が振幅(赤くなるほど大きい)である。

そして、これを以下のように加工した(加工後)。

(1) /u/の冒頭部分を削った。
(2) 低い周波数のところに、一様な振幅でランダムな位相の領域を一定時間作った。

 その結果、私の耳には「く」に聞こえる音になった。この加工法が最も単純な例だが、ほかの14種類のモーラについてもそれぞれに異なる加工法を作った。私の耳には「ぱぴぷぺぽたてぃとぅてとかきくけこ」ができたように聞こえた。

 しかしながら、まだまだ聴覚の正常な65歳前後の男女各一名に聞かせてみたところ、子音は全く聞こえず、単に(汚い)母音しか聞こえなかったようだった。そのほか、30歳前後の男性2人にも聞いてもらったが、「たてぃとぅてとかきくけこ」は聞こえていなかった。つまり、今回の加工で意図どおりに子音が聞こえていたのは私だけであるということになる。

 自分の加工した何かが自分にだけ意図どおりに知覚できてしまうというのは、人工知能関連の研究にはよくあることである。事実として目標には到達できていないのだが、考察すべき点はある。

 今回の加工に用いたのはほとんど上記の例のように「ある時間周波数の領域を一様な振幅でランダムな位相にする」というものだった。この操作は二つの見方ができる。一つは母音にカラーノイズを付与しているというものである。この見方をすると、「子音=母音+カラーノイズ」という仮説が生まれるのだが、事実として子音が聞こえない以上、この仮説は棄却される。もう一つの見方は、「何かをマスクしている」というものである。今回加工したその領域に子音を決定づける何かがあり、加工によってそれを隠しているのだという見方である。そのように考えると、私が子音つきの音声を聞いているように錯覚してしまったことも、ほかの人には子音が聞こえなかったことも説明がつくだろう。

 加工した領域の周波数は15種類のモーラによって異なる。その領域に何かがあるのではないかと踏んでいる。

 ところで、こういう研究は60年代に済んだと私がよく言われたが、実のところその頃にはできなかったのではないかと思っている。データとパンチカードを計算機事務所に提出してから出力が出るまでに(手続きの都合上)一日かかった時代に、一日数十回の試行錯誤ができたとは思えない。

 いつもと同様に今回もスクリプトと音声をSkyDriveに置いておく。自由に使ってもらって構わない。改変・二次配布も許可する。スペクトログラムの画像も同梱している。また、今回も「重点領域研究「音声言語」・試験研究「音声DB」連続音声データベース*1」というデータベースを無料で使わせていただいた。データベースを提供してくださった国立情報学研究所音声資源コンソーシアムの方々に感謝します。

*1:板橋秀一「文部省「重点領域研究」による音声データベース」日本音響学会誌,48巻,12号,pp. 894-898 (1992)