"On the importance of phase in human speech recognition"

 面白い論文があったので紹介する。題名を日本語に訳すと、「人間の音声認識における位相の重要性について」あたりになる。こちらにアブストラクトが載っている(http://ieeexplore.ieee.org/xpls/abs_all.jsp?isnumber=35293&arnumber=1678004&count=35&index=33)。

 要するに、普通の音声認識で切り捨てられている位相情報は実は重要なのではないかという論文である。とりわけ、ノイズが乗っているときに重要そうだということである。実験は機械による自動音声認識ではなく、人間の耳による音声認識でおこなわれている。

 私も人間は位相情報を用いて音源分離をおこなっているのではないかと思っていたところである。スペクトログラムを眺めても私の目では音源を分離することができないからである。

 この論文を読んで、もしも日本だったらこの論文は通らなかっただろうと思った。昔から人間は位相情報を認知していないとされており、日本では一度定説となったものを覆すのは難しい。悲しいことである。

Rough Translation:

Having found an intersting article, I will introduce it. The title stands for "人間の音声認識における位相の重要性について" in Japanese. The abstract is here (http://ieeexplore.ieee.org/xpls/abs_all.jsp?isnumber=35293&arnumber=1678004&count=35&index=33).

In short words, the paper says that the phase infomation that is discarded in automatic speech recognition is important, especially when the utterance is contaminated by noise. The speech recognition experiments were performed by the ears of humans instead of by the machines.

I have been feeling that human separates audio sources by using the phase information. I cannot separate the audio souces with my eyes by seeing the spectrogram.

Reading this paper, I felt that if the paper were submitted to Japanese journal it would be rejected. A hypothesis that human does not perceive the phase infomation is considered as the fact, in Japan it is difficult to deny the "fact". I am sad.