スペクトログラムとは?

周波数分析を時間的に連続して行い、色によって強さを表すことで、強さ、周波数、時間の3次元表示を行う。

このグラフ(スペクトログラフ、日本では声紋という言葉の方になじみがある)では横軸が時間、縦軸が周波数(上に行くほど音が高い)、色が黄色いほど音が強い(音が大きい)。

20世紀初頭より、聾唖(ろうあ)者(耳が聞こえない人)に、音声を目で見て理解できる手段を提供できないか? という観点より、ビジブル・スピーチ(Visible Speech) 「目で見える音声」を目指して開発が進められる。
 

スペクトログラムで何が分かる?

音の時間的な変化、音色、高さ、大きさを同時に読み取ることができる。
熟練すると、音声のスペクトログラフ(声紋)から、話している言葉を知ることも可能
同じ単語でも発声する人が違えば、スペクトログラフの特徴は異なる。下の図で上にある黄色い帯は、スペクトログラフに対応する波形を示している。
 


サウンドと発声した音(男性)

sound と英語で発声した音(左と同じ男性)

サウンドと発声した音(女性1)

サウンドと発声した音(左とは異なる女性2)

スペクトログラムの応用

音声認識、話者特定、話者認識、犯罪捜査、話者認証
 

戻る

東京情報大学 情報文化学科 西村ゼミ
Akira NISHIMURA    akira@rsch.tuis.ac.jp