本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
ボヤキも聞こえる?!「音源分離技術」とは?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマは「音源分離技術」。さまざまな音の中から、聞きたい音のみを抽出することができます。悪口すらアーカイブされて、雑音の中に埋もれていた内緒話が皆に聞かれてしまうことになるかも?!

1.「音源分離技術」とは?

音源分離技術の必要性

携帯電話やカーナビゲーションシステム、ビデオ会議システムなどの音声を取り扱う機器が広く普及してきたが、これらを利用する場合、周囲の人の声や雑音、反響音などがマイクに入り込むと、通話品質や音声認識の精度が大幅に悪化する。そんなとき活躍するのが「音源分離技術」だ。「音源分離技術」とは、さまざまな音の中から目的の音声のみを抽出する技術のこと。音源分離技術を導入すれば、これらの機器を快適に利用できるようになる。

しかし、これまで開発されてきた音源分離技術は、抽出したい音源位置の方向を特定し、それ以外の方向からの音を除去することによって目的の音声を抽出するという方式が大半を占めていた。この方式は、マイクと音源との距離が1メートル程度の場合に威力を発揮するが、数メートル以上離れてしまうと、部屋の壁や天井で反射する反射音の影響を強く受けるようになり、十分な効果を発揮できなかった。また、目的音と雑音の周波数帯域が重ならなければ、雑音の除去は容易だが、街頭環境のように雑音が音声の場合には、目的音と雑音の周波数帯域が重なってしまうので、周波数の違いから雑音を除去することが困難になった。そのため、マイクと音源が数メートル離れた環境でも、雑音を除去し目的とする音声を高精度で抽出できる音源分離技術の開発が求められていた。

騒音の中でも特定の人の声を聞き分けることが可能な新しい音源分離技術の開発

こうした状況の中、日立製作所中央研究所では、騒音の中でも特定の人の声を聞き分けることが可能な新しい音源分離技術の開発に成功した。今回開発された装置は図1のようなシステム構成になっていて、これらの機器およびソフトウェアは市販のパソコン上に組み込まれている。そして、4メートル四方の室内にマイクを16個設置(1つのマイクアレイには無指向性マイクが8個取り付けられており、今回はこれを2つ使用)して、開発した音源分離技術の評価実験が行われた。

図1 新しく開発された音源分離技術のシステム構成
図1 新しく開発された音源分離技術のシステム構成

(資料提供:日立製作所)

実験の結果、約10秒で目的の音声を抽出することができ、この時の雑音を約20デシベル(dB)減少させることに成功した。これは、雑音の音量が100分の1程度になることを意味しており、繁華街の騒音を静かなオフィス環境の雑音程度まで抑制することに相当する効果があった(図2)。取材のとき、実際の効果を試聴させてもらったところ、喧騒の中で完全にかき消されてしまっていた人の声が、このシステムをONにすると、遠くで掃除機をかけている程度のバックノイズの中から聞きたい人の声だけが完全に浮き上がって聞こえてくるようになった。
 また、この評価実験では、音源位置を誤差20cm以内の精度で特定できることも確認された。

図2 雑音抑制の効果
図2 雑音抑制の効果

(資料提供:日立製作所)

2.新しい「音源分離技術」の仕組み

新しく開発された音源分離技術は、雑音が、部屋の壁や天井などでどのように反射するかを予測し除去するという処理を行って目的の音声だけを抽出し、さらに抽出された音声をオリジナルの音声の品質に近づけるための歪み補正処理を行うという、2段階で処理を行っている。

まずは、目的の音声がマイクアレイの各マイクに到達する時間差を検知することで抽出を行っている。例えば、図3の話者Aと話者Bでは、マイク(1)とマイク(2)に対する方向と距離が微妙に異なることから、それぞれの音声がマイクに到達するまでの時間にズレ(1ms以下)が生じることになる。もし目的の音声が話者A(青線)なら、マイク(1)だけの音声データだけでは分離できないが(話者Aと話者Bの波形が重なってしまっている)、マイク(2)の音声データ(話者Aと話者Bの波形は重なっていない)を使うことで分離できる。

話者B以外の雑音についても、マイク(1)の入力信号に混入する雑音信号を、他のマイク信号に混入する雑音信号から推定し、推定した雑音信号をマイク(1)の入力信号から差し引くことで、ほとんどの雑音信号を除去することができる。雑音の予測は、雑音が部屋の壁や天井などでどのように反射するかを考慮して実行される。この雑音の予測処理は「多チャンネル空間予測処理」と呼ばれている。

図3 音源分離の基本原理
図3 音源分離の基本原理

(資料提供:日立製作所)

しかし、この処理を行った後の信号は、雑音がきれいに消えた信号になるものの、目的の音も若干不自然な歪んだ音になってしまう。そこで、この歪みを「歪み補正処理」で補正している。歪み補正処理では、それぞれのマイクに含まれる目的の音の断片を寄せ集めて、目的の音をオリジナルの音に近い、きれいな音に補正している。

活躍の場はココだ!

音声を収音するというニーズがあるすべての分野で、今後、この音源分離技術が活躍する可能性が高い。その主な分野として、以下の領域を挙げることができる。

(1)音声通話: 携帯電話、ビデオ会議システム、ハンズフリー通話など
(2)音声操作: テレビの音声操作、音声操作券売機、カーナビなど
(3)エンターテイメント: ゲーム機器、街角集客端末、接客ロボットなど
(4)セキュリティ: 音声監視システム、異常音検出装置など・・・

例えば、ビデオ会議システムやICレコーダなどを使って会議や打合せの内容を録音する場合、周囲の雑音に音声が埋もれて聞き取りにくくなることがよく起こるが、そんなときに特定の人の声だけを分離して収録できるようになれば、正確な議事録を保存できるようになる。また、目的の音声をきれいな音で抽出できるようになることから、この音声出力を音声認識の入力に使えば、音声の認識率が向上する。従って、大きな音でBGMがかかっている車内でも問題なくカーナビを音声操作したり、騒音のひどい場所に音声操作券売機を設置したりできるようになる。

セキュリティへの応用も!

さらに、この音源分離技術では、不審な音を聞き分けたり、その音がしている場所(方向と距離)を突き止めたりできることから、セキュリティへの応用も考えられる。具体的には、不審者が侵入してきた場合の音声や足音などの情報を監視カメラにリアルタイムで送信し、その方向にカメラを向けてズーム撮影するような監視システムも開発できる。

取材協力 : 株式会社日立製作所

掲載日:2009年11月11日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2009年10月07日掲載分

検索

このページの先頭へ