本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
2000時間を3秒で検索! 音声検索技術とは?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマは「音声検索技術」。どこでどんな言葉が語られているか一瞬でわかる音声専用検索エンジンの登場です!!

「音声検索技術」とは?

音声検索技術とは、マルチメディアコンテンツなどに含まれている音声の録音データの中から、任意のキーワードを含む音声部分を見つけ出すための検索技術のことだ(図1)。最近、動画配信サイトなどがブームになるなど、音声が入ったマルチメディアコンテンツがインターネット上、あるいはPC上に沢山蓄積される時代になってきた。これらの録音データをもっと有効活用するには、膨大な録音データの中から自分の聴きたい部分をすばやく探し出すことができる音声検索技術が必要になってくる。そこで、大手コンピュータ企業あるいは各種研究所では、いろいろなアプローチによる音声検索技術の研究・開発が進められている。

図1 音声検索技術とは?

(資料提供:日立製作所中央研究所)

図2 大規模音声検索技術の検索デモ画面
デモ用音声データ(463時間)講演音声…460時間(国立国語研究所「日本語話し言葉コーパス」より抜粋)映像番組…3時間

デモ用音声データ(463時間)講演音声…460時間(国立国語研究所「日本語話し言葉コーパス」より抜粋)映像番組…3時間
(クリックすると大きな画像が表示されます。)

(資料提供:日立製作所中央研究所)

今回は、これらの音声検索技術の中から、日立製作所中央研究所が実用化に向けて取り組んでいる大規模音声検索技術を紹介しよう。まず、その実際の使い勝手はどのようなものか、その様子を図2に示す。この例では、独立行政法人国立国語研究所が作成した「日本語話し言葉コーパス(CSJ)」に収録されている講演会の音声データ460時間と、映像データ(日立所有)3時間を検索対象として使っている。この音源に対し、任意のキーワードを指定して検索ボタンをクリックすると、そのキーワードが含まれている録音部分が瞬時に特定され、その検索結果が画面上にサムネイル表示される。つまり、GoogleやYahoo! JAPANのような通常のテキストや写真などを対象にした検索サイトと全く同じ操作感覚で、入力した言葉を含む録音データあるいは映像データが、一致精度の高い順にサムネイルで一覧表示されるのである。ここで、サムネイル表示された検索結果をクリックすれば、そのキーワードが登場する1秒前から録音データが再生される。何秒前から何秒後まで再生するかは自由に指定できる。この検索技術では、2000時間の録音データの中から3秒で検索結果を得ることが可能だ。


「大規模音声検索技術」の仕組み

次に、ここで取り上げた日立製作所の大規模音声検索技術の仕組みを簡単に紹介しておこう(図3)。同社の音声検索技術の場合、検索対象となる音源に対し、事前に音声登録処理を行っておく。この処理では、まず音声波形を解析して音素(音の基本単位)に分類する。次に、その結果を音素記号列に変換してデータベースに保存しておく。これで事前準備が完了する。そして、検索したいキーワードをキー入力すると、そのキーワードは音素記号に変換され、そこで得られた音素記号列を事前に作成しておいたデータベースと照合させることで検索が行われるという仕組みになっている。

図3 音声検索の原理

(資料提供:日立製作所中央研究所)

一般的に、検索エンジンでは検索速度の向上を図ると検索精度が下がるという、検索速度と検索精度は反比例の関係にある。そこでこの難問を少しでも乗り越えるために、同社では、「音素記号インデックスを使った高速記号列照合」と、「多段階リスコアリングによる高精度照合」という2つの手法を考え出した。前者は、音素がどのタイミングで出現するかをインデックス(索引)として保存してから検索を行うことで高速化を図る技術。後者は、音素による検索処理を行った後、音声特徴量を用いて、より精度の高い再検索を複数回行う技術。現在は、段階的に精度を高めながら合計3回の検索処理を行うことで高精度なキーワード検索を実現している。  もう少し詳しく説明すると、

まず音素記号列を使って粗く検索候補を検出する。
次に、各検索候補のスコアをやや精微な音響情報をもとに再計算する。(1段目のリスコアリング)
その結果に対し、さらに精微な音響情報をもとに再び再計算する。(2段目のリスコアリング)

こうして検索結果を導き出すのである。

「大規模音声検索技術」実用化へ向けて

日立製作所で開発された大規模音声検索技術では、検索対象となる音源の前処理(音声登録処理)が必要になるが、現在、この前処理は1倍速で実行されていることから録音時間と同じ時間だけ処理にかかっている。もちろん、処理時間をもっと短縮させることも可能だが、その場合、データベースに保存される音素記号列の精度を維持しながら、如何に前処理時間を短縮できるかが1つの課題になっている。また、この技術では音素記号列を使っている関係で、同音異義語を区別しながら検索したり、個人の音声を特定したりすることはできない。その代わりに、どんなキーワードでも高速検索することができ、アクセントの違いや早口なども問題にはならない。  すべての地上デジタル放送の1週間分の音声量が約2000時間になるということから、2000時間を3秒で検索できることは実用に値するものと考えられる。さらに、市販のPCでも十分な検索処理性能を実現できることから、幅広い分野での事業化が期待されていて、日立製作所では数年以内の事業化を目指している。

音声検索技術の事業化分野
カスタマリレーションマネジメント
○コールセンタ品質改善 ○顧客ログ解析 ○営業窓口のサービス改善 ○顧客データ検索
エンターテイメント
○Webコンテンツ ○ラジオ ○個人動画検索/共有
ビジネス/知識共有
○録音検索 ○社内情報検索 ○会議情報共有
コンテンツ/教育
○授業検索/共有 ○素材検索 ○教育番組検索
家電/暮らし
○録画番組検索 ○レシピ検索 ○思い出検索

取材協力 :株式会社日立製作所

掲載日:2009年8月 5日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2009年04月01日掲載分

検索

このページの先頭へ