本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > ロボ・ステーション

ロボ・ステーション


新産業の創造に挑む!ロボット特区大集合
「音声認識は有力なインターフェースであり、あらゆる機器に搭載したいです」〜音声認識技術により"コトバ"による情報化社会を目指す〜【レイトロン】

画像をクリックすると拡大表示します

レイトロン 長田隆宏さん

レイトロン
営業部 長田隆宏部長代理

〒530-0054
大阪市北区南森町1-4-19
http://www.raytron.co.jp

半導体設計専業企業として知られるレイトロンは、2007年春にコミュニケーションロボット「Chapit(*1)」を発表した。話しかけると言葉を認識して返事をするうえ、赤外線通信により家電の制御も行える。その親しみやすい外観と愛嬌のある話し方から人気を得ており、昨年「ロボナブル」が実施した『抱きしめたいロボットコンテスト2007』では、多くの女性票を集めて2位に選ばれた。
 その製品化を望む声が多数あるが、あくまで音声認識技術をわかりやすく伝えるためのツールとして提案している。

親しみやすい外観と愛嬌のある話し方で人気のChapit。話しかけると言葉を認識して返事をするうえ、赤外線通信により家電の制御も行える。 6月に開催された「G8サミット財務大臣会議」の大阪PRブースにて、橋下徹大阪府知事(中央)と平松邦夫大阪市長(左)に愛想(?)を振りまくChapit。要人への対応も難なくこなす。

(左)親しみやすい外観と愛嬌のある話し方で人気のChapit。話しかけると言葉を認識して返事をするうえ、赤外線通信により家電の制御も行える。(右)6月に開催された「G8サミット財務大臣会議」の大阪PRブースにて、橋下徹大阪府知事(中央)と平松邦夫大阪市長(左)に愛想(?)を振りまくChapit。要人への対応も難なくこなす。

同社は、数年前より『コトバによる情報化社会の実現』を提唱し、その考えのもと音声認識技術の開発に取り組んでいる。すでにパソコンを操作できる人とできない人との間に情報格差が生じており、情報家電の普及に伴い、その傾向が進むことが予想される。音声認識によるインターフェースが用意されれば、機器操作に不案内な人でも容易に操作することができ、大きな価値が生まれる。そこに、同社が目指す『コトバによる情報化社会』の姿がある。

*1:音声認識機能、音声合成機能、家電制御機能を備える。音声による命令を出すと、Chapitから赤外線リモコン信号が送信され、テレビなどの家電製品を操作する。音声認識機能は北海道大学の宮永研究室と、音声合成機能はエーアイと、それぞれ共同開発したものを実装した。音声認識には、単語単位で認識を行う孤立単語認識を採用している。2007年3月には、大阪市内のモデルハウスにて、『コミュニケーションロボットと共にある暮らし』というテーマで実証実験を実施。Chapitによる家電製品の制御に加え、ギンガネットのIP電話「ギンガネット電話」を音声で操作し、テレビ電話、インターネット閲覧、ストリーミングなどのデモを披露した。なお、Chapitの「Cha」は「Chat」(おしゃべりする)を、「pi」は「pico」(小さい)を、「t」は「robot」をそれぞれ意味している。

実環境で利用できる音声認識技術

音声認識技術は、あまり意識されていないが、すでにさまざまな分野、機器で利用されている。例えば、コールセンターや車載機器、モバイル機器、ゲームなどである(*2)。
 現在の音声認識技術は、設計(デザイン)と利用のされ方がきっちりマッチすれば、快適に利用できるレベルの認識率(精度)を達成している。つまり、話題となる対象範囲など用件を明確にし、かつ発声(発話)の際の決まりごとを利用者とシステムの間で共有しておけば、利用することができる。が、見方を変えれば、そうしたお膳立てをしなければ、まだまだ使えないとも言える。

*2:例えば、コールセンターでは音声による株価照会や飛行機のフライト情報問い合わせに、カーナビでは目的地設定や地名の読み上げ、車内での電話の受発信に、モバイル機器では携帯電話の音声による発信やメールの読み上げに、ゲームでは音声認識機能を使ってキャラクターを操作する用途に、それぞれ利用されている。

これに対し、レイトロンは実環境での使用に耐える音声認識技術を目指しており、それを達成しつつある。
 Chapitに搭載している音声認識技術は、ノイズキャンセラーの研究を行う北海道大学の宮永喜一教授と共同開発したものである。同教授が開発したアルゴリズムをハードウエア化し実装している。
 ここ最近、音声認識関連の技術展示がなされる機会が増えているが、展示会場は雑音が大きいため、対話者の声を拾う専用マイクを利用してデモがなされる。これに対し、同社は約1m離れたところから、専用マイクを用いずにChapitに話しかけてもらうというデモを実施している。ノイズ環境下でも高い認識率を実証し、他の音声認識技術にはない優位性が認められている。

同社では、さらなる認識率の向上を目指した開発を進めている。具体的には、「9(キュー)」と「10(ジュー)」など、人でも聞き間違えるような、ニュアンスが近い言葉の判定機能を開発し実装している。
 同社の音声認識は、大きく「音声区画自動抽出エンジン」「音声認識エンジン」「認識フィルタリング」の3段階の処理で行う。まず音声区画自動抽出エンジンにて、どのタイミングで音声が入力されたのかという発話領域を抽出する。次に音声認識エンジンで音声の特徴量を算出し、雑音ロバスト処理を経た後、コード推定処理にて候補となる言葉を推定する。候補に挙がった言葉は、パーセンテージで合致度が示される。そして、認識フィルタリングにて候補に挙がった言葉が正しいかどうかを判定する。このような処理により適切な認識を可能にしている。
 「人間でも他人の話をうまく聞き取れないときは、かすかに聞き取った言葉が正しいかどうかを判断するために、聞き返すと思います。そのような行動を判定機能に落とし込んだと思ってもらえば、ここでの処理が理解しやすいでしょう」
 営業部の長田隆宏部長代理は、そう明瞭に説明する。

Chapitに搭載されている音声認識モジュールのLSIロジックおよび外部インターフェース系統図。音声認識コアは、「音声区画自動抽出エンジン」「音声認識エンジン」「認識フィルタリング」から構成される。音声区画自動抽出エンジンにて発話領域を抽出。音声認識エンジンで音声の特徴量を算出し、雑音ロバスト処理を経た後、コード推定処理にて候補となる言葉を推定。最後に、認識フィルタリングにて候補に挙がった言葉が正しいかどうかを判定することで、適切な認識を可能にしている。

Chapitに搭載されている音声認識モジュールのLSIロジックおよび外部インターフェース系統図。音声認識コアは、「音声区画自動抽出エンジン」「音声認識エンジン」「認識フィルタリング」から構成される。音声区画自動抽出エンジンにて発話領域を抽出。音声認識エンジンで音声の特徴量を算出し、雑音ロバスト処理を経た後、コード推定処理にて候補となる言葉を推定。最後に、認識フィルタリングにて候補に挙がった言葉が正しいかどうかを判定することで、適切な認識を可能にしている。

また、「間違えにくい言葉のみをシステムに登録して認識させれば、認識率は向上しますし、そのような見せ方をしているところもあります。が、それでは実環境では使いものにはなりません。当社では、ニュアンスが近い言葉をきちんと振り分けられるシステムを目指しましたし、その結果、高い認識率を確保できたのです」
 長田さんは、そう開発の意義を説明する。

新たな提案を提案できるか否かが普及のカギ

同社では、Chapitに搭載している音声認識モジュールを「雑音ロバスト音声認識システム」として、各分野、各機器への提案を始めている(*3)。すでに各種FA機器や家電などのインターフェースとしての引き合いがあるという。

*3:開発した「雑音ロバスト音声認識システム」はFPGAで実装した状態であり、おもに試作用途向けに提供しているという。家電など生産台数が多い機器への搭載では、LSI化したうで提供することもあるという。FPGAには米アルテラ社の「Cyclone」を使用している。

近年、各種FA機器のインターフェースには直感的に操作できるタッチパネルが主流になってきている。しかしながら、操作時は作業をいったんやめて作業手袋をはずす煩わしさがある。このような「ムダを排除する有効な手段として期待を寄せられている」(長田さん)という

また、家電などの用途では、基本機能に直接アクセスするための手段として期待されている。
 例えば、パソコンや携帯電話は機能や操作体系はツリー上の階層構造になっており、使いこなせる人は、おおよその構造を把握しているため必要な機能にアクセスすることができる。しかし、使い始めて間もない方や高齢者の方は把握できていないため、容易に使いこなすことができない。
 「音声認識機能を搭載していれば、基本機能を直接呼び出すことができます。機器操作に関わる障壁を取り除くことができるでしょう」
 長田さんは、音声認識技術の利点を、そう説明する。

Chapitにも搭載されている音声認識モジュール「雑音ロバスト音声認識システム」。日本語・英語対応し、最大1,000フレーズの登録が可能。並列処理によりリアルタイムな応答を可能にしている。

Chapitにも搭載されている音声認識モジュール「雑音ロバスト音声認識システム」。日本語・英語対応し、最大1,000フレーズの登録が可能。並列処理によりリアルタイムな応答を可能にしている。

このように期待は高く、かつ、すでに高度な音声認識技術を有しているが、「どのような提案を行うべきかに悩まされている」(長田さん)。
 最近、話題となった米アップル社の「iPhone」は、タッチスクリーンを生かした直感的な操作およびインターフェースでユーザーを魅了した。クールなインターフェースとして受け入れられた。が、「音声認識による操作は、用途によっては『クールに見えない!』という指摘がある」(同)というのである。今後のライフスタイルを見据えたうえで新たな用途を提案できるか否かが、同社が提唱する『コトバによる情報化社会』の実現を左右するようだ。
 「使い勝手などの改善を図りつつ、他の機器と組み合わせた使い方を提案していきたい」と、長田さんは話す。

また、販売が期待されている「Chapit」については、現時点では、ロボットの開発・販売というビジネスモデルが成立させた企業がいまだないため、慎重にならざるを得ないという。
 「これまでの実証実験を通して、家庭内で便利な機能を提供してくれるロボットは"あり"だと思っています。が、現状の機能に対してどれくらいの価格が妥当なのか? いくらまでなら購入してもらえるのか? また、販売する場合、会話機能のみの単機能にするのか? それとも、ネットワークに連携させて遠隔操作として活用できる高機能なものがよいのか?・・・・、と悩んでいます」
 長田さんは、そう判断の難しさを語る。機能向上を図りつつ、Chapitにフィットしたアプリケーションを模索していくことを明かしてくれた。

そうした悩ましい課題を抱えつつも、最後に、長田さんは音声認識技術に対し、次のような前向きな話を聞かせてくれた。
 「いまやパソコンやテレビ、家電、照明も含め、家庭内のあらゆる機器がネットワークにつながっています。家という1つの空間がインテリジェンス化しています。コトバ、すなわち音声認識技術は、その有力なインターフェースの1つとなるでしょうし、これらすべての機器に搭載していきたいです。結果、機器の操作スキルの差を埋めることができ、より便利な社会を提示できるでしょうから」


掲載日:2008年10月21日

前の記事次の記事


このページの先頭へ