本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
「シーン自動タグ付け技術」ってなんだ!?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマ「シーン自動タグ付け技術」は、ホームビデオなどの映像のシーンに自動的にタグを付けてしまう技術。年々増える一方の映像を、効率的に整理できる画期的な技術です!

1.「シーン自動タグ付け技術」とは?

シーン自動タグ付け技術は、富士通研究所が開発した技術で、従来ショット(連続して撮影された映像)単位で行なってきた映像へのタグ付けを、複数のショットで構成されるシーン単位でのタグ付けへと拡大する技術である。

図1 映像へのタグ付け
図1 映像へのタグ付け

物体の名前に加えて、シーンの名前をタグ付けできる。

資料提供:富士通研究所

ショット単位のタグ付け技術では、道路やクルマ、建物といった物体の名前を、映像を自動的に解析することで抽出し、タグ付けすることは可能だが、複数のショットで構成されるシーンに対しては適切なタグを付けることが難しかった。これを複数のショットで構成されるシーンの単位で見ることで、都会や田舎、海水浴、結婚式、運動会といったタグを自動的に付けることを可能にするのが、シーン自動タグ付け技術である。

2.シーン解析の仕組み

現在のデジタルカメラやスマートフォンには、映像の撮影時刻が自動的に記録される製品が増えている。この時間の情報をもとにすることで、複数のショットを同一シーンにまとめ、その内容を自動的に解析するのがシーン自動タグ付け技術のポイントである。

図2 複数のショットを同時に解析
図2 複数のショットを同時に解析

1つのショットでは判断が難しくても3つなら「都会」と判断可能

資料提供:富士通研究所

上の例では、撮影時刻が分単位で近い3つのショットをシーンとしてまとめることで、複数の建物が含まれていることなどから「都会」とタグを付けることが可能になっている。

図3 タグ付けまでの流れ
図3 タグ付けまでの流れ

画面内の物体の占める面積を解析する

資料提供:富士通研究所

シーン自動タグ付け技術では、最初に時間の情報からシーンのまとまりを決定し、次に機械学習によって作られた識別モデルによって、各ショットに映っている物体の名前と、面積を検出する。そのデータをシーン単位でまとめて解析することで、都会、田舎といったシーンの名称を決定する仕組みである。

図4 機械学習
図4 機械学習

あらかじめ数千枚程度の画像を使って学習させる

資料提供:富士通研究所

画像内の物体の識別や、シーンのタグ付けを行うアルゴリズムは、あらかじめ数千枚程度の画像を使って、コンピュータに学習させることによって、実現している。
 この学習によって、色や形などの特徴から画像内の物体を識別し、かつ都会、田舎、海水浴、結婚式などのシーンを自動的にタグ付けできるようになる。

3.幅広いニーズと適用範囲

デジタル技術の進歩により、写真やビデオを撮影する機会は飛躍的に増えている。ビジネスの現場でも、ビジネスショーなどのイベントだけでなく、日常的な会議などの記録としてビデオを撮影するというケースも少なくない。こうしたデータは日々溜まっていくため、人間の手でタグを付けることが困難になりつつある。
 写真であればまだ自分で閲覧しながらタグ付けすることも不可能ではないが、映像となると視聴する時間がどうしても必要であるため、膨大なデータを死蔵することにもなりかねない。
 こうした状況の下、シーン自動タグ付け技術にはビジネスの現場からホームビデオなどのコンシューマ市場まで、幅広いニーズが存在すると言えるだろう。 YouTubeなどのウェブサービスにおいても、ユーザの手によるタグ付けのほかに、自動解析によるタグが付けられれば、検索性の飛躍的な向上が予想され、サービス利用を促進する大きなインセンティブとしても機能するだろう。
 もちろん、放送局や映像配信サービス業者など、映像のプロフェッショナルにとっても、これまでに蓄積してきた膨大な映像資産を活用する上で、シーン自動タグ付け技術の果たす役割は大きい。
 富士通研究所によると、早ければ来年度には本技術が実用化される見込みである。日常の記録やメモとしてデジタル映像の果たす役割は拡大する一方であり、これを検索可能にすることは、映像内容をインテリジェントに解析して文字情報と結び付けるという点において、いわば映像に対するOCR(Optical Character Recognition:光学文字認識)とも言える技術であり、一日も早い製品・サービス化を期待したい。

取材協力 : 株式会社富士通研究所

掲載日:2011年2月23日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2011年1月19日掲載分

検索

このページの先頭へ