本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
「Web情報分析システム」って何だ?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマは「Web情報分析システム」。マスコミ報道や従来の検索エンジンとは異なる角度から、あらゆる話題に対する肯定・否定意見を抽出・分析できるシステムです!

1.Web情報分析システムとは?

Web情報分析システム「WISDOM(Web Information Sensibly and Discreetly Ordered and Marshaled)」とは、インターネット上で公開されている情報を様々な観点から分析することによって、ユーザが情報を多角的に捉えながら情報の信頼性を判断するのを支援するシステムのこと。WISDOMは独立行政法人情報通信研究機構(NICT)の情報信頼性プロジェクトで研究開発が進められている研究開発途上のシステムだが、すでにインターネット上で公開されていて、自由に利用することが可能だ。百聞は一見に如かず、能書きは後回しにして、早速使ってみよう。
 WISDOMのWebサイトにアクセスすると、WISDOMのトップページが表示されるので、ここで分析したい内容をキー入力する。例えば、"アガリクスは本当に癌に効くのかどうか"、WISDOMを使って調べてみる。「アガリクスは癌に効く」とキー入力して「分析」ボタンをクリックすると、数十秒後に「図1」のような分析結果が表示される。

図1 Web情報分析システム「WISDOM」の分析例
図1 Web情報分析システム「WISDOM」の分析例

資料提供:NICT

分析結果の画面には、「検索結果」、「主要・対立文」、「意見・評価」、「原因・対策」、「レポート」という5つのタブがある。

<分析結果画面>
「検索結果」タブ
「情報の発信者の種類と名前」、「ページに含まれる意見の数」、「ページの種別(ブログや商品サイトかどうかなど)や広告の有無といったページの外観に関する情報」が表示される。また、検索結果を発信者ごとに絞り込むことができ、例えばページの発信者が企業か、政府・行政か、報道機関か、あるいは個人か、というように発信者ごとに分類された情報を見ることができる。さらに「専門性の高い発信者を表示」をクリックすると、アガリクスに関する専門家や専門組織の情報を表示できる。
「主要・対立文」タブ
「アガリクス」と「癌」に関するWeb上の主要な文や重要なキーワードを表示することによってインターネット上で公開されているアガリクス情報の全体像を把握することができる。主要な文やキーワードごと、あるいは発信者別に情報を絞り込むことも可能だ。
「意見・評価」タブ
「アガリクス」についての意見のうち「癌に効くか効かないか」に関連する肯定・否定意見を一覧表示できる。また、「感情的な意見」や「メリット・デメリットを述べた意見」など、意見の種類ごとに情報を絞り込むこともできる。
「原因・対策」タブ
現在私たちの身の回りで起きていると言われている自然現象や社会現象についての信頼性に関わる情報を幅広く分析する。例えば、その現象の原因は何か(原因)、その現象は本当に起きているのか(現状)、その結果何が起こるのか(影響)、さらに、提案されている対策は何か(対策)といった情報を表示できる。「アガリクスは癌に効く」の場合には、アガリクスの副作用などの「影響」に関する情報が表示される。
「レポート」タブ
これまでの各分析を要約して表示する。上段には、分析結果の注目ポイント、主要対立文と関連キーワードの一覧が表示され、下段には発信者の分布と発信者ごとの意見分布が表示される。「レポート」を見ることで、例えば、どのような種類の発信者が、検索キーワードについて肯定的で、どのような発信者が否定的なのか、発信者による意見の偏りを調べることができる。
従来の検索エンジンとの違い

WISDOMを体験すれば、Googleなどの検索エンジンとの違いが見えてくるはずだ。従来の検索エンジンを使って「アガリクス」について検索した場合も、沢山の情報を得ることができるが、その上位に表示される情報だけを見ていると、おもに「アガリクス」の良い情報ばかりが目についてしまう。つまり、上位のページは、企業のページばかりで「健康によい」という宣伝文句が書かれているからである。従って、従来の検索エンジンを使っているだけではなかなか分からないことに、WISDOMは気づかせてくれるのである。
 具体的には、例えば次のようなことが見えるようになり、その結果、信頼性が高く価値のある情報を見つけ出すことができるようになる。

<WISDOMによって可視化される情報>
どんな人、どんな組織が情報を発信しているか
新聞や行政はどう評価しているか
一般人の実体験・感想は?
対立あるいは矛盾する意見は? 賛否の割合は?
キーワードには含まれていない関連情報は?

2.Web情報分析システムの仕組み

Web情報分析システムWISDOMの使い方がわかったところで、このシステムの仕組みについて紹介しよう。このシステムの研究開発を行っているプロジェクト全体の様子を「図2」に示す。まず、インターネット上に公開されている玉石混交のコンテンツの中から、できるかぎりスパムページなどの無駄な情報をふるい落として情報資源を収集する。情報資源に対し、WISDOMでは「外観」、「発信者」、「内容」という3つの観点から分析を行っている。

図2 情報の信頼性分析プロジェクト
図2 情報の信頼性分析プロジェクト

資料提供:NICT

これらの分析を行うにあたって、WISDOMではNICTが新たに開発した「情報発信者分析技術」、「評価情報抽出技術」、「主要・対立・対比情報抽出技術」を使用している。

<分析に使われる3つの技術>
「情報発信者分析技術」
ページを発信しているサイトの運営者やページ内のコンテンツの著者を自動的に抽出したり、専門性を分析して専門性の高い順に順位付けする技術。
「評価情報抽出技術」
「この商品は優れている」、「あの制度には反対だ」というような意見や評価を自動的に抽出し、それが肯定的か否定的かの評価極性を判定する技術。
「主要・対立・対比情報抽出技術」
与えられたトピックに関してインターネット上で主にどのようなことが言われているのか、さらに、それに対立、対比されていることがあるのか、ということを抽出する技術。

「図3」にWISDOMの分析基盤の様子を紹介する。このシステムでは、200ノードのPCクラスタ上で、大規模データを日々更新しながら、収集から分析までを一貫処理している。収集されたWebページは索引付けが行われ、検索可能な状態となっている。WISDOMはユーザの分析要求に応じて関連するWebページを検索し、その検索結果に対して種々の分析を行っている。分析結果に含まれる情報はすべてWebページに含まれている情報に基づいている。

図3 WISDOMの分析基盤
図3 WISDOMの分析基盤

資料提供:NICT

3.Web情報分析システムの今後

WISDOMでは、定常的なWebクローリングを行いながら、現在6億ページ規模で分析可能な状態に保っている。これは国内の研究機関では最大規模を誇る。つまり、この研究開発プロジェクトでは検索エンジン基盤から構築しているので、この基盤を他の研究機関にも利用してもらうことで、インターネットに関する自由な研究が可能になる。将来的に、この検索エンジン基盤が研究機関向けのクラウドサービスになることが期待されている。
 ただし、インターネット上には日本語ページだけでも20億、全世界だと150億~200億ものページが存在していると言われていることから、研究目的ではなく、実用化・商用化を目指す場合にはWebアーカイブの規模をさらに拡大していく必要がある。
 また、現在WISDOMでは分析に30秒ほどかかっているので、ソフトウェアを最適化することで、レスポンスの改善を図っていくという。
 さらに、WISDOMは、マスコミ報道やインターネットの従来の検索エンジンによる検索結果をそのまま受け取るのではなく、客観的かつ分析的に情報を受け取って理解する「クリティカルシンキング」のための教育ツールとして活用したり、マーケティング分野における新しいデータマイニングツールとして活用したりすることも期待されている。

取材協力 : 独立行政法人情報通信研究機構(NICT)

掲載日:2011年1月12日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2010年12月1日掲載分

検索

このページの先頭へ