本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
「有害コンテンツ高度識別システム」って何だ?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマ「有害コンテンツ高度識別システム」は、ネット上のWebサイトや掲示板などの様々なコンテンツを「言葉」とデザインやスクリプトなどの「見た目」の両方から高精度で識別するシステム。人的リソースに頼りがちな違法・有害情報のフィルタリングを自動化できる画期的な技術です!

1.「有害コンテンツ高度識別システム」とは

「従来のNGワードなどを使った単純なコンテンツ分析では、伏せ字などの手段で回避されたり、ギャル文字などの不正規な日本語表現をシステム的に判読したりすることができなかった。今回開発された「有害コンテンツ高度識別システム」は、不正規な言語表現を自動修正して認識し、文章を解析して文意から有害度を数値化するなどの高度な「言語的コンテンツ分析」と、Webサイトの色や画像の配置、スクリプトの特徴などから有害度を数値化する「外形的コンテンツ分析」を組み合わせることで、有害コンテンツを約95%という高い精度での自動検出することを実現するものである。このシステムは、株式会社KDDI研究所が受託した、独立行政法人情報通信研究機構の委託研究「インターネット上の違法・有害情報検出技術の研究開発(H21-H23)」の成果を活用して開発されたものである。

図1 有害サイト検出精度
図1 有害サイト検出精度

無害ページの90%を正解し、有害ページの95%をブロックできる。
※アダルトWebページ1000件、それ以外1000件からアダルトを検出した場合の精度

資料提供:KDDI研究所

数値化された「言語的」と「外形的」な各有害度に対して設定するしきい値によって、上のグラフのように検出精度は連続的に変化する。問題のないページの10%を誤検出するかわりに、有害ページの95%を自動的にブロックできるこのシステムは、従来型のコンテンツ分析システムよりもはるかに高精度であることが分かるだろう。
 この正解不正解の答え合わせは、人間による目視チェックに基づいて行っているのだが、そもそもあるコンテンツが有害であるかどうかの判断は、人間2人で行って答え合わせをしても、無害・有害の判断には必ず一定以上の食い違いが出るはずだ。
 曖昧さをもともと含んでいる人間の判断結果と、システムによる自動分析が完全に一致することは論理的に考えて、まずありえない。そうした前提条件を踏まえるならば、90%正解時に5%とり逃し、及び95%正解時に10%強とり逃し、という上のグラフが示す検出精度の高さは、驚異的なものだと言えるだろう。

2.「有害コンテンツ高度識別システム」の仕組み

本システムの「言語的コンテンツ分析」には、以前に本コーナーで紹介した「カゎぃぃ→かわいい」のように、くだけた表現を正規表現への自動変換する「伏せ字ギャル文字判読技術」が、基盤技術の1つとして使われている。

図2 有害コンテンツ高度識別システムの情報判定フロー
図2 有害コンテンツ高度識別システムの情報判定フロー

システムは、3つの解析・判定ブロックと総合判定で構成。左上が以前紹介した「伏せ字ギャル文字判読技術」。

資料提供:KDDI研究所

「伏せ字ギャル文字判読技術」のほかに、高度な言語処理に基づくNG表現の検出技術と、文章以外のデザインやリンク、スクリプトなどを解析する「外形的コンテンツ分析」を組み合わせることで、高精度なWebコンテンツの有害・無害の識別を実現している。

2-1 言葉づかいによるNG表現自動検出

「伏せ字ギャル文字判読技術」こと、くだけた表現の自動修正技術を経て正規の日本語表現に修正されたコンテンツデータは、次に言葉づかいによるNG表現の判定へと渡される。

NG表現の自動学習
■ NG表現の自動学習
○格構造を抽出、係り受け関係や格フレームの利用
○表現の違法・有害文書における出現頻度と無害文書における出現頻度から、NG表現辞書を自動構築
■ 概念ベースを用いたNG表現辞書の拡張
○抽出した格構造を、概念ベースを利用して抽象化、具体化することで、辞書にない表現にも対応
図3 NG表現自動検出例
図3 NG表現自動検出例

資料提供:KDDI研究所

「学校」や「病院」、「図書館」などの単語が、「公共施設」という概念に紐付け、一方「爆破」のような破壊的な単語と、「登校」のような非破壊的な単語をそれぞれ概念化することで、NG表現を検出することを本システムでは実現している。単語と単語の間の距離や、係り受けといった構造を分析して統計処理することで、人間の手を一切経ずに、自動学習することで、NG表現の辞書を自動生成することが可能になのだ。
 更に「格フレーム」を用いて主格、目的格などの文の構造までを読み取ることで、「観客は息を殺して選手のプレーを見ていた」といった文について、「殺す」という破壊的な概念の単語であっても、「息を」という目的格をとっている場合には問題がない、といった高度で精密な解析も可能になっている。

2-2 「見た目」からコンテンツを解析

本システムの画期的なポイントの1つが、言語以外のデザイン、リンク、スクリプトなどの要素を使ったコンテンツ解析の実行である。

具体的には、HTMLのタグを解析対象とすることで、NGページに多く存在するスクリプトや、背景色、リンクなどの要素を自動的にデータベース化して、これをもとに有害コンテンツの検出を行うことができる。
 例えば、サイトを構成するメインカラーが黒とピンクであるという要素だけでも、多くの有害ページを効果的に識別することが可能であるという。マウスオーバーしてもリンク先のURLを表示させないJavaスクリプトやポップアップのJavaスクリプトなどは、有害コンテンツに多用されるライブラリであり、それらの関数名を利用しても高い効率で有害ページの判別が可能である。

図4 「見た目」の判定
図4 「見た目」の判定

ポップアップなどのスクリプトや、色調、画面構成、リンクなど多様な要素を解析

資料提供:KDDI研究所

2-3 自動検出の難しいページとは

図5 ポリシーの設定画面
図5 ポリシーの設定画面

「有害コンテンツ高度識別システム」では、どのようなページを有害なページとして検出、ブロックするか、という設定を、72のカテゴリについて、個別に設定することが可能になっている。これらの設定情報をポリシーとして個別に作成することで、柔軟なWebコンテンツフィルタリングのインターフェース構築が可能になる。

資料提供:KDDI研究所

(クリックすると大きな画像が表示されます。)

※画像はプロトタイプであり製品版とは異なる

本システムは基本的には、犯罪予告やテロリズム、違法薬物、アダルトコンテンツなど、明示的に有害であることが分かるページをターゲットとしたシステムである。
 しかし、出会い系やゲーム、不正コードの配布などのカテゴリについては、有害であるかどうかを人間が判断すること自体が難しい面が少なくない。例えば「アダルト的な内容を一部含む小説」は、人により、アダルト系と判断するか、書籍系と判断するかは異なってくる。このように無害性と有害性の判断の混在がおこるコンテンツの場合、分析は難しくなる。

見た目判定による精度向上とポリシー設定

不正コードであれば、ウイルス対策の周知や研究を目的とした無害ページや、犯罪を防止するためのWebサイトなども、有害キーワードが多発するため、言語的な解析のみでは判断の難しいコンテンツの1つだが、こうした面については「見た目判定」を活用することで、本システムでは判定精度を向上することに成功している。
 また、前述の無害性と有害性の混在についても分析項目の細分化を通じて、例えば娯楽系サイトについて「青少年向けフィルタはOK、企業向けフィルタはNG」というようにポリシー設定を行うことができれば、目的に沿ったフィルタリング精度の向上が期待できる。


3.「有害コンテンツ高度識別システム」の将来像

「有害コンテンツ高度識別システム」は、来年の4月を目処に実用化が進められている。 システムの提供方法としては、ユーザの環境に合わせ、ASP型と組み込み型の両方が検討されている。
また、アンチウイルスソフトウェアが、ウイルスの定義ファイルを更新するように、「有害コンテンツ高度識別システム」も解析データベースの更新が随時必要となると考えられるが、人の手によらない学習型のシステムであるため、有害サイトのサンプルを一定量学習用データとして用意することで、随時、最新状態にシステムを維持することが可能である。
また判別精度は、学習データの量を増やすことで漸増させることができ、現在開発中のシステムでは20万件の学習データを使用している。更に学習量を増やすことで精度の向上は可能だが、学習量あたりの精度向上率は徐々に低下していくため、性能限界はシステム運用コストとのトレードオフで決定すると言えるだろう。
 本システムは「インターネット上の違法・有害情報検出技術の研究開発」の成果であり、有害ページの検出を主目的として開発されたものだが、特定の特徴を持つコンテンツを自動的に検出するシステムとしての汎用性も有している。つまり、「株式トレードに有用なコンテンツ」や「IT製品の最新情報コンテンツ」などの特徴を持つサンプルデータを学習させることで、理論上は類似のコンテンツを抽出することも可能である。
  こうしたWebコンテンツの学習型システムによる自動解析と分類の技術は、流通する情報量が爆発的に増え続ける今の社会において、今後ますます重要な役割を担うのは間違いないだろう。

株式会社KDDI研究所

掲載日:2012年1月25日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2011年12月21日掲載分

検索

このページの先頭へ