本文とサイドメニューへジャンプするためのナビゲーションスキップです。

スタートアップガイド

J-Net21 中小企業ビジネス支援サイト

  • J-Net21とは
  • スタートアップガイド
中小機構
  • メルマガ登録
  • RSS一覧
  • お問い合わせ

HOME > 製品・技術を開発する > デジ・ステーション

デジ・ステーション


5分でわかる最新キーワード解説
伏せ字・ギャル文字解読技術ってなんだ!?

日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。今回のテーマ「伏せ字・ギャル文字解読技術」は、ネット上の掲示板やブログなどで多用される「くだけた表現」を正しい日本語の文章へと自動的に修正する技術。有害情報のフィルタリングから口コミのマーケティング活用まで、幅広い応用が期待されています!

1.「伏せ字・ギャル文字解読技術」ってなんだ!?

伏せ字・ギャル文字解読技術は、独立行政法人情報通信機構(NICT)からの委託研究「インターネット上の違法・有害情報検出技術の研究開発」の一部として、KDDI研究所が開発した技術である。その名のとおり、「●」などを使った伏せ字や、ギャル文字と呼ばれる「ヵゎぃぃ」「どぅ∪たの?」などの表現を通常の表現に修正することができる。

図1 KDDI研究所の開発した伏せ字・ギャル文字解読技術
図1 KDDI研究所の開発した伏せ字・ギャル文字解読技術

資料提供:KDDI研究所

もともと、違法な情報や犯罪予告などをシステムで自動的に監視する上で障壁となる「伏せ字」や、意図的な誤変換による当て字などを判読可能にすることを目的に開発された技術だが、ウェブ上のブログやツイッター、掲示板などには、商品開発などに有用なユーザの率直な意見や感想が多く含まれており、これを正確に集計、把握する目的にも応用が期待されている。

2.「伏せ字・ギャル文字解読技術」の仕組み

言語解析的アプローチで、辞書に頼らず自動判読

伏せ字や当て字、ギャル文字を判読する技術というと、「ヵゎぃぃ→かわいい」という対応を辞書化して、自動変換を行うアプローチだと思ってしまうが、「伏せ字・ギャル文字解読技術」ではそうした人為的な辞書作成なしに、コンピュータによる自律的な解析によって文章の修正を実行する点で、極めて画期的な技術である。

新聞やウェブの正しい文章、200万文を参照

この技術が辞書の替わりに用いているのは、事前に用意した大量の文法的に正しい文章である。新聞とウェブからそれぞれ100万文を選別してデータベースとし、解析対象とするブログなどのくだけた表現を同じ文脈で用いられている正しい文章と照合することで、自動的に修正処理を実行する。


修正処理の例:
  ブログの表現:できるかどうヵゎ分かりません
  検索する文:どう*分かり
  修正候補1:どうかは分かり
  修正候補2:どうか分かり
  修正候補3:どうしたらいいか分かり


「伏せ字・ギャル文字解読技術」は、最初に、対象となる文章が正しい日本語で記述されていると仮定して、言語解析プロセスに掛け、解析不能となった部分を抽出する。上の例では「どうヵゎ分かり」の部分が言語解析プロセスには解析不能な部分となる。そして、「どう」と「分かり」という比較的正しいと考えられる文字列に挟まれた2文字を修正するために、正しい日本語200万文で用いられている表現の中から修正候補を検索するのだ。

修正候補のスコアリング

上の例では、「どうかは分かり」「どうか分かり」「どうしたらいいか分かり」という3つの修正候補が得られたことになる。そして、これらのどれが最も適切かを判断するために、つぎの3つの指標を用いている。

1. 検索結果における出現頻度
2. 置換文字列間の編集距離
3. 統計的言語モデルを用いた表現の自然さの値

2の「置換文字列間の編集距離」とは、修正の過程で必要となる、文字の削除、挿入、置換の回数をさす。例えば、「フォーラム」から「ファーム」への編集距離は、「ォ→ァの置換」「ラの削除」の2回の編集があるため、2である。

3の「統計的言語モデルを用いた表現の自然さの値」としては、「形態素解析コスト」という指標を用いている。「形態素解析コスト」とは、文章を単語へと分割するにあたって、その部分が隣接する単語と繋がっている頻度(よく使われる表現であるか)や単語自体の出現頻度を元に算出される値である。

図2 形態素解析コストに基づくスコアリング
図2 形態素解析コストに基づくスコアリング

自然な表現ほどコストが低くなる。

資料提供:KDDI研究所

これら3つの指標に対して、適切な重み付けを行って総合スコアを算出し、最もスコアの高い修正候補を採用する。

図3 総合スコアの算出方法
図3 総合スコアの算出方法

α、β、γが重み付けの係数。これを繰り返して最適化することでより正確な結果を得られる。

資料提供:KDDI研究所

元の文章になるべく近く(編集距離が短く)、より一般的な表現で(形態素解析コストが小さく)、かつ表現自体の出現頻度が高いのが最も優れた修正であろう、というアルゴリズムだが、3つの指標全てに優れた候補が必ず存在するわけではないため、総合スコアを算出するための重み付け係数が、システムの性能を決定する重要なポイントである。

半年の開発で最大38%の不明表現を解析可能に

KDDI研究所がこの技術開発を始めたのは2009年6月とのこと。発表は2009年12月であるから、わずか半年の開発期間で実現した本技術だが、その変換精度は高い。発表の時点で、従来であれば解析不能だったブログ上の表現の30%を正確な表現へと修正することに成功しており、特に恋愛・結婚などの若い女性の関心の高いカテゴリにおいては、修正率は38%に上るという。残りの70%なり62%についても、不明表現ではあるが修正する必要のない表現(例えば個人名など)が半数以上であり、非常に精度の高いものと言える。

3.「ギャル文字」を本気で解読するワケ

わずか半年ながら極めて実用性の高い精度を実現した「伏せ字・ギャル文字解読技術」だが、性能向上の研究は現在も続けられており、データベースとする文章量の増量や、修正精度のフィードバック、アルゴリズムの更なる精緻化などが検討されている。人間の手による辞書作成作業などが介在せず、自律的なデータベースの検索と学習で、システムの精度向上を図れる点において、本システムは高い拡張性を持っているといえるだろう。


犯罪予告や違法情報などのネガティブな情報の検出を自動化し、アラートを可能なかぎり高速に得ることが、この技術のもともとの目的だが、マーケティングにおけるブログや口コミサイトの情報価値が増大している現在、応用先はフィルタリングやウェブ監視にとどまらない。また、人間の目では見逃しやすいOCRの誤認識なども、自動修正することが可能になると考えられている。

流行に敏感な若い女性や、ウェブの使用頻度の高い情報リテラシーに優れたユーザになればなるほど、正規の表現よりもギャル文字や伏せ字といった「くだけた表現」を使う傾向が強いため、有用な情報が含まれていることが分かっていても、ブログや掲示板の生の文章のままでは、システムによる集計や解析は難しかった。今後「伏せ字・ギャル文字解読技術」を用いれば、ウェブ上の大量かつ高速な情報トラフィックを、より有用に活用することが可能になりそうだ。

取材協力 : 株式会社KDDI研究所

掲載日:2010年3月24日

キーマンズネット

出典元:株式会社リクルート キーマンズネット 2010年02月17日掲載分

検索

このページの先頭へ