2008/02/18

テキストマイニングってなんだい、というお話

 mixiで縁あって、マイミクになってる神田さんが@ITへ寄稿した記事から。

本連載は、テキストマイニングがビジネスでどのように活用できるかを数回に渡って解説する。ビジネスにおける利用シーンを具体的に述べるため、次回以降は多くの企業で設置す るようになったコンタクトセンターにおける最新の利用方法、事例、ポイントを述べる。

@IT テキストマイニング - 第1回 膨大なテキストからビジネスのヒントを探せより引用

 テキストマイニングってのは、膨大なテキストを鉱脈に見立て、その中から勝ちある情報を掘り出す(採掘する)ことを意味する。Text(文章)+Mining(採鉱/採掘, データベースに対しては検索)の造語である。
 お得意のWikipediaからの引用で言えば、次の通り。

テキストマイニング(text mining)は、テキストを利用したマイニングのことである。

Wikipedia - テキストマイニングより引用

 引用元のWikipediaでも言われているが、データウェアハウスPOSを初めとして膨大な数値データを鉱脈に見立て価値ある情報を取り出すデータマイニングは行われてきており、主に企業の意思決定などに活用されている。しかし、テキストを対象には長らく行われてこなかった。(もちろん、研究自体はずっとされていたわけだが)

 なぜかといえば、それが本質的にコンピュータの苦手な仕事だからである。

 もちろん、膨大な量のデータを相手にするのはコンピュータの得意とするところではある。(逆に忘却・疲労・錯誤の三重苦そろった人間には不得意なところでもある)
 なので、何が本質的に苦手かと言えば、個々のテキストデータが意味するところを知るのが苦手だ、ということである。(人間が上手く教えられない, 教え方をよくわかってないという方が正しいのだけど)

 数値データの意味するところは明瞭だ。
 最初から、そのように意図されて抽出/算出されているので定義が明確で、他の数値データとの依存関係で数字そのものの意味するところが変わることはない。もっと端的で分かり易い言い方をすれば空気(文脈)を読む必要がない。
 あとは、個々の数値データ同士をどう関連付けて、どのように解釈するかって部分だけを人間が考えて、コンピュータに教えてやればいい。(逆を言えば、ここがデータマイニングの肝で、イチバン大変な部分でもある)

 ところがテキストデータってヤツは、自然言語で書かれた文章をコンピュータに解釈させるところから始めなければいけない。これが、想像以上に大変なんである。
 日本語に限らず、自然言語ってのは常に多義性をはらんでいる(いろんな意味に取れる)。
 文法的に満点の短い文章ですら、文脈を理解しなければ個々の単語の意味を確定できない。まして、データマイニングの対象になるような文章は必ずしも文法的に正しいとは限らず、単語と単語の関係は複雑で、幾つもの文が積み重なり繋がりあって文脈を形作っている。
 例えば、次の文章はすっと理解できるだろうか?

 昨日、友達と会って、となりの山田さんと話をした。

 まったく迷わず理解した、という人もいるかもしれない。だが、たった22文字のこの文章ですらいくつかの意味に解釈することができる。
 次の点に気をつけて、もう一度、読んでみて欲しい。

  • 山田さんは、誰のとなり? 自分? それとも友達?
  • 山田さんと話をしたのは誰? 自分だけ? それとも自分と友達の二人?

 何通りかに解釈できる──つまり、この一文だけでは意味を確定できないことが分かると思う。また、意外にこういう文章は少なくない。
 他にも難問は一杯ある。

  • 単語と単語をどこで切るか("おおいしはいしゃ"は"大石歯医者"とも"大石は医者"とも読める)
  • 漢字の解釈("おもて"と"ひょう"はどちらも"表")
  • 一つの言葉に幾つかの意味がある場合 (UPSには無停電電源装置運送会社の名前と二つある)
  • 同じモノやコトを指すのに、幾通りかの表現がされている場合 (晩ご飯とご飯, ノートと日記帳)

 ──などなど、エトセトラ, エトセトラ.
 そこそこちゃんと書いてある文章なら、文脈から確定できる。確定できなくても、推定することができる。自分の(膨大な)経験と照らして。
 だが、その経験を整理して(例外のない)ルールとして記述できるだろうか? しかし、それがコンピュータに文章の読み方を教えてやる、ということなのである。

 もちろん、目的を明確にすることで、記述しなければならないルールを絞り込むことはできる。目的に関係ない部分に関しては"すべて例外"にしてしまえばいい。
 ただ、それにしたって、目的に関係のある部分を抽出できる程度にはルールを記述しなければならないわけで。実用的なレベルにするためには相当大変なんである。

 で、つらつらいかにテキストマイニングがどれほど大変かということを書き連ねてきたわけだけども。
 それじゃ、そんな大変なことをどうやって実現するのか, そこまでしていったい何をしたいのか, 何ができるのか──って、あたりは@IT テキストマイニング - 第1回 膨大なテキストからビジネスのヒントを探せと、それ以降の連載を読んでみていただきたい次第なんである。

0 コメント: