IT用語を勉強〜その2

"テキストマイニング"について調べてみた。

まず、マイニングすらよく解らなかったので、そこから調べてみた。

意味をよそ様から拝借したので、最後に引用。

散在するデータ群から目的に沿ったデータ(テキスト)を収集して利用する、と。
で、RSSが一般に広まれば苦労して形態素解析とかする必要も(単純な目的なら)なくなる訳だ。
テキストデータを分かり易くまとめてRSSやらAtomやらのXML文書にしておけばいい。

今更ながら、ウェブはデータベースなんだなと実感。
公開APIのおかげで、データマイニングもかなり楽になった。
わざわざスクレービングしてデータを掘り起こす必要がなくなる。

こういった流れがweb2.0なのか?

@IT情報マネジメント用語事典 [データマイニング]
==ここから引用
データマイニング
data mining / datamining


 種々の統計解析手法を用いて大量の企業データを分析し、隠れた関係性や意味を見つけ出す知識発見の手法の総称、またはそのプロセスのこと。「マイニング」は「採掘」の意。データウェアハウスなどに蓄積された膨大なデータを「鉱山」に見立て、そこから未知の知見や規則性という“鉱石”を「発掘する」という意味がこめられている。
 データマイニングにおける統計・解析アルゴリズムは、相関ルール、クラスタリング、ニューラルネットワーク、遺伝アルゴリズムなど数多くがある。ビジネスの分野では、「決定木分析(ディシジョンツリー)」で顧客特性や傾向を分析したり、「重回帰分析」で過去の実績データから今後の方向性を予測したりといった形で利用される。具体事例としては、商品の併売傾向(どの商品とどの商品の組み合わせが最も売れるか)を測る「マーケットバスケット分析」が有名である。

 市販のデータマイニングツールにはこうした主要アルゴリズムが組み込まれており、また近年のツールには直感的な操作ができるように分かりやすいGUI画面を搭載しているものも多い。データマイニングツールの代表的なベンダは、エス・ピー・エス・エスやSAS Institute Japan、日本アイ・ビー・エムなどが挙げられる。

 データマイニングに取り組む際に注意したいのは、あくまで法則を見つけ出すのはユーザーである点。データマイニングツールの役割は、アルゴリズムに基づき、一定の“仮説”を導き出すことにある。そこからどのような意味を見出し、その仮説を検証できるかどうかは、統計解析や業務に精通したユーザー自身の活動とスキルによるということを忘れないようにしたい。
==ここまで引用

@IT情報マネジメント用語事典 [テキストマイニング]
==ここから引用
テキストマイニング
text mining


 形式化されていないテキストデータ(通常の自然文)を単語などに分割し、その出現頻度や相関関係などをデータマイニングの手法を使って解析することで、一定の知見や発想を得るテキストデータ分析手法の総称。
 従来、単語ごとに分かち書きする英語に比べて、日本語のテキストマイニングにおいては文章を単語ごとに切り分ける処理(形態素解析)が必要であることから“遅れている”とされていたが、近年技術的な進化により、ある程度ビジネスでも実用レベルに達するようになってきた。

 例えば、アンケートの自由回答、コールセンターやWebサイトなどに寄せられるユーザーからの定性情報、掲示板などへの書き込みなどを解析することによって、顧客や市場のニーズを抽出ししたり、自社製品への不満点を分析するといった使い方が期待されている。

 また電子メールによる顧客からの問い合わせに対して、これを自動的に解釈して返答したり、関係担当者へ転送するといったソリューションにも応用されている。
==ここまで引用

プロフィール

このブログ記事について

このページは、koshigoeが2005年6月 9日 21:59に書いたブログ記事です。

ひとつ前のブログ記事は「ウェブサービスについてメモ」です。

次のブログ記事は「Googleでドメイン別のURL検索」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。