Pythonでコーディングするネタとして、キーワード抽出に手をつけてみました。"キーワード抽出"のアルゴリズムや作法などに詳しくないので、以下のページをなぞる形で実装しました。
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
MeCabの用意
MacPorts経由で以下をインストールしました。
- mecab
- mecab-ipadic-eucjp
- mecab-ipadic-sjis
- mecab-ipadic-utf8
- mecab-jumandic-eucjp
- mecab-jumandic-sjis
- mecab-jumandic-utf8
- py-mecab
また、細かい事は考えず、/opt/local/etc/mecabrcで"dicdir = /opt/local/lib/mecab/dic/ipadic-utf8"としておきました。
pYsearch
DF値を求めるための自前のデータベースは無いので、Yahooのウェブ検索Webサービスを使います。楽をするために、Python用のSDKとして利用出来るpYsearchというモジュールをインストールしました。
Python Cheese Shop : pYsearch 3.0
母集団が手元に無いと難しい?
今回は、"キーワード抽出"の手順を体験する事が目的だったので、Yahooの検索APIを利用して済ませましたが、実際に何かしらのサービスや機能として提供する事を考えると、母集団の確保が結構なキモににるのでしょうか。
TF-IDFと異なる指標(?)を利用したキーワード抽出もあるのかな?

