Pythonでスクリーンスクレイピング

| コメント(2)

右も左も分からないまま、とにかく必要になりそうなモジュール類を探り続けます。
Beautiful Soup: We called him Tortoise because he taught us.

HTMLドキュメントから情報を抽出するために、"Beautiful Soup"というモジュールを利用してみました。
KOSHIGOE学習帳 - [python]HTML関連

findAllメソッドにパラメータを渡して要素を取得する操作が基本でしょうか。パラメータには、取得したい要素名だけでなく、属性名やその値を指定出来るし、正規表現にマッチする要素といった指定も出来るようです。

Python Cheese Shop : Index of Packages Matching 'scraping'
"Python Cheese Shop"でキーワード"scraping"として検索して見つかったのdが、"Beautiful Soup"なわけですが、Scoreが2と高評価ではないようです(Scoreの見方が分かりませんが)。Pythonでのスクレイピングツールとして、一般的には何が利用されているのでしょうか?

Pythonのモジュールについて、『こういう場面ではこれを使え』といった情報が(日本語で)公開されたり交換されている場はあるのかな。

コメント(2)

初めまして、http://www.lingr.com/room/django-ja に行けばpythonでDjangoな人が集まっていますよ。

初めまして、コメントありがとうございます。

Lingrですか、チャットですよね。
ご挨拶は出来ませんでしたが、すこし眺めさせていただきました。

Pythonで何かちゃんとしたモノを書いてもおらず、またDjangoのドキュメントを熟読もしていない状況なので、まずは足場固めに励みたいと思います。

django-jaの方でご質問等させていただくかもしれませんが、そのときはよろしくお願いします。

プロフィール

このブログ記事について

このページは、koshigoeが2007年2月17日 17:43に書いたブログ記事です。

ひとつ前のブログ記事は「PythonのRSS/Atomパーサのデファクトは何?」です。

次のブログ記事は「Pythonのデコレータ構文について」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。