スクレーピングによるサーバ負荷軽減(Perl練習)

「matomeru.JP」で、ニュースサイトをまとめるのは良いけれど、サーバに負荷をかけすぎて、ご迷惑をかけてはいけないということで、以下のことを行いました。
(1)受信データの圧縮
「Compress::Zlib」を利用して、zipファイルを受信するようにしたのですが、うまくいっているのか、いまいちよく分かりません。
(2)更新日時を取得して、余計なスクレーピング抑制
これは、まず「Etag」を取得して、「Etag」に変更がない場合は、スクレーピングしないようにしました。これは、エラーは出ませんが、うまくいってない気がします。
(3)Robot.txtの尊重
使用するモジュールを「LWP::UserAgent」から「LWP::RobotUA」に変更するだけなのですが、スクレーピングに異様に時間がかかるようになってしまい、サーバ会社から強制的にプログラム停止させられるようになったため、再び「LWP::UserAgent」に戻しました。
うーん。全然だめだなぁ。
コメント
コメントの投稿
トラックバック
http://yosidayosiwo.blog62.fc2.com/tb.php/82-969ca47e


