水は上から下へと流れていくものです。

新しいサービスやプロダクツの紹介。アイデアメモ。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

スクレーピングによるサーバ負荷軽減(Perl練習)

smatomeru.jpg

matomeru.JP」で、ニュースサイトをまとめるのは良いけれど、サーバに負荷をかけすぎて、ご迷惑をかけてはいけないということで、以下のことを行いました。

(1)受信データの圧縮
「Compress::Zlib」を利用して、zipファイルを受信するようにしたのですが、うまくいっているのか、いまいちよく分かりません。

(2)更新日時を取得して、余計なスクレーピング抑制
これは、まず「Etag」を取得して、「Etag」に変更がない場合は、スクレーピングしないようにしました。これは、エラーは出ませんが、うまくいってない気がします。

(3)Robot.txtの尊重
使用するモジュールを「LWP::UserAgent」から「LWP::RobotUA」に変更するだけなのですが、スクレーピングに異様に時間がかかるようになってしまい、サーバ会社から強制的にプログラム停止させられるようになったため、再び「LWP::UserAgent」に戻しました。

うーん。全然だめだなぁ。
スポンサーサイト

コメント

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://yosidayosiwo.blog62.fc2.com/tb.php/82-969ca47e

 | HOME | 

PR



Categories

Monthly

Appendix

yosidayosiwo

yosidayosiwo

大手プロバイダ勤務。インターネット大好き。仕事大好き。

FC2Ad



Tags


ワード

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。