- Webサイトをクロールしてデータを収集するコードを書くのは、最後の手段にするべきです。
- 以前、何日か実行していたWebスクレイピングのスクリプトが突然エラーを吐き始めたことがありました。問題は、Webサイトがまったく違うデザインになったことでした。
- この例のように公開データであっても、robots.txtを尊重すべきです。
- ブロックしそうなページに対して、本章のサンプルに似たクローラーを書いているなら、クローラーにポーズを入れておくとよいでしょう。
- スクレイピングはそれほど難しくはありませんが、とてもイライラするものだからです。
- べき乗分布になるデータセットは「バッドデータ」の一歩手前です。
- 怠惰は美徳です。仕事をできるだけ自動化するようにしましょう
- ここで言いたいのは、使うツールを理解していないことが、どれだけひどい結果につながるかということです。
- Pythonを使って「Python -m SimpleHTTPServer 8080」と書くだけで、一時的なWebサーバが作れます。
- 車を入手するには、主に3つの方法があります。レンタル、リース、購入です。(中略)コンピュータの世界にも、同じように3つの選択肢があります。レンタル(クラウドコンピューティング)、リース(管理穂スティング)、購入(コロケーション、データセンター)です。