GUST NOTCH? DIARY

バッドデータハンドブック ―データにまつわる問題への19の処方箋 / 磯蘭水(監訳),笹井崇司 / Q. Ethan McCallum (asin:4873116406)

  • Webサイトをクロールしてデータを収集するコードを書くのは、最後の手段にするべきです。
  • 以前、何日か実行していたWebスクレイピングスクリプトが突然エラーを吐き始めたことがありました。問題は、Webサイトがまったく違うデザインになったことでした。
  • この例のように公開データであっても、robots.txtを尊重すべきです。
  • ブロックしそうなページに対して、本章のサンプルに似たクローラーを書いているなら、クローラーにポーズを入れておくとよいでしょう。
  • スクレイピングはそれほど難しくはありませんが、とてもイライラするものだからです。
  • べき乗分布になるデータセットは「バッドデータ」の一歩手前です。
  • 怠惰は美徳です。仕事をできるだけ自動化するようにしましょう
  • ここで言いたいのは、使うツールを理解していないことが、どれだけひどい結果につながるかということです。
  • Pythonを使って「Python -m SimpleHTTPServer 8080」と書くだけで、一時的なWebサーバが作れます。
  • 車を入手するには、主に3つの方法があります。レンタル、リース、購入です。(中略)コンピュータの世界にも、同じように3つの選択肢があります。レンタル(クラウドコンピューティング)、リース(管理穂スティング)、購入(コロケーション、データセンター)です。