「Pythonクローリング&スクレイピング」を写経してみる(1)第1章「クローリング・スクリピングとは何か」

Deep Learning用の元データ集めの参考になるかなと思って衝動買いした以下の本


加藤 耕太  (著)
Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド
3,456円

サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support

まずはお決まりの環境構築から

(環境)
Panasonic CF-RZ4
Windows8.1

(0)上記本のAppendixにのっている、「Vagrantによる開発環境の構築」を写経してみる

image

はい、vagrant boxのダウンロードに3時間くらいかかるらしいです。。。はい。。。無理かな。。。

image

Vagrantfile の修正

(変更前)
image

(変更後)
image

image

image

image

なんかこれもまた10分以上かかっている気がする。

TeraTermでログイン

127.0.0.1
2222
vagrant
vagrant

image

終了するときは、「exit」でTeraTermを修了し、ホストOSのコマンドプロンプトで、vagrant halt とすればよい。

再開するときは、ホストOSのコマンドプロンプトで、varant up してから、上記と同様にTeraTermでログインすればよい。

このあたりは、Ruby on Railsの環境構築でさんざんやったので、個人的には慣れている。

(1)Wget

image

image

image

image

(2)実際のサイトのクローリング

上記本の筆者が作成してくださった練習用サイト
http://sample.scraping-book.com/dp
image

なんか、3分くらいかかった。

image

image

サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support

から、sample_codes.zip をダウンロードして展開して、C:/vm/scraping-book/ フォルダに保存。

image

image

image

「|」(縦棒、パイプ)は、私のキーボードだと、Backspaceの左側にある。

image

日本語が文字化けしないのが地味にうれしい。(Windowsだと必ず文字化けしていた気がする)

image

image

image

正規表現(Regular Expression)、難しくて、すごくとっつきにくいです。

image

image

(3)gihyo.jp のスクレイピング

サンプルサイトのスクレイピングが以下のようになってしまったので、再度、ダウンロード

image

image

image

ダウンロードしたindex.htmlを開いてみると、あら、これでもダメだった。CSSが反映されていない。画像もダウンロードされていない。よくわからない。

image

難しい。。。

image

image

途中

関連記事
スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

コメント

  1. orangain より:

    はじめまして、Pythonクローリング&スクレイピングの著者です。
    お買い上げいただきありがとうございます。

    gihyo.jpのスクレイピングのところで、ダウンロードしたindex.htmlなどを開いてCSSが適用されなかったり画像が表示されなかったりするのは、正常な状態です。

    これは、HTML内でCSSなどのパスが絶対パス(例: “/dp/assets/style/store1124.css”)で書かれており、ローカルでファイルを開いたときにはこのパスを解決できないためです。

    特に問題ありませんので、そのまま進めていただければと思います。

    • twosquirrel より:

      疑問が解決しました。丁寧にコメントを頂き、誠にありがとうございます。