「Pythonクローリング＆スクレイピング」を写経してみる（１）第１章「クローリング・スクリピングとは何か」

2017年5月29日

Deep Learning用の元データ集めの参考になるかなと思って衝動買いした以下の本

加藤耕太 (著)
Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド
3,456円

サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support

まずはお決まりの環境構築から

（環境）
Panasonic CF-RZ4
Windows8.1

（０）上記本のAppendixにのっている、「Vagrantによる開発環境の構築」を写経してみる

mkdir scraping-book
cd scraping-book
vagrant box add ubuntu/trusty64

はい、vagrant boxのダウンロードに3時間くらいかかるらしいです。。。はい。。。無理かな。。。

vagrant init ubuntu/trusty64

Vagrantfile　の修正

（変更前）

（変更後）

vagrant up

なんかこれもまた10分以上かかっている気がする。

TeraTermでログイン

127.0.0.1
2222
vagrant
vagrant

終了するときは、「exit」でTeraTermを修了し、ホストOSのコマンドプロンプトで、vagrant halt とすればよい。

再開するときは、ホストOSのコマンドプロンプトで、varant up してから、上記と同様にTeraTermでログインすればよい。

このあたりは、Ruby on Railsの環境構築でさんざんやったので、個人的には慣れている。

（１）Wget

sudo apt-get update
sudo apt-get install -y wget

wget http://image.gihyo.co.jp/assets/templates/gihyojp2007/image/gihyojp_logo.png

（２）実際のサイトのクローリング

上記本の筆者が作成してくださった練習用サイト
http://sample.scraping-book.com/dp

wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol http://sample.scraping-book.com/dp/

なんか、３分くらいかかった。

sudo apt-get install tree

tree sample.scraping-book.com/

サポートページ
http://gihyo.jp/book/2017/978-4-7741-8367-1/support

から、sample_codes.zip をダウンロードして展開して、C:/vm/scraping-book/ フォルダに保存。

cd /vagrant/sample_codes

cd 1-3

cat yakei_kobe.csv

cat yakei_kobe.csv | grep 六甲

「|」（縦棒、パイプ）は、私のキーボードだと、Backspaceの左側にある。

日本語が文字化けしないのが地味にうれしい。（Windowsだと必ず文字化けしていた気がする）

正規表現（Regular Expression）、難しくて、すごくとっつきにくいです。

（３）gihyo.jp　のスクレイピング

サンプルサイトのスクレイピングが以下のようになってしまったので、再度、ダウンロード

wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol http://gihyo.jp/dp/

tree gihyo.jp/

ダウンロードしたindex.htmlを開いてみると、あら、これでもダメだった。CSSが反映されていない。画像もダウンロードされていない。よくわからない。

難しい。。。

cd /vagrant/scraping-book/sample.scraping-book.com/dp/

cat index.html | grep -E 'class="page"'

sudo apt-get update
sudo apt-get install -y wget

途中

AI, Python, 機械学習

Posted by twosquirrel

「Angular2によるモダンWeb開発」を写経してみる（２）第6章クラウド連携アプリpart2

Windows7で、「はじめての深層学習プログラミング」を写経してみる（１－２）第1章後半

ディスカッション

コメント一覧

orangainより:
2017年5月30日 09:33
はじめまして、Pythonクローリング&スクレイピングの著者です。
お買い上げいただきありがとうございます。
gihyo.jpのスクレイピングのところで、ダウンロードしたindex.htmlなどを開いてCSSが適用されなかったり画像が表示されなかったりするのは、正常な状態です。
これは、HTML内でCSSなどのパスが絶対パス（例: “/dp/assets/style/store1124.css”）で書かれており、ローカルでファイルを開いたときにはこのパスを解決できないためです。
特に問題ありませんので、そのまま進めていただければと思います。
返信
- twosquirrelより:
  2017年6月14日 16:02
  疑問が解決しました。丁寧にコメントを頂き、誠にありがとうございます。
  返信

コメントをどうぞコメントをキャンセル

この記事のトラックバックURL

アーカイブ

カテゴリー