紙の本
仕事のために購入
2016/10/21 00:16
0人中、0人の方がこのレビューが役に立ったと投票しています。
投稿者:だばし - この投稿者のレビュー一覧を見る
独習するために購入。簡単な仕組みを理解できる。
コードを自分でかけるようになるまでには、結構時間が必要。
投稿元:
レビューを見る
購入。
Webスクレイピングに関する事項がまとめて説明されている。
シンプルなWebページ、Javascriptが使われているページ、cookieを使っているページ、それぞれに対する対応があった。それぞれの状況にあったツールの紹介もある。コード例もあるため、勉強するのにちょうど良かった。
投稿元:
レビューを見る
前半は基本的なことがある程度まとめられている気がします。
後半はspecificなことが多いため、必要性が無いと読まない人が多いかもしれません。
投稿元:
レビューを見る
1章 最初のWebスクレイパー
BeautifulSoupを使った簡単なスクレイピング
2章 高度なHTMLパーシング
BeautifulSoupの使い方と正規表現の使い方
3章 クローリングを開始する
一つのサイトをクローリングする(Wikipeda)
インターネット全体をクローリングする(Google search)
Scrapyは複雑なクローリングや自動化をしてくれるライブラリ
4章 APIを使う
APIを使って効率よく情報を収集できる。
APIが使用できる例として「Echo Nest」「Twitter」「Google API」
5章 データを格納する
クローリング、スクレイパーして得られたデータを保存する方法
csvファイルに保存する
データベース(MySQL)に保存する
6章 文書を読む
Web上にある文書(CSV,PDF,Word)を読み込む
7章 汚れたデータをクリーニング
正規表現でゴミを除去する
OpenRefineを使ってクリーニングする
8章 自然言語の読み書き
集めてきたデータのなかで特にテキストについて
解説。自然言語分析ライブラリNLTKについて解説
9章 フォームとログインでクロール
Requestsを使ってフォームへの入力
GoogleのChromeデベロッパーツールの使い方
ログインを維持するクッキーの話題
10章 JavaScriptのスレイピング
PythonはJavaSvriptのコードを理解できないので
Seleniumでページを制御する解説がある
11章 画像処理とテキスト認識
OCR技術をつかって画像として表示されている文字画像を文字として
認識するために必要なライブラリを紹介している
Tesseractの使い方の解説
12章 スクレイピングの落とし穴を避ける
省略
13章 Webサイトをスクレイバーでテストする
unittest,Seleniumでテストする方法
14章 リモートでスクレイピング
ローカルではないリーモート環境でスクレイピング、クロールが
実行できる環境を構築する