hontoトップ
電子書籍
コンピュータ・IT・情報科学
プログラミング言語
翔泳社
クローリングハックあらゆるWebサイトをクロールするための実践テクニック
クローリングハックあらゆるWebサイトをクロールするための実践テクニックのレビュー

クローリングハックあらゆるWebサイトをクロールするための実践テクニックみんなのレビュー

竹添直樹, 島本多可子, 田所駿佑, 萩野貴拓, 川上桃子
税込価格：2,948円（26pt）
出版社：翔泳社

ブラウザ
iOS
Android
Win
Mac

一般書

予約購入について

「予約購入する」をクリックすると予約が完了します。
ご予約いただいた商品は発売日にダウンロード可能となります。
ご購入金額は、発売日にお客様のクレジットカードにご請求されます。
商品の発売日は変更となる可能性がございますので、予めご了承ください。

発売前の電子書籍を予約する

みんなのレビュー（2件）

みんなの評価3.5

レビューを書く

評価内訳

星 5 (0件)
星 4 (1件)
星 3 (0件)
星 2 (0件)
星 1 (0件)

2 件中 1 件～ 2 件を表示

2017/10/01 22:45

投稿元：ブクログ

レビューを見る

主に、Javaを使ったクローリングとスクレイピングについての本。クローリングに関するテクニック等がまとまっていたように思う。
クローリングする側ではなく、Webサイト制作者向きにかかれてそうな記述もあったけど、それはそれで勉強になった。SEOとか考えてサイト制作している人にもいいかもしれない。
サイトの文字コードについて判断するには、Content-TypeヘッダとHTML内のmetaタグの二種類があるそうだけど、どちらも記載があったらContent-Typeのほうを優先するらしい。仕組み考えたらそりゃそうかと思うけど、どっちかというと書かれてる文字コードが違う場合は、metaタグのほうが正しいことのほうが多いような気がする。特に静的なHTMLページの場合。
後、Javaのライブラリだけど、Normalizerという文字をうまい具合に正規化してくれるAPIがあるのがいいなと思った。他の言語にもあるんだろうか。Javaで標準になってるぐらいだからありそうだけど。ちょっと探してみようと思う。
それと、MySQLは文字コードの対応がいろいろ必要になってくるんだなと思った。Charsetが4バイト文字の場合、区別しなくなるらしい。それを、「寿司ビール問題」と呼ぶのだとか。こういう問題があるというのはどこか頭の片隅にでもおいておきたい。
後、Google検索で表示されるファクトチェックという機能をはじめて知った。コンテンツの情報が正しいかどうかチェックした結果を表示してくれるらしい。何をもって正しいと判断してるかは気になるけど、日本でも普及してもらえないだろうか(人力だろうから大変だろうけど)。
後、Chromeにヘッドレスモードが追加されてるというのも初めて知った。それを受けて、WebDriverで使われていたヘッドレスブラウザのPhantomJSがメンテナンスを終了したらしい。それなら、Chromeの利用例を書いてくれよと思った(利用例はPhantomJSで書かれている)。
クローリングについては前からいろいろ興味はあって調べたりすることはあるけど、活用したことはないので、何か作ってみたいと思う。もちろん、迷惑がかからない程度に。

2018/10/19 22:07

投稿元：ブクログ

レビューを見る

2 件中 1 件～ 2 件を表示

honto

このページの先頭へ

割引きクーポンや人気の特集ページ、ほしい本の値下げ情報などをプッシュ通知でいち早くお届けします。

クローリングハック あらゆるWebサイトをクロールするための実践テクニック みんなのレビュー

みんなのレビュー（2件）

クローリングハックあらゆるWebサイトをクロールするための実践テクニックみんなのレビュー