Pythonクローリング&スクレイピングの初版の詰まりどころ

book scraping

Pythonクローリング&スクレイピングの初版（表紙の文字が青い本）は2017年に出版され、現在では動かなくなってしまったコードもあります。そこで初版を手にしてくださった方のために、主な詰まりどころと対策をまとめておきます。初版のサポートページには…

2019-09-16

SeleniumとHeadless ChromeでAmazonの注文履歴を取得する

scraping python

Pythonクローリング&スクレイピングの初版ではAmazonの注文履歴を取得するサンプルコードを掲載していました。増補改訂版の執筆の際、RoboBrowserのようなJavaScriptを扱えないクローラーではログインが難しくなっていたので、対象のサイトを変更しました。 …

2019-08-10

Pythonクローリング&スクレイピングの増補改訂版が出版されます

book python scraping

Pythonクローリング&スクレイピングはおかげさまでご好評いただき、この度、増補改訂版を出版する運びとなりました。紙版は本日8/10発売で、電子書籍版は既に発売中です。 Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発…

2017-12-12

【1万部突破】Pythonクローリング&スクレイピングの発売から約1年

book scraping python

先月ツイートしましたが、Pythonクローリング&スクレイピングは第5刷となり、累計発行部数が1万部を突破しました。【1万部突破！】Pythonクローリング&スクレイピングの増刷（第5刷）が決まり、発売1年足らずで累計発行部数が1万部を突破しました！読者の皆…

2017-12-07

AWS FargateとLambdaでサーバーレスなクローラー運用

scraping aws docker

これはWebスクレイピング Advent Calendar 2017の7日目の記事です。こんな感じでAWS FargateとAWS Lambdaを使ってサーバーレス（EC2レス）なクローラーを作ります。この記事はFargateでのクローリング処理にフォーカスしており、クロールしたHTMLをS3に保存…

2017-06-15

ElementTreeやlxmlで名前空間を含むXMLの要素を取得する

python scraping

PythonでElementTreeやlxmlを使って名前空間つきのXMLから要素を取得しようとしても、思い通りに取得できないことがあります。これはよくあるハマりどころですが、あまりまとまった情報がないのでまとめておきます。 Python 3.6.0で検証しました。目次: 解…

2017-06-07

神戸Pythonの会でクローリングとスクレイピングについて話した

python scraping

だいぶ日が経ってしまいましたが、神戸Pythonの会でクローリング・スクレイピングについて2回話してきました。 1回目はRequestsとBeautiful Soupを使った基本的なスクレイピングについて、2回目はHeadless Chromeを使ったスクレイピングについて話してきまし…

2017-02-21

Glance NewsというAndroidアプリを公開しました

glance scraping

Glance Newsはサッと見るだけで世の中の流れをつかむためのニュースアプリです。 NHK NEWS WEBのトップニュース7つを表示するだけの機能を持っています。デフォルトでは毎日4回、朝8時、昼12時、夕方18時、夜21時に更新され、通知が表示されます。 Android…

2017-01-09

RequestsとBeautiful Soupでのスクレイピング時に文字化けを減らす

python scraping

多様なWebサイトからスクレイピングする際、Webサイトによっては文字化けが発生することがあります。 RequestsとBeautiful Soupを組み合わせる場合に、なるべく文字化けを減らす方法を解説します。 Beautiful Soupはパーサーを選択できますが、ここではhtml.…

2016-12-16

PhantomJSとか使わずに簡単なJavaScriptを処理してスクレイピング

python scraping javascript

この記事はクローラー／Webスクレイピング Advent Calendar 2016 16日目の記事です。 JavaScriptが使われているWebページからスクレイピングする場合、PhantomJSなどのヘッドレスブラウザーを使うのが一般的です。ただ、ちょっとしたJavaScriptを解釈できれ…

2016-11-23

「Pythonクローリング&スクレイピング」という本を書きました

book python scraping

2016-12-23更新: 電子書籍書籍版の情報を更新しました。電子書籍版も好評発売中です！ Pythonを使ってクローリング・スクレイピングを行い、データを収集・活用する方法を解説した書籍です。 Pythonの基本から、サードパーティライブラリを使ったスクレイピ…

2016-05-13

Python 3をサポートしたScrapy 1.1が公開されました

python scraping

2016-12-09追記「Pythonクローリング&スクレイピング」という本を書きました！Scrapyについても1つの章を割いて解説しています。 Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-作者: 加藤耕太出版社/メーカー: 技術評論社発…

2015-12-20

PythonでブログのHTMLから本文抽出 2015

python scraping

2015-12-20 19:14追記: readabilityの説明を追加・修正しました。 Webページをクロールした時に、ざっくりと本文 (ページ内の重要なコンテンツ) のみを抽出できると便利です。 Google検索すると、特に日本語だとExtractContent以外の情報があまり見つかりま…

2015-12-09

JavaScriptレンダリングサーバーSplashでスクレイピング

scraping python

これはクローラー／Webスクレイピング Advent Calendar 2015の9日目の記事です。本記事では、Scrapinghub社*1が開発しているSplashというオープンソースソフトウェアを紹介します。 github.com JavaScriptを使ったページからスクレイピングする方法としては…

2015-06-21

Scrapy 1.0が公開されました

python scraping

Pythonの有名なWebスクレイピングフレームワークのScrapyがバージョン1.0になりました。*1 0.24からの主要な変更点は下記のとおりです。 SpiderでItemの代わりにdictを返せるようになった Spiderごとにsettingsを設定できるようになった Twistedのloggingの…