orangain flavor

2015-12-09 · orangain flavor

$ docker pull scrapinghub/splash
$ docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash
2015-12-08 13:20:59+0000 [-] Log opened.
2015-12-08 13:20:59.239310 [-] Splash version: 1.8
2015-12-08 13:20:59.240288 [-] Qt 4.8.1, PyQt 4.9.1, WebKit 534.34, sip 4.13.2, Twisted 15.4.0, Lua 5.2
2015-12-08 13:20:59.242303 [-] Python 2.7.3 (default, Jun 22 2015, 19:33:41) [GCC 4.6.3]
2015-12-08 13:20:59.242396 [-] Open files limit: 1048576
2015-12-08 13:20:59.242472 [-] Can't bump open files limit
2015-12-08 13:20:59.447814 [-] Xvfb is started: ['Xvfb', ':1069', '-screen', '0', '1024x768x24']
2015-12-08 13:20:59.507558 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles
2015-12-08 13:20:59.547976 [-] verbosity=1
2015-12-08 13:20:59.548159 [-] slots=50
2015-12-08 13:20:59.548618 [-] Web UI: enabled, Lua: enabled (sandbox: enabled), Proxy Server: enabled
2015-12-08 13:20:59.549491 [-] Site starting on 8050
2015-12-08 13:20:59.549761 [-] Starting factory <twisted.web.server.Site instance at 0x1b87a70>
2015-12-08 13:20:59.551205 [-] SplashProxyServerFactory starting on 8051
2015-12-08 13:20:59.551413 [-] Starting factory <splash.proxy_server.SplashProxyServerFactory instance at 0x1b8a3b0>
$ curl 'http://192.168.59.103:8050/render.html?url=http://google.com'
<!DOCTYPE html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ja"><head><meta content="世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。" name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
...
$ curl http://news.tv-asahi.co.jp/news_international/articles/000064029.html  | iconv -f shift_jis
...
<!-- 関連ニュース -->
            <div id="relatedNews"></div>
...

$ curl -v 'http://192.168.59.103:8050/render.html?url=http://news.tv-asahi.co.jp/news_international/articles/000064029.html'
...
<!-- 関連ニュース -->
            <div id="relatedNews">                        <div class="kanrennews">
              <h3>関連ニュース</h3>

              <ul class="newslist clearfix">
                                  <li>
                  <div class="text"><a href="http://news.tv-asahi.co.jp/news_international/articles/000063920.html">「若い皆さん研究頑張って」　物理学賞・梶田さん</a><br><span>(2015/12/07 17:53)</span></div>
                </li>
                                <li>
                  <div class="text"><a href="http://news.tv-asahi.co.jp/news_international/articles/000063849.html">ノーベル賞大村さん現地に　梶田さん燕尾服を採寸</a><br><span>(2015/12/06 11:52)</span></div>
                </li>
                                <li>
                  <div class="text"><a href="http://news.tv-asahi.co.jp/news_international/articles/000063837.html">“ノーベルウィーク”大村さん、梶田さん現地到着</a><br><span>(2015/12/06 05:50)</span></div>
                </li>
                                <li>
                  <div class="text"><a href="http://news.tv-asahi.co.jp/news_international/articles/000063826.html">大村さんも現地到着　いよいよ「ノーベルウィーク」</a><br><span>(2015/12/05 17:31)</span></div>
                </li>
                                <li>
                  <div class="text"><a href="http://news.tv-asahi.co.jp/news_international/articles/000063810.html">ノーベル賞梶田さん到着　これからイベント目白押し</a><br><span>(2015/12/05 11:51)</span></div>
                </li>
                              </ul>

            </div>
            </div>
...

$ pip install --upgrade scrapy
$ pip install service_identity
# coding: utf-8
import scrapy


# scrapy.Spiderを継承してBlogSpiderを定義する
class BlogSpider(scrapy.Spider):
    name = 'blogspider'
    start_urls = ['http://blog.scrapinghub.com']

    def parse(self, response):
        # トップページをパースするメソッド。
        # URLに /yyyy/mm/ を含むアーカイブページへのリンクを抽出してクロールする。
        # それらのページはparse_titles()メソッドでパースする。
        for url in response.css('ul li a::attr("href")').re(r'.*/\d\d\d\d/\d\d/$'):
            yield scrapy.Request(response.urljoin(url), self.parse_titles)

    def parse_titles(self, response):
        # アーカイブページからエントリーのタイトルを取得する
        for post_title in response.css('div.entries > ul > li a::text').extract():
            yield {'title': post_title}

$ scrapy runspider myspider.py
2015-06-20 22:14:05 [scrapy] INFO: Scrapy 1.0.0 started (bot: scrapybot)
2015-06-20 22:14:05 [scrapy] INFO: Optional features available: ssl, http11
2015-06-20 22:14:05 [scrapy] INFO: Overridden settings: {}
2015-06-20 22:14:05 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2015-06-20 22:14:05 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-06-20 22:14:05 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-06-20 22:14:05 [scrapy] INFO: Enabled item pipelines:
2015-06-20 22:14:05 [scrapy] INFO: Spider opened
2015-06-20 22:14:05 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-06-20 22:14:05 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2015-06-20 22:14:06 [scrapy] DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None)
2015-06-20 22:14:07 [scrapy] DEBUG: Crawled (200) <GET http://blog.scrapinghub.com/2012/07/> (referer: http://blog.scrapinghub.com)
2015-06-20 22:14:07 [scrapy] DEBUG: Crawled (200) <GET http://blog.scrapinghub.com/2011/11/> (referer: http://blog.scrapinghub.com)
...
$ scrapy startproject helloscrapy
$ tree helloscrapy
helloscrapy
├── helloscrapy
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       └── __init__.py
└── scrapy.cfg
$ cd helloscrapy/helloscrapy
DOWNLOAD_DELAY = 3
ROBOTSTXT_OBEY = True

# coding: utf-8
from datetime import datetime

import scrapy


# SitemapSpiderを継承する
class CNETSpider(scrapy.spiders.SitemapSpider):
    name = "cnet"
    allowed_domains = ["www.cnet.com"]
    sitemap_urls = (
        # ここにはrobots.txtのURLを指定してもよいが、
        # 無関係なサイトマップが多くあるので、今回はサイトマップのURLを直接指定する。
        'http://www.cnet.com/sitemaps/news.xml',
    )
    sitemap_rules = (
        # 正規表現 '/news/' にマッチするページをparse_news()メソッドでパースする
        (r'/news/', 'parse_news'),
    )

    def parse_news(self, response):
        yield {
            # h1要素の文字列を取得する
            'title': response.css('h1::text').extract_first(),
            # div[itemprop="articleBody"]の直下のp要素以下にある全要素から文字列を取得して結合する
            'body': ''.join(response.css('div[itemprop="articleBody"] > p ::text').extract()),
            # time[itemprop="datePublished"]のclass属性にUTCの時刻が格納されているので、パースする
            'time': datetime.strptime(
                response.css('time[itemprop="datePublished"]::attr(class)').extract_first(),
                '%Y-%m-%d %H:%M:%S'
            ),
        }

$ scrapy crawl cnet -o items-cnet.jl
# coding: utf-8
from datetime import datetime

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


# CrawlSpiderを継承する
class BBCSpider(CrawlSpider):
    name = "bbc"
    allowed_domains = ["www.bbc.com"]
    start_urls = (
        'http://www.bbc.com/news',
    )
    rules = (
        # /news/world/*** というカテゴリページを辿る
        Rule(LinkExtractor(allow=r'/news/world/'), follow=True),
        # /news/world-*** というニュースページはparse_news()メソッドでパースする
        Rule(LinkExtractor(allow=r'/news/world-'), callback='parse_news'),
    )

    def parse_news(self, response):
        yield {
            # h1要素の文字列を取得する
            'title': response.css('h1::text').extract_first(),
            # .story-body__innerの直下のp要素文字列を取得して改行で結合する
            'body': '\n'.join(response.css('.story-body__inner > p::text').extract()),
            # .story-body .dateのdata-seconds属性にタイムスタンプが格納されているので時刻に変換する
            'time': datetime.fromtimestamp(int(
                response.css('.story-body .date::attr("data-seconds")').extract_first())),
        }

$ scrapy crawl cnet -o items-bbc.jl
[root@archiso /]# python -V
Python 3.4.3
[root@archiso /]# which python
/usr/bin/python
[root@archiso /]# ls /usr/bin/python* -l
lrwxrwxrwx 1 root root     7 Mar 25 17:30 /usr/bin/python -> python3
lrwxrwxrwx 1 root root    14 Mar 25 17:30 /usr/bin/python-config -> python3-config
lrwxrwxrwx 1 root root     9 Mar 25 17:30 /usr/bin/python3 -> python3.4
lrwxrwxrwx 1 root root    16 Mar 25 17:30 /usr/bin/python3-config -> python3.4-config
-rwxr-xr-x 2 root root 10440 Mar 25 17:30 /usr/bin/python3.4
lrwxrwxrwx 1 root root    17 Mar 25 17:30 /usr/bin/python3.4-config -> python3.4m-config
-rwxr-xr-x 2 root root 10440 Mar 25 17:30 /usr/bin/python3.4m
-rwxr-xr-x 1 root root  3107 Mar 25 17:30 /usr/bin/python3.4m-config

Splashとは

Splashを使ってみる

SplashのAPIを使う

Splashの使いドコロ

まとめ

参考

Scrapy 1.0の感想

例1：1ファイルのシンプルなクローラー

1. Scrapyをインストールする

2. service_identityもインストールしておく

3. Spiderを作成する

4. クローラーを実行する

複雑なクローラーの作成

例2：XML Sitemapを持つサイトのクローリング

例3：XML Sitemapを持たないサイトのクローリング

まとめ

結論

PEP 394

推奨事項

Arch Linux

実際に使ってみる

結論

第12章 5つの世界

第18章 二文化主義

その他

定理3：できるだけ早く試作を作成する

定理4：効率より移植性

定理6：ソフトウェアの梃子（てこ）を有効に活用する

定理8：過度の対話的インタフェースを避ける

定理9：全てのプログラムをフィルタにする

まとめ

組み立て

サポート

感想

第18章二文化主義