Webサイトのクローラビリティをチェックする

Webサイトをクローリング、スクレイピングしたいと思ったとき、はじめに何をするでしょうか？

私はとりあえずブラウザの開発者ツールでDOMを覗きますが、その後robots.txtや利用規約をチェックします。

そういう作業を繰り返すうちに面倒になってきたので、URLを与えるだけで自動的にクローラビリティ（クロールしやすさ）をチェックするWebサービスをやっつけで作りました。

適当にクロールしたいURLを入力してCheckボタンを押してみてください。

クローラビリティとは言ってもまだコンセプトレベルで、以下のことができるだけです。

もう少しいい感じに情報を取得できるようにしたいです。

ソースコードはGitHubに置いてあります。

ちなみに内部では以前の記事で紹介したaiohttpを使っています。Python 3.3から使えるasyncioを使って並列にアクセスしています。

aiohttpはHTTPクライアントだけでなく、HTTPサーバーの機能も実験的ながら付いているので、Webインターフェイスはこれで作ってみました。

orangain flavor