Webスクレイピング

🔖 キーワード索引

WebスクレイピングWeb Scrapingデータエンジニアリングスクレイピング

本ページは Webスクレイピング（Web Scraping）を多角的に解説します。上のチップは、検索・関連語の手がかりです。

💡 30秒で分かる結論

Web サイトから HTML を取得・解析して、必要な情報を自動抽出する技術
Python では requests + BeautifulSoup または Selenium / Playwright が定番
robots.txt と利用規約の遵守、アクセス間隔の配慮が法的・倫理的必須事項
JS で動的に生成されるページは Selenium 等の ブラウザ自動操作が必要
API が公開されている場合は API を優先。スクレイピングは最後の手段

📍 文脈 — どこで使う概念か

Web スクレイピング（Web Scraping）は、公開 Web サイトの情報を取得する手法。ニュース記事収集、価格比較、不動産情報集約、 SNS 分析など データソースの拡張に多用されます。ただし著作権、利用規約、サーバー負荷、個人情報保護など多くの法的・倫理的論点があり、慎重な運用が必要です。

🎨 直感で掴む — 具体例で理解する

スクレイピングの基本フロー：

HTTP リクエスト：URL にアクセスして HTML を取得
HTML パース：DOM ツリーに展開（BeautifulSoup, lxml）
要素抽出：CSS セレクタや XPath で必要部分を取り出す
クレンジング：余計な空白・タグを除去
保存：CSV / DB / JSON へ

例：気象庁の天気情報、不動産サイトの物件一覧、 Amazon の価格、食べログの口コミなど、 Web 上の構造化された表は事実上すべてスクレイピング可能です（合法性は別）。

近年は JavaScript で後から表示される SPA（シングルページアプリ）が多く、単純な HTTP では取得できない場合が増えています。そのときは Selenium や Playwright でブラウザを自動操作します。

📐 定義

Webページから情報を抽出する技術

英語名 Web Scraping、カテゴリ：データエンジニアリング。

🔬 記号・要素の読み解き

HTTP GET: Web サーバーから HTML を取得する基本リクエスト
User-Agent: ブラウザ識別子。適切に設定しないとブロックされる
robots.txt: サイトが「ここはスクレイピング禁止」を宣言するファイル
CSS セレクタ: 要素を指定する記法（.class, #id, div > p）
XPath: XML/HTML 専用のパス記法。より柔軟
レートリミット: 1 秒に 1 リクエスト程度に抑える礼儀

🧮 数値例・実値計算

例：47都道府県の人口データを Wikipedia から取得する流れ：

ステップ	所要時間	注意点
1. requests で HTML 取得	0.5 秒	User-Agent 設定
2. BeautifulSoup でパース	0.1 秒	table タグを探す
3. 表データ抽出	0.05 秒	pandas.read_html が便利
4. クレンジング	0.1 秒	カンマ、単位を削除
5. CSV 保存	0.01 秒	UTF-8 BOM 注意

1 件 1 秒以下で完了。ただし 1000 件取得なら 1000 秒待つ必要があり、 並列化と 礼儀ある間隔のバランスが必要。

🐍 Python 実装例

最小コードで動かしてみる例：

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

url = 'https://example.com/data'
headers = {'User-Agent': 'Mozilla/5.0 (research bot)'}
r = requests.get(url, headers=headers)
time.sleep(1)  # 礼儀（1秒間隔）

soup = BeautifulSoup(r.text, 'html.parser')
table = soup.find('table', class_='data')
df = pd.read_html(str(table))[0]
df.to_csv('data/raw/scraped.csv', index=False, encoding='utf-8')

⚠️ よくある落とし穴

❌ 利用規約違反

サイトの利用規約で禁止されている場合がある。取得前に必ず Terms of Service と robots.txt を確認。

❌ 過剰アクセスによる DoS

礼儀のない高頻度アクセスは偽計業務妨害罪に問われた判例あり（岡崎市立中央図書館事件）。必ず 1〜数秒の sleep を。

❌ 動的サイトの落とし穴

JavaScript で後から描画されるサイトは requests では取れない。 Selenium / Playwright で対応。

❌ HTML 構造の変化

サイトの DOM 構造はリニューアルで頻繁に変わる。抽出ロジックが突然壊れる覚悟を。

❌ 個人情報の取得

個人を識別できるデータをスクレイピングすると、個人情報保護法・GDPR に抵触。公開情報でも要注意。