データ収集 | 用語解説

🎨 直感で掴む

データを「分析・モデリングに使える形に整える」工程。分析の質はここで 8 割決まります。

本ページでは データ収集 を、定義・前提条件・使い方・落とし穴の順に整理して解説します。厳密な定義より、まず何を、いつ、どう使うかを理解することを優先してください。

📐 定義

目的に応じてデータを集めるプロセス

英語名 Data Collection。

🎯 いつ・どこで使うか

「データエンジニアリング」分野の標準的な道具として、多くの分析で登場します。
📚 データエンジニアリングを学ぶときに必ず通過する基本概念です。
論文・実務レポートで頻出する用語なので、 1 度はちゃんと理解しておくと後が楽です。

📋 前提条件・適用範囲

この用語を理解・使用するときは、次のような前提を意識してください：

データの性質：尺度（名義/順序/間隔/比例）と分布を確認
サンプル数：手法によって最低限のサンプル数が異なります
独立性：観測が独立であるかを確認（時系列・パネル等では別の手法が必要）
欠損・外れ値：前処理の方針を明確に

⚠️ よくある落とし穴

❌ テスト時の未知カテゴリ

OneHotEncoder(handle_unknown="ignore") 等で対応。

❌ リーク防止

前処理は CV の各 fold 内で fit。 Pipeline を使う。

❌ 文字コード

日本語 CSV は utf-8 / cp932 を試す。

🐍 Python での扱い

SSDSE-B-2026 のような公的統計データを Python で扱う際の基本パターン：

import pandas as pd
import numpy as np

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.shape)
print(df.dtypes)
print(df.describe())

# 「データ収集」の文脈で扱う場合の例：
# 分野: データエンジニアリング
# 関連手法は同カテゴリの他用語を参照してください。

具体的なコードはデータエンジニアリングを参照してください。

📝 レポートでの報告

分析結果を報告するときに含めるべき情報：

使ったデータ：出典・期間・サンプル数
適用条件の確認：前提が満たされているか
計算結果：数値だけでなく不確実性（CI・SE）も
解釈：何を意味するか、何を意味しないか
限界：適用範囲外への拡張は避ける

✅ チェックリスト

□ 「データ収集」を使う場面か再確認したか
□ データの尺度・分布・サンプル数を確認したか
□ 前提条件を満たしているか
□ 計算した値だけでなく不確実性も把握したか
□ 解釈と限界を区別したか
□ 関連グループ教材で全体像を確認したか

🔖 キーワード索引

結論文脈データソースサンプリングバイアス Python 落とし穴関連手法関連用語事例倫理グループ教材

💡 30秒で分かる結論（深掘り）

データ収集 ── 分析・予測・意思決定のために、目的に応じてデータを系統的に取得するプロセスの総称。「どのデータを、どこから、どう、どれだけ集めるか」を設計する活動。

3 形態：① 一次収集（自分で測る／調査する）、 ② 二次利用（既存データ）、 ③ ハイブリッド
主要ソース：公的統計（CSV/e-Stat/SSDSE）、 IoT/センサー、 Web/API、アンケート、 SNS
典型成果物：データ収集計画書（誰に何を聞くか）、収集スクリプト、メタデータ仕様書
失敗の根：「集めてから考える」のはダメ。仮説 → 設計 → 収集の順を守る
法的配慮：個人情報保護法、著作権、利用規約、機関の倫理審査（IRB）

📍 文脈 ── どこにいるか

データ収集はデータ分析パイプラインの最上流。ここでの選択が、下流すべて（前処理、モデリング、結論）の品質を決定づけます。「Garbage In, Garbage Out」── 入口に何を入れるかが、出口の質を支配します。

統計学では 標本理論 として、計算機科学では ETL/ELT として、ビジネスでは 市場調査 として、異なる伝統で発展してきました。本ページは横断的に概観します。

🎨 直感で掴む（具体例で理解）

「日本人の平均的な朝食」を調べる、という課題を例に：

悪い設計：朝 6 時にオフィス街でアンケート（出勤者しか答えない → 全国民像が歪む）
良い設計：① 全国の住民基本台帳から無作為抽出、 ② 郵送＋オンライン併用、 ③ 食材レシート画像、 ④ 朝食抜きの理由も尋ねる、 ⑤ 季節を考慮し四半期サンプル

違いは「母集団を代表するか」「欠落しがちな声をどう拾うか」の意識。これがデータ収集設計のすべてです。

📊 主要なデータソースと特性

分類	代表例	コスト	代表性	速報性
公的統計	e-Stat, SSDSE, 国勢調査	無料	高（悉皆/確率標本）	低（年次）
商用パネル	マクロミル, Nielsen	高	中（自社の標本）	中
IoT/センサー	スマートメーター, ウェアラブル	機器コスト＋通信	中（設置箇所依存）	高（リアルタイム）
Web/API	REST API, GraphQL	無料〜中	提供者次第	高
スクレイピング	requests + BeautifulSoup	無料（規約遵守）	低〜中	中
アンケート	Google Forms, Qualtrics	中	設計次第	中
SNS	X, Reddit API	無料〜高	低	高
トランザクション	POS、 ECサイト	自社なら無料	顧客のみ	高
行政オープン	政府CIO, RESAS	無料	高	低〜中

📐 サンプルサイズ設計

「何件集めれば足りるか？」を決める基本式（比率推定の場合）：

$$ n = \frac{z^2 \cdot p (1-p)}{e^2} $$

$z$=信頼水準に対応する標準正規分位（95% なら 1.96）、 $p$=母比率の事前推定値（不明なら 0.5）、 $e$=許容誤差。例えば「±3% で 95% 信頼」なら $n = 1.96^2 \cdot 0.25 / 0.03^2 \approx 1067$ 件。全国意識調査の標本数 1000〜2000 件はこの式で説明できます。

層別抽出・多段抽出ならさらに少なくて済むこともあるし、小集団分析（部分集合のみで結論）なら逆に多く必要。平均推定の場合は分散 $\sigma^2$ を使った別式：$n = z^2 \sigma^2 / e^2$。

手法	説明	向く場面
単純無作為抽出	名簿から完全ランダム	母集団リストがある
層別抽出	グループ別の比率を保つ	分散が大きく異なる層
系統抽出	k 件おきに抽出	名簿が並んでいる
クラスター抽出	地域単位など群で抽出	広域調査でコスト削減
便宜抽出	取りやすい人を抽出	予備調査のみ

⚖️ 主要なバイアスと対策

選択バイアス：そもそも対象に入らない／回答しない層がいる。 → 多経路接触、加重
無回答バイアス：忙しい人、関心のない人ほど回答率が低い。 → 補完サンプル
測定バイアス：質問の聞き方で答えが変わる。 → 質問項目をプリテスト
確証バイアス：仮説に合うデータを多く集めがち。 → 反証可能な設計
サバイバーバイアス：成功例ばかり集める。 → 失敗ケースも含める
リコールバイアス：過去の記憶は歪む。 → 直近データ、ログ併用
社会的望ましさバイアス：「良く見せたい」答え。 → 匿名化、間接質問

🐍 Python 実装

(1) e-Stat API から都道府県別人口を取得：

import requests
import pandas as pd

# e-Stat の API キー（無料登録）
APP_ID = 'YOUR_APP_ID'

# 人口推計の統計表 ID
params = {
    'appId': APP_ID,
    'statsDataId': '0003448237',  # 例: 都道府県別人口
    'limit': 100
}
res = requests.get('https://api.e-stat.go.jp/rest/3.0/app/json/getStatsData',
                   params=params).json()

# 整形して DataFrame に
values = res['GET_STATS_DATA']['STATISTICAL_DATA']['DATA_INF']['VALUE']
df = pd.DataFrame(values)
print(df.head())

(2) SSDSE-B のCSVを取得（オフライン）：

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print('取得行数:', len(df))
print('期間:', df['年度'].min(), '〜', df['年度'].max())
print('変数数:', df.shape[1])
print('欠損のある変数:', df.columns[df.isna().any()].tolist())

(3) サンプルサイズ計算：

import math
from scipy.stats import norm

def sample_size_proportion(confidence=0.95, margin=0.03, p=0.5):
    z = norm.ppf(1 - (1 - confidence) / 2)
    return math.ceil(z**2 * p * (1 - p) / margin**2)

# 95% 信頼、 ±3% 誤差
print(sample_size_proportion())  # 1068

# 有限母集団補正
def fpc(n, N):
    return math.ceil(n * N / (n + N - 1))

print(fpc(1068, 10000))  # 母集団1万人なら 906 で十分

(4) 倫理的な Web スクレイピング：

import requests
import time
from urllib.robotparser import RobotFileParser

url = 'https://example.com'
rp = RobotFileParser()
rp.set_url(url + '/robots.txt')
rp.read()

if not rp.can_fetch('*', url):
    raise PermissionError('robots.txt で禁止')

# レート制限を必ず守る
for page in range(1, 11):
    res = requests.get(f'{url}?page={page}',
                       headers={'User-Agent': 'research-bot v0.1 (mailto:me@example.com)'})
    # ... パース処理
    time.sleep(2.0)  # 1 秒/req より遅く

⚠️ よくある落とし穴（追加）

❌ 1. 集めてから問いを考える

「とりあえず全部取って後で考えよう」は典型的失敗。仮説 → 必要データ → 取得計画の順を厳守。

❌ 2. メタデータ未記録

「いつ・誰が・どこから・どう取得したか」が欠けると、 1 年後に再現不能。 README＋スクリプトをセットで保存。

❌ 3. 母集団とサンプルの混同

「うちの顧客」の話を「日本人」に一般化してしまう。結論には必ず適用範囲を書く。

❌ 4. 規約違反・著作権無視

スクレイピングで訴訟例多数。 robots.txt と利用規約を確認、 API 提供あればそちらを優先。

❌ 5. プリテスト省略

本調査前に少数で試さないと、質問の意味が違う、システムが落ちる、などで取り返しがつかない。

❌ 6. 個人情報の過剰取得

「必要最小限の原則」を守らないと法令違反。設計時から PII を分離。

❌ 7. 時点バイアス

1 日だけ・1 週間だけのデータで全体を語れない。季節性・イベント性に注意。

🌐 関連手法・派生

標本調査 — 統計学的なサンプリング設計
ETL/ELT — システム的なデータ取得・変換・転送
CDC (Change Data Capture) — DB の変更を取り込む
市場調査・社会調査 — 古典的なアンケート設計
アクティブラーニング — ML が「次に何を取るか」を提案
クラウドソーシング — Amazon Mechanical Turk 等

🔗 関連用語（前提・並列・発展）

役割で色分け：前提／並列／発展

[前提]プロトコル [前提]CSV [前提]構造化データ [並列]センサーデータ [並列]SNSデータ [並列]行動ログ [並列]RDB [発展]データレイク [発展]クレンジング [発展]DataFrame [発展]データガバナンス [発展]分散処理 [並列]データ圧縮 [発展]外れ値処理 [発展]データ結合

🔄 取得ワークフローの自動化

研究や本番運用では、取得を毎回手動で行うとミスや再現性問題が起きます。「同じ手順で 1 年後も実行できる」ことが品質の条件であり、主要なワークフローツールを使うのが定番：

cron / GitHub Actions：定期実行の最小構成
Apache Airflow：DAG ベースのバッチ処理オーケストレータ
Prefect / Dagster：Python ネイティブなモダンな代替
dbt：DWH への変換に強い宣言型ワークフロー
Snakemake / Nextflow：研究分野で人気のパイプライン
Argo Workflows：Kubernetes 上の DAG

どれを選んでも、「コードで取得手順を表現」「失敗時のリトライ」「ログ・メトリクス」「依存関係の可視化」が満たせれば OK。学術研究では Snakemake / Nextflow が研究室で標準化されており、解析全体を 1 コマンドで再実行できる構成が理想です。

🌏 国際的なデータソース

国際比較や、日本データだけでは不足する分野で活用：

名称	提供元	内容
World Bank Open Data	世界銀行	経済・社会指標、全 200 余ヶ国
OECD Data	OECD	教育・医療・労働等比較指標
UN Data	国連	人口・SDG 関連
Eurostat	EU 統計局	EU 加盟国データ
WHO GHO	WHO	世界保健統計
Kaggle Datasets	Kaggle	研究・コンペ用
HuggingFace Datasets	HuggingFace	ML 用、主にテキスト・画像
Google Dataset Search	Google	公開データセット検索

国際機関のデータは定義（例えば「失業」の基準）が国により異なることがあり、比較分析では必ず定義を確認します。 OECD は加盟国共通定義に整えているため、国際比較に向いています。

📜 歴史的な発展

古代：人口・税収の調査（ローマ Census, 大化改新の戸籍）
17 世紀：John Graunt の死亡記録分析、統計学の萌芽
19 世紀：近代的国勢調査（米国 1790, 日本 1920）
1934 年：Neyman の確率標本理論、サンプリングが学問化
1950 年代：大規模社会調査の標準化（NORC 等）
1990 年代：Web 調査の登場
2000 年代：オープンデータ運動、政府CIOによる開放
2010 年代：API エコノミー、 IoT 大量取得時代
2020 年代：プライバシー保護データ収集（差分プライバシー連邦学習）

🇯🇵 主要な日本の公的データソース

名称	提供元	内容	取得方法
e-Stat	総務省統計局	政府統計の総合窓口、国勢調査・労働力調査等	Web, API（要登録）
SSDSE	統計数理研究所	教育用CSV、都道府県別、市区町村別	CSV ダウンロード
RESAS	経済産業省	地域経済分析システム	Web, 一部 API
AMeDAS	気象庁	10分間の気象観測値	CSV, JSON
DATA.GO.JP	政府CIO	オープンデータカタログ	CKAN API
国保データベース	国保中央会	医療レセプト集計	研究利用申請
統計でみる日本	総務省	統計ハンドブック	PDF / CSV
国会図書館	NDL	書誌・全文検索	SRU API

🛠 データ収集設計の 7 ステップ

問いの明確化：「何を明らかにしたいか」を 1 文で書く。 PICO フレームワーク等を活用
必要変数の洗い出し：仮説検証に最低限必要な変数を表に
母集団と標本枠の定義：全体（母集団）と取得対象リスト（標本枠）を明示
サンプリング設計：単純無作為 / 層別 / クラスター等の方式選定
取得手段の選定：API / CSV / アンケート / IoT などコスト・精度・倫理で評価
プリテスト：少数で試運転、問題点を洗い出す
本収集と監視：取得進捗・品質・回答率を日次でモニタ

📖 事例：地域の高齢化を分析する設計

仮想例：「全国 47 都道府県の高齢化と社会保障費の関係を 10 年スパンで分析」したい。

主データ：SSDSE-B（都道府県×年度の人口、医療、介護指標）── 信頼できる二次データ
副データ：e-Stat の国民生活基礎調査（個票は研究利用申請）
補助：RESAS の地域経済データ、国保連の医療レセプト集計
取得方法：CSV ダウンロード＋ API 自動取得スクリプト
更新サイクル：四半期ごとに最新版を取り込み、過去スナップショットも保持
記録：取得日、出典 URL、ファイルハッシュ、加工コードを README に

⚖️ 倫理・法令チェックリスト

□ 取得対象に個人情報が含まれるか確認したか
□ 取得元の利用規約・API 規約を読了したか
□ 著作権の対象（DB の権利、写真等）に注意したか
□ 必要最小限の原則を守っているか（過剰取得を避ける）
□ 同意取得が必要なら、取得方法・撤回手段を用意したか
□ 大学等の研究なら倫理審査（IRB）を経たか
□ 保管期間・削除方針を決めたか
□ 海外との越境がある場合、規制（GDPR、 PIPL 等）を確認したか

❓ よくある質問

Q1. スクレイピングと API、どちらを使うべき？

API がある場合は必ず API を使う。公式に許可された経路で、構造化されたデータが安定して取れます。 API がない場合のみ、規約を確認したうえでスクレイピング。

Q2. 1000 件は十分？

全国の比率推定なら±3% 程度の精度で十分。ただし「20 代女性」など細分化集計をするなら、部分集合のサイズで判定すべき。

Q3. オンライン調査の代表性は？

ネット利用者バイアスを必ず認識する。シニア層・低所得層は過小代表になりがち。重要なら郵送＋オンライン併用、ウェイト補正の検討。

Q4. 公的統計と独自取得、どちらを優先？

公的統計（e-Stat、SSDSE 等）を先に確認。多くの主題が既存統計でカバーされる。不足分のみ独自取得が効率的かつ品質も担保しやすい。

Q5. データ取得スクリプトはどう保存？

Git で版数管理、環境は requirements.txt または pyproject.toml で固定、取得結果はハッシュで指紋採取して別管理。再現性のために dvc / Pachyderm 等も検討。

📚 関連グループ教材

この用語の全体像を学ぶには、まず横断的な教材で文脈を掴むのが効率的です：

📚 データエンジニアリング — このカテゴリの全体像を学ぶ
📚 データリテラシー — このカテゴリの全体像を学ぶ
📚 データガバナンス — 取得の規律
📚 データクレンジング — 取得後の整形
📚 統計学基礎 — 標本理論と推定

🔗 同カテゴリの他用語

データベース SQL 主キー外部キー API JSON ログデータ構造化データ非構造化データメタデータリレーショナルデータベーステーブル Webスクレイピングアノテーション