2次データ | 用語解説

🔖 キーワード索引

このページ内のセクションへ素早く飛べます（クリックで該当箇所へジャンプ）：

💡 30秒結論 📍 文脈 🎨 直感 📐 数式・定義 🔬 記号読み解き 🧮 SSDSE実値計算 🐍 Python実装 ⚠️ 落とし穴 🌐 関連手法 🔗 関連用語 📚 関連グループ ❓ FAQ

📍 あなたが今見ているもの

e-Stat、SSDSE、World Bank Open Data — これらは典型的な2次データ。「すでに誰かが集めて整えてくれた」点が最大の魅力で、同時に「自分の問いに完全にはマッチしない」点が最大の弱点でもある。

本ページは 2次データ（Secondary Data） を、ジャストインタイム型データサイエンス教育の文脈で 12 のセクションに分けて解説します。上から順に読まなくても、「🔖 キーワード索引」から必要箇所だけ拾い読みすることもできます。

🎨 直感で掴む — 2次データとは何者か

SSDSE-B-2026 を使って47都道府県の高齢化率と死亡率の関係を調べる — これは典型的な2次データ分析です。元データは総務省の国勢調査・人口動態統計などで、すでに誰かが集めて整えてくれたものを再利用しています。

観点	1次データ	2次データ
取得者	自分	他人（政府・企業・研究者）
コスト	高い	低い（無料 or 安価）
マッチ度	問いにピッタリ	問いとはズレることも多い
期間・地理	自由に設定	公表サイクルに従う
代表例	自社アンケート, 自前センサ	SSDSE, e-Stat, 国際機関統計

2次データを使う最大のメリットは、数百万人規模のサンプルや国際比較データに無料でアクセスできること。 デメリットは、元の調査設計（質問項目、標本枠、期間）を自分でコントロールできないこと。メタデータ（出典・期間・定義）を丁寧に読み込むことが必須です。

📐 数式・定義

2次データは概念的定義が中心ですが、ジャストインタイム教育の観点からは「関連量のなかで何を計算しているか」を式で押さえると理解が深まります。代表的に使われる数式は：

$$ \text{基本量}_{secondary-data} = f(\text{入力データ}, \text{前提}, \text{パラメータ}) $$

定義式の一般形：

$$ Q = \frac{1}{n} \sum_{i=1}^{n} g(x_i) $$

ここで $g(\cdot)$ は用語に応じた評価関数（カウント、平均、比、オッズなど）。具体形は次セクション「🔬 記号読み解き」で確認します。

🔬 数式・定義を「言葉」で読み解く

先ほどの数式・定義に出てきた記号や概念を、一つずつ確認します。とくに 2次データの文脈で意味を取り違えやすい部分を強調します。

記号	意味と注意点
$\bar{x}$	標本平均。 $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$
$\sigma$（または $s$）	標準偏差（または標本標準偏差）。ばらつきの代表指標
$n$	標本サイズ（観測数）
$p$	p値、または比率。文脈で意味が変わる
$\alpha$	有意水準（通常 0.05）
$H_0, H_1$	帰無仮説と対立仮説

記号は手法ごとに少しずつ意味が違うため、論文・教科書を読むたびに『この本ではこの記号を何の意味で使っているか』を最初に確認するのが鉄則です。とくに 2次データ関連の文献では、 ${\sigma}^2$（分散）と $s^2$（標本分散）の区別、 $n$ と $N$（標本サイズ vs 母集団サイズ）の混同に注意。

🧮 SSDSE-B 実値で計算してみる

SSDSE-B-2026（47都道府県・2023 年・125 項目）を題材に、 2次データに関係する変数を実値で確認します。とくに東京・大阪・沖縄・秋田など特徴ある県を比較すると、用語の重みが体感できます。

都道府県	総人口（千人）	高齢化率（%）	TFR	有効求人倍率
東京	14,047	23.0	0.99	1.74
大阪	8,778	27.9	1.21	1.27
沖縄	1,468	23.5	1.60	0.96
秋田	930	38.6	1.18	1.51
全国平均	126,146	29.1	1.20	1.31

これらの値を 2次データの観点で読み解くと、都道府県間の格差・特徴・関係性が浮かび上がります。具体的な計算手順は次の「🐍 Python 実装」セクションで実演します。

🐍 Python 実装

以下は 2次データを SSDSE-B-2026 で扱うときの典型コード。 encoding='cp932' は政府統計の Shift-JIS 対応。 skiprows=1 は日本語ヘッダ行をスキップする定石。

① 基本パターン（読み込み・確認・主要列抽出）

import pandas as pd

# 2次データ（SSDSE-B-2026）を読み込む
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
print('shape:', df.shape)            # (47, 125)
print('columns:', df.columns[:10].tolist())

# 出典・期間・単位を必ず確認（メタ情報）
print('期間: 2023年')
print('提供: 独立行政法人統計センター・総務省統計局')
print('一次出典: 国勢調査、人口動態統計 ほか')

# 自分の問いに合わせて変数を選ぶ
sub = df[['Prefecture', 'A1101', 'A1303', 'A4103', 'E4501']]
sub.columns = ['県','総人口','高齢化率','TFR','有効求人倍率']
print(sub.head())

② 可視化テンプレ（matplotlib / seaborn）

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 2次データ の探索的データ分析（EDA）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)

# 主要変数を取り出して名前を分かりやすく
df['総人口']    = df.iloc[:, 2]
df['65歳以上']  = df.iloc[:, 14]
df['高齢化率']  = df['65歳以上'] / df['総人口'] * 100
df['TFR']      = df.iloc[:, 21]

# ヒストグラム
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
sns.histplot(df['高齢化率'], kde=True, ax=axes[0])
axes[0].set_title('高齢化率の分布（47都道府県）')
sns.histplot(df['TFR'], kde=True, ax=axes[1])
axes[1].set_title('TFRの分布')
plt.tight_layout()
plt.savefig('eda_distribution.png', dpi=120)

③ 前処理：欠損・外れ値・型変換

import pandas as pd
import numpy as np

# 2次データ に関わる前処理の典型パターン
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)

# ① 欠損値の確認
print('欠損数:')
print(df.isna().sum().sort_values(ascending=False).head(10))

# ② 数値変換（カンマ・%除去 など）
def to_num(s):
    if isinstance(s, str):
        return float(s.replace(',', '').replace('%', ''))
    return s
df = df.applymap(to_num)

# ③ 外れ値検出（IQR）
q1 = df.quantile(0.25, numeric_only=True)
q3 = df.quantile(0.75, numeric_only=True)
iqr = q3 - q1
outlier_mask = ((df < q1 - 1.5*iqr) | (df > q3 + 1.5*iqr)).any(axis=1)
print('外れ値を含む行数:', outlier_mask.sum())

④ 検定・推定の最小例（scipy.stats）

import pandas as pd
from scipy import stats

# 2次データ 文脈での基本的な仮説検定
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
df['aging']  = df.iloc[:, 14] / df.iloc[:, 2] * 100
df['region'] = df['Prefecture'].apply(lambda p: '東日本' if p in ['北海道','青森県','岩手県','宮城県','秋田県','山形県','福島県','茨城県','栃木県','群馬県','埼玉県','千葉県','東京都','神奈川県','新潟県','富山県','石川県','福井県','山梨県','長野県','岐阜県','静岡県','愛知県'] else '西日本')

east = df.loc[df['region']=='東日本', 'aging']
west = df.loc[df['region']=='西日本', 'aging']

t, p = stats.ttest_ind(east, west, equal_var=False)
print(f'東日本 平均高齢化率: {east.mean():.2f}%')
print(f'西日本 平均高齢化率: {west.mean():.2f}%')
print(f't = {t:.3f}, p = {p:.4f}')
print('判定:', '有意差あり' if p < 0.05 else '有意差なし')

※ より高度な例（クロス集計、機械学習、ベイズ推定）は data-literacy のグループ教材を参照。

⚠️ よくある落とし穴（7 件）

2次データに取り組むときに、学生・実務者・研究者がよく踏むワナをまとめました。該当しそうな項目があれば、自分の分析を見直してみてください。

❌ 1. 元データの調査設計を読まない

SSDSE の数字をそのまま使うと、「世帯」と「家計」の違い、「労働力人口」の定義などを見落とす。必ず原典の用語集を参照。

❌ 2. 古いバージョンを使い続ける

2次データは年次更新がある。教材作成時の年版と最新版で項目が変わることがある。バージョン（2026 など）を必ず明示。

❌ 3. 単位とスケールの混同

%・件数・千人・百万円 — 単位を明示せずに比較すると、まったく違うものを比べてしまう。グラフの軸ラベル、表のヘッダで単位を必ず示す。

❌ 4. 時点のズレ

2020 年と 2023 年のデータを混ぜると、コロナ前後の構造変化を見落とす。「2023年データ」と明記し、横断データなら時点を統一する。

❌ 5. 欠損値の暗黙除去

NaN を含む行を dropna() で除いた瞬間、 47県の標本が 30 県に減ることもある。何件落としたか必ず記録し、結果に与える影響を考える。

❌ 6. 外れ値の無視と過剰除去

東京・大阪・沖縄など特徴ある県は『外れ値』扱いされがちだが、実は本質的な情報を含む。 IQR で機械的に切るのではなく、ドメイン知識で判断。

❌ 7. 相関と因果の混同

2 変数が相関していても、一方が他方の原因とは限らない。共通の交絡因子（人口、産業構造、気候）を疑う。因果には RCT・差の差・操作変数法など別の道具が必要。

🧭 詳細解説 — 2次データを一段深く掘り下げる

歴史的背景

2次データ（Secondary Data）は、リテラシー分野における基本概念の 1 つとして発展してきました。学術領域では 20 世紀後半に体系化が進み、 21 世紀のデータ駆動社会の中で「実務で使う知識」として急速に普及。とくに 2010 年代後半以降、ビッグデータ・IoT・AI の進展に伴い、用語の意味・適用範囲が再定義されつつあります。

日本では総務省・経産省・内閣府の各種計画（Society 5.0、デジタル田園都市国家構想、統計改革基本計画）で繰り返し言及される基幹概念。 SSDSE（教育用標準データセット）も、これらの教育普及を目的に整備されたデータです。

国際的な位置付け

OECD、国連、 ISO、 IEC などの国際機関が、 2次データに類する概念・標準を整備してきました。たとえば：

OECD：データガバナンス・AI 原則・統計教育政策で頻出
国連 SDGs：データ駆動の進捗管理の根拠
ISO/IEC：データ品質・AI マネジメントの国際規格（ISO 8000、 ISO/IEC 42001 など）
UNESCO：教育における統計・データリテラシーの位置付け

日本の文脈での意味

2次データは、日本の教育・行政・産業の文脈で次のような意義を持ちます：

領域	意義・登場場面
高校・大学教育	情報 I/II、数学 B（統計）、教養統計、専門統計の中核概念として登場
行政・政策	EBPM、デジタル庁施策、自治体 DX、地方創生交付金の根拠資料
企業・産業	DX 推進、データ分析人材育成、経営判断、マーケティング・品質管理
学術研究	公衆衛生、教育学、経済学、社会学、計算機科学などの分野横断研究
市民・メディア	報道、ファクトチェック、行政情報の解釈、民主主義の基盤

よく混同される概念

2次データは、隣接概念と混同されやすい用語の代表でもあります。ここで違いを明確にしておきましょう：

混同される概念	2次データとの違い
隣接するリテラシー系の用語	本ページの「🔗 関連用語」を参照。並列カテゴリで対比すると明瞭
より広い上位概念	data-literacy ページで包含関係を確認
類似名・別名	英語名 (Secondary Data) を正式表記として参照

学習・教材としての位置付け

本サイト（用語解説）は「ジャストインタイム型データサイエンス教育」のリソースです。つまり、論文・実務・授業で その用語に出会ったタイミングで必要最低限の説明を得る、という使い方を想定しています。 2次データもその一例。

体系的に学びたい場合は、まずグループ教材（data-literacy）から始め、そこから 2次データのような個別用語にドリルダウンしていくのが効率的です。

参考文献・標準

独立行政法人統計センター『SSDSE（教育用標準データセット）』
https://www.nstac.go.jp/use/literacy/ssdse/
総務省『統計でみる都道府県のすがた』『社会・人口統計体系』
e-Stat 政府統計の総合窓口：https://www.e-stat.go.jp/
OECD Data Portal：https://data.oecd.org/
『統計学入門』東京大学教養学部統計学教室編、東京大学出版会（基礎統計の定番）
『Python によるデータ分析入門』Wes McKinney、 O'Reilly（pandas 公式書）
『データ分析のための統計モデリング入門』久保拓弥、岩波書店（緑本）

🌐 関連手法・派生

2次データと同じ「リテラシー」カテゴリ、または直接の上位・派生となる用語：

🔗 関連用語（前提・並列・発展）

📘 前提（先に理解しておきたい）

2次データを学ぶうえで、これらを先に押さえると吸収が早い：

データリテラシー e-Stat オープンデータドメイン知識

📗 並列（同じ階層の関連用語）

対比・補完して理解すべき同階層の用語：

1次データ実データ調査データ実験データ

📕 発展（一歩進んだ応用・拡張）

2次データを理解した後の自然な発展先：

データのメタ化データ分析プロセス EDA ビッグデータ

📑 論文・実務での登場パターン

2次データは、統計データ解析コンペティション系の論文・教材で次のような場面に登場します：

場面	典型的な文章・表現
Abstract	「2次データを用いて、 47都道府県の…を分析した」
Methods	「データは SSDSE-B-2026 を使用。 2次データは…の手順で算出」
Results	「2次データ = X.XX、 95% CI [X, Y]、 p < 0.05」
Discussion	「2次データの限界として…が挙げられる」
Conclusion	「2次データに基づき、政策提言として…」

論文一覧から該当キーワードで検索すると、本サイト内の再現論文ハンズオン教材に直接ジャンプできます。 ⇒ 論文一覧に戻る

📚 関連グループ教材（全体像）

2次データは「リテラシー」分野の一部です。同じグループに属する用語は以下：

🎯 data-literacy（このグループの総合ページ） — 全体像を学びたいときはここから
データリテラシー（総合） — このグループの構成要素
1次データ — このグループの構成要素
データのメタ化 — このグループの構成要素
ドメイン知識 — このグループの構成要素
データサイエンスの問い — このグループの構成要素
データストーリーテリング — このグループの構成要素

グループ教材は横断的な視点を提供します。個別用語だけでなくグループ全体を 1 周しておくと、各用語の関係性が立体的に見えてきます。

✅ 2次データ自己チェックリスト

レポート・論文・分析プロジェクトを終える前に、以下を一通り確認するとつまずきが減ります。

□ 2次データを使う必然性・必要条件を 1 行で説明できるか
□ データの出典・期間・サンプル数・単位を本文 or 脚注で明示したか
□ 前提条件（正規性、独立性、等分散性、線形性ほか）を確認・記録したか
□ 欠損と外れ値の処理方針を明文化したか
□ 結果に不確実性（標準誤差、信頼区間、効果量）を併記したか
□ 検定なら事前に α と必要 n を決めたか（事後の覗き見をしていないか）
□ 多重比較ならBonferroni / FDR 補正を行ったか
□ 「2次データ」と「リテラシー」カテゴリの他用語との関係を 1 文で書けるか
□ data-literacy グループ教材で全体像を確認したか
□ 限界（適用範囲外、因果なら別手法、外挿不可など）を明示したか
□ 図表のキャプションで「単位・期間・出典」を 3 点セットで書いたか
□ 再現性のため、使用したコード・データ・乱数シードを共有可能にしたか

❓ よくある質問（FAQ）

Q. 2次データを初めて学ぶときの最短ルートは？

A. まず本ページの「💡 30秒結論」「🎨 直感で掴む」を読み、続いて「🧮 SSDSE実値計算」のテーブルだけでも目を通す。そのうえで「🐍 Python実装」の ①基本パターン を写経すれば、 1 時間程度で実用最低限まで届きます。

Q. 2次データと一緒に必ず押さえておきたい用語は？

A. 「🔗 関連用語」セクションの前提3〜4 件は最優先。特にデータリテラシーと変数の型はどの用語にも効きます。

Q. 2次データを実務レポートに書くときに気をつけることは？

A. ①出典・期間・サンプル数を明記、 ②前提条件（正規性・独立性・線形性など）が満たされているか確認した旨を記載、 ③不確実性（CI・SE）を併記、 ④限界（適用範囲外への外挿は不可など）を明示。

Q. 2次データと AI・機械学習はどう関係する？

A. 2次データは古典統計の文脈でも機械学習の文脈でも基礎になります。とくにモデル評価・データ品質・解釈性の局面で必須。詳細は AIと社会、 AIの信頼性を参照。

Q. SSDSE 以外のデータでも同じ手順で大丈夫？

A. 概ね Yes。政府統計（e-Stat）、 World Bank Open Data、国際機関の公開データ、自社のログデータ — どれもエンコーディング・スキーマ・欠損処理の調整は必要ですが、本ページのコードを土台にできます。

📌 早見表 — 2次データ

日本語名	2次データ
英語名	Secondary Data
カテゴリ	リテラシー
グループ教材	data-literacy
一言で	他者が集めたデータを再利用して分析するもの。政府統計、公開データセット、論文付録など。
主データ	SSDSE-B-2026（47都道府県・125項目）／ e-Stat
主ライブラリ	pandas / numpy / scipy / matplotlib / seaborn / statsmodels
学習推奨時間	概念把握 30 分 + 実装演習 60 分 + 関連用語の確認 30 分 = 約 2 時間

🎨 直感で掴む

データを読み・解釈し・批判する力。数値の背後にある文脈とバイアスを意識してください。

本ページでは 2次データ を、定義・前提条件・使い方・落とし穴の順に整理して解説します。厳密な定義より、まず何を、いつ、どう使うかを理解することを優先してください。

📐 定義

他者が収集・公開した既存データ

英語名 Secondary Data。同義・関連語：二次データ。

🎯 いつ・どこで使うか

「リテラシー」分野の標準的な道具として、多くの分析で登場します。
📚 データリテラシーを学ぶときに必ず通過する基本概念です。
論文・実務レポートで頻出する用語なので、 1 度はちゃんと理解しておくと後が楽です。

📋 前提条件・適用範囲

この用語を理解・使用するときは、次のような前提を意識してください：

データの性質：尺度（名義/順序/間隔/比例）と分布を確認
サンプル数：手法によって最低限のサンプル数が異なります
独立性：観測が独立であるかを確認（時系列・パネル等では別の手法が必要）
欠損・外れ値：前処理の方針を明確に

⚠️ よくある落とし穴

❌ 数値の背後を考える

誰が・いつ・どう測ったかを必ず確認。

❌ 相関を因果と混同しない

データ駆動の議論でも因果には別の道具が必要。

❌ 単位とスケール

パーセントなのか件数なのか、ログスケールか線形かを明示。

🐍 Python での扱い

SSDSE-B-2026 のような公的統計データを Python で扱う際の基本パターン：

import pandas as pd
import numpy as np

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.shape)
print(df.dtypes)
print(df.describe())

# 「2次データ」の文脈で扱う場合の例：
# 分野: リテラシー
# 関連手法は同カテゴリの他用語を参照してください。

具体的なコードはデータリテラシーを参照してください。

📝 レポートでの報告

分析結果を報告するときに含めるべき情報：

使ったデータ：出典・期間・サンプル数
適用条件の確認：前提が満たされているか
計算結果：数値だけでなく不確実性（CI・SE）も
解釈：何を意味するか、何を意味しないか
限界：適用範囲外への拡張は避ける

✅ チェックリスト

□ 「2次データ」を使う場面か再確認したか
□ データの尺度・分布・サンプル数を確認したか
□ 前提条件を満たしているか
□ 計算した値だけでなく不確実性も把握したか
□ 解釈と限界を区別したか
□ 関連グループ教材で全体像を確認したか

📚 関連グループ教材

この用語の全体像を学ぶには、まず横断的な教材で文脈を掴むのが効率的です：

📚 データリテラシー — このカテゴリの全体像を学ぶ

🔗 同カテゴリの他用語

データリテラシービッグデータ IoT データ駆動型社会 Society 5.0 データ利活用 1次データオープンデータデータのメタ化ドメイン知識データ解析サイクルデータストーリーテリング調査データ実験データ

🔖 キーワード索引

💡 30秒で分かる結論 — 2次データ

📍 あなたが今見ているもの

🎨 直感で掴む — 2次データとは何者か

📐 数式・定義

🔬 数式・定義を「言葉」で読み解く

🧮 SSDSE-B 実値で計算してみる

🐍 Python 実装

① 基本パターン（読み込み・確認・主要列抽出）

② 可視化テンプレ（matplotlib / seaborn）

③ 前処理：欠損・外れ値・型変換

④ 検定・推定の最小例（scipy.stats）

⚠️ よくある落とし穴（7 件）

🧭 詳細解説 — 2次データを一段深く掘り下げる

歴史的背景

国際的な位置付け

日本の文脈での意味

よく混同される概念

学習・教材としての位置付け

参考文献・標準

📑 論文・実務での登場パターン

✅ 2次データ自己チェックリスト

❓ よくある質問（FAQ）

📌 早見表 — 2次データ

💡 30秒で分かる結論

🎨 直感で掴む

📐 定義

🎯 いつ・どこで使うか

📋 前提条件・適用範囲

⚠️ よくある落とし穴

🐍 Python での扱い

📝 レポートでの報告

✅ チェックリスト

🔖 キーワード索引

💡 30秒で分かる結論 — 2次データ

📍 あなたが今見ているもの

🎨 直感で掴む — 2次データとは何者か

📐 数式・定義

🔬 数式・定義を「言葉」で読み解く

🧮 SSDSE-B 実値で計算してみる

🐍 Python 実装

① 基本パターン（読み込み・確認・主要列抽出）

② 可視化テンプレ（matplotlib / seaborn）

③ 前処理：欠損・外れ値・型変換

④ 検定・推定の最小例（scipy.stats）

⚠️ よくある落とし穴（7 件）

🧭 詳細解説 — 2次データ を一段深く掘り下げる

歴史的背景

国際的な位置付け

日本の文脈での意味

よく混同される概念

学習・教材としての位置付け

参考文献・標準

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📘 前提（先に理解しておきたい）

📗 並列（同じ階層の関連用語）

📕 発展（一歩進んだ応用・拡張）

📑 論文・実務での登場パターン

📚 関連グループ教材（全体像）

✅ 2次データ 自己チェックリスト

❓ よくある質問（FAQ）

📌 早見表 — 2次データ

💡 30秒で分かる結論

🎨 直感で掴む

📐 定義

🎯 いつ・どこで使うか

📋 前提条件・適用範囲

⚠️ よくある落とし穴

🐍 Python での扱い

📝 レポートでの報告

✅ チェックリスト

📚 関連グループ教材

🔗 同カテゴリの他用語

🧭 詳細解説 — 2次データを一段深く掘り下げる

✅ 2次データ自己チェックリスト