データリテラシー

📍 あなたが今見ているもの

本ページでは、 データリテラシーを統合的に解説します。 PPDAC サイクル・CRISP-DM・問いの設計・EDA・変数の尺度・批判的読解を一気通貫で扱います。

「どの手法を使うか」よりその前段のリテラシーが、分析の質を決定します。数理・データサイエンス・AI モデルカリキュラム（MDASH）でも導入科目として位置づけられています。

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

論文記事から各用語のリンクをクリックすると、該当箇所が開きます：

データリテラシーとは PPDACサイクル CRISP-DM 良い問いの作り方 EDA 変数の尺度データ型 Tidy data データ品質欠損標本バイアス測定の歪み可視化リテラシー統計でうそをつくオープンデータ再現可能性

💡 30秒で分かる結論

データリテラシー＝データを読み・解釈し・批判できる総合力。
PPDAC：Problem → Plan → Data → Analysis → Conclusion の循環。
良い問いが良い分析の出発点。観点：具体性・計測可能性・関連性。
変数の尺度（名義・順序・間隔・比例）を間違えると分析が崩壊。
Tidy data：1行1観測・1列1変数。整然データ化が前処理の基本。
批判的読解：誰が・何のために・どう測ったかを常に問う。
再現可能性：データ・コード・乱数を明示。

📐 定義・数式 — Tidy data と尺度

Tidy data の定義は数学的に 「観測 $\times$ 変数」の長方形構造」。 SSDSE-B-2026 の整然形は：

$$ \text{Tidy}(D) : D \in \mathbb{R}^{n \times p}, \quad D_{ij} = (\text{Prefecture}_i, \text{Variable}_j, \text{Value}_{ij}) $$

変数の尺度水準は Stevens の階層：

$$ \text{Nominal} \subset \text{Ordinal} \subset \text{Interval} \subset \text{Ratio} $$

SSDSE-B-2026 の Prefecture は 名義尺度、「年齢階級」は 順序尺度、「気温」は 間隔尺度、「人口・出生数」は 比例尺度。上位の尺度ほど許容される統計操作（差・比・平均）が多くなります。

🔬 数式を言葉で読み解く — 記号 → 意味

尺度	許容操作	SSDSE-B-2026 例
名義	=, ≠	Prefecture（北海道, 東京, ...）
順序	+ >, <	満足度・教育水準
間隔	+ 加減・平均	気温（°C）
比例	+ 乗除・比	A1101（人口）・出生数

名義尺度に平均値を出すような尺度違反は、データリテラシー違反の典型例です。 Tidy 化のときに「この列の尺度は？」を明示する習慣をつけましょう。

📚 1. データリテラシーとは

データを読み・使い・伝え・批判的に評価する力。統計学・プログラミング・ドメイン知識の三角形の上に成り立つ。

読む：表・グラフ・統計量を正しく解釈する
使う：手元のデータから情報を抽出する
伝える：分析結果を相手に伝わる形で報告する
批判する：他人の主張の根拠データを評価する

🔄 2. PPDAC サイクル

統計教育の世界標準フレームワーク（Wild & Pfannkuch 1999）。

Problem（問題）：何が問題か、何を明らかにしたいか
Plan（計画）：どんなデータをどう集めるか、分析設計
Data（データ）：実際にデータを収集・整形
Analysis（分析）：可視化・統計・モデリング
Conclusion（結論）：結論・限界・次の問いへ

P → P → D → A → C → 再び P へと循環する。 1 サイクルで終わらない。

🏭 3. CRISP-DM（業界標準プロセス）

データマイニング・機械学習プロジェクトの業界横断的プロセスモデル。 IBM・Daimler 等が 1996 年に策定。

ビジネス理解 (Business Understanding)
データ理解 (Data Understanding)
データ準備 (Data Preparation)
モデリング (Modeling)
評価 (Evaluation)
展開 (Deployment)

各ステップ間に矢印が双方向にあり、反復的な改善が前提。

PPDAC との対応

PPDAC	CRISP-DM
Problem	Business Understanding
Plan + Data	Data Understanding + Preparation
Analysis	Modeling + Evaluation
Conclusion	Deployment

❓ 4. 良い「問い」の作り方

分析の質は問いの質で決まる。 SMART 基準を意識：

Specific：具体的
Measurable：計測可能
Achievable：達成可能（既存データで答えられる）
Relevant：関連性・意義あり
Time-bound：時間範囲を明示

悪い問い vs 良い問い

悪い問い	良い問い
「都道府県の特徴は？」	「2024年時点で人口密度が高い都道府県ほど一人当たり所得が高いか？」
「持ち家は良いか？」	「持ち家比率と高齢化率の関連は、地域ブロックで異なるか？」
「AI で何かできるか？」	「過去 5 年の指標から、翌年の人口減少率を ±0.5 ポイント以内で予測できるか？」

3 種の問い

記述的：何が起きているか？（中央値・分布・相関）
予測的：将来何が起きるか？（回帰・分類）
因果的：なぜ起きるか？（DID・IV）

🔍 5. 探索的データ分析 (EDA)

John Tukey が 1977 年に提唱。「データに何を語らせるか」を可視化と要約統計で探る。

EDA の標準フロー

データの形状を確認（行数・列数・型）
欠損・重複・異常値をチェック
各変数の分布を見る（ヒストグラム・箱ひげ）
変数間の関係（相関・散布図）
群間比較（カテゴリ別に集約）
異常パターンに気づく

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.info())
print(df.describe(include='all'))
print(df.isnull().sum())
print(df.duplicated().sum())
df.hist(figsize=(15, 12)); plt.tight_layout(); plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

ydata-profiling（pandas-profiling）

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

1 2	from ydata_profiling import ProfileReport ProfileReport(df, title='SSDSE-B EDA').to_file('eda_report.html')

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

📏 6. 変数の尺度水準（Stevens 1946）

尺度	例	許される演算	代表値
名義 (nominal)	血液型・地域名	=, ≠	最頻値
順序 (ordinal)	満足度 5 段階	+, <, >	中央値
間隔 (interval)	温度（℃）・西暦	+, -, 平均	平均
比例 (ratio)	人口・所得・距離	×, ÷ も可	幾何平均も可

6.1 データ型との対応

カテゴリ：pandas category dtype
整数：int64
浮動小数：float64
日時：datetime64
文字列：object

🧹 7. Tidy data（整然データ）

Hadley Wickham 2014 の定義：

1 行が 1 観測
1 列が 1 変数
1 セルが 1 値
1 テーブルが 1 種類の観測単位

縦持ち vs 横持ち

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd
# 横持ち → 縦持ち
long = pd.melt(df, id_vars=['都道府県'], value_vars=['指標1','指標2'],
               var_name='指標', value_name='値')
# 縦持ち → 横持ち
wide = long.pivot(index='都道府県', columns='指標', values='値')

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

✨ 8. データ品質の確認

完全性：欠損の有無・割合
一貫性：同じ意味の値が同じ表現か（"東京"／"東京都"）
正確性：実際の値と一致するか
適時性：データが古すぎないか
関連性：問いに答えられるデータか
追跡可能性：出典が明示されているか

8.1 欠損のパターン

MCAR（Missing Completely At Random）：完全ランダム欠損
MAR（Missing At Random）：観測変数で説明できる欠損
MNAR（Missing Not At Random）：欠損値自体に依存する欠損

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

1
2
3

import missingno as msno
msno.matrix(df)  # 欠損パターンの可視化
msno.heatmap(df)  # 欠損間の相関

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

⚠️ 9. データに潜むバイアス

選択バイアス：標本が母集団を代表していない
生存バイアス：失敗・退場したものが観測されない
回答バイアス：回答者が真実を答えない（社会的望ましさ）
確証バイアス：自分の仮説に合うデータだけ拾う
パブリケーションバイアス：有意な結果のみ公表される
シンプソンのパラドックス：集約と層別で関係が逆転
エコロジカル誤謬：集団レベルの関係を個人レベルに適用

9.1 測定の歪み

測定機器の精度・校正
定義の変更（途中で集計方法が変わる）
境界の恣意性（カテゴリの切り方）
丸め誤差・打ち切り

🎨 10. 可視化リテラシー

「グラフは嘘をつく」基本パターン：

軸の切り方：原点を切ると差が誇張される
軸の対数化：指数的成長を線形に見せる
カラーマップ：赤緑の組合せ（色覚多様性）
3D グラフ：奥行きで誇張・歪曲
選択的範囲：都合の良い期間だけ表示
面積の誤読：半径を 2 倍にすると面積は 4 倍
順番の操作：アルファベット順か値順かで印象が変わる

良い可視化の原則（Tufte）

データ-インク比を最大化（飾り要素を最小化）
嘘の比（lie factor）を 1 に近づける
小倍数（small multiples）で比較
軸ラベル・凡例・出典を必ず明示

🎭 11. 「統計でうそをつく方法」

Darrell Huff の古典（1954）。現代でも有効な批判的読解の視点：

標本が偏っている：「東京で 100 人」を「日本人 1 億人の代表」と扱う
平均と中央値の使い分け：所得の「平均」は外れ値で歪む
パーセンテージの基底：「100% 増加」は元が小さければ意味薄い
相関と因果の混同
絶対値と相対値の使い分け
有効数字：3.7% を 3.71283% と書くのは虚偽の精度

🌐 12. オープンデータと公的統計

日本の代表的データソース：

e-Stat（政府統計の総合窓口）
SSDSE（教育用標準データセット）
気象庁データ、 RESAS、統計ダッシュボード
国際：World Bank Open Data、 OECD、 UN Stats

12.1 再現可能性

データの出典と日付を明記
前処理コードを公開
乱数 seed を固定
環境（Python・ライブラリのバージョン）を保存
Jupyter Notebook + Git で履歴管理

⚠️ 13. リテラシーの落とし穴

落とし穴	対処
手法から考え始める	必ず問いから。手法はそのあと。
標本の偏りを無視	「誰が、どう選ばれたか」を必ず確認。
尺度を間違える	名義尺度に平均は計算できない。
欠損を機械的に削除	欠損パターンを調査。 MNAR ならバイアス。
単位を確認しない	単位の取り違いで桁ずれ事故。
単一指標で判断	代表値・ばらつき・形状を複数併用。
出典なし	出典と取得日を必ず明記。

🏋️ 14. 練習問題

Q1. SSDSE-B-2026 を読み込み、 PPDAC の Plan ステップに沿って「分析したい問い」を 3 つ書きなさい。

具体例：(1) 高齢化率が高い県ほど一人当たり所得は低いか？ (2) 持ち家比率の決定要因は何か？ (3) 都市規模別の人口動態の特徴は？

Q2. SSDSE-B-2026 の各列について、尺度水準（名義/順序/間隔/比例）を分類しなさい。

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.dtypes)
# 都道府県：名義、 一人当たり県民所得：比例、 etc.

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

Q3. SSDSE-B-2026 でデータ品質チェックを実施しなさい（欠損・重複・分布の概観）。

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

print('行数 x 列数:', df.shape)
print('欠損:'); print(df.isnull().sum())
print('重複:', df.duplicated().sum())
print(df.describe())

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

Q4. ニュース記事の統計グラフを 1 つ選び、軸・標本・出典について批判的に読解しなさい。

確認ポイント：軸の起点、サンプリング方法、期間、出典の信頼性、著者の意図、暗黙の仮定など。

📝 15. レポートの構成例

背景と問い：なぜこの分析が必要か
データの説明：出典・期間・サンプリング・尺度・欠損
EDA：分布・関連の概観
方法：分析手法、前処理、仮定
結果：図表 + 要約統計 + 信頼区間
解釈：何を意味するか
限界：データ・手法の限界
結論と次の問い

🐍 16. ライブラリ早見表

用途	パッケージ
データ操作	`pandas, polars, pyarrow`
EDA自動化	`ydata-profiling, sweetviz, autoviz`
欠損可視化	`missingno`
欠損補完	`sklearn.impute.SimpleImputer/KNNImputer/IterativeImputer`
可視化	`matplotlib, seaborn, plotly, altair`
ノートブック	`jupyter, marimo, quarto`
再現性	`poetry, pip-tools, conda-lock, dvc`
レポート	`quarto, papermill, nbconvert`

📜 17. データリテラシーの歴史

1854：John Snow のコレラ地図 — データ可視化の古典
1858：Florence Nightingale の Rose Diagram — 衛生改革を主導
1946：Stevens の尺度水準論
1954：Huff "How to Lie with Statistics"
1977：Tukey の EDA
1983：Tufte "The Visual Display of Quantitative Information"
1996：CRISP-DM
1999：Wild & Pfannkuch の統計的思考（PPDAC）
2014：Wickham の Tidy data 論文
2017：日本の「文理融合」AI戦略、 MDASH 標準化
2020：OECD AI Principles・データ倫理が国際課題に

💼 18. 実務応用

意思決定：エビデンスに基づく経営・政策
マーケティング：データドリブンな施策設計
ジャーナリズム：データジャーナリズム（NYT、朝日デジタル等）
教育：MDASH コア科目で必修化（応用基礎レベル）
市民活動：オープンデータでの社会課題分析
研究：再現可能な研究の前提

📖 19. ケーススタディ

19.1 John Snow のコレラ地図（1854）

ロンドンのコレラ流行で、 Snow はコレラ患者の自宅を地図にプロット。 Broad Street の給水ポンプ周辺に集中していることを発見し、ポンプを使用停止 → 流行が収束。 データ可視化が公衆衛生を変えた歴史的事例。「相関＝因果」と判断する前に、地図というシンプルな可視化が決定的だった。

19.2 Florence Nightingale のローズダイアグラム（1858）

クリミア戦争の英軍兵士死亡原因を「戦闘」「予防可能な感染症」「その他」に色分けした円グラフで政府に提示。戦闘より感染症で多く死んでいることを直感的に伝え、衛生改革を実現。

19.3 シャレンジャー号事故（1986）

O-リング故障による爆発事故。事前データに O-リング温度依存性が示されていたが、「失敗例だけ」を見てパターンを認識できなかった（生存バイアスの逆）。視覚化の重要性が再確認された事例。

19.4 シンプソンのパラドックス：UC バークレー入試（1973）

全体では「男性合格率＞女性合格率」だったが、学部別に見るとほぼすべての学部で「女性合格率＞男性合格率」。女性が「合格率が低い学部に多く出願」していたため、全体集計で誤って見えた。 集約と層別で結果が逆転する典型例。

⚖️ 20. データ倫理の基本

個人情報保護：匿名化・仮名化・k-匿名性
差別・公平性：センシティブ属性に依存しない判定
透明性：データの取得・利用目的を明示
同意：オプトイン／オプトアウト
結果の影響評価：誰が得をし誰が損をするか

📚 21. 推奨入門書ガイド

Huff, "How to Lie with Statistics"（統計でウソをつく方法）
Tufte, "The Visual Display of Quantitative Information"（定量情報の視覚的表現）
Wickham, "R for Data Science"（無料公開）
Wild & Pfannkuch (1999) "Statistical thinking in empirical enquiry"
政府統計局「統計学習の指導のために」（小中高向け）
MDASH モデルカリキュラム（リテラシー・応用基礎・エキスパート）

✅ 22. データリテラシー基本チェックリスト

□ 問いを明確に書いたか？
□ データの出典・取得日・期間を確認したか？
□ 標本がどう選ばれたか説明できるか？
□ 各変数の尺度水準を判定したか？
□ 欠損・重複・外れ値を確認したか？
□ 単位を確認したか？
□ 1 変量の分布を可視化したか？
□ 多変量の関連を可視化したか？
□ 結果に交絡の可能性を議論したか？
□ コード・データ・乱数 seed を保存したか？
□ 限界と次の問いを書いたか？

📋 23. SSDSE-B 分析の実践テンプレート

新しい分析プロジェクトを始めるときのそのまま使えるコードテンプレート。

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

"""
分析タイトル：[ここに記入]
作成者：[氏名] / 作成日：[YYYY-MM-DD]
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# ===== Step 1: データ読み込み =====
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(f'行数: {len(df)}, 列数: {df.shape[1]}')

# ===== Step 2: 構造の確認 =====
print(df.dtypes)
print(df.head())

# ===== Step 3: データ品質 =====
print('欠損:'); print(df.isnull().sum())
print('重複:', df.duplicated().sum())

# ===== Step 4: 記述統計 =====
print(df.describe())

# ===== Step 5: 単変量分布 =====
num = df.select_dtypes(include='number')
num.hist(figsize=(15, 12))
plt.tight_layout(); plt.show()

# ===== Step 6: 二変量関係 =====
corr = num.corr()
sns.heatmap(corr, annot=True, cmap='RdBu', center=0)
plt.show()

# ===== Step 7: 注目関係の散布図 =====
sns.scatterplot(data=df, x='一人当たり県民所得', y='持ち家比率')
plt.show()

# ===== Step 8: 結論メモ =====
"""
[手書きで結論を残す]
- 見つけたパターン:
- 限界:
- 次の問い:
"""

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

❓ 24. よくある質問

Q. 「ビッグデータならバイアスは消える」というのは本当？

A. 嘘です。むしろ大量データほど系統的バイアスが目立ちにくくなり、危険。標本の集め方が重要。

Q. データを見ずに仮説を立てるべき？

A. 探索的分析（EDA）でデータの構造を見ることと、確証的分析（CDA）で事前仮説を検証することは別物。両方が必要。同じデータで仮説生成と検証をすると過剰適合になる。

Q. 統計と機械学習の違いは？

A. 統計は推測・解釈、機械学習は予測に重きを置く傾向。現代は融合が進行中。

Q. 「データドリブン」の落とし穴は？

A. 計測しやすい指標だけで意思決定すると、計測しにくい本質的価値を見落とす（Goodhart の法則）。

🎓 25. MDASH モデルカリキュラム対応

本ページは MDASH（数理・データサイエンス・AI モデルカリキュラム）のうち、主にリテラシーレベルと応用基礎レベルの以下項目に対応：

リテラシーレベル

1-1 社会で起きている変化（DX・第4次産業革命）
1-2 社会で活用されているデータ
1-3 データ・AI の活用領域
1-4 データ・AI の活用のための技術
1-5 データ・AI の利活用のための知識
1-6 データ・AI 利活用の最新動向
2-1 データを読む
2-2 データを説明する
2-3 データを扱う
3-1 データ・AI を扱う上での留意事項
3-2 データを守る上での留意事項

応用基礎レベル

DS基礎：データの観察・分析、推論、統計と機械学習
AI基礎：AI 利活用、機械学習基礎、認識・予測・最適化
DE基礎：データの加工・収集、構造化データ

SSDSE-B との対応

本実習で SSDSE-B-2026 を用いるのは、 MDASH のリテラシー・応用基礎で要求される「公的統計を読み解く力」を、 47 都道府県という馴染みのある対象で実体験できるため。

📋 26. データ分析者向けチートシート

26.1 着手 5分の確認

このデータは「誰が」「いつ」「何を目的に」集めたか？
1 行が何を表すか？
母集団は何で、標本はどう選ばれたか？
どの変数を「観測」、どれを「処置」、どれを「結果」と見るか？
欠損があるなら、なぜ欠損したか？

26.2 分析中の確認

図や表に出てくる数値はすべて単位付きか？
係数の符号は事前期待と整合しているか？
p値だけでなく効果量・CI を確認したか？
外れ値の影響は確認したか？
結果が「偶然」「交絡」「因果」のどれか考えたか？

26.3 報告前の確認

図表に軸ラベル・凡例・出典・期間が揃っているか？
結論は「データの範囲」内に留まっているか？
限界をはっきり書いたか？
再現可能なコード・データが残っているか？
読み手のレベルに合った言葉か？

🔖 キーワード索引（補強）

データリテラシーの中核概念を一覧で。

記述統計推測統計外れ値欠損値分布中心傾向散らばり標準偏差四分位範囲歪度尖度サンプルサイズ母集団バイアス交絡グラフのウソ層別解析 p-hacking HARKing EDA

🧮 SSDSE-B-2026 で実値計算 — データリテラシー演習

「データを正しく見る」基本動作を SSDSE-B-2026 の都道府県データで実行します。

例1：要約統計量を一括で得る

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
print(df.describe().T)  # 全数値列の count / mean / std / min / 25% / 50% / 75% / max
print('---')
print(df.dtypes.value_counts())  # 各データ型の列数
print('欠損数:', df.isna().sum().sum())

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

例2：分布と外れ値の確認（IQR ルール）

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
col = df.select_dtypes('number').columns[0]
q1, q3 = df[col].quantile([0.25, 0.75])
iqr = q3 - q1
lo, hi = q1 - 1.5*iqr, q3 + 1.5*iqr
outliers = df[(df[col] < lo) | (df[col] > hi)]
print(f'{col} の外れ値 (n={len(outliers)}):')
print(outliers[['都道府県', col]].to_string(index=False))

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

例3：層別集計（地域ブロック別）

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)

block_map = {
    '北海道': '北海道', '青森県': '東北', '岩手県': '東北', '宮城県': '東北',
    '秋田県': '東北', '山形県': '東北', '福島県': '東北',
    '茨城県': '関東', '栃木県': '関東', '群馬県': '関東', '埼玉県': '関東',
    '千葉県': '関東', '東京都': '関東', '神奈川県': '関東',
}
df['ブロック'] = df['都道府県'].map(block_map).fillna('その他')
num_col = df.select_dtypes('number').columns[0]
print(df.groupby('ブロック')[num_col].agg(['mean', 'std', 'count']))

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

⚠️ データリテラシーの落とし穴（補強・各 100 文字以上）

① 「平均」だけで分布を語る

所得や住宅価格のように右に長い裾を持つ分布では、平均値は少数の高所得者に大きく引っ張られて中央値より遥かに大きくなる。「日本の平均世帯所得 550万円」と聞いても多くの家庭は 400万円台で、これだけで政策議論をすると現場と乖離する。必ず中央値・四分位・ヒストグラムを併せて見る習慣を持つこと。

② 標準偏差が大きい＝悪いと早合点する

標準偏差は単に「ばらつきの大きさ」を表すだけで、良い・悪いは文脈次第。株式の収益率なら大きいとリスク高、製品検査なら小さいほうが歩留まりが良い、一方マーケティングのターゲット層分散は広いほうがビジネスチャンスがある。値だけで判定せず、単位・スケール・目的を合わせて評価する。

③ サンプルサイズが大きい＝信頼できると思う

n=100万人でも、サンプリングに偏りがあれば結論は歪む。 1936年のリテラリー・ダイジェスト調査は n=240万人だったが、電話帳と自動車登録者からの回答で富裕層に偏り、ルーズベルト落選を予測し外した。一方ギャラップは n=1500 のランダム標本で当選を当てた。「数」より「代表性」が決定的。

④ グラフの軸を切って差を強調する

棒グラフの y 軸を 0 から始めず 80 から始めると、 80→85 のわずか 5 ポイント差が「圧倒的優位」に見える。報道・広告でしばしば使われる「視覚的誇張」の典型。グラフを作るときは必ず y 軸の起点を確認し、受け手の印象が誤誘導されないか自問する。ニュース引用時も注意して読む。

⑤ シンプソンのパラドックスを見落とす

全体集計では「処置 A が優位」でも、部分集団に分けると「全集団で処置 B が優位」になる現象。病院ランキングや大学入学選考の有名な事例がある。集団の構成比が偏った場合に発生しやすく、必ず層別集計を併用する。集計だけで判断せず、サブグループの傾向と全体集計の両方を眺める。

⑥ 欠損値を無断で平均で埋める

欠損値を平均で補完すると分散が過小評価され、続く回帰や検定の標準誤差が嘘の値になる。さらに欠損のメカニズム（MCAR/MAR/MNAR）によっては、平均補完自体がバイアスを生み因果関係を歪める。多重代入法（MICE）や欠損のフラグ列追加など、メカニズムに応じた方法を選ぶ。

⑦ p-hacking と HARKing で「ストーリー後付け」する

有意になるまで変数組合せ・サブセット・カットオフを変えて検定を繰り返すのが p-hacking、結果を見てから仮説を作るのが HARKing。どちらも偽発見率を爆上げする。事前登録（pre-registration）、多重比較補正、検証用ホールドアウトを徹底する。「最初に決めた仮説」を必ず記録しよう。

🐍 Python 実装バリエーション（scipy / scikit-learn / pingouin）

1. scipy.stats — 記述統計と検定をワンライナーで

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
x = df.select_dtypes('number').iloc[:, 0].dropna()
print('歪度:', stats.skew(x))
print('尖度:', stats.kurtosis(x))
print('Shapiro-Wilk 正規性検定:', stats.shapiro(x))

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

2. scikit-learn — 標準化・欠損値処理

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

from sklearn.preprocessing import StandardScaler, RobustScaler
from sklearn.impute import SimpleImputer, KNNImputer
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num_cols = df.select_dtypes('number').columns

# 1) 平均0・分散1 に標準化
scaler = StandardScaler()
X_std = scaler.fit_transform(df[num_cols])

# 2) 外れ値に頑健な標準化（中央値・IQR 基準）
robust = RobustScaler()
X_robust = robust.fit_transform(df[num_cols])

# 3) 欠損値の補完（KNN）
imp = KNNImputer(n_neighbors=5)
X_imp = imp.fit_transform(df[num_cols])
print('補完後の欠損数:', pd.DataFrame(X_imp).isna().sum().sum())

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

3. pandas — describe / quantile / value_counts

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
# 一括要約
summary = df.describe(percentiles=[.1, .25, .5, .75, .9]).T
print(summary)

# 列ごとの欠損率
print(df.isna().mean().sort_values(ascending=False).head())

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

4. pingouin — 統計量と効果量・正規性検定

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import pingouin as pg
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
x = df.select_dtypes('number').iloc[:, 0].dropna()
# 多変量正規性 (Henze-Zirkler)
print(pg.normality(x))

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

5. matplotlib/seaborn — EDA 可視化セット

🎯 解説: SSDSE-B-2026（47都道府県データ）でデータリテラシーの基本確認動作を行う。 まずはデータを読み込み、 構造・型・欠損・代表値を「見る」ことが分析の出発点。 ファイルパスは自分の環境に合わせて変更すること。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num_cols = df.select_dtypes('number').columns[:5]

fig, axes = plt.subplots(2, 3, figsize=(15, 8))
for ax, col in zip(axes.flat, num_cols):
    sns.histplot(df[col].dropna(), kde=True, ax=ax)
    ax.set_title(col, fontsize=10)
plt.tight_layout()
plt.savefig('eda_distributions.png', dpi=100)

📥 入力例: data/raw/SSDSE-B-2026.csv
  地域コード  都道府県  A1101(総人口)  A1301(65歳以上)  ...
  R01000    北海道    5183687        1684000
  R13000    東京都    14047594       3193000
  R47000    沖縄県    1467480        323000

📤 実行例:
  shape=(47, 108), 欠損=0, dtypes=int64/float64/object
  describe() で 5 数要約、 head() で先頭、 info() で型情報
 → 47 都道府県の全変数の概要が即座に把握できる

💬 読み方: 「データを開く前に分析しない」「型と欠損を見ずに集計しない」がリテラシーの基本ルール。 SSDSE-B のような公的統計は欠損が少ないが、 民間データでは isnull().sum() で必ず欠損率を確認する。 数値列は int/float、 文字列は object として読み込まれるか確認する。

📚 Round 18 — データリテラシー完全攻略補足

読み解く力数字に騙されない統計リテラシーSSDSE-Bデータ可視化教育EBPM市民科学情報源評価クリティカル・シンキング

🔬 数式を言葉で読み解く（拡張 narration）

🔬 記号 → 意味（narration）:

A1101 → 総人口（千人）。分析の分母になる基本量です。
A1301 → 65 歳以上人口。高齢化率を産む分子。
A1201 → 15 〜 64 歳人口（生産年齢人口）。経済活動の主体。
μ → 全国平均。 比較基準として用います。
α → 有意水準。 第一種の誤り許容率（データリテラシーに関する判断で重要）。
p → p 値。 H₀ の下でデータがどれだけ稀かを示す。

📐 補足の数式と読み解き

基本量の関係を、記号 → 意味で整理します。任意の比率は

$$\text{比率} = \frac{\text{分子}}{\text{分母}} \times 100\quad\text{単位: }\%$$

記号 → 意味:

分子 → SSDSE では A1301（65歳以上人口）
分母 → SSDSE では A1101（総人口）
×100 → 単位を「割合（小数）」から「%」に変える

平均と分散は

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i,\quad s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

t 統計量・効果量は

$$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}},\quad d = \frac{\bar{x}_1 - \bar{x}_2}{s_{\text{pooled}}}$$

🧮 実値で計算してみる — SSDSE-B-2026 47 都道府県

SSDSE-B-2026 の都道府県データからデータリテラシーの文脈で代表値を読み取ります。各列の記号 → 意味を確認し、平均・中央値・四分位を併記する習慣を身につけましょう。

都道府県	総人口(千)	65歳以上人口(千)	高齢化率(%)	記号 → 意味
秋田県	945	370	39.1	A1101 → 総人口 / A1301 → 高齢者 / 比率 → 高齢化率
東京都	14,047	3,193	22.7	巨大分母 → 平均を引き上げる外れ値の典型
沖縄県	1,467	323	22.0	若い人口構造 → 全国最低の高齢化率
大阪府	8,838	2,420	27.4	大都市圏の中位 → 比較基準として有用
島根県	658	231	35.1	人口減少地域 → 分母縮小型の高齢化

🐍 Python 実装 — Round 18 拡張

分母チェッカー — 比率の意味を SSDSE-B-2026 で確認

🎯 SSDSE-B-2026（都道府県データ）をデータリテラシーの文脈で読み解く実値計算例。各セルの記号 → 意味（A1101 → 総人口, A1301 → 65 歳以上人口）を確認しながら手元の Jupyter で実行できます。

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
# 平均年収 = 給与総額 / 雇用者数 という比率の分母を点検
print(df[['Prefecture','A1101','A1301']].describe())
print('分母（総人口）が小さい県でも%は割れる例:')
print(df.nsmallest(5,'A1101')[['Prefecture','A1101']])

📥 入力: data/raw/SSDSE-B-2026.csv（47 都道府県 × 主要統計列）。出力例は数値・p 値・統計量で、解釈には「実値で計算してみる → 仮説検定 → 効果量 → 結論」の流れを推奨します。

外れ値の影響 — 平均と中央値の乖離

median = df['A1101'].median()
mean = df['A1101'].mean()
print(f'median={median:,.0f} / mean={mean:,.0f} / 乖離={mean-median:,.0f}')
# 東京・神奈川など巨大都市が平均を引き上げる例

単位・桁の落とし穴を可視化

import matplotlib.pyplot as plt
df['per_capita'] = df['A1101'] / 1000  # 単位を千人に揃える
df.sort_values('per_capita').plot(kind='barh', x='Prefecture', y='per_capita', figsize=(7,9))
plt.tight_layout(); plt.savefig('per_capita.png', dpi=150)

出典追跡 — 二次情報を一次情報に置き換える

# 報道で「高齢化率 30% 超」という主張があったとき、SSDSE 値で検証
df['aging'] = df['A1301']/df['A1101']*100
print('SSDSE-B-2026 ベースで 30% 超の県数:', (df['aging']>30).sum())

❓ よくある質問 (FAQ)

データリテラシーは数学が苦手でも身につきますか？

はい。統計の高度な数式より、数字を読むときの慎重さ・分母確認・出典確認の習慣が中心です。中学レベルの算数で十分始められます。

「平均」を見たら何を疑えばよい？

外れ値の有無、分散・四分位範囲、母集団の定義（全国 vs 都市部）、中央値との乖離、単位（年収か月収か）です。

グラフの嘘を見抜く 3 つのコツは？

(1) 縦軸ゼロ起点か（切られていないか）、 (2) 集計期間と単位、 (3) 元データへのリンクがあるか。

AI 時代のデータリテラシーは？

生成 AI が出した数値を鵜呑みにせず、一次情報（e-Stat, RESAS, SSDSE）にあたる習慣が決定的です。

リテラシー教育の指標は？

OECD PIAAC, PISA データリテラシー、日本の数学教育の単元到達度などが目安です。

⚠️ 拡張版落とし穴チェックリスト

分母を確認しない罠: 比率や率の意味は分母で決まります。 SSDSE で「per 1000」と「per 100」を取り違えると桁違いになります。
外れ値の影響: 東京都が平均値を引き上げる効果は実際に大きく、中央値との乖離を必ず併記しましょう。
因果と相関の混同: 高齢化率と平均所得が相関しても、因果は別問題。第三変数（産業構造・気候）の介在を疑います。
選択バイアス: 「都市部のサンプルだけ」では地方の構造が見えません。 47 都道府県すべてを観察しましょう。
多重比較: 47 都道府県を一斉比較すると α=0.05 でも約 2.35 件は偶然有意。 Bonferroni 等の補正が必須です。
時点ずれ: SSDSE-B-2026 と国勢調査 2020 では基準時点が異なります。同期した比較が必要。
データリテラシー特有の文脈ずれ: 教育用に正規化したサンプルと現場データの落差。単位・桁・カテゴリを揃える前処理が肝心。

🔗 関連用語（前提・並列・発展）— Round 18 補強

データリテラシーを中心に、前提概念・並列分野・発展手法へリンクします。

🔗 統計リテラシー 🔗 データ倫理 🔗 データバイアス 🔗 隠れたバイアス 🔗 選択バイアス 🔗 SSDSE 🔗 ヒストグラム 🔗 相関 🔗 平均 🔗 中央値 🔗 p値 🔗 仮説検定 🔗 AI 倫理 🔗 透明性 🔗 公平性 🔗 プライバシー 🔗 AI と社会

📚 関連グループ教材

グループ教材からデータリテラシーの文脈に直結する論文・ハンズオンを辿れます。

論文一覧トップ — 159 編の論文教材から関連分野を辿る
用語集トップ — 537 語の用語ネットワーク
概念マップ — 上位概念・並列概念の可視化

🕰 歴史的背景と現代

データリテラシーは古典統計と社会データの交差点で発達してきました。 19 世紀末から 20 世紀初頭にかけて Pearson, Fisher, Neyman などが基礎を整え、戦後の公的統計整備により実務応用が広がりました。

2010 年代以降は、「再現性危機」「ビッグデータ」「AI 倫理」の三つの波がデータリテラシーに新しい意味を与えました。単に p<0.05 を出すのではなく、効果量・信頼区間・事前登録・データシートが必須となっています。

日本では総務省統計局・国立社会保障人口問題研究所・経済産業省 RESAS などが公的統計を整備し、教育用に SSDSE が無償公開されました。本ページもこの枠組みでデータリテラシーを扱います。

📚 参考リンク

総務省統計局 e-Stat https://www.e-stat.go.jp/
SSDSE 公開ページ https://www.nstac.go.jp/use/literacy/ssdse/
scipy.stats 公式ドキュメント https://docs.scipy.org/doc/scipy/reference/stats.html
statsmodels 公式 https://www.statsmodels.org/
JIS Q 38507 / ISO/IEC 22989（AI 用語）
OECD Principles on AI（2019）

🌐 関連手法・派生（広域マップ）

同じカテゴリの手法、上位概念、派生分野へのリンクを補強します。