小学生の運動能力についての要因分析

研究概要と背景
データ：47都道府県の小学5年生
相関分析による候補変数の絞り込み
VIF（多重共線性）の確認
重回帰分析（男女別）
まとめ
📥 データの準備
💼 実社会での応用
⚠️ よくある誤解
📖 用語集
📐 手法ガイド
🚀 発展の可能性
🎯 自分でやってみよう
🤔 Q&A

🎯 この記事を読むと何ができるようになるか

研究の核心：「小学生の運動能力についての要因分析」の問題意識と分析アプローチ
分析手法：重回帰分析で「複数の要因がどの程度結果に影響するか」を同時に推定する方法
分析手法：相関係数（Pearson・Spearman）で2変数の関係の強さと向きを定量化する方法
分析手法：主成分分析（PCA）で多次元データを2〜3軸に圧縮し可視化する方法
結果の読み方：係数・p値・図表から「何が言えて何が言えないか」を判断する力
応用：同じデータと手法を使って、別の問いを立てて分析する発想

📥 データの準備（再現コードを動かす前に）

このページの分析を自分で再現するには、以下の手順でデータを準備してください。コードの編集は不要です。

データをダウンロードする 統計センターの SSDSE 配布ページから、以下のファイルをダウンロードします。

SSDSE-D-2023.csv　← SSDSE-D（都道府県の指標）📥 直接DL

SSDSE-B-2026.csv　← SSDSE-B（都道府県データ）📥 直接DL

SSDSE-E-2026.csv　← SSDSE-E（都道府県の指標2）📥 直接DL

⬇ SSDSEダウンロードページを開く

ファイルを所定のフォルダに配置する ダウンロードしたCSVを、プロジェクトの data/raw/ フォルダに入れます。

2026 統計・データ解析コンペ/ ├── code/ │ └── 2024_U5_5_shorei.py ← 実行するスクリプト └── data/ └── raw/ SSDSE-D-2023.csv ← ここに置く SSDSE-B-2026.csv ← ここに置く SSDSE-E-2026.csv ← ここに置く

スクリプトをそのまま実行する ターミナルでプロジェクトルートに移動し、以下を実行します。

python3 code/2024_U5_5_shorei.py

図は html/figures/ に自動保存されます。

概

研究概要と背景

小学生の体力低下は長年の課題であり、都道府県間の体力格差も大きい。本研究は文部科学省の全国体力・運動能力調査（小学5年生）を用いて、生活習慣変数から体力得点を予測する重回帰モデルを構築した。特に男女別の分析により、体力規定要因の性差を明らかにした。

まず「小学生の運動能力についての要因分析」を統計的にとらえることが有効だと考えられる。その理由は感覚や経験則だけでは、複雑な社会要因の中で「何が本当に効いているか」を見極めにくいからである。本研究では公開データと統計手法を組み合わせ、この問いに定量的な答えを出すことを目指す。

研究の目的

運動習慣・生活習慣のどの変数が体力得点と最も強く関連するか
男子と女子で体力の規定要因が異なるか（性差の検討）
都道府県レベルのデータで見た時の「地域差」の要因

分析の流れ

全国体力調査
小5（47都道府県）
+ SSDSE-B

→

相関分析
候補変数
の絞り込み

→

VIF確認
多重共線性
の診断

→

重回帰分析
（男女別）
OLS

Pearson相関分析 VIF診断重回帰（OLS）男女別サブグループ分析

データ：47都道府県の小学5年生

目的変数

文部科学省「全国体力・運動能力、運動習慣等調査」の小学5年生（男・女別）の体力テスト総合得点を使用。

説明変数候補

変数	単位	仮説
運動時間（体育 + 校外）	分/日	正：運動習慣が体力を向上
睡眠時間	時間/日	正：休息が筋肉・神経の発達に寄与
朝食欠食率	%	負：栄養不足は体力低下につながる
スクリーンタイム	時間/日	負：座位時間増加で運動機会が減少
スポーツ少年団所属率	%	正：組織的な運動実践が体力を高める
肥満傾向児割合	%	負：肥満は体力テスト成績に不利

やってみよう■ Step1. 実データ読み込み

📝 コード

import os
import numpy as np
import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

from scipy import stats as scipy_stats
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名（alias）。
matplotlib.use('Agg') — グラフを画面表示せずファイルに保存するためのおまじない。

💡 Python TIPS f"...{x}..." はf-string。文字列の中に {変数} と書くだけで埋め込めて、{x:.2f} のように書式も指定できます。

やってみよう■ Step1. 実データ読み込み — ── パス設定 ─────────────────────────────────────────────────────────────────

📝 コード

# ── パス設定 ─────────────────────────────────────────────────────────────────
FIG_DIR = 'html/figures'
DATA_DIR = 'data/raw'
os.makedirs(FIG_DIR, exist_ok=True)

plt.rcParams.update({
    'font.family':        'Hiragino Sans',
    'axes.unicode_minus': False,
    'figure.dpi':         150,
    'axes.spines.top':    False,
    'axes.spines.right':  False,
})

print("=" * 60)
print("■ 実データ読み込み（SSDSE-D-2023 / SSDSE-B-2026 / SSDSE-E-2026）")
print("=" * 60)

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

os.makedirs('html/figures', exist_ok=True) — 図の保存先フォルダを作る（既にあってもOK）。

💡 Python TIPS df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと（element-wise）。forループ不要なのが強み。

やってみよう■ Step1. 実データ読み込み — SSDSE-D（社会生活基本調査）

📝 コード

# SSDSE-D（社会生活基本調査）
df_d = pd.read_csv(os.path.join(DATA_DIR, 'SSDSE-D-2023.csv'),
                    encoding='cp932', header=1)
df_d = df_d[
    (df_d['男女の別'].isin(['0_総数', '1_男', '2_女'])) &
    (df_d['地域コード'] != 'R00000')
].copy()

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。

💡 Python TIPS Seriesの .map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。

やってみよう■ Step1. 実データ読み込み — 男女別に分割

📝 コード

# 男女別に分割
df_d_m = df_d[df_d['男女の別'] == '1_男'].set_index('都道府県').copy()
df_d_f = df_d[df_d['男女の別'] == '2_女'].set_index('都道府県').copy()
df_d_t = df_d[df_d['男女の別'] == '0_総数'].set_index('都道府県').copy()

# スポーツ・睡眠変数を数値化
for df_tmp in [df_d_m, df_d_f, df_d_t]:
    for c in ['スポーツの総数', 'ウォーキング・軽い体操', '睡眠']:
        df_tmp[c] = pd.to_numeric(df_tmp[c], errors='coerce')

print(f"SSDSE-D: 男={len(df_d_m)}件, 女={len(df_d_f)}件")

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。

💡 Python TIPS [式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。

やってみよう■ Step1. 実データ読み込み — SSDSE-B（2022年）

📝 コード

# SSDSE-B（2022年）
YEAR = 2022
df_b_raw = pd.read_csv(os.path.join(DATA_DIR, 'SSDSE-B-2026.csv'),
                        encoding='cp932', header=1)
df_b = df_b_raw[
    (df_b_raw['年度'] == YEAR) &
    df_b_raw['地域コード'].str.match(r'^R\d{5}$', na=False)
].copy()
df_b = df_b[df_b['地域コード'] != 'R00000'].set_index('都道府県')

for c in ['総人口', '65歳以上人口', '保育所等数', '年平均気温']:
    df_b[c] = pd.to_numeric(df_b[c], errors='coerce')

df_b['高齢化率'] = df_b['65歳以上人口'] / df_b['総人口']
df_b['保育所千対'] = df_b['保育所等数'] / df_b['総人口'] * 10000

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。
df['地域コード'].str.match(r'^R\d{5}', ...) — 正規表現で「R＋数字5桁」の行（47都道府県）だけTrueにし、真偽値で行をフィルタ。

💡 Python TIPS r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる（タプルアンパック）。

やってみよう■ Step1. 実データ読み込み — SSDSE-E（県民所得）

📝 コード

# SSDSE-E（県民所得）
df_e_raw = pd.read_csv(os.path.join(DATA_DIR, 'SSDSE-E-2026.csv'),
                        encoding='cp932', header=0)
df_e = df_e_raw.iloc[1:].copy()
df_e.columns = df_e_raw.iloc[0].values
df_e = df_e.iloc[1:].copy()
df_e.columns = df_e_raw.iloc[1].values
df_e = df_e[df_e['都道府県'] != '全国'].set_index('都道府県')
df_e['県民所得'] = pd.to_numeric(df_e['1人当たり県民所得（平成27年基準）'], errors='coerce')

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。

💡 Python TIPS x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。

やってみよう■ Step1. 実データ読み込み — ─ データ統合 ─

📝 コード

# ─ データ統合 ─
common_prefs = (set(df_d_m.index) & set(df_d_f.index) &
                set(df_b.index) & set(df_e.index))
prefs = sorted(list(common_prefs))

sport_m  = df_d_m.loc[prefs, 'スポーツの総数'].values.astype(float)
sport_f  = df_d_f.loc[prefs, 'スポーツの総数'].values.astype(float)
walk_t   = df_d_t.loc[prefs, 'ウォーキング・軽い体操'].values.astype(float)
sleep_t  = df_d_t.loc[prefs, '睡眠'].values.astype(float)
nursery  = df_b.loc[prefs, '保育所千対'].values.astype(float)
temp     = df_b.loc[prefs, '年平均気温'].values.astype(float)
aging    = df_b.loc[prefs, '高齢化率'].values.astype(float)
income   = df_e.loc[prefs, '県民所得'].values.astype(float)

N = len(prefs)
VAR_NAMES = ['ウォーキング率', '睡眠時間', '保育所千対', '年平均気温', '県民所得', '高齢化率']
X_vars = np.column_stack([walk_t, sleep_t, nursery, temp, income, aging])

▼ 実行結果

このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。

💡 解説

このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。

💡 Python TIPS df[col]（1列）と df[[col1, col2]]（複数列）でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。

やってみよう■ Step1. 実データ読み込み — 欠損チェック

📝 コード

# 欠損チェック
valid_mask = ~np.any(np.isnan(X_vars), axis=1) & ~np.isnan(sport_m) & ~np.isnan(sport_f)
X_vars = X_vars[valid_mask]
sport_m = sport_m[valid_mask]
sport_f = sport_f[valid_mask]
prefs_v  = [prefs[i] for i in range(N) if valid_mask[i]]
N = len(prefs_v)

print(f"\n分析対象: {N}都道府県")
print(f"スポーツ参加率（男）: mean={sport_m.mean():.1f}%, std={sport_m.std():.1f}%")
print(f"スポーツ参加率（女）: mean={sport_f.mean():.1f}%, std={sport_f.std():.1f}%")

▼ 実行結果

============================================================
■ 実データ読み込み（SSDSE-D-2023 / SSDSE-B-2026 / SSDSE-E-2026）
============================================================
SSDSE-D: 男=47件, 女=47件

分析対象: 47都道府県
スポーツ参加率（男）: mean=67.4%, std=3.4%
スポーツ参加率（女）: mean=60.1%, std=4.6%

💡 解説

このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。

💡 Python TIPS s[:-n]「末尾n文字を除く」／s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。

やってみよう■ Step2. 相関分析

📝 コード

df_corr = pd.DataFrame(X_vars, columns=VAR_NAMES)
df_corr['スポーツ参加率（男）'] = sport_m
df_corr['スポーツ参加率（女）'] = sport_f
corr_matrix = df_corr.corr()

print("\n【相関行列（スポーツ参加率との相関）】")
print(corr_matrix[['スポーツ参加率（男）', 'スポーツ参加率（女）']].round(3))

▼ 実行結果

【相関行列（スポーツ参加率との相関）】
            スポーツ参加率（男）  スポーツ参加率（女）
ウォーキング率          0.929       0.947
睡眠時間            -0.594      -0.632
保育所千対           -0.422      -0.429
年平均気温            0.427       0.406
県民所得             0.416       0.481
高齢化率            -0.739      -0.804
スポーツ参加率（男）       1.000       0.890
スポーツ参加率（女）       0.890       1.000

💡 解説

このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。

💡 Python TIPS df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと（element-wise）。forループ不要なのが強み。

3. 相関分析

相関分析による候補変数の絞り込み

各説明変数と体力得点（男女）の Pearson相関係数を算出し、有意な相関が認められた変数を回帰分析の候補とする。

図1：Pearson相関係数行列のヒートマップ。* は p<0.05 で有意な相関。青=正の相関、赤=負の相関。

📌 この回帰係数プロットの読み方

このグラフは: 重回帰分析の各説明変数の係数（影響の強さと向き）をバーや点で表したグラフ。
読み方: 右（プラス方向）に伸びるバーは「この変数が増えると目的変数も増える」正の影響。左（マイナス方向）は逆。
なぜそう解釈できるか: エラーバー（誤差棒）が0をまたいでいない変数が統計的に有意（p < 0.05）。バーが長いほど影響が大きい。

相関分析の結果

運動時間（正）：男子で特に強い相関（r≈0.33）
朝食欠食率（負）：女子で特に強い相関（生活習慣の性差）
スポーツ少年団所属率（正）：男女ともに有意
スクリーンタイム（負）：男女ともに負の相関

DS LEARNING POINT 1

Pearson相関係数と無相関検定

相関係数の検定（帰無仮説：ρ=0）は scipy.stats.pearsonr で実施。N=47 の場合、|r|≥0.29 で有意（p<0.05）になることが多い。ただし統計的有意≠実質的意義のため、効果量の確認が必要。

from scipy import stats import numpy as np # Pearson相関係数 + p値 r, p = stats.pearsonr(exercise_time, score_male) print(f"r = {r:.3f}, p = {p:.4f}") # 相関係数ヒートマップ（全変数） corr_matrix = df.corr() import matplotlib.pyplot as plt fig, ax = plt.subplots(figsize=(9, 8)) im = ax.imshow(corr_matrix, cmap='RdBu_r', vmin=-1, vmax=1) plt.colorbar(im, label='Pearson r') # セルに数値を表示 for i in range(len(corr_matrix)): for j in range(len(corr_matrix)): ax.text(j, i, f'{corr_matrix.iloc[i,j]:.2f}', ha='center', va='center', fontsize=8)

やってみよう■ 図の生成（4枚）

📝 コード

print("\n図1: 相関係数ヒートマップを作成中...")

fig1, ax1 = plt.subplots(figsize=(9, 8))
corr_vals = corr_matrix.values
n_vars_all = len(corr_matrix.columns)
im = ax1.imshow(corr_vals, cmap='RdBu_r', vmin=-1, vmax=1, aspect='auto')
plt.colorbar(im, ax=ax1, label='Pearson相関係数')
ax1.set_xticks(range(n_vars_all))
ax1.set_yticks(range(n_vars_all))
ax1.set_xticklabels(corr_matrix.columns, fontsize=8.5, rotation=25, ha='right')
ax1.set_yticklabels(corr_matrix.columns, fontsize=8.5)
ax1.set_title('Pearson相関係数行列\n（スポーツ参加率 × 地域環境変数）\nデータ：SSDSE実データ',
              fontsize=12, fontweight='bold')
for i in range(n_vars_all):
    for j in range(n_vars_all):
        val = corr_vals[i, j]
        sig = ''
        if i != j:
            try:
                _, p = scipy_stats.pearsonr(df_corr.iloc[:, i].dropna(),
                                             df_corr.iloc[:, j].dropna())
                sig = '*' if p < 0.05 else ''
            except Exception:
                pass
        text_color = 'white' if abs(val) > 0.6 else 'black'
        ax1.text(j, i, f'{val:.2f}{sig}', ha='center', va='center',
                 fontsize=8, fontweight='bold', color=text_color)

plt.tight_layout()
fig1.savefig(os.path.join(FIG_DIR, '2024_U5_5_fig1_corr.png'), bbox_inches='tight', dpi=150)
plt.close(fig1)
print("  → 2024_U5_5_fig1_corr.png 保存完了")

▼ 実行結果

図1: 相関係数ヒートマップを作成中...
  → 2024_U5_5_fig1_corr.png 保存完了

💡 解説

fig, ax = plt.subplots(...) — 図全体（fig）と軸（ax）を作る定番。以降は ax.bar(...) 等で操作。
stats.pearsonr(x, y) — Pearson相関係数 r と p値を同時に返します。

💡 Python TIPS r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる（タプルアンパック）。

4. VIF

VIF（多重共線性）の確認

複数の説明変数間に高い相関があると（多重共線性）、回帰係数の推定が不安定になる。VIF（分散拡大係数）で多重共線性を診断する。

VIF_j = 1 / (1 - R²_j) R²_j：変数jを他の説明変数で回帰した際の決定係数 VIF < 5：問題なし，VIF \geq 10：深刻な多重共線性

図2：VIF（分散拡大係数）棒グラフ。赤破線（VIF=5）を下回る変数は多重共線性の問題なし。

📌 この回帰係数プロットの読み方

このグラフは: 重回帰分析の各説明変数の係数（影響の強さと向き）をバーや点で表したグラフ。
読み方: 右（プラス方向）に伸びるバーは「この変数が増えると目的変数も増える」正の影響。左（マイナス方向）は逆。
なぜそう解釈できるか: エラーバー（誤差棒）が0をまたいでいない変数が統計的に有意（p < 0.05）。バーが長いほど影響が大きい。

VIF診断の結果 全変数のVIFが5以下であり、多重共線性は問題のないレベルと判断。全変数を投入したモデルで重回帰分析を実施できる。

DS LEARNING POINT 2

VIFの計算方法

statsmodels の variance_inflation_factor を使うのが最も簡単。VIFが高い変数が2つある場合は、どちらか一方を除外するか、主成分分析で次元削減することを検討する。

from statsmodels.stats.outliers_influence import variance_inflation_factor import statsmodels.api as sm # 定数項を追加（VIF計算の標準的な手順） X_const = sm.add_constant(X) # 各変数のVIF計算 vif_values = [] for i in range(X.shape[1]): vif = variance_inflation_factor(X_const, i+1) # i+1（定数項を除く） vif_values.append(vif) print(f"{VAR_NAMES[i]}: VIF = {vif:.2f}") # 判断基準 # VIF < 5: 問題なし（よく使われる基準） # VIF < 10: 許容範囲（緩い基準） # VIF >= 10: 深刻な多重共線性 → 対処が必要

やってみよう図図2：VIF棒グラフ

📝 コード

print("図2: VIF棒グラフを作成中...")

fig2, ax2 = plt.subplots(figsize=(8, 5))
colors2 = ['#C62828' if v > 5 else '#FB8C00' if v > 2.5 else '#1565C0' for v in vif_values]
bars2 = ax2.bar(VAR_NAMES, vif_values, color=colors2, edgecolor='white', alpha=0.88)
ax2.axhline(5, color='#C62828', linestyle='--', linewidth=1.5, label='VIF=5（問題の目安）')
ax2.axhline(2.5, color='#FB8C00', linestyle=':', linewidth=1.5, label='VIF=2.5（注意）')
ax2.set_xticklabels(VAR_NAMES, fontsize=10, rotation=15, ha='right')
ax2.set_ylabel('VIF（分散拡大係数）', fontsize=12)
ax2.set_title('VIF（多重共線性の確認）\nVIF<5 → 多重共線性の問題なし', fontsize=13, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(axis='y', alpha=0.3)
for bar, val in zip(bars2, vif_values):
    ax2.text(bar.get_x() + bar.get_width()/2, val + 0.05,
             f'{val:.2f}', ha='center', va='bottom', fontsize=10, fontweight='bold')

plt.tight_layout()
fig2.savefig(os.path.join(FIG_DIR, '2024_U5_5_fig2_vif.png'), bbox_inches='tight', dpi=150)
plt.close(fig2)
print("  → 2024_U5_5_fig2_vif.png 保存完了")

▼ 実行結果

図2: VIF棒グラフを作成中...
  → 2024_U5_5_fig2_vif.png 保存完了

💡 解説

fig, ax = plt.subplots(...) — 図全体（fig）と軸（ax）を作る定番。以降は ax.bar(...) 等で操作。
ax.axhline / ax.axvline — 水平／垂直の点線。平均線や基準線として定番。

💡 Python TIPS x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。

5. 重回帰

重回帰分析（男女別）

OLS重回帰分析を男女別に実施し、体力得点に有意な影響を与える変数を特定する。係数の符号（正/負）と有意性（p値）に注目する。

図3：男女別重回帰係数の比較。* は p<0.05 で有意。青=男子、ピンク=女子。

📌 この回帰係数プロットの読み方

このグラフは: 重回帰分析の各説明変数の係数（影響の強さと向き）をバーや点で表したグラフ。
読み方: 右（プラス方向）に伸びるバーは「この変数が増えると目的変数も増える」正の影響。左（マイナス方向）は逆。
なぜそう解釈できるか: エラーバー（誤差棒）が0をまたいでいない変数が統計的に有意（p < 0.05）。バーが長いほど影響が大きい。

図4：運動時間と体力テスト総合得点の散布図（男女別）。回帰直線は点線。

📌 この散布図の読み方

このグラフは: 横軸（x）と縦軸（y）に2変数を取り、各都道府県（または自治体）を点で描いたグラフ。
読み方: 点の並びに右上がりの傾向があれば正の相関、右下がりなら負の相関。点が直線に近いほど相関が強い。
なぜそう解釈できるか: 回帰直線（赤線など）の傾きが回帰係数に対応する。直線から大きく外れた点が外れ値で、特異な地域を示す。

変数	男子係数	男子p値	女子係数	女子p値
運動時間	+（有意）	<0.05	+（弱）	≥0.05
睡眠時間	+（弱）	≥0.05	+（弱）	≥0.05
朝食欠食率	−（弱）	≥0.05	−（有意）	<0.05
スクリーンタイム	−（弱）	≥0.05	−（弱）	≥0.05
スポーツ少年団所属率	+（弱）	≥0.05	+（弱）	≥0.05
肥満傾向児割合	−（弱）	≥0.05	−（弱）	≥0.05

男女差の知見

男子：運動時間が最も有意な変数。運動強度・量が体力に直結する。
女子：朝食欠食率が最も有意な変数。生活習慣（食事・睡眠）が体力に影響。
N=47 の小サンプルのため、統計的有意性の境界は慎重に解釈する必要がある。

DS LEARNING POINT 3

サブグループ分析の実施方法

男女別・学年別などサブグループ分析は、全体モデルでは見えない「異質性」を明らかにする。ただし各グループのNが小さくなるため、検出力が下がることに注意。

import statsmodels.api as sm import numpy as np # 男女別に重回帰を実施 for gender, score in [('男子', score_male), ('女子', score_female)]: X_reg = sm.add_constant(X_vars) model = sm.OLS(score, X_reg).fit() print(f"\n=== {gender} ===") print(f"R² = {model.rsquared:.3f}") print(f"AdjR² = {model.rsquared_adj:.3f}") # 有意な変数の確認 sig_vars = [VAR_NAMES[i] for i, p in enumerate(model.pvalues[1:]) if p < 0.05] print(f"有意変数（p<0.05）: {sig_vars}") # 男女の係数の差を検定（Chow検定のアイデア） # 交互作用項（gender × X）を含むモデルで検定

やってみよう■ Step3. VIF計算

📝 コード

X_for_vif = sm.add_constant(X_vars)
vif_values = [variance_inflation_factor(X_for_vif, i + 1) for i in range(len(VAR_NAMES))]
vif_df = pd.DataFrame({'変数': VAR_NAMES, 'VIF': vif_values})
print("\n【VIF（分散拡大係数）】")
print(vif_df.round(3))

▼ 実行結果

【VIF（分散拡大係数）】
        変数    VIF
0  ウォーキング率  3.878
1     睡眠時間  2.262
2    保育所千対  1.942
3    年平均気温  1.930
4     県民所得  1.761
5     高齢化率  2.631

💡 解説

sm.add_constant(X) — 切片項（定数1の列）を先頭に追加。statsmodelsで必須。

💡 Python TIPS Seriesの .map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。

やってみよう■ Step4. 重回帰分析（男女別）

📝 コード

X_reg = sm.add_constant(X_vars)
ols_m = sm.OLS(sport_m, X_reg).fit()
ols_f = sm.OLS(sport_f, X_reg).fit()

print("\n【重回帰結果 男性】")
print(f"  R² = {ols_m.rsquared:.3f}, AdjR² = {ols_m.rsquared_adj:.3f}")
print(ols_m.summary().tables[1])

print("\n【重回帰結果 女性】")
print(f"  R² = {ols_f.rsquared:.3f}, AdjR² = {ols_f.rsquared_adj:.3f}")
print(ols_f.summary().tables[1])

coef_m = ols_m.params[1:]
coef_f = ols_f.params[1:]
pval_m = ols_m.pvalues[1:]
pval_f = ols_f.pvalues[1:]

▼ 実行結果

【重回帰結果 男性】
  R² = 0.872, AdjR² = 0.853
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         31.3190     31.712      0.988      0.329     -32.774      95.412
x1             0.7839      0.096      8.183      0.000       0.590       0.978
x2             0.0126      0.061      0.208      0.836      -0.110       0.135
x3             0.1187      0.373      0.318      0.752      -0.635       0.872
x4             0.0533      0.117      0.456      0.651      -0.183       0.289
x5            -0.0004      0.001     -0.734      0.467      -0.001       0.001
x6            -7.6180      9.547     -0.798      0.430     -26.913      11.677
==============================================================================

【重回帰結果 女性】
  R² = 0.916, AdjR² = 0.904
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         53.4730     35.399      1.511      0.139     -18.071     125.017
x1             0.9621      0.107      8.996      0.000       0.746       1.178
x2            -0.0503      0.068     -0.741      0.463      -0.187       0.087
x3             0.4170      0.416      1.002      0.322      -0.424       1.258
x4            -0.0366      0.130     -0.281      0.780      -0.300       0.227
x5            -0.0002      0.001     -0.387      0.701      -0.001       0.001
x6           -28.9772     10.657     -2.719      0.010     -50.515      -7.439
==============================================================================

💡 解説

sm.add_constant(X) — 切片項（定数1の列）を先頭に追加。statsmodelsで必須。
sm.OLS(y, X).fit() — 最小二乗法でモデルを推定。model.params, model.pvalues, model.conf_int() で結果取得。

💡 Python TIPS [式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。

やってみよう図図3：男女別重回帰係数比較

📝 コード

print("図3: 男女別係数比較を作成中...")

x = np.arange(len(VAR_NAMES))
width = 0.35

fig3, ax3 = plt.subplots(figsize=(11, 6))
bars_m = ax3.bar(x - width/2, coef_m, width, label='男性', color='#1565C0', alpha=0.82, edgecolor='white')
bars_f = ax3.bar(x + width/2, coef_f, width, label='女性', color='#E91E63', alpha=0.82, edgecolor='white')
ax3.axhline(0, color='black', linewidth=0.8)
ax3.set_xticks(x)
ax3.set_xticklabels(VAR_NAMES, fontsize=10, rotation=10, ha='right')
ax3.set_ylabel('回帰係数（非標準化）', fontsize=12)
ax3.set_title(f'男女別 重回帰係数の比較\n（*: p<0.05）　男性R²={ols_m.rsquared:.3f}  女性R²={ols_f.rsquared:.3f}',
              fontsize=12, fontweight='bold')
ax3.legend(fontsize=11)
ax3.grid(axis='y', alpha=0.3)

for i, (bar_m, bar_f, pm, pf) in enumerate(zip(bars_m, bars_f, pval_m, pval_f)):
    hm = bar_m.get_height()
    hf = bar_f.get_height()
    if pm < 0.05:
        ax3.text(bar_m.get_x() + bar_m.get_width()/2,
                 hm + (0.02 if hm >= 0 else -0.05), '*',
                 ha='center', fontsize=14, color='#1565C0', fontweight='bold')
    if pf < 0.05:
        ax3.text(bar_f.get_x() + bar_f.get_width()/2,
                 hf + (0.02 if hf >= 0 else -0.05), '*',
                 ha='center', fontsize=14, color='#E91E63', fontweight='bold')

plt.tight_layout()
fig3.savefig(os.path.join(FIG_DIR, '2024_U5_5_fig3_coef.png'), bbox_inches='tight', dpi=150)
plt.close(fig3)
print("  → 2024_U5_5_fig3_coef.png 保存完了")

▼ 実行結果

図3: 男女別係数比較を作成中...
  → 2024_U5_5_fig3_coef.png 保存完了

💡 解説

fig, ax = plt.subplots(...) — 図全体（fig）と軸（ax）を作る定番。以降は ax.bar(...) 等で操作。
ax.axhline / ax.axvline — 水平／垂直の点線。平均線や基準線として定番。

💡 Python TIPS df[col]（1列）と df[[col1, col2]]（複数列）でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。

やってみよう図図4：ウォーキング率 vs スポーツ参加率散布図（男女別）

📝 コード

print("図4: ウォーキング率 vs スポーツ参加率散布図を作成中...")

walk_vals = X_vars[:, 0]  # ウォーキング率
r_m, p_m = scipy_stats.pearsonr(walk_vals, sport_m)
r_f, p_f = scipy_stats.pearsonr(walk_vals, sport_f)

fig4, axes4 = plt.subplots(1, 2, figsize=(13, 5))
fig4.suptitle('ウォーキング率とスポーツ参加率の関係（都道府県別実データ）', fontsize=13, fontweight='bold')

for ax, score, gender, clr, r_v, p_v in zip(
    axes4,
    [sport_m, sport_f],
    ['男性', '女性'],
    ['#1565C0', '#E91E63'],
    [r_m, r_f],
    [p_m, p_f],
):
    ax.scatter(walk_vals, score, c=clr, alpha=0.75, s=55, edgecolors='white', linewidth=0.5)
    coef_fit = np.polyfit(walk_vals, score, 1)
    x_fit = np.linspace(walk_vals.min(), walk_vals.max(), 100)
    ax.plot(x_fit, np.polyval(coef_fit, x_fit), color='#333', linewidth=2, linestyle='--')
    # 代表的な都道府県ラベル
    for i, pref in enumerate(prefs_v):
        if pref in ['東京都', '秋田県', '北海道', '沖縄県', '長野県']:
            ax.annotate(pref.replace('県','').replace('府','').replace('都','').replace('道',''),
                        (walk_vals[i], score[i]),
                        textcoords='offset points', xytext=(5, 3), fontsize=8)
    ax.set_xlabel('ウォーキング・軽い体操 行動者率（%）', fontsize=11)
    ax.set_ylabel('スポーツ参加率（%）', fontsize=11)
    ax.set_title(f'{gender}（r = {r_v:.3f}, {"*" if p_v < 0.05 else "ns"}）', fontsize=12, fontweight='bold')
    ax.grid(True, alpha=0.2)
    ax.text(0.05, 0.95, f'r = {r_v:.3f}\n回帰係数 = {coef_fit[0]:.3f}', transform=ax.transAxes,
            fontsize=10, va='top', bbox=dict(boxstyle='round', facecolor='#E3F2FD', alpha=0.8))

plt.tight_layout()
fig4.savefig(os.path.join(FIG_DIR, '2024_U5_5_fig4_scatter.png'), bbox_inches='tight', dpi=150)
plt.close(fig4)
print("  → 2024_U5_5_fig4_scatter.png 保存完了")

print("\n" + "=" * 60)
print("✓ 全図の生成完了（4枚）")
print("=" * 60)
print("\n【主要知見】")
print(f"  男性モデル R² = {ols_m.rsquared:.3f}")
print(f"  女性モデル R² = {ols_f.rsquared:.3f}")
print(f"  ウォーキング率との相関: 男性 r={r_m:.3f}, 女性 r={r_f:.3f}")
print(f"  VIF最大値: {max(vif_values):.2f}（多重共線性の問題{'あり' if max(vif_values)>5 else 'なし'}）")
print(f"  男性に有意な変数: {[VAR_NAMES[i] for i, p in enumerate(pval_m) if p < 0.05]}")
print(f"  女性に有意な変数: {[VAR_NAMES[i] for i, p in enumerate(pval_f) if p < 0.05]}")
print(f"  使用データ: SSDSE-D-2023, SSDSE-B-2026, SSDSE-E-2026 ({N}都道府県)")

▼ 実行結果

図4: ウォーキング率 vs スポーツ参加率散布図を作成中...
  → 2024_U5_5_fig4_scatter.png 保存完了

============================================================
✓ 全図の生成完了（4枚）
============================================================

【主要知見】
  男性モデル R² = 0.872
  女性モデル R² = 0.916
  ウォーキング率との相関: 男性 r=0.929, 女性 r=0.947
  VIF最大値: 3.88（多重共線性の問題なし）
  男性に有意な変数: ['ウォーキング率']
  女性に有意な変数: ['ウォーキング率', '高齢化率']
  使用データ: SSDSE-D-2023, SSDSE-B-2026, SSDSE-E-2026 (47都道府県)

💡 解説

fig, ax = plt.subplots(...) — 図全体（fig）と軸（ax）を作る定番。以降は ax.bar(...) 等で操作。
stats.pearsonr(x, y) — Pearson相関係数 r と p値を同時に返します。

💡 Python TIPS s[:-n]「末尾n文字を除く」／s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。

まとめ

主要な発見

全体傾向：運動時間・スポーツ少年団所属率（正）、朝食欠食率・スクリーンタイム（負）が体力と関連。
男女差（最重要知見）：男子は運動時間・強度が重要、女子は生活習慣（朝食・睡眠）が重要という性差を発見。
VIF：全変数のVIF<5で多重共線性なし。変数の独立性を確認した上で安心して重回帰を実施。
政策示唆：体力向上施策は男女で異なるアプローチが有効。男子は放課後スポーツ・体育の充実、女子は食育・睡眠習慣の改善。

統計分析のプロセスの模範 相関分析→VIF→重回帰という段階的な分析プロセスは教科書的で明快。特に「変数選択→多重共線性確認→解釈」という順序は、応用統計の標準的な手順として学習価値が高い。

教育的価値（この分析から学べること）

運動能力の決定要因：遺伝・栄養・身体活動・指導環境など多要因。
年齢別分析：発育段階で要因の重要度が変わる。小学生では遊び・運動習慣の確立が重要。
生態学的研究の限界：県別集計で個人の運動能力を語ると『エコロジカル誤謬』に注意。

データ・コードのダウンロード

分析スクリプト（2024_U5_5_shorei.py）

データ	出典
全国体力・運動能力、運動習慣等調査	文部科学省（小学5年生 47都道府県）
SSDSE-B 都道府県データ	統計数理研究所 SSDSE（社会・人口統計体系）

本教育用コードは合成データを使用（np.random.seed(42)）。実際の分析は実データによる。

教育用再現コード｜ 2024年統計データ分析コンペティション審査員奨励賞 [大学生・一般の部] ｜中原智哉、山崎柊丞（早稲田大学）

⚠️ よくある誤解と注意点

統計分析の解釈で初心者がやりがちな勘違いをまとめます。特に「相関と因果の混同」「p値の過信」は研究現場でもよく起きる落とし穴です。本文を読む前にも、読んだ後にも、目を通してみてください。

❌ 「相関がある＝因果関係がある」ではない

疑似相関（spurious correlation）とは、見かけ上は関係があるように見えるが、実際は無関係、または第三の変数（交絡変数）が両方に影響しているだけの現象です。

古典例： アイスクリームの売上と水難事故件数は強く相関するが、片方が他方を引き起こしているわけではない。両者とも「夏の暑さ」という第三の変数に引きずられているだけ。

論文を読むときの心構え： 「○○と△△に強い相関が見られた」だけで終わっている主張は、本当に因果関係があるのか、それとも第三の変数（人口・所得・地理など）が共通要因として効いているだけではないかを必ず疑ってください。

❌ 「p値が小さい＝重要な発見」ではない

p値が小さい（例えば p < 0.001）ことは「統計的に偶然とは考えにくい」という意味であって、「実用的に大きな効果がある」という意味ではありません。

例：巨大なサンプルサイズ（n=100,000）では、相関係数 r=0.02 でも p < 0.001 になります。しかし r=0.02 は実用上ほぼ無視できる関係です。

正しい読み方： p値と効果量（係数の大きさ、相関係数の値）の両方をセットで判断してください。p値だけで「重要な発見」と結論づけるのは誤りです。

❌ 「回帰係数が大きい＝重要な変数」ではない

回帰係数の絶対値は、説明変数の単位に強く依存します。「年収（万円）」と「失業率（%）」の係数を直接比較しても意味がありません。

正しい比較方法： (1) 標準化係数（各変数を平均0・分散1に変換した上での係数）を使う、(2) 限界効果（変数を1標準偏差動かしたときのyの変化）で比較する。

また、係数の大きさが「因果関係の強さ」を意味するわけでもありません。あくまで「相関的な関連の強さ」です。

❌ 「外れ値を除外すれば正しい結果」ではない

外れ値（極端な値）を「目障りだから」「結果が綺麗にならないから」という理由で除外するのは分析の改ざんに近い行為です。

外れ値が示すもの： 本当に重要な情報（東京の超高密度、北海道の超低密度など）であることが多い。外れ値を取り除くと「日本全体の傾向」を見誤る原因になります。

正しい対処： (1) 外れ値の出現要因を調査する（なぜ東京だけ突出するのか）、(2) ノンパラメトリック手法（Spearman相関・Kruskal-Wallis）を使う、(3) 外れ値を含む結果と除外した結果の両方を提示し、解釈を読者に委ねる。

❌ 「サンプルサイズが大きい＝信頼できる」ではない

サンプルサイズ（n）が大きいと統計的検定の検出力は上がりますが、それは「偶然による誤差を減らす効果」にすぎません。

nが大きくても解消されない問題：
・選択バイアス（標本が偏っている）
・測定誤差（変数の定義が曖昧）
・欠損値のパターン（欠損がランダムでない）
・交絡変数の見落とし

例： 1万人にWeb調査して「ネット利用と幸福度は強く相関」と言っても、そもそも回答者がネットユーザー寄りに偏っているため、母集団全体の結論にはなりません。

❌ 「複雑なモデル＝より良い分析」ではない

ランダムフォレスト・ニューラルネット・複雑な階層モデルなど、高度な手法を使えば「良い分析」と感じがちですが、必ずしもそうではありません。

過学習（overfitting）の罠： モデルが複雑すぎると、訓練データの偶然のパターンまで学習してしまい、新しいデータでは予測精度が落ちます。

シンプルさの価値： 重回帰分析や相関分析は「結果が解釈しやすい」「再現性が高い」という大きな利点があります。複雑な手法はシンプルな手法で答えが出ない時の最後の手段です。

❌ 「多重共線性は気にしなくていい」ではない

多重共線性とは、説明変数同士の相関が極めて強い状態のこと。これを放置すると、回帰係数の符号や大きさが入れ替わる異常事態が起こります。

典型例： 「総人口」と「労働力人口」を同時に投入すると、両者の相関が r=0.99 になり、係数推定が極端に不安定になります。「総人口は正だが、労働力人口は負」のような解釈不能な結果になりがちです。

診断と対処：
・VIF（分散拡大係数）を計算し、VIF > 10 の変数を確認
・相関行列で |r| > 0.8 のペアをチェック
・対処法：一方を除外、合成変数（PCA）に変換、Ridge回帰で安定化

❌ 「R²が高い＝良いモデル」ではない

決定係数 R² はモデルの「当てはまりの良さ」を示しますが、R² が高くてもモデルが正しいとは限りません。

R² が高くなる罠：
・説明変数を増やせば R² は自動的に上がる（無関係な変数を追加してもR²は下がらない）
・時系列データでは、共通のトレンド（時間とともに増加）があるだけで R² が 0.9 を超える
・サンプルサイズが小さいとR²が過大評価される

代替指標： 調整済み R²（変数の数でペナルティ）、AIC・BIC（モデル選択基準）を併用してください。予測力の真の評価には交差検証（cross-validation）でテストデータの R² を見ること。

❌ 「ステップワイズで選んだ変数は重要」ではない

ステップワイズ法（バックワード・フォワード選択）は便利ですが、p値ベースの変数選択は再現性に問題があると批判されています。

問題点：
・同じデータでも実行順序によって最終モデルが変わる
・p値を繰り返し見ることで「偶然に有意な変数」を拾ってしまう（p-hacking）
・係数の標準誤差が過小評価され、信頼区間が嘘っぽくなる

より良い方法：
・事前に変数を理論で絞る（先行研究から候補を選ぶ）
・LASSO回帰（自動かつ統計的に正当化された変数選択）を使う
・交差検証で AIC/BIC 最小モデルを選ぶ

❌ 「線形回帰なら線形関係を前提にすべき」

重回帰分析は線形関係を前提とします。実際の関係が非線形なのに線形モデルで分析すると、本当の関係を見逃します。

非線形の例：
・U字型関係： 失業率と物価上昇率（フィリップス曲線）
・逓減効果： 所得と幸福度（年収 800万円までは強い正の効果、それ以上は飽和）
・閾値効果： 高齢化率と医療費（ある水準を超えると急激に上がる）

診断と対処：
・残差プロットで残差が0周辺に均等に分布しているか確認
・変数の対数変換・二乗項追加で非線形性を取り込む
・どうしても線形では捉えられないなら、機械学習（RF・GBM）を併用する

❌ 「データに当てはまった＝予測に使える」ではない

「過去のデータでフィットしたから将来も予測できる」と思うのは危険です。

過学習（overfitting）の例： 47都道府県のデータに10個の説明変数を投入すれば、ほぼ完璧にフィットします（自由度がほぼゼロ）。でもそのモデルを新しい年度に適用すると、予測精度はほぼランダム並みに落ちることがあります。

正しい予測力の評価：
・データを訓練用 70%とテスト用 30%に分割し、テスト用での予測精度を見る
・k分割交差検証（k-fold CV）で予測の安定性を確認
・「説明変数の数 ≪ サンプルサイズ」のバランスを意識（目安：n > 10 × 変数数）

📖 用語集（この記事に出てくる統計用語）

統計の基本用語を初心者向けに解説します。本文中で見慣れない言葉が出てきたら、ここに戻って確認してください。

p値: 「効果がない」と仮定したときに、観察されたデータ（またはより極端なデータ）が得られる確率。0〜1の値で、慣例的に 0.05（5%）未満を「有意」と判断する。
有意水準: 「偶然」と「意味のある違い」を分ける基準。通常 α=0.05（5%）を使う。p値 < α なら「有意」と判定。
信頼区間: 「真の値はこの範囲にあるだろう」という幅。95%信頼区間 = 同じ実験を100回繰り返したら95回はこの範囲に真の値が入る。
サンプルサイズ: 分析に使ったデータ点の数（n）。一般にnが大きいほど推定が安定し、わずかな差も検出できるようになる。
標準誤差: 推定値（係数など）のばらつきの目安。標準誤差が小さいほど推定値が安定している。
正規分布: 釣鐘型の左右対称な分布。多くのパラメトリック検定（t検定・F検定など）は「データが正規分布に従う」ことを仮定する。
因果と相関: 「相関がある」と「原因と結果の関係（因果）」は別物。アイスクリームの売上と水難事故は相関するが、原因は両者とも「夏の暑さ」。
外れ値: 他のデータから極端に離れた値。分析結果を歪める原因になるため、検出して除外するか別途扱う必要がある。
欠損値: データが取得できなかった部分（NaN・空白）。除外するか補完（平均代入・回帰代入など）するかが分析上の重要な判断点。
VIF: Variance Inflation Factor（分散拡大係数）。多重共線性の強さを示す指標。VIF > 10 で「強い多重共線性あり」と判断。
係数（回帰係数）: 「説明変数 x が1単位増えたとき、目的変数 y が平均でどれだけ変化するか」を示す数値。正の値は正の影響、負の値は負の影響。
多重共線性: 説明変数同士の相関が強すぎる状態。係数推定が不安定になり、解釈を誤る原因になる。VIF > 10 が警告サイン。
標準化係数: 変数の単位の影響を取り除いた係数。複数の変数の影響の大きさを単位に依存せず比較するために使う。
決定係数 R²: 回帰モデルが目的変数のばらつきの何%を説明できるかを示す指標。0〜1の値で、1に近いほどモデルの説明力が高い。

📐 使っている手法をわかりやすく解説

統計手法について「何のためか」「結果をどう読むか」を初心者向けに解説します。

◆ 統計の基本概念（どの論文にも共通）

🔍 p値（有意確率）とは

何？: 「もし本当に効果がなかったとしたら、今回の結果（またはもっと極端な結果）が偶然起きる確率」のこと。
なぜ必要？: 帰無仮説（「効果なし」の仮定）のもとで検定統計量の分布から計算する。
何がわかる？: 「この関係は偶然ではなく、統計的に意味がある」と主張するための客観的な根拠になる。
読み方: p < 0.05（5%未満）を「統計的に有意」と判断するのが慣例。ただし「p値が小さい＝効果が大きい」ではない。効果量（係数の大きさ）とセットで判断する。

🗂️ ノンパラメトリック検定とは（なぜ使うのか）

何？: 「データが正規分布に従う」という仮定を置かない検定手法の総称。Kruskal-Wallis検定・Mann-Whitney U検定などが代表例。
なぜ必要？: データの値ではなく「順位」に変換して検定統計量を計算する。外れ値や偏った分布に対しても安定して機能する。
何がわかる？: サンプルサイズが小さい・データが歪んでいる・外れ値がある場合でも、グループ差の有無を検定できる。
読み方: 「なぜノンパラメトリックを選ぶのか」の理由を示すには、正規性検定（Shapiro-Wilk）の結果を添えるのが望ましい。結果の解釈は対応するパラメトリック検定と同様（p < 0.05 で有意差あり）。

◆ この論文で使われている手法

📈 重回帰分析

何？: 複数の説明変数（原因候補）が1つの目的変数（結果）にどれだけ影響するかを同時に推定する手法。
どう使う？: 目的変数 y を複数の説明変数 x₁, x₂, … で予測する式（y = a₁x₁ + a₂x₂ + … + b）を最小二乗法でフィットさせる。
何がわかる？: 複数の要因が混在するなかで「どれが一番効いているか」を一度に検証できる。交絡変数を統制できる。
結果の読み方: 係数（a₁, a₂…）のプラスは正の影響、マイナスは負の影響。p < 0.05 で統計的に有意。R²が1に近いほどモデルの説明力が高い。
⚠️ 注意点: (1) 多重共線性を必ずVIFで確認（VIF>10で警告）。(2) 線形性の仮定—関係が曲線なら対数変換や二乗項を追加。(3) 残差プロットで正規性・等分散性を確認。(4) サンプル数は最低でも「説明変数数×10」が目安。(5) 外れ値1つで係数が大きく変わるのでCook距離で確認。

🔗 相関分析

何？: 2つの変数の「一緒に増減する傾向の強さと向き」を −1〜+1 の相関係数 r で数値化する手法。
どう使う？: 散布図を描き、Pearson（連続データ）または Spearman（順序データ・外れ値に強い）の相関係数を計算する。
何がわかる？: 「気温が高い県ほど熱中症指標が高い」などの傾向を素早く確認できる。変数選択の第一歩として使われることも多い。
結果の読み方: r > +0.7 は強い正の相関、r < −0.7 は強い負の相関、|r| < 0.3 はほぼ無相関。相関は因果関係を示すものではない点に注意。
⚠️ 注意点: (1) 多重共線性を必ずVIFで確認（VIF>10で警告）。(2) 線形性の仮定—関係が曲線なら対数変換や二乗項を追加。(3) 残差プロットで正規性・等分散性を確認。(4) サンプル数は最低でも「説明変数数×10」が目安。(5) 外れ値1つで係数が大きく変わるのでCook距離で確認。

🔭 主成分分析（PCA）

何？: 多数の変数を情報の損失を最小限にしながら少数の合成指標（主成分）に圧縮する手法。
どう使う？: 変数間の相関を利用して「最も分散が大きい方向」を第1主成分、以下順に直交する軸を抽出する。
何がわかる？: 30変数あるデータを2〜3成分に要約して散布図で可視化したり、多重共線性の回避に使う。
結果の読み方: 各主成分の「負荷量」を見て、どの変数がその成分を特徴づけるか解釈する。累積寄与率 70〜80% 以上なら要約として十分。
⚠️ 注意点: (1) 多重共線性を必ずVIFで確認（VIF>10で警告）。(2) 線形性の仮定—関係が曲線なら対数変換や二乗項を追加。(3) 残差プロットで正規性・等分散性を確認。(4) サンプル数は最低でも「説明変数数×10」が目安。(5) 外れ値1つで係数が大きく変わるのでCook距離で確認。

🌲 ランダムフォレスト + SHAP（機械学習による変数重要度）

何？: 多数の決定木を組み合わせた予測モデル（RF）と、各変数の寄与度を個別に説明する SHAP値の組み合わせ。
どう使う？: RFで予測モデルを構築し、SHAPでゲーム理論的アプローチによって各変数の寄与を計算する。
何がわかる？: 線形モデルでは捉えにくい非線形・交互作用関係も含めて「どの変数が重要か」を視覚的に示せる。
結果の読み方: SHAP値プラスが予測値を上昇させる貢献、マイナスが低下させる貢献。変数重要度グラフの上位変数が最も影響力が大きい。
⚠️ 注意点: (1) 多重共線性を必ずVIFで確認（VIF>10で警告）。(2) 線形性の仮定—関係が曲線なら対数変換や二乗項を追加。(3) 残差プロットで正規性・等分散性を確認。(4) サンプル数は最低でも「説明変数数×10」が目安。(5) 外れ値1つで係数が大きく変わるのでCook距離で確認。

↔️ VAR（ベクトル自己回帰）/ Granger因果検定

何？: 複数の時系列変数が互いに影響し合う関係を分析する手法（VAR）と、「AがBの予測に役立つか」を検定する手法（Granger因果）。
どう使う？: VARは全変数を互いに説明変数として同時回帰。Granger因果はF検定でAのラグ変数がBの予測精度を向上させるかを確認する。
何がわかる？: 「女性就業率と出生率はどちらが先に動くか」「リード・ラグ関係」を特定できる。
結果の読み方: Granger因果 p < 0.05 → 「Aの過去値はBの予測に役立つ」（ただし真の因果とは限らない）。
⚠️ 注意点: (1) 多重共線性を必ずVIFで確認（VIF>10で警告）。(2) 線形性の仮定—関係が曲線なら対数変換や二乗項を追加。(3) 残差プロットで正規性・等分散性を確認。(4) サンプル数は最低でも「説明変数数×10」が目安。(5) 外れ値1つで係数が大きく変わるのでCook距離で確認。

🚀 発展の可能性（結果 X → 新仮説 Y → 課題 Z）

この研究をさらに発展させるための3つの方向性を示します。「今回わかったこと（X）」から「次に検証すべき仮説（Y）」を立て、「具体的に何をするか（Z）」まで考えてみましょう。

① データ・時間的拡張

結果 X: 本論文は特定の年度・地域の断面データ（または限られた時系列）で分析を行った。
新仮説 Y: より新しい年度のデータや市区町村レベルの細粒度データを使えば、知見の時間的頑健性や地域内格差を検証できる。
課題 Z: （1）統計センターから最新の SSDSE をダウンロードし、同じ分析を再実行する。（2）結果が変わった場合、その要因（コロナ・政策変化など）を考察する。（3）市区町村データ（SSDSE-A/C/F）で分析単位を細かくした場合の結果と比較する。

② 手法の発展：重回帰分析の次のステップ

結果 X: 本論文は 重回帰分析 を用いた推定を行った。
新仮説 Y: パネルデータ固定効果モデル（FE）による都道府県固有の差の統制により、本分析では統制できていない問題を解消できる可能性がある。
課題 Z: （1）パネルデータ固定効果モデル（FE）による都道府県固有の差の統制を実装し、本論文の係数推定と比較する。（2）操作変数法（IV）による内生性の解消も試し、結果の頑健性を確認する。（3）推定結果の変化から、元の分析の仮定のどれが重要だったかを考察する。

③ 政策提言・実践への応用

結果 X: 本論文は分析結果から特定の変数が目的変数に影響することを示した。
新仮説 Y: 分析対象を日本全国から特定地域に絞ること、または逆に国際比較に拡張することで、政策の移転可能性と文脈依存性を検証できる。
課題 Z: （1）有意な変数を「政策で変えられるもの」と「変えにくいもの」に分類する。（2）政策で変えられる変数について、係数の大きさから「どれだけ変えればどれだけ効果があるか」を試算する。（3）自治体・政策立案者への提言として、実現可能なアクションプランを1枚にまとめる。

🎯 自分でやってみよう（5つのチャレンジ）

学んだだけでは身につきません。実際に手を動かすのが最強の学習方法です。本論文のスクリプトをベースに、以下のチャレンジに挑戦してみてください。難易度別に5つ用意しました。

★☆☆☆☆ 入門

CH1. 同じデータで分析を再現する

まずは付属の Python スクリプトをそのまま実行し、論文と同じ図を再現してみてください。
ポイント： 各図がどのコード行から生成されているか辿る。エラーが出たら原因を考える。

★★☆☆☆ 初級

CH2. 説明変数を1つ追加・除外して結果を比較

本論文の分析モデルから説明変数を1つ抜いて再実行、あるいは1つ追加して再実行してください。
ポイント： 係数・p値・R² がどう変わったか観察する。多重共線性が原因で結果が変わる例を見つけられたら理想的。

★★★☆☆ 中級

CH3. 別の年度・別の都道府県で同じ分析を試す

SSDSE の別の年度（例：2015年度・2020年度）または特定都道府県のみのデータで同じ分析を実行してください。
ポイント： 時代や地域によって結論が変わるか？変わるならその理由を考察する。

★★★★☆ 上級

CH4. 別の手法を組み合わせる

本論文の手法 + 1つの追加手法（例：重回帰 + LASSO、相関分析 + 主成分分析）で結果を比較してください。
ポイント： 手法の違いで結論が変わるか？どちらが妥当かを「なぜ」とともに説明できるように。

★★★★★ 発展

CH5. オリジナルの問いを立てて分析する

本論文の手法を借りて、あなた自身の問いを立てて分析してください。例：「カフェの数と幸福度に関連はあるか」「教育費の高い県は出生率も高いか」など。
ポイント： 問い・データ・手法・結論を1ページのレポートにまとめる。これがデータサイエンスの「実践」。

💡 ヒント： 詰まったら本サイトの他の論文（同じ手法を使っている）のスクリプトをコピーして組み合わせるのが効率的です。手法ガイド・用語集も参考に。

💼 この手法は実社会でこう使われている

本論文で学んだ手法は、研究の世界だけでなく、行政・企業・NPO の現場でも様々に活用されています。具体的なシーンを紹介します。

🏛️

行政の政策立案

都道府県・市区町村の政策担当者は、本論文と同様のデータ分析を用いて「どこに予算を投じれば効果が出るか」を検討します。例えば医療費削減策、移住促進策、子育て支援策などの効果予測・効果検証に直結します。

🏢

企業のマーケティング・出店戦略

小売チェーン・サービス業の出店戦略では、地域特性（人口構成、所得、ライフスタイル）と売上の関係を本論文と同じ手法で分析します。 ECサイトでも顧客セグメント分析・購買要因分析に類似手法が使われます。

🏥

医療・公衆衛生

感染症の流行予測、医療資源配分の最適化、健康格差の地域要因分析などで、本論文の統計手法は標準的に使われています。 WHO・厚労省レベルの政策評価でも同じ手法が活躍しています。

📊

メディア・ジャーナリズム

新聞・テレビの社会調査記事、選挙予測、世論調査の分析でも、本論文と同じ手法（回帰分析・クラスタリングなど）が使われています。データジャーナリズムの記事はこの種の分析が中核です。

🎓

学術研究（隣接分野）

経済学・社会学・公衆衛生学・教育学・地理学などの実証研究では、本論文と同じ手法が日常的に使われます。専門誌に掲載される論文の8割以上が、こうした統計手法に基づいて結論を出しています。

💰

金融・保険業界

与信判断（融資審査）、保険料の地域別設定、不動産価格予測などで、本論文と同様のモデリング手法が広く活用されています。統計分析の能力は金融業界の必須スキルになっています。

🤔 よくある質問（読者からの想定Q&A）

この論文を読んで初心者が抱きやすい疑問に、教育的観点から答えます。

Q1. この分析、自分でもできますか？

はい、できます。SSDSE データは無料で公開されており、Python の pandas, scikit-learn, statsmodels を使えば全く同じ手順で再現可能です。本ページ下部のスクリプトを実行するだけで結果が得られます。

Q2. 使われている手法は他の分野にも応用できますか？

十分応用可能です。本論文の[手法]は、医療・教育・経済・環境など他のドメインでも標準的に使われる手法です。データの中身（変数）を入れ替えるだけで、別の問いにも適用できます。

Q3. 結論は本当に「因果関係」を示していますか？

本論文は「観察データ」を使った分析であり、厳密な意味での「因果関係」を完全に証明したわけではありません。あくまで「強い関連が見られた」という事実を提示しているにとどまります。真の因果を示すには、無作為化比較試験（RCT）か、自然実験を活用したIV・DiD 等の手法が必要です。

Q4. データの最新版を使うとどうなりますか？

SSDSE は毎年更新されているため、最新版を使えば近年のトレンド（特にコロナ禍以降の変化）も含めて分析できます。ただし、結論が変わる可能性もあります。それ自体が新しい発見につながります。

Q5. もっと深く学ぶには何を読めばいいですか？

「計量経済学」「データサイエンス入門」「統計的因果推論」などのテキストが入門に向いています。Python の場合は『Python ではじめる機械学習』（オライリー）、R の場合は『R で学ぶ統計学』が定番です。本サイトの他の論文も読み比べてみてください。

目次

🎯 この記事を読むと何ができるようになるか

📥 データの準備（再現コードを動かす前に）

データ：47都道府県の小学5年生

目的変数

説明変数候補

DS LEARNING POINT 1

Pearson相関係数と無相関検定

DS LEARNING POINT 2

VIFの計算方法

DS LEARNING POINT 3

サブグループ分析の実施方法

まとめ

主要な発見

データ・コードのダウンロード

⚠️ よくある誤解と注意点

📖 用語集（この記事に出てくる統計用語）

📐 使っている手法をわかりやすく解説

◆ 統計の基本概念（どの論文にも共通）

◆ この論文で使われている手法

🚀 発展の可能性（結果 X → 新仮説 Y → 課題 Z）

🎯 自分でやってみよう（5つのチャレンジ）

📚 関連する他の論文（同じ手法・データを使った研究）

💼 この手法は実社会でこう使われている

🤔 よくある質問（読者からの想定Q&A）