日本では都道府県間で医療費支出や健康状態に大きな格差があることが知られている。例えば、2022年データでは保健医療費(二人以上世帯の月次支出)は最大の愛知県(19,107円)と最小の青森県(9,411円)で約2倍の開きがある。この格差はなぜ生じるのか——所得水準なのか、高齢化率 なのか、医療アクセスなのか——を統計的に解明することが本研究の目的である。
まず「地域別健康格差と社会経済要因の関係」 を統計的にとらえることが有効だと考えられる。
その理由は感覚や経験則だけでは、複雑な社会要因の中で「何が本当に効いているか」を見極めにくいから である。
本研究では公開データと統計手法を組み合わせ、この問いに定量的な答えを出すことを目指す。
研究の問い(Research Question)
都道府県間の保健医療費格差を規定する社会経済要因は何か?高齢化・所得・都市化・医療アクセスのどの要因が最も影響力を持つのか?
分析の流れ
SSDSE-B 2022年 47都道府県
→
変数設計 (健康・ 社会経済)
→
相関分析 (Pearson r)
→
重回帰分析 (OLS標準化)
→
Ward法 クラスタリング
SSDSE-B
Pearson相関分析
重回帰分析(OLS)
Ward法クラスタリング
2. データと変数:SSDSE-B の活用
データ概要
本研究では、統計センターが公開する SSDSE (社会・人口統計体系)の都道府県データセット SSDSE-B-2026 を使用する。2022年の断面データ(47都道府県)を分析対象とした。
項目 内容
データソース SSDSE-B-2026(社会・人口統計体系 都道府県データ)
分析年度 2022年(令和4年)
サンプルサイズ 47都道府県(全都道府県)
地域コード R01001〜R47001(R\d{5} パターン)
変数の定義
SSDSE-B から以下の変数を構築した。「現金給与総額」が収録されていないため、消費支出を所得の代理変数として使用する(国際的にも家計消費は所得の良い代理指標とされる)。
カテゴリ
変数名
定義
単位
健康指標
保健医療費
保健医療費(二人以上世帯)の月次支出
円/月
保健医療費率
保健医療費 ÷ 消費支出 × 100
%
医療施設数(10万対)
(一般病院数 + 一般診療所数)/ 総人口 × 100,000
施設数/10万人
社会経済指標
高齢化率
65歳以上人口 ÷ 総人口 × 100
%
消費支出(所得代理)
消費支出(二人以上世帯)の月次支出
円/月
転入率(都市化指標)
転入者数 ÷ 総人口 × 1000
‰
基本統計量(2022年・47都道府県)
289,630
消費支出(所得代理) [円/月] 平均
保健医療費の地域格差
最大:愛知県 19,107円/月(全国平均 の+33%)
最小:青森県 9,411円/月(全国平均 の−35%)
最大・最小の比:約2.03倍(格差の大きさを示す)
DS LEARNING POINT 1
代理変数(Proxy Variable)の使い方
理想的な変数(例:現金給与総額)がデータに存在しない場合、理論的に相関 の高い「代理変数」を使う。本研究では消費支出を所得の代理変数として採用した。代理変数を使う際は「なぜその変数が代理として適切か」の根拠を明示することが重要。
消費支出 vs 保健医療費: r = 0.696 (***) ← 代理変数として有効
3. 健康指標の地域分布
Figure 1: 高齢化率と保健医療費の散布図
47都道府県の高齢化率 (X軸)と保健医療費(Y軸)の関係を地域別に色分けして可視化した。
📌 この散布図 の読み方
このグラフは 横軸(x)と縦軸(y)に2変数を取り、各都道府県(または自治体)を点で描いたグラフ。
読み方 点の並びに右上がりの傾向があれば正の相関 、右下がりなら負の相関 。点が直線に近いほど相関 が強い。
なぜそう解釈できるか 回帰直線 (赤線など)の傾きが回帰係数 に対応する。直線から大きく外れた点が外れ値 で、特異な地域を示す。
注目すべき発見:「高齢化率 が高い県は保健医療費が低い」
一般に「高齢者が多いほど医療費が高い」と思われがちだが、家計ベースの保健医療費(世帯支出) では逆の相関 (r = −0.468)が見られた。これは東北・地方圏(高齢化率 が高い)の所得水準が低く、保健医療費への支出絶対額が低くなることを示唆する。「医療の必要性(ニード)」と「支払い能力(アフォーダビリティ)」の乖離が格差の本質である。
地域別の傾向
地域
高齢化率 の傾向
保健医療費の傾向
特徴
関東(東京など)
低い(22〜29%)
高め
都市型・高所得・高消費
中部(愛知など)
中程度
最高水準
製造業中心・高賃金
北海道・東北
高い(32〜39%)
低め
高齢化先進地・所得制約
九州・沖縄
中〜高程度
低め
所得水準が相対的に低い
DS LEARNING POINT 2
可視化で仮説を問い直す:散布図の力
先入観と逆の相関 が見えたとき、それこそが新しい発見の種になる。「高齢化 → 医療費増加」という直感的な仮説を散布図 が覆した。この逆相関 は「保健医療費(家計支出)」が「医療の必要性」ではなく「支払い能力」を反映しているためと解釈できる。
r, p = stats.linregress(aging_rate, health_spending)
# r = -0.468: 負の相関 (高齢化率 ↑ → 保健医療費支出 ↓)
📝 コード
📋 コピー fig , ax = plt . subplots ( figsize = ( 12 , 8 ))
x = aging_rate
y = health_spending
# 地域ごとに色付きでプロット
for region , color in region_colors . items ():
mask = df [ '地域区分' ] == region
ax . scatter ( x [ mask ], y [ mask ], color = color , s = 70 , alpha = 0.85 ,
label = region , zorder = 3 , edgecolors = 'white' , linewidths = 0.5 )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。
💡 Python TIPS df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise) 。forループ不要なのが強み。
📝 コード
📋 コピー # 都道府県ラベル
for i , pref in enumerate ( pref_names ):
short = pref . replace ( '県' , '' ) . replace ( '府' , '' ) . replace ( '都' , '' ) . replace ( '道' , '' )
ax . annotate ( short , ( x [ i ], y [ i ]),
xytext = ( 3 , 3 ), textcoords = 'offset points' ,
fontsize = 6.5 , alpha = 0.85 , zorder = 4 )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS Seriesの .map() は「1対1の置き換え 」、.apply() は「関数を当てる 」。辞書なら .map()、ロジックなら .apply()。
📝 コード
📋 コピー 17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 # 回帰線
slope , intercept , r_val , p_val , se = stats . linregress ( x , y )
x_line = np . linspace ( x . min (), x . max (), 200 )
y_line = slope * x_line + intercept
ax . plot ( x_line , y_line , color = '#333333' , lw = 2 , ls = '--' , alpha = 0.8 ,
label = f '回帰線 r= { r_val : .3f } (p= { p_val : .4f } )' )
ax . set_xlabel ( '高齢化率(65歳以上人口比率)[%]' , fontsize = 12 )
ax . set_ylabel ( '保健医療費(二人以上世帯)[円/月]' , fontsize = 12 )
ax . set_title ( '高齢化率と保健医療費の関係 \n (2022年・47都道府県)' ,
fontsize = 14 , fontweight = 'bold' )
ax . legend ( fontsize = 9 , loc = 'upper left' , framealpha = 0.9 )
ax . grid ( True , alpha = 0.3 , lw = 0.7 )
plt . tight_layout ()
plt . savefig ( os . path . join ( FIG_DIR , '2021_H2_fig1.png' ), bbox_inches = 'tight' )
plt . close ()
print ( "Figure 1 saved: 散布図(高齢化率 vs 保健医療費)" )
print ( f " \n 高齢化率 vs 保健医療費: r= { r_val : .3f } , p= { p_val : .4f } " )
print ( f " 回帰式: y = { slope : .2f } x + { intercept : .2f } " )
▼ 実行結果
Figure 1 saved: 散布図(高齢化率 vs 保健医療費)
高齢化率 vs 保健医療費: r=-0.468, p=0.0009
回帰式: y = -287.51x + 23403.34
💡 解説
stats.linregress(x, y) — 単回帰の傾き・切片・r値・p値・標準誤差を返します。使わない値は _ で受け取り。fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。
💡 Python TIPS [式 for x in リスト] はリスト内包表記 。forループでappendする代わりに1行でリストを作れます。
4. 重回帰分析:健康支出格差の要因分解
Figure 2: Pearson相関行列ヒートマップ
変数選択の前段階として、6変数の Pearson 相関 行列 を確認した。
📌 この相関 ヒートマップ の読み方
このグラフは 複数の変数ペア間の相関係数 (−1〜+1)を色の濃淡で示した行列 図。
読み方 濃い赤(または青)が強い正(または負)の相関 。対角線は自分自身との相関 なので常に1.0。
なぜそう解釈できるか 「説明変数 どうしの相関 が高い(|r| > 0.8)」マスが多いと多重共線性 の警告サイン。目的変数 との相関 が高い変数が候補として重要。
主な相関の解釈
変数ペア
r
有意水準
解釈
保健医療費 × 消費支出
0.696
***
所得(消費)が高いほど保健医療費も多い
保健医療費 × 高齢化率
−0.468
***
高齢化率 が高い地域ほど家計保健医療費が低い
保健医療費 × 転入率
0.463
**
都市化(転入多)→ 保健医療費支出増
保健医療費 × 医療施設数
0.005
n.s.
単純相関 では関連なし(多変量で制御要)
高齢化率 × 転入率
−0.693
***
都市部は高齢化率 が低い(多重共線性 に注意)
重回帰モデルの設定
相関 分析を踏まえ、保健医療費を目的変数 (Y)、4変数を説明変数 (X)とした重回帰 モデルを構築した。説明変数 はすべて標準化 し、標準化偏回帰係数 (β)を推定することで、異なる単位の変数を比較できるようにした。
Y(標準化保健医療費) = β₁ × 高齢化率 + β₂ × 消費支出 + β₃ × 転入率 + β₄ × 医療施設数 + ε
Figure 3: 標準化偏回帰係数プロット
📌 この回帰係数 プロットの読み方
このグラフは 重回帰分析 の各説明変数 の係数 (影響の強さと向き)をバーや点で表したグラフ。
読み方 右(プラス方向)に伸びるバーは「この変数が増えると目的変数 も増える」正の影響。左(マイナス方向)は逆。
なぜそう解釈できるか エラーバー(誤差棒)が0をまたいでいない変数が統計的に有意(p < 0.05)。バーが長いほど影響が大きい。
重回帰分析の結果
説明変数
β(標準化偏回帰係数 )
p値
有意性
解釈
消費支出(所得代理)
0.638
<0.001
***
最大の正の効果。所得↑→保健医療費↑
医療施設数(10万対)
0.250
0.027
*
医療アクセス↑→受診・支出↑
高齢化率
−0.260
0.090
n.s.
他を制御すると非有意(消費支出で説明)
転入率(都市化)
0.084
0.559
n.s.
消費支出・高齢化率 と相関 し独立効果なし
モデル適合度
R² = 0.6059(決定係数 )|調整済みR² = 0.5684
F = 16.15, p < 0.001(モデル全体は高度に有意)
→ 4変数で保健医療費格差の約60%を説明できる
単純相関 と偏回帰係数 の違い:交絡 の制御
高齢化率 は保健医療費と r = −0.468(単純相関 では有意)だったが、消費支出などを制御した重回帰 では β = −0.260(p=0.090, 非有意)になった。これは「高齢化率 が高い地域ほど消費支出が低い」という交絡変数 (confounder )の存在を示す。本質的な格差要因は所得水準(消費支出)にある。
DS LEARNING POINT 3
重回帰分析で「交絡」を制御する
単変量解析(相関係数 )だけでは因果関係 を誤解する危険がある。重回帰分析 では複数の変数を同時に投入することで、「他の変数を一定にしたときの純粋な効果」(偏回帰係数 )を推定できる。本研究で高齢化率 の効果が単純相関 から偏回帰 で変化したのは交絡因子 (消費支出)の制御によるものである。
X_std = StandardScaler().fit_transform(X_raw)
y_std = (y - y.mean()) / y.std ()
res = sm.OLS (y_std, sm.add_constant(X_std)).fit()
# β: 各説明変数 の標準化偏回帰係数
# p: 他変数を制御したときの純粋効果の有意性
📝 コード
📋 コピー 39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64 fig , ax = plt . subplots ( figsize = ( 9 , 7 ))
im = ax . imshow ( corr_matrix , cmap = 'RdBu_r' , vmin =- 1 , vmax = 1 , aspect = 'auto' )
ax . set_xticks ( range ( len ( var_labels )))
ax . set_xticklabels ( var_labels , fontsize = 10 )
ax . set_yticks ( range ( len ( var_labels )))
ax . set_yticklabels ( var_labels , fontsize = 10 )
for i in range ( len ( var_labels )):
for j in range ( len ( var_labels )):
val = corr_matrix [ i , j ]
p = pval_matrix [ i , j ]
sig_mark = '***' if p < 0.001 else ( '**' if p < 0.01 else ( '*' if p < 0.05 else '' ))
text_color = 'white' if abs ( val ) > 0.5 else 'black'
ax . text ( j , i , f ' { val : .2f }{ sig_mark } ' ,
ha = 'center' , va = 'center' , fontsize = 9 , color = text_color , fontweight = 'bold' )
plt . colorbar ( im , ax = ax , label = 'Pearson相関係数' , shrink = 0.8 )
ax . set_title ( '健康・社会経済指標のPearson相関行列 \n (2022年・47都道府県)'
' \n ※ *p<0.05, **p<0.01, ***p<0.001' ,
fontsize = 12 , fontweight = 'bold' )
plt . tight_layout ()
plt . savefig ( os . path . join ( FIG_DIR , '2021_H2_fig2.png' ), bbox_inches = 'tight' )
plt . close ()
print ( "Figure 2 saved: 相関ヒートマップ" )
▼ 実行結果
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。
💡 Python TIPS [式 for x in リスト] はリスト内包表記 。forループでappendする代わりに1行でリストを作れます。
5. クラスタリング分析:健康特性による都道府県分類
Ward法デンドログラム
4変数(保健医療費・保健医療費率・高齢化率 ・医療施設数10万対)を標準化 し、Ward法 による階層的クラスタリング を実施した。
📌 このデンドログラム (樹形図 )の読み方
このグラフは 階層的クラスタリング の過程を樹木状に示した図。どのサンプル が先に統合されたかがわかる。
読み方 縦軸(高さ)は統合時の距離(非類似度)を示す。低い位置で結合したサンプル ほど似ている。水平線を引いた高さでクラスター数が決まる。
なぜそう解釈できるか 水平線の高さを「大きなジャンプ」の直前に設定することでクラスター数を決める。切り取った後の各グループを変数平均 で特徴づけする。
クラスタリング手法の概要
項目
設定
手法
Ward法 (最小分散 法)
距離指標
ユークリッド距離(標準化 後)
クラスタリング 変数
保健医療費・保健医療費率・高齢化率 ・医療施設数(10万対)の4変数
前処理
各変数を標準化 (StandardScaler)
クラスター数
4(デンドログラム の切断点から判断)
Ward法 の特長
Ward法 はクラスター内の分散 (SS: Sum of Squares)が最小になるように融合を進める。クラスターが「コンパクト」になりやすく、解釈しやすいクラスターが得られる。他の方法(単連結・完全連結)と比べ、「均等なサイズ」のクラスターができやすい特性がある。
読み取れる構造
デンドログラム から、都道府県は健康特性に応じていくつかのグループに分類 される。距離の大きな融合(高い位置での結合)が見られる箇所が自然な区切りとなる。地域別の色分けと照合すると、地理的な隣接だけでなく経済・人口構造の類似性でクラスターが形成されていることがわかる。
DS LEARNING POINT 4
クラスタリング:データからグループを「発見」する
クラスタリング は教師なし学習 の一種で、事前にラベル を与えずにデータの構造を発見する手法。Ward法 では、各ステップで「融合したときにクラスター内分散 の増加が最小になる2クラスターを結合する」。デンドログラム の縦軸(距離)の急増箇所が適切なクラスター数の目安になる。
from scipy.cluster.hierarchy import dendrogram , linkage
Z = linkage(X_scaled, method='ward') # Ward法 で連結行列 を計算
dendrogram (Z, labels=pref_names, ...) # 樹形図 を描画
# Z[-k, 2] が k+1→k クラスターへの切断距離
📝 コード
📋 コピー 66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83 fig , ax = plt . subplots ( figsize = ( 9 , 5.5 ))
n_feat = len ( feature_names_reg )
y_pos = range ( n_feat )
bar_colors = [ '#e05c5c' if p < 0.05 else '#aaaaaa' for p in pvals ]
bars = ax . barh ( y_pos , coefs ,
color = bar_colors , alpha = 0.85 ,
height = 0.5 ,
xerr = [ coefs - cis [:, 0 ], cis [:, 1 ] - coefs ],
capsize = 4 , error_kw = { 'ecolor' : '#555' , 'lw' : 1.5 })
ax . axvline ( 0 , color = 'black' , lw = 1.2 )
ax . set_yticks ( y_pos )
ax . set_yticklabels ( feature_names_reg , fontsize = 11 )
ax . set_xlabel ( '標準化偏回帰係数(β)' , fontsize = 11 )
ax . set_title ( f '重回帰分析: 保健医療費の規定要因 \n (目的変数:保健医療費, R²= { res . rsquared : .3f } , n=47)' ,
fontsize = 12 , fontweight = 'bold' )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。
💡 Python TIPS x if cond else y は三項演算子 。リスト内包表記と組み合わせると、forとifを1行で書けます。
📝 コード
📋 コピー 84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101 # 値ラベル
for i , ( coef , pval ) in enumerate ( zip ( coefs , pvals )):
sig = '**' if pval < 0.01 else ( '*' if pval < 0.05 else 'n.s.' )
offset = 0.01
ha = 'left' if coef >= 0 else 'right'
xpos = coef + offset if coef >= 0 else coef - offset
ax . text ( xpos , i , f 'β= { coef : .3f } \n ( { sig } )' , va = 'center' , ha = ha ,
fontsize = 9 , color = '#333333' )
sig_patch = mpatches . Patch ( color = '#e05c5c' , alpha = 0.85 , label = 'p < 0.05(有意)' )
ns_patch = mpatches . Patch ( color = '#aaaaaa' , alpha = 0.85 , label = 'p ≥ 0.05(非有意)' )
ax . legend ( handles = [ sig_patch , ns_patch ], loc = 'lower right' , fontsize = 9 )
ax . grid ( True , axis = 'x' , alpha = 0.3 , lw = 0.7 )
plt . tight_layout ()
plt . savefig ( os . path . join ( FIG_DIR , '2021_H2_fig3.png' ), bbox_inches = 'tight' )
plt . close ()
print ( "Figure 3 saved: 標準化偏回帰係数プロット" )
▼ 実行結果
Figure 3 saved: 標準化偏回帰係数プロット
💡 解説
fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。
💡 Python TIPS df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡している と覚えるとミスを減らせます。
6. 政策的示唆
本研究の分析結果から、地域間の健康格差に対する政策的な示唆を導く。
示唆 1: 所得格差の是正が健康格差縮小の鍵
重回帰分析 で最大の説明力(β = 0.638***)を持つのは消費支出(所得代理)であった。「地域間所得格差の是正」が保健医療費格差を縮小させるうえで最も重要な政策ターゲットとなる。地方の賃金水準引き上げ、産業誘致・雇用創出が間接的に健康支出格差を縮小する可能性がある。
示唆 2: 医療アクセスの拡充が有意な効果
医療施設数(10万対)の偏回帰係数 は β = 0.250(p = 0.027, *)と有意であった。医師・診療所が少ない地域では「受診したくても受診できない」状況(アンメットニーズ)が存在する可能性がある。医療施設の整備・医師の地方配置促進が保健医療費格差の縮小に有効と考えられる。
示唆 3: 高齢化率 は交絡変数 ——高齢者ケアの再考
高齢化率 は単純相関 では有意な負の相関 を示したが、重回帰 では非有意となった。本当の問題は「高齢化率 そのもの」ではなく、「高齢化が進む地域ほど所得水準が低い」という複合的な不利である。高齢者医療費の支援策は、単に医療費補助にとどまらず「低所得高齢者の生活基盤整備」とセットで講じる必要がある。
健康格差の概念整理
家計ベースの保健医療費(本研究の指標)は「支払い意思・能力」を反映するが、「医療の必要性(ニード)」を必ずしも反映しない。本来の意味での「健康格差」(健康状態・受診率・未受診率など)の把握には、SSDSE-B 以外の医療費統計や健康診断データが必要である。本研究はあくまで「家計保健医療費」の規定要因を探索したものと位置づけるべきである。
📝 コード
📋 コピー 103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120 import os
import warnings
import numpy as np
import pandas as pd
import matplotlib
matplotlib . use ( 'Agg' )
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import statsmodels.api as sm
from scipy import stats
from scipy.cluster.hierarchy import dendrogram , linkage
from sklearn.preprocessing import StandardScaler
warnings . filterwarnings ( 'ignore' )
plt . rcParams [ 'font.family' ] = 'Hiragino Sans'
plt . rcParams [ 'axes.unicode_minus' ] = False
plt . rcParams [ 'figure.dpi' ] = 150
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。matplotlib.use('Agg') — グラフを画面表示せずファイルに保存するためのおまじない。plt.rcParams['font.family'] — グラフの日本語表示用フォント指定(Macは Hiragino Sans、Windowsなら Yu Gothic 等)。StandardScaler().fit_transform(X) — 各列を「平均0・分散1」に標準化。単位が違う変数のβを比較可能に。
💡 Python TIPS f"...{x}..." はf-string 。文字列の中に {変数} と書くだけで埋め込めて、{x:.2f} のように書式も指定できます。
📝 コード
📋 コピー 121
122
123
124
125
126
127
128 # ── パス設定 ──────────────────────────────────────────────────────────
FIG_DIR = 'html/figures'
DATA_B = 'data/raw/SSDSE-B-2026.csv'
os . makedirs ( FIG_DIR , exist_ok = True )
df_b = pd . read_csv ( DATA_B , encoding = 'cp932' , header = 1 )
df_b = df_b [ df_b [ '地域コード' ] . str . match ( r '^R\d {5} ' , na = False )] . copy ()
df_b [ '年度' ] = df_b [ '年度' ] . astype ( int )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
os.makedirs('html/figures', exist_ok=True) — 図の保存先フォルダを作る(既にあってもOK)。pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。df['地域コード'].str.match(r'^R\d{5}', ...) — 正規表現で「R+数字5桁」の行(47都道府県)だけTrueにし、真偽値で行をフィルタ。.astype(int) — 列を整数に変換(年度などを数値比較するため)。
💡 Python TIPS df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise) 。forループ不要なのが強み。
📝 コード
📋 コピー 129
130
131
132
133
134
135 # 2022年断面データ(47都道府県)
df = df_b [ df_b [ '年度' ] == 2022 ] . copy () . reset_index ( drop = True )
assert len ( df ) == 47 , f "Expected 47 prefectures, got { len ( df ) } "
print ( f "=== データ読み込み完了 ===" )
print ( f " 都道府県数: { len ( df ) } " )
print ( f " 年度: { df [ '年度' ] . unique () } " )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS Seriesの .map() は「1対1の置き換え 」、.apply() は「関数を当てる 」。辞書なら .map()、ロジックなら .apply()。
📝 コード
📋 コピー 136
137
138
139
140
141
142 # ── 変数の構築 ─────────────────────────────────────────────────────
# 人口関連
pop = df [ '総人口' ] . values . astype ( float )
# 健康指標
# (1) 保健医療費(二人以上の世帯)[円/月] → 家計支出ベース
health_spending = df [ '保健医療費(二人以上の世帯)' ] . values . astype ( float )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS [式 for x in リスト] はリスト内包表記 。forループでappendする代わりに1行でリストを作れます。
📝 コード
📋 コピー 143
144
145
146
147
148
149
150 # (2) 保健医療費の消費支出比率 [%]
total_spending = df [ '消費支出(二人以上の世帯)' ] . values . astype ( float )
health_ratio = health_spending / total_spending * 100
# (3) 医療施設数(一般病院数 + 一般診療所数)/ 人口10万対
hospital_cnt = df [ '一般病院数' ] . values . astype ( float )
clinic_cnt = df [ '一般診療所数' ] . values . astype ( float )
medical_per10k = ( hospital_cnt + clinic_cnt ) / pop * 100000
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる (タプルアンパック)。
📝 コード
📋 コピー 151
152
153
154
155
156
157
158 # 社会経済指標
# (4) 高齢化率 [%]
elderly_pop = df [ '65歳以上人口' ] . values . astype ( float )
aging_rate = elderly_pop / pop * 100
# (5) 消費支出水準(所得代理変数)[円/月] → 所得の代理として消費支出を使用
# SSDSE-Bには現金給与総額がないため消費支出を使用
income_proxy = total_spending # 消費支出(所得代理)
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS x if cond else y は三項演算子 。リスト内包表記と組み合わせると、forとifを1行で書けます。
📝 コード
📋 コピー 159
160
161
162
163
164
165
166
167
168
169
170
171
172
173 # (6) 人口密度: 一般病院数を面積代理として使わず、人口絶対数で代用
# SSDSE-Bに面積変数がないため、都道府県の総人口を用いて対数変換で密度感を表現
# 転入者数(移動者)を用いた都市化指標(流入多いほど都市)
inflow = df [ '転入者数(日本人移動者)' ] . values . astype ( float )
urban_idx = inflow / pop * 1000 # 転入率(都市化代理)[‰]
# データフレームに格納
df [ '高齢化率' ] = aging_rate
df [ '保健医療費' ] = health_spending
df [ '保健医療費率' ] = health_ratio
df [ '医療施設数10万対' ] = medical_per10k
df [ '消費支出' ] = income_proxy
df [ '転入率' ] = urban_idx
pref_names = df [ '都道府県' ] . values
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡している と覚えるとミスを減らせます。
📝 コード
📋 コピー 174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200 # ── 地域区分 ──────────────────────────────────────────────────────
region_map = {
'北海道' : '北海道・東北' , '青森県' : '北海道・東北' , '岩手県' : '北海道・東北' ,
'宮城県' : '北海道・東北' , '秋田県' : '北海道・東北' , '山形県' : '北海道・東北' ,
'福島県' : '北海道・東北' , '茨城県' : '関東' , '栃木県' : '関東' , '群馬県' : '関東' ,
'埼玉県' : '関東' , '千葉県' : '関東' , '東京都' : '関東' , '神奈川県' : '関東' ,
'新潟県' : '中部' , '富山県' : '中部' , '石川県' : '中部' , '福井県' : '中部' ,
'山梨県' : '中部' , '長野県' : '中部' , '岐阜県' : '中部' , '静岡県' : '中部' , '愛知県' : '中部' ,
'三重県' : '近畿' , '滋賀県' : '近畿' , '京都府' : '近畿' , '大阪府' : '近畿' ,
'兵庫県' : '近畿' , '奈良県' : '近畿' , '和歌山県' : '近畿' ,
'鳥取県' : '中国・四国' , '島根県' : '中国・四国' , '岡山県' : '中国・四国' ,
'広島県' : '中国・四国' , '山口県' : '中国・四国' , '徳島県' : '中国・四国' ,
'香川県' : '中国・四国' , '愛媛県' : '中国・四国' , '高知県' : '中国・四国' ,
'福岡県' : '九州・沖縄' , '佐賀県' : '九州・沖縄' , '長崎県' : '九州・沖縄' ,
'熊本県' : '九州・沖縄' , '大分県' : '九州・沖縄' , '宮崎県' : '九州・沖縄' ,
'鹿児島県' : '九州・沖縄' , '沖縄県' : '九州・沖縄'
}
region_colors = {
'北海道・東北' : '#4e9af1' ,
'関東' : '#e05c5c' ,
'中部' : '#f0a500' ,
'近畿' : '#5cb85c' ,
'中国・四国' : '#9b59b6' ,
'九州・沖縄' : '#f39c12'
}
df [ '地域区分' ] = df [ '都道府県' ] . map ( region_map )
▼ 実行結果
=== データ読み込み完了 ===
都道府県数: 47
年度: [2022]
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。
📝 コード
📋 コピー 201
202
203
204
205
206
207
208
209
210
211
212 var_labels = [
'保健医療費' , '保健医療費率' ,
'医療施設数 \n 10万対' , '高齢化率' ,
'消費支出' , '転入率'
]
var_data = np . column_stack ([
health_spending , health_ratio ,
medical_per10k , aging_rate ,
income_proxy , urban_idx
])
corr_matrix = np . corrcoef ( var_data , rowvar = False )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS Seriesの .map() は「1対1の置き換え 」、.apply() は「関数を当てる 」。辞書なら .map()、ロジックなら .apply()。
📝 コード
📋 コピー 213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228 # p値行列の計算
n = len ( health_spending )
pval_matrix = np . ones_like ( corr_matrix )
for i in range ( len ( var_labels )):
for j in range ( len ( var_labels )):
if i != j :
_ , pval_matrix [ i , j ] = stats . pearsonr ( var_data [:, i ], var_data [:, j ])
print ( " \n === 相関行列 ===" )
for i , li in enumerate ( var_labels ):
for j , lj in enumerate ( var_labels ):
if i < j :
label_i = li . replace ( ' \n ' , '' )
label_j = lj . replace ( ' \n ' , '' )
sig = '***' if pval_matrix [ i , j ] < 0.001 else ( '**' if pval_matrix [ i , j ] < 0.01 else ( '*' if pval_matrix [ i , j ] < 0.05 else '' ))
print ( f " { label_i } vs { label_j } : r= { corr_matrix [ i , j ] : .3f } { sig } " )
▼ 実行結果
=== 相関行列 ===
保健医療費 vs 保健医療費率: r=0.895 ***
保健医療費 vs 医療施設数10万対: r=0.005
保健医療費 vs 高齢化率: r=-0.468 ***
保健医療費 vs 消費支出: r=0.696 ***
保健医療費 vs 転入率: r=0.463 **
保健医療費率 vs 医療施設数10万対: r=0.170
保健医療費率 vs 高齢化率: r=-0.379 **
保健医療費率 vs 消費支出: r=0.306 *
保健医療費率 vs 転入率: r=0.414 **
医療施設数10万対 vs 高齢化率: r=0.323 *
医療施設数10万対 vs 消費支出: r=-0.250
医療施設数10万対 vs 転入率: r=-0.018
高齢化率 vs 消費支出: r=-0.361 *
高齢化率 vs 転入率: r=-0.693 ***
消費支出 vs 転入率: r=0.318 *
💡 解説
stats.pearsonr(x, y) — Pearson相関係数 r と p値を同時に返します。
💡 Python TIPS [式 for x in リスト] はリスト内包表記 。forループでappendする代わりに1行でリストを作れます。
📝 コード
📋 コピー 229
230
231
232
233
234
235
236
237
238 y_raw = health_spending . copy ()
X_raw = np . column_stack ([
aging_rate , # 高齢化率
income_proxy , # 消費支出(所得代理)
urban_idx , # 転入率(都市化指標)
medical_per10k , # 医療施設数10万対
])
feature_names_reg = [ '高齢化率' , '消費支出 \n (所得代理)' , '転入率 \n (都市化)' , '医療施設数 \n 10万対' ]
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる (タプルアンパック)。
📝 コード
📋 コピー 239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255 # 標準化
scaler = StandardScaler ()
X_std = scaler . fit_transform ( X_raw )
y_std = ( y_raw - y_raw . mean ()) / y_raw . std ()
# OLS 推定
X_ols = sm . add_constant ( X_std )
res = sm . OLS ( y_std , X_ols ) . fit ()
print ( " \n === 重回帰分析結果(標準化) ===" )
print ( res . summary2 () . tables [ 1 ][[ 'Coef.' , 'Std.Err.' , 't' , 'P>|t|' ]] . to_string ())
print ( f " \n R² = { res . rsquared : .4f } , 調整済みR² = { res . rsquared_adj : .4f } " )
print ( f " F統計量 = { res . fvalue : .3f } , p = { res . f_pvalue : .6f } " )
coefs = np . array ( res . params [ 1 :]) # 定数項を除く
pvals = np . array ( res . pvalues [ 1 :])
cis = np . array ( res . conf_int ())[ 1 :]
▼ 実行結果
=== 重回帰分析結果(標準化) ===
Coef. Std.Err. t P>|t|
const -1.960238e-16 0.096862 -2.023741e-15 1.000000e+00
x1 -2.602975e-01 0.149806 -1.737564e+00 8.961644e-02
x2 6.376857e-01 0.106383 5.994221e+00 4.048772e-07
x3 8.404701e-02 0.142716 5.889106e-01 5.590755e-01
x4 2.502817e-01 0.109343 2.288961e+00 2.717652e-02
R² = 0.6059, 調整済みR² = 0.5684
F統計量 = 16.146, p = 0.000000
💡 解説
StandardScaler().fit_transform(X) — 各列を「平均0・分散1」に標準化。単位が違う変数のβを比較可能に。sm.add_constant(X) — 切片項(定数1の列)を先頭に追加。statsmodelsで必須。sm.OLS(y, X).fit() — 最小二乗法でモデルを推定。model.params, model.pvalues, model.conf_int() で結果取得。
💡 Python TIPS x if cond else y は三項演算子 。リスト内包表記と組み合わせると、forとifを1行で書けます。
📝 コード
📋 コピー 256
257
258
259
260
261
262
263
264
265 cluster_vars = np . column_stack ([
health_spending / health_spending . std (), # 保健医療費(標準化)
health_ratio / health_ratio . std (), # 保健医療費率(標準化)
aging_rate / aging_rate . std (), # 高齢化率(標準化)
medical_per10k / medical_per10k . std (), # 医療施設数(標準化)
])
Z = linkage ( cluster_vars , method = 'ward' )
fig , ax = plt . subplots ( figsize = ( 14 , 6 ))
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。
💡 Python TIPS df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡している と覚えるとミスを減らせます。
📝 コード
📋 コピー 266
267
268
269
270
271
272
273
274
275
276
277
278
279
280 # 地域色のリスト(都道府県順)
leaf_colors_dict = {}
for i , pref in enumerate ( pref_names ):
region = region_map . get ( pref , '九州・沖縄' )
leaf_colors_dict [ i ] = region_colors [ region ]
dend = dendrogram (
Z ,
labels = pref_names ,
leaf_rotation = 90 ,
leaf_font_size = 8 ,
color_threshold = Z [ - 4 , 2 ],
ax = ax ,
above_threshold_color = '#aaaaaa' ,
)
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。
📝 コード
📋 コピー 281
282
283
284
285
286
287
288
289 # 切断線(4クラスター)
threshold = Z [ - 3 , 2 ]
ax . axhline ( threshold , color = '#e05c5c' , ls = '--' , lw = 2 , alpha = 0.9 ,
label = f '切断点(4クラスター, 距離= { threshold : .2f } )' )
ax . set_title ( 'Ward法デンドログラム: 都道府県の健康特性クラスタリング \n (2022年・47都道府県, 健康指標4変数)' ,
fontsize = 13 , fontweight = 'bold' )
ax . set_ylabel ( '距離(Ward法)' , fontsize = 11 )
ax . legend ( fontsize = 10 )
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。
💡 Python TIPS np.cumsum(arr) は累積和 、np.linspace(a, b, n) は「aからbを等間隔でn個」。NumPyの定石です。
📝 コード
📋 コピー 290
291
292
293
294
295
296
297
298
299
300
301
302 # 地域凡例
legend_handles = [
mpatches . Patch ( color = c , label = r ) for r , c in region_colors . items ()
]
ax . legend ( handles = legend_handles + [
mpatches . Patch ( color = '#e05c5c' , label = f '切断点(距離= { threshold : .2f } )' ,
linestyle = '--' , fill = False , edgecolor = '#e05c5c' )
], fontsize = 8 , loc = 'upper right' , ncol = 2 )
plt . tight_layout ()
plt . savefig ( os . path . join ( FIG_DIR , '2021_H2_fig4.png' ), bbox_inches = 'tight' )
plt . close ()
print ( "Figure 4 saved: Ward法デンドログラム" )
▼ 実行結果
Figure 4 saved: Ward法デンドログラム
💡 解説
fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。
💡 Python TIPS f-stringの書式 {値:.2f}(小数2桁)、{値:,}(3桁区切り)、{値:>10}(右寄せ10桁)など、覚えると出力が一気に整います。
📝 コード
📋 コピー 303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323 print ( " \n " + "=" * 60 )
print ( "■ 統計サマリー(2022年・47都道府県)" )
print ( "=" * 60 )
print ( f " 保健医療費 平均: { health_spending . mean () : .0f } 円/月" )
print ( f " 保健医療費 最大: { health_spending . max () : .0f } ( { pref_names [ np . argmax ( health_spending )] } )" )
print ( f " 保健医療費 最小: { health_spending . min () : .0f } ( { pref_names [ np . argmin ( health_spending )] } )" )
print ( f " 保健医療費率 平均: { health_ratio . mean () : .2f } %" )
print ( f " 高齢化率 平均: { aging_rate . mean () : .2f } %" )
print ( f " 高齢化率 最大: { aging_rate . max () : .2f } % ( { pref_names [ np . argmax ( aging_rate )] } )" )
print ( f " 高齢化率 最小: { aging_rate . min () : .2f } % ( { pref_names [ np . argmin ( aging_rate )] } )" )
print ( f " 医療施設数 平均 (10万対): { medical_per10k . mean () : .2f } " )
print ( f " 消費支出 平均: { income_proxy . mean () : .0f } 円/月" )
print ( f " \n 重回帰分析:" )
print ( f " R²= { res . rsquared : .4f } , 調整済みR²= { res . rsquared_adj : .4f } " )
print ( f " F= { res . fvalue : .3f } , p= { res . f_pvalue : .6f } " )
for fname , coef , pval in zip ( feature_names_reg , coefs , pvals ):
fname_clean = fname . replace ( ' \n ' , '' )
sig = '***' if pval < 0.001 else ( '**' if pval < 0.01 else ( '*' if pval < 0.05 else 'n.s.' ))
print ( f " { fname_clean } : β= { coef : .4f } , p= { pval : .4f } { sig } " )
print ( " \n 分析完了。html/figures/ に4枚の図を保存しました。" )
▼ 実行結果
============================================================
■ 統計サマリー(2022年・47都道府県)
============================================================
保健医療費 平均: 14390 円/月
保健医療費 最大: 19107 (愛知県)
保健医療費 最小: 9411 (青森県)
保健医療費率 平均: 4.96 %
高齢化率 平均: 31.35 %
高齢化率 最大: 38.60 % (秋田県)
高齢化率 最小: 22.81 % (東京都)
医療施設数 平均 (10万対): 91.71
消費支出 平均: 289630 円/月
重回帰分析:
R²=0.6059, 調整済みR²=0.5684
F=16.146, p=0.000000
高齢化率: β=-0.2603, p=0.0896 n.s.
消費支出(所得代理): β=0.6377, p=0.0000 ***
転入率(都市化): β=0.0840, p=0.5591 n.s.
医療施設数10万対: β=0.2503, p=0.0272 *
分析完了。html/figures/ に4枚の図を保存しました。
💡 解説
このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。
⚠️ よくある誤解と注意点
統計分析の解釈で初心者がやりがちな勘違い をまとめます。特に「相関 と因果 の混同」「p値 の過信」は研究現場でもよく起きる落とし穴です。本文を読む前にも、読んだ後にも、目を通してみてください。
❌ 「相関がある=因果関係がある」ではない
疑似相関 (spurious correlation ) とは、見かけ上は関係があるように見えるが、実際は無関係、または第三の変数(交絡変数 )が両方に影響しているだけの現象です。古典例: アイスクリームの売上 と 水難事故件数 は強く相関 するが、片方が他方を引き起こしているわけではない。両者とも「夏の暑さ」という第三の変数 に引きずられているだけ。論文を読むときの心構え: 「○○と△△に強い相関 が見られた」だけで終わっている主張は、本当に因果関係 があるのか、それとも第三の変数(人口・所得・地理など)が共通要因として効いているだけではないかを必ず疑ってください。
❌ 「p値が小さい=重要な発見」ではない
p値 が小さい(例えば p < 0.001)ことは「統計的に偶然とは考えにくい 」という意味であって、「実用的に大きな効果がある 」という意味ではありません。例: 巨大なサンプルサイズ (n=100,000)では、相関係数 r=0.02 でも p < 0.001 になります。しかし r=0.02 は実用上ほぼ無視できる関係です。正しい読み方: p値 と効果量 (係数 の大きさ、相関係数 の値)の両方 をセットで判断してください。p値 だけで「重要な発見」と結論づけるのは誤りです。
❌ 「回帰係数が大きい=重要な変数」ではない
回帰係数 の絶対値は、説明変数 の単位 に強く依存します。「年収(万円)」と「失業率(%)」の係数 を直接比較しても意味がありません。正しい比較方法: (1) 標準化係数 (各変数を平均 0・分散 1に変換した上での係数 )を使う、(2) 限界効果 (変数を1標準偏差 動かしたときのyの変化)で比較する。 また、係数 の大きさが「因果関係 の強さ 」を意味するわけでもありません。あくまで「相関 的な関連の強さ」です。
❌ 「外れ値を除外すれば正しい結果」ではない
外れ値 (極端な値)を「目障りだから」「結果が綺麗にならないから」という理由で除外するのは分析の改ざん に近い行為です。外れ値 が示すもの: 本当に重要な情報(東京の超高密度、北海道の超低密度など)であることが多い。外れ値 を取り除くと「日本全体の傾向」を見誤る原因になります。正しい対処: (1) 外れ値 の出現要因を調査する(なぜ東京だけ突出するのか)、(2) ノンパラ メトリック手法(Spearman相関 ・Kruskal-Wallis )を使う、(3) 外れ値 を含む結果と除外した結果の両方を提示し、解釈を読者に委ねる。
❌ 「サンプルサイズが大きい=信頼できる」ではない
サンプルサイズ (n)が大きいと統計的検定の検出力 は上がりますが、それは「偶然による誤差 を減らす効果」にすぎません。nが大きくても解消されない問題: ・選択バイアス (標本 が偏っている) ・測定誤差 (変数の定義が曖昧) ・欠損値 のパターン(欠損 がランダムでない) ・交絡変数 の見落とし例: 1万人にWeb調査して「ネット利用と幸福度は強く相関 」と言っても、そもそも回答者がネットユーザー寄りに偏っているため、母集団 全体の結論にはなりません。
❌ 「複雑なモデル=より良い分析」ではない
ランダムフォレスト ・ニューラルネット ・複雑な階層モデルなど、高度な手法を使えば「良い分析」と感じがちですが、必ずしもそうではありません。過学習 (overfitting)の罠: モデルが複雑すぎると、訓練データ の偶然のパターン まで学習してしまい、新しいデータでは予測精度 が落ちます。シンプルさの価値: 重回帰分析 や相関 分析は「結果が解釈しやすい」「再現性が高い」という大きな利点があります。複雑な手法はシンプルな手法で答えが出ない時の最後の手段 です。
❌ 「多重共線性は気にしなくていい」ではない
多重共線性 とは、説明変数 同士の相関 が極めて強い状態のこと。これを放置すると、回帰係数 の符号や大きさが入れ替わる 異常事態が起こります。典型例: 「総人口」と「労働力人口」を同時に投入すると、両者の相関 が r=0.99 になり、係数 推定が極端に不安定になります。「総人口は正だが、労働力人口は負」のような解釈不能な結果 になりがちです。診断と対処: ・VIF(分散拡大係数) を計算し、VIF > 10 の変数を確認 ・相関 行列 で |r| > 0.8 のペアをチェック ・対処法:一方を除外、合成変数(PCA )に変換、Ridge回帰 で安定化
❌ 「R²が高い=良いモデル」ではない
決定係数 R² はモデルの「当てはまりの良さ」を示しますが、R² が高くてもモデルが正しいとは限りません 。R² が高くなる罠: ・説明変数 を増やせば R² は自動的に上がる (無関係な変数を追加してもR² は下がらない) ・時系列 データでは、共通のトレンド(時間とともに増加)があるだけで R² が 0.9 を超える ・サンプルサイズ が小さいとR² が過大評価される代替指標: 調整済み R² (変数の数でペナルティ) 、AIC ・BIC (モデル選択 基準)を併用してください。予測力の真の評価には交差検証 (cross-validation) でテストデータ の R² を見ること。
❌ 「ステップワイズで選んだ変数は重要」ではない
ステップワイズ法 (バックワード・フォワード選択)は便利ですが、p値 ベースの変数選択は再現性に問題がある と批判されています。問題点: ・同じデータでも実行順序によって最終モデルが変わる ・p値 を繰り返し見ることで「偶然に有意な変数」を拾ってしまう(p-hacking ) ・係数 の標準誤差 が過小評価され、信頼区間 が嘘っぽくなるより良い方法: ・事前に変数を理論で絞る (先行研究から候補を選ぶ) ・LASSO回帰 (自動かつ統計的に正当化された変数選択)を使う ・交差検証 で AIC /BIC 最小モデルを選ぶ
❌ 「線形回帰なら線形関係を前提にすべき」
重回帰分析 は線形関係 を前提とします。実際の関係が非線形なのに線形モデルで分析すると、本当の関係を見逃します 。非線形の例: ・U字型関係: 失業率と物価上昇率(フィリップス曲線) ・逓減効果: 所得と幸福度(年収 800万円までは強い正の効果、それ以上は飽和) ・閾値効果: 高齢化率 と医療費(ある水準を超えると急激に上がる)診断と対処: ・残差 プロット で残差 が0周辺に均等に分布しているか確認 ・変数の対数変換 ・二乗項追加 で非線形性を取り込む ・どうしても線形では捉えられないなら、機械学習 (RF ・GBM)を併用する
❌ 「データに当てはまった=予測に使える」ではない
「過去のデータでフィットしたから将来も予測できる」と思うのは危険です。過学習 (overfitting)の例: 47都道府県のデータに10個の説明変数 を投入すれば、ほぼ完璧にフィットします(自由度 がほぼゼロ)。でもそのモデルを新しい年度 に適用すると、予測精度 はほぼランダム並みに落ちることがあります。正しい予測力の評価: ・データを訓練用 70% とテスト用 30% に分割し、テスト用での予測精度 を見る ・k分割交差検証 (k-fold CV )で予測の安定性を確認 ・「説明変数 の数 ≪ サンプルサイズ 」のバランスを意識(目安:n > 10 × 変数数)
🎯 自分でやってみよう(5つのチャレンジ)
学んだだけでは身につきません。実際に手を動かす のが最強の学習方法です。本論文のスクリプトをベースに、以下のチャレンジに挑戦してみてください。難易度別に5つ用意しました。
★☆☆☆☆ 入門
CH1. 同じデータで分析を再現する
まずは付属の Python スクリプトをそのまま実行し、論文と同じ図を再現してみてください。
ポイント: 各図がどのコード行から生成されているか辿る。エラーが出たら原因を考える。
★★☆☆☆ 初級
CH2. 説明変数 を1つ追加・除外して結果を比較
本論文の分析モデルから説明変数 を1つ抜いて再実行、あるいは1つ追加して再実行してください。
ポイント: 係数 ・p値 ・R² がどう変わったか観察する。多重共線性 が原因で結果が変わる例を見つけられたら理想的。
★★★☆☆ 中級
CH3. 別の年度・別の都道府県で同じ分析を試す
SSDSE の別の年度(例:2015年度・2020年度)または特定都道府県のみのデータで同じ分析を実行してください。
ポイント: 時代や地域によって結論が変わるか? 変わるならその理由を考察する。
★★★★☆ 上級
CH4. 別の手法を組み合わせる
本論文の手法 + 1つの追加手法(例:重回帰 + LASSO 、相関 分析 + 主成分分析 )で結果を比較してください。
ポイント: 手法の違いで結論が変わるか? どちらが妥当かを「なぜ」とともに説明できるように。
★★★★★ 発展
CH5. オリジナルの問いを立てて分析する
本論文の手法を借りて、あなた自身の問い を立てて分析してください。
例:「カフェの数と幸福度に関連はあるか」「教育費の高い県は出生率も高いか」など。
ポイント: 問い・データ・手法・結論を1ページのレポートにまとめる。これがデータサイエンス の「実践」。
💡 ヒント: 詰まったら本サイトの他の論文(同じ手法を使っている)のスクリプト をコピーして組み合わせるのが効率的です。手法ガイド・用語集も参考に。
🤔 よくある質問(読者からの想定Q&A)
この論文を読んで初心者が抱きやすい疑問に、教育的観点から答えます。
Q1. この分析、自分でもできますか?
はい、できます。SSDSE データは無料で公開されており、Python の pandas , scikit-learn , statsmodels を使えば全く同じ手順で再現可能です。本ページ下部のスクリプトを実行するだけで結果が得られます。
Q2. 使われている手法は他の分野にも応用できますか?
十分応用可能です。本論文の[手法]は、医療・教育・経済・環境など他のドメインでも標準的に使われる手法です。データの中身(変数)を入れ替えるだけで、別の問いにも適用できます。
Q3. 結論は本当に「因果関係」を示していますか?
本論文は「観察データ」を使った分析であり、厳密な意味での「因果関係 」を完全に証明したわけではありません。あくまで「強い関連が見られた」という事実を提示しているにとどまります。真の因果 を示すには、無作為化比較試験(RCT)か、自然実験 を活用したIV ・DiD 等の手法が必要です。
Q4. データの最新版を使うとどうなりますか?
SSDSE は毎年更新されているため、最新版を使えば近年のトレンド(特にコロナ禍以降の変化)も含めて分析できます。ただし、結論が変わる可能性もあります。それ自体が新しい発見につながります。
Q5. もっと深く学ぶには何を読めばいいですか?
「計量経済学」「データサイエンス 入門」「統計的因果 推論」などのテキストが入門に向いています。Python の場合は『Python ではじめる機械学習 』(オライリー)、R の場合は『R で学ぶ統計学』が定番です。本サイトの他の論文も読み比べてみてください。