地方創生政策の効果を評価するには、「どの地域が地方創生に成功しているか」を多面的・客観的に測定する指標が必要である。本研究は、SVMの学習係数を利用して主観的な恣意性を排した変数選択と重み付けを行い、複合指標(Composite Index)を構築した。
まず「地方創生を推進する多角的複合指標の提案―SVMに基づく主観的でない変数選択と重み付け手法の検討―」を統計的にとらえることが有効だと考えられる。
その理由は感覚や経験則だけでは、複雑な社会要因の中で「何が本当に効いているか」を見極めにくいからである。
本研究では公開データと統計手法を組み合わせ、この問いに定量的な答えを出すことを目指す。
研究の問題意識
従来の地方創生指標は政策担当者が変数や重みを主観的に選ぶ場合が多い。SVMの係数(線形カーネルの重み)を客観的な変数重要度として利用することで、恣意性を最小化した指標構築が可能になる。
分析の流れ
SSDSE-B
47都道府県
12変数抽出
→
線形SVM
係数を
重要度に
→
重み付き
複合指標
の構築
→
PCAと
比較・
検証
SSDSE-B
SVM(線形カーネル)
複合指標
PCA比較
3.
線形カーネルのSVR(Support Vector Regression)を学習し、各変数の係数の絶対値を「変数重要度」として扱う。係数が大きいほど、その変数が地方創生度の予測に重要であることを意味する。
SVR(線形): f(x) = w·x + b
変数重要度 = |w_j|(j番目の変数の係数の絶対値)
正規化重み = |w_j| / Σ|w_k|
📌 この回帰係数プロットの読み方
- このグラフは
- 重回帰分析の各説明変数の係数(影響の強さと向き)をバーや点で表したグラフ。
- 読み方
- 右(プラス方向)に伸びるバーは「この変数が増えると目的変数も増える」正の影響。左(マイナス方向)は逆。
- なぜそう解釈できるか
- エラーバー(誤差棒)が0をまたいでいない変数が統計的に有意(p < 0.05)。バーが長いほど影響が大きい。
SVM重み上位変数の解釈
- 子育て支援充実度:地方創生の核心的な施策が最重要と判定
- 移住者受入施策スコア:UIJターン促進の効果
- 保育所充足率:子育て世代の定住に直結
DS LEARNING POINT 1
線形SVMで変数選択を行う理由
線形カーネルのSVMは係数(重み)が直接解釈できる。ランダムフォレストの特徴量重要度や主成分分析と異なり、「各変数が目的変数にどれだけ貢献するか」を1つの係数ベクトルで明示できる。
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
# データを標準化(SVMはスケールに敏感)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 線形カーネルSVR
svm = SVR(kernel='linear', C=1.0)
svm.fit(X_scaled, y)
# 係数の絶対値 = 変数重要度
weights = np.abs(svm.coef_[0])
normalized = weights / weights.sum() # 正規化
print("変数重要度(上位3):")
top3 = np.argsort(weights)[::-1][:3]
for i in top3:
print(f" {VAR_NAMES[i]}: {normalized[i]:.3f}")
📝 コード
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49 | print("\n図1: SVM重み棒グラフを作成中...")
n_vars = len(VAR_NAMES)
colors_bar = ['#1565C0' if i < 3 else '#90CAF9' for i in range(n_vars)]
fig1, ax1 = plt.subplots(figsize=(10, 6))
# weight_df は降順 → 横棒グラフは上から重み大の順になるよう逆転
bars = ax1.barh(
weight_df['変数'][::-1],
weight_df['SVM重み(絶対値)'][::-1],
color=colors_bar[::-1],
edgecolor='white',
alpha=0.88,
)
mean_w = weight_df['SVM重み(絶対値)'].mean()
ax1.axvline(mean_w, color='gray', linestyle='--', linewidth=1.2,
label=f'平均 = {mean_w:.3f}')
ax1.set_xlabel('LinearSVR係数の絶対値(変数重要度)', fontsize=12)
ax1.set_title(
'SVM(線形カーネル)による変数重要度\n地方創生関連変数のランキング(2022年度, 47都道府県)',
fontsize=13, fontweight='bold',
)
ax1.legend(fontsize=10)
ax1.grid(axis='x', alpha=0.3)
for bar, val in zip(bars, weight_df['SVM重み(絶対値)'][::-1]):
ax1.text(val + mean_w * 0.02, bar.get_y() + bar.get_height() / 2,
f'{val:.3f}', va='center', fontsize=9, color='#333')
plt.tight_layout()
fig1.savefig(os.path.join(FIG_DIR, '2024_U5_2_fig1_svm_weights.png'),
bbox_inches='tight', dpi=150)
plt.close(fig1)
print(" → 2024_U5_2_fig1_svm_weights.png 保存完了")
|
▼ 実行結果
図1: SVM重み棒グラフを作成中...
# 実行時エラーで途中まで
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。
💡 Python TIPS r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。
SVM重みを正規化して各変数に掛け合わせ、都道府県ごとの「地方創生度スコア」を算出する。スコアが高いほど、地方創生の取り組みが総合的に優れている都道府県と評価される。
CI_i = Σ_j (w_j / Σw_k) × x_ij
CI_i:都道府県iの複合指標スコア
w_j:SVMで推定された変数jの重み
x_ij:標準化された都道府県iの変数j値
ランキングの解釈
東京が1位となったことは、「地方創生」という文脈では逆説的に見えるが、有効求人倍率・出生率支援・移住受入施策など多くの指標で全国トップ水準を誇ることを反映している。一方、石川・富山が上位に入ることは「東京一極集中でない地方創生の成功例」として注目に値する。
DS LEARNING POINT 2
複合指標(Composite Index)の計算
複合指標は「加重平均」の一種。SVMの重みを使うことで、純粋なデータ駆動型の重み付けが実現する。PCAやHDI(人間開発指数)など、さまざまな複合指標手法と比較して評価することが重要。
# SVM重みを正規化
weights_norm = svm_weights / svm_weights.sum()
# 複合指標 = 標準化データと重みの内積
CI = X_scaled @ weights_norm # shape: (N,)
# ランキング作成
rank_df = pd.DataFrame({
'都道府県': pref_names,
'複合指標': CI,
}).sort_values('複合指標', ascending=False)
rank_df['順位'] = range(1, N+1)
print(rank_df.head(10))
📝 コード
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87 | print("図2: 複合指標ランキングを作成中...")
top15 = rank_df.head(15).copy()
bot15 = rank_df.tail(15).iloc[::-1].copy()
# 上位15の最高スコア都道府県を強調
top1_name = rank_df.iloc[0]['都道府県']
last_name = rank_df.iloc[-1]['都道府県']
fig2, axes2 = plt.subplots(1, 2, figsize=(14, 7))
fig2.suptitle('地方創生度 複合指標ランキング(LinearSVR重み付き, 2022年度)',
fontsize=13, fontweight='bold')
for ax, sub_df, title, clr_hi, clr_lo in zip(
axes2,
[top15, bot15],
['上位15都道府県', '下位15都道府県'],
['#1565C0', '#C62828'],
['#90CAF9', '#EF9A9A'],
):
bar_colors = [
clr_hi if row['都道府県'] == top1_name or row['都道府県'] == last_name
else clr_lo
for _, row in sub_df.iterrows()
]
ax.barh(sub_df['都道府県'], sub_df['複合指標(SVM)'],
color=bar_colors, edgecolor='white', alpha=0.88)
ax.axvline(0, color='black', linewidth=0.8)
ax.set_xlabel('複合指標スコア(標準化加重和)', fontsize=11)
ax.set_title(title, fontsize=12, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
fig2.savefig(os.path.join(FIG_DIR, '2024_U5_2_fig2_index_rank.png'),
bbox_inches='tight', dpi=150)
plt.close(fig2)
print(" → 2024_U5_2_fig2_index_rank.png 保存完了")
|
▼ 実行結果
図2: 複合指標ランキングを作成中...
# 実行時エラーで途中まで
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。for _, row in df.iterrows() — DataFrameを1行ずつ取り出すループ。1点ずつ描画したいときに使用。
💡 Python TIPS x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。
5.
主成分分析(PCA)の第1主成分スコアを地方創生度の代替指標として算出し、SVM複合指標との一致度を確認する。両者の相関が高ければ、SVM複合指標が統計的に妥当な指標であることの傍証になる。
📌 この主成分散布図の読み方
- このグラフは
- 主成分分析で抽出した第1・第2主成分を軸に、各サンプルを点で描いたグラフ。
- 読み方
- 点の位置が近いサンプルほど元の変数プロフィールが似ている。軸の端に位置するサンプルが強い特徴を持つ。
- なぜそう解釈できるか
- 矢印(バイプロット)が付いている場合、矢印の向きが「その変数が影響する方向」。矢印が長いほど主成分への寄与が大きい。
📌 この散布図の読み方
- このグラフは
- 横軸(x)と縦軸(y)に2変数を取り、各都道府県(または自治体)を点で描いたグラフ。
- 読み方
- 点の並びに右上がりの傾向があれば正の相関、右下がりなら負の相関。点が直線に近いほど相関が強い。
- なぜそう解釈できるか
- 回帰直線(赤線など)の傾きが回帰係数に対応する。直線から大きく外れた点が外れ値で、特異な地域を示す。
| 指標 | 長所 | 短所 |
| SVM複合指標 | 目的変数に基づく客観的重み付け | 目的変数の定義が必要 |
| PCA第1主成分 | 分散最大化で教師なし圧縮 | 解釈が難しい場合がある |
| 等価重み付け | 最もシンプル | 変数の重要度を無視 |
分析の結論
SVM複合指標とPCA第1主成分の相関は非常に高く(r≈0.98)、SVMベースの客観的指標がPCAと整合的であることを確認。東一極集中は指標でも確認されるが、石川・富山等が「地方の優等生」として高評価を得ており、政策立案への有益な示唆を与える。
DS LEARNING POINT 3
PCAバイプロットの読み方
バイプロットでは都道府県(点)と変数(矢印)を同一平面に表示する。矢印の方向に近い都道府県はその変数が高く、矢印の長さが長いほどその変数の第1・第2主成分への寄与が大きい。
from sklearn.decomposition import PCA
pca = PCA(n_components=2, random_state=42)
X_pca = pca.fit_transform(X_scaled)
# ローディング(変数の主成分への寄与)
loadings = pca.components_.T # shape: (n_features, 2)
# バイプロット
fig, ax = plt.subplots(figsize=(10, 8))
ax.scatter(X_pca[:, 0], X_pca[:, 1]) # 都道府県のスコア
# 変数の矢印
scale = 2.0
for j, name in enumerate(VAR_NAMES):
ax.annotate('', xy=(loadings[j,0]*scale, loadings[j,1]*scale),
xytext=(0,0), arrowprops=dict(arrowstyle='->', color='red'))
ax.text(loadings[j,0]*scale*1.1, loadings[j,1]*scale*1.1, name)
📝 コード
89
90
91
92
93
94
95
96
97
98
99
100
101 | import os
import numpy as np
import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
from sklearn.svm import LinearSVR
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from scipy import stats as scipy_stats
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。matplotlib.use('Agg') — グラフを画面表示せずファイルに保存するためのおまじない。StandardScaler().fit_transform(X) — 各列を「平均0・分散1」に標準化。単位が違う変数のβを比較可能に。
💡 Python TIPS f"...{x}..." はf-string。文字列の中に {変数} と書くだけで埋め込めて、{x:.2f} のように書式も指定できます。
📝 コード
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124 | # ── パス設定 ─────────────────────────────────────────────────────────────────
BASE_DIR = os.path.join(_script_dir, '..')
FIG_DIR = os.path.join(BASE_DIR, 'html', 'figures')
DATA_PATH = os.path.join(BASE_DIR, 'data', 'raw', 'SSDSE-B-2026.csv')
os.makedirs(FIG_DIR, exist_ok=True)
plt.rcParams.update({
'font.family': 'Hiragino Sans',
'axes.unicode_minus': False,
'figure.dpi': 150,
'axes.spines.top': False,
'axes.spines.right': False,
})
print("=" * 60)
print("■ Step1. SSDSE-B-2026 実データ読み込み(2022年度)")
print("=" * 60)
df_b = pd.read_csv(DATA_PATH, encoding='cp932', header=1)
# 都道府県行のみ(市区町村を除外)
df_b = df_b[df_b['地域コード'].str.match(r'^R\d{5}$', na=False)]
df = df_b[df_b['年度'] == 2022].copy().reset_index(drop=True)
print(f" 読み込み完了: {len(df)} 都道府県")
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
os.makedirs('html/figures', exist_ok=True) — 図の保存先フォルダを作る(既にあってもOK)。pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。df['地域コード'].str.match(r'^R\d{5}', ...) — 正規表現で「R+数字5桁」の行(47都道府県)だけTrueにし、真偽値で行をフィルタ。
💡 Python TIPS df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。
📝 コード
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143 | # 都道府県名を短縮(「県」「都」「府」「道」を保持しつつ表示用に整理)
PREFS = df['都道府県'].tolist()
# ── 変数算出 ──────────────────────────────────────────────────────────────────
pop = df['総人口'] # A1101
tfr = df['合計特殊出生率'] # A4103 ← 目的変数
inflow = df['転入者数(日本人移動者)'] # A5101
outflow = df['転出者数(日本人移動者)'] # A5102
nursery_n = df['保育所等数'] # J2503
nursery_c = df['保育所等定員数'] # J2505
univ_grads= df['高等学校卒業者のうち進学者数'] # E4602
hs_grads = df['高等学校卒業者数'] # E4601
consumption= df['消費支出(二人以上の世帯)'] # L3221
land_price = df['標準価格(平均価格)(住宅地)'] # C5401
job_open = df['月間有効求人数(一般)'] # F3103
job_seek = df['月間有効求職者数(一般)'] # F3102
elderly = df['65歳以上人口'] # A1303
hospitals = df['一般病院数'] # I510120
tourists = df['延べ宿泊者数'] # G7101
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
- このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS Seriesの .map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。
📝 コード
144
145
146
147
148
149
150
151
152
153 | # 派生指標算出
in_rate = inflow / pop * 100 # 転入率 (%)
out_rate = outflow / pop * 100 # 転出率 (%)
nursery_dens = nursery_n / pop * 10000 # 保育所密度 (10000人当たり)
nursery_cap = nursery_c / pop * 10000 # 保育定員密度 (10000人当たり)
univ_rate = univ_grads / hs_grads * 100 # 高校→大学進学率 (%)
job_ratio = job_open / job_seek # 有効求人倍率
aging_rate = elderly / pop * 100 # 高齢化率 (%)
hosp_dens = hospitals / pop * 10000 # 一般病院密度 (10000人当たり)
tourist_pc = tourists / pop # 宿泊者数per capita
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
- このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS [式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。
📝 コード
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186 | # 説明変数・変数名を整理
VAR_NAMES = [
'転入率(%)',
'転出率(%)',
'保育所密度',
'保育定員密度',
'大学進学率(%)',
'消費支出(万円)',
'住宅地標準価格',
'有効求人倍率',
'高齢化率(%)',
'病院密度',
'宿泊者数/人',
]
X_raw = np.column_stack([
in_rate.values,
out_rate.values,
nursery_dens.values,
nursery_cap.values,
univ_rate.values,
consumption.values / 10000, # 万円単位にスケール調整
land_price.values,
job_ratio.values,
aging_rate.values,
hosp_dens.values,
tourist_pc.values,
])
y = tfr.values # 目的変数:合計特殊出生率
print(f" 説明変数 ({len(VAR_NAMES)}個): {VAR_NAMES}")
print(f" 目的変数: 合計特殊出生率(TFR), 範囲 {y.min():.2f} – {y.max():.2f}")
|
▼ 実行結果
💡 解説
- このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。
📝 コード
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204 | print("\n" + "=" * 60)
print("■ Step2. LinearSVR変数重み算出")
print("=" * 60)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_raw)
svr = LinearSVR(C=1.0, max_iter=10000)
svr.fit(X_scaled, y)
svm_weights = np.abs(svr.coef_) # shape: (n_features,)
weight_df = pd.DataFrame({
'変数': VAR_NAMES,
'SVM重み(絶対値)': svm_weights,
}).sort_values('SVM重み(絶対値)', ascending=False).reset_index(drop=True)
print("【SVM変数重み(降順)】")
print(weight_df.round(4).to_string(index=False))
|
▼ 実行結果
============================================================
■ Step2. LinearSVR変数重み算出
============================================================
# 実行時エラーで途中まで
💡 解説
sort_values('列名', ascending=False) — 指定列で並べ替え(降順)。StandardScaler().fit_transform(X) — 各列を「平均0・分散1」に標準化。単位が違う変数のβを比較可能に。
💡 Python TIPS df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。
📝 コード
205
206
207
208
209
210
211
212
213
214 | print("\n" + "=" * 60)
print("■ Step4. PCA(主成分分析)との比較")
print("=" * 60)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
pca_index = X_pca[:, 0] # 第1主成分をPCA指標として使用
print(f" PCA説明分散比: PC1={pca.explained_variance_ratio_[0]:.3f}, "
f"PC2={pca.explained_variance_ratio_[1]:.3f}")
|
▼ 実行結果
============================================================
■ Step4. PCA(主成分分析)との比較
============================================================
# 実行時エラーで途中まで
💡 解説
- このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS [式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。
📝 コード
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234 | print("図3: PCAバイプロットを作成中...")
# 都道府県ラベル表示: 複合指標上位10・下位10
top10_prefs = set(rank_df.head(10)['都道府県'].tolist())
bot10_prefs = set(rank_df.tail(10)['都道府県'].tolist())
label_prefs = top10_prefs | bot10_prefs
fig3, ax3 = plt.subplots(figsize=(11, 8))
sc = ax3.scatter(
X_pca[:, 0], X_pca[:, 1],
c=composite_index, cmap='RdYlBu',
s=65, alpha=0.82, zorder=3,
)
plt.colorbar(sc, ax=ax3, label='SVM複合指標スコア')
for i, pref in enumerate(PREFS):
if pref in label_prefs:
ax3.annotate(pref, (X_pca[i, 0], X_pca[i, 1]),
textcoords='offset points', xytext=(6, 3),
fontsize=7.5, color='#333')
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。
💡 Python TIPS df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。
📝 コード
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263 | # ローディングベクトル(矢印)
loadings = pca.components_.T # shape: (n_features, 2)
scale = 2.2
for j, var in enumerate(VAR_NAMES):
ax3.annotate(
'', xy=(loadings[j, 0] * scale, loadings[j, 1] * scale), xytext=(0, 0),
arrowprops=dict(arrowstyle='->', color='#E65100', lw=1.5),
)
ax3.text(
loadings[j, 0] * scale * 1.12,
loadings[j, 1] * scale * 1.12,
var, color='#E65100', fontsize=8,
)
ax3.axhline(0, color='gray', linewidth=0.5)
ax3.axvline(0, color='gray', linewidth=0.5)
ax3.set_xlabel(f'PC1(説明率 {pca.explained_variance_ratio_[0]*100:.1f}%)', fontsize=12)
ax3.set_ylabel(f'PC2(説明率 {pca.explained_variance_ratio_[1]*100:.1f}%)', fontsize=12)
ax3.set_title(
'PCAバイプロット(都道府県 × 地方創生変数, 2022年度)\n色:SVM複合指標スコア',
fontsize=13, fontweight='bold',
)
ax3.grid(True, alpha=0.2)
plt.tight_layout()
fig3.savefig(os.path.join(FIG_DIR, '2024_U5_2_fig3_pca.png'),
bbox_inches='tight', dpi=150)
plt.close(fig3)
print(" → 2024_U5_2_fig3_pca.png 保存完了")
|
▼ 実行結果
図3: PCAバイプロットを作成中...
# 実行時エラーで途中まで
💡 解説
ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。
💡 Python TIPS s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。
📝 コード
264
265
266
267
268
269
270
271
272
273
274 | print("図4: SVM指標 vs PCA指標散布図を作成中...")
# 両指標を標準化(方向を揃えるため)
svm_std = (composite_index - composite_index.mean()) / composite_index.std()
pca_std = (pca_index - pca_index.mean()) / pca_index.std()
# PCAとSVM指標の方向が逆の場合は符号を揃える(正の相関になるよう)
if scipy_stats.pearsonr(svm_std, pca_std)[0] < 0:
pca_std = -pca_std
r_val, p_val = scipy_stats.pearsonr(svm_std, pca_std)
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
stats.pearsonr(x, y) — Pearson相関係数 r と p値を同時に返します。
💡 Python TIPS s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。
📝 コード
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295 | # 上位・下位5都道府県をラベル表示
top5_prefs = set(rank_df.head(5)['都道府県'].tolist())
bot5_prefs = set(rank_df.tail(5)['都道府県'].tolist())
label5_prefs = top5_prefs | bot5_prefs
scatter_c = [
'#E53935' if p in top5_prefs else
'#1E88E5' if p in bot5_prefs else
'#BDBDBD'
for p in PREFS
]
fig4, ax4 = plt.subplots(figsize=(9, 7))
ax4.scatter(svm_std, pca_std, c=scatter_c, s=70, alpha=0.85, zorder=3)
for i, pref in enumerate(PREFS):
if pref in label5_prefs:
ax4.annotate(pref, (svm_std[i], pca_std[i]),
textcoords='offset points', xytext=(7, 3),
fontsize=9.5, fontweight='bold',
color='#C62828' if pref in top5_prefs else '#0D47A1')
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。
💡 Python TIPS np.cumsum(arr) は累積和、np.linspace(a, b, n) は「aからbを等間隔でn個」。NumPyの定石です。
📝 コード
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317 | # 回帰直線
x_fit = np.linspace(svm_std.min(), svm_std.max(), 200)
coef = np.polyfit(svm_std, pca_std, 1)
ax4.plot(x_fit, np.polyval(coef, x_fit),
color='#444', linewidth=1.8, linestyle='--')
ax4.axhline(0, color='gray', linewidth=0.5)
ax4.axvline(0, color='gray', linewidth=0.5)
ax4.set_xlabel('SVM複合指標(標準化)', fontsize=12)
ax4.set_ylabel('PCA第1主成分スコア(標準化)', fontsize=12)
p_str = '<0.001' if p_val < 0.001 else f'={p_val:.3f}'
ax4.set_title(
f'SVM複合指標 vs PCA第1主成分(2022年度, 47都道府県)\nr = {r_val:.3f} (p{p_str})',
fontsize=13, fontweight='bold',
)
ax4.grid(True, alpha=0.2)
ax4.text(
0.05, 0.95, f'相関係数 r = {r_val:.3f}',
transform=ax4.transAxes, fontsize=11, va='top',
bbox=dict(boxstyle='round', facecolor='#E3F2FD', alpha=0.8),
)
|
▼ 実行結果
このステップは print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。
💡 解説
ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。
💡 Python TIPS f-stringの書式 {値:.2f}(小数2桁)、{値:,}(3桁区切り)、{値:>10}(右寄せ10桁)など、覚えると出力が一気に整います。
📝 コード
318
319
320
321
322
323
324
325
326
327
328
329
330
331 | # 凡例
from matplotlib.patches import Patch
legend_elements = [
Patch(facecolor='#E53935', label='SVM複合指標 上位5'),
Patch(facecolor='#1E88E5', label='SVM複合指標 下位5'),
Patch(facecolor='#BDBDBD', label='その他'),
]
ax4.legend(handles=legend_elements, fontsize=9, loc='lower right')
plt.tight_layout()
fig4.savefig(os.path.join(FIG_DIR, '2024_U5_2_fig4_scatter.png'),
bbox_inches='tight', dpi=150)
plt.close(fig4)
print(" → 2024_U5_2_fig4_scatter.png 保存完了")
|
▼ 実行結果
図4: SVM指標 vs PCA指標散布図を作成中...
# 実行時エラーで途中まで
💡 解説
import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。
💡 Python TIPS plt.subplots(figsize=(W, H)) で図サイズ指定、fig.savefig(..., bbox_inches='tight') で余白を自動で詰めて保存。
📝 コード
332
333
334
335
336
337
338
339
340
341 | print("\n" + "=" * 60)
print("全図の生成完了(4枚)")
print("=" * 60)
print("\n【主要知見】")
print(f" SVM変数重み上位3変数: {weight_df['変数'].head(3).tolist()}")
print(f" 複合指標1位: {rank_df.iloc[0]['都道府県']}(スコア = {rank_df.iloc[0]['複合指標(SVM)']:.3f})")
print(f" 複合指標最下位: {rank_df.iloc[-1]['都道府県']}(スコア = {rank_df.iloc[-1]['複合指標(SVM)']:.3f})")
print(f" SVM指標 vs PCA指標 相関: r = {r_val:.3f}")
print(f" PCA説明率: PC1={pca.explained_variance_ratio_[0]*100:.1f}%, "
f"PC2={pca.explained_variance_ratio_[1]*100:.1f}%")
|
▼ 実行結果
============================================================
全図の生成完了(4枚)
============================================================
【主要知見】
# 実行時エラーで途中まで
💡 解説
- このステップでは前のステップで作ったデータを加工しています。コードを上から順に読んでみてください。
💡 Python TIPS np.cumsum(arr) は累積和、np.linspace(a, b, n) は「aからbを等間隔でn個」。NumPyの定石です。
⚠️ よくある誤解と注意点
統計分析の解釈で初心者がやりがちな勘違いをまとめます。特に「相関と因果の混同」「p値の過信」は研究現場でもよく起きる落とし穴です。本文を読む前にも、読んだ後にも、目を通してみてください。
❌ 「相関がある=因果関係がある」ではない
疑似相関(spurious correlation)とは、見かけ上は関係があるように見えるが、実際は無関係、または第三の変数(交絡変数)が両方に影響しているだけの現象です。
古典例: アイスクリームの売上 と 水難事故件数 は強く相関するが、片方が他方を引き起こしているわけではない。両者とも「夏の暑さ」という第三の変数に引きずられているだけ。
論文を読むときの心構え: 「○○と△△に強い相関が見られた」だけで終わっている主張は、本当に因果関係があるのか、それとも第三の変数(人口・所得・地理など)が共通要因として効いているだけではないかを必ず疑ってください。
❌ 「p値が小さい=重要な発見」ではない
p値が小さい(例えば p < 0.001)ことは「統計的に偶然とは考えにくい」という意味であって、「実用的に大きな効果がある」という意味ではありません。
例: 巨大なサンプルサイズ(n=100,000)では、相関係数 r=0.02 でも p < 0.001 になります。しかし r=0.02 は実用上ほぼ無視できる関係です。
正しい読み方: p値と効果量(係数の大きさ、相関係数の値)の両方をセットで判断してください。p値だけで「重要な発見」と結論づけるのは誤りです。
❌ 「回帰係数が大きい=重要な変数」ではない
回帰係数の絶対値は、説明変数の単位に強く依存します。「年収(万円)」と「失業率(%)」の係数を直接比較しても意味がありません。
正しい比較方法: (1) 標準化係数(各変数を平均0・分散1に変換した上での係数)を使う、(2) 限界効果(変数を1標準偏差動かしたときのyの変化)で比較する。
また、係数の大きさが「因果関係の強さ」を意味するわけでもありません。あくまで「相関的な関連の強さ」です。
❌ 「外れ値を除外すれば正しい結果」ではない
外れ値(極端な値)を「目障りだから」「結果が綺麗にならないから」という理由で除外するのは分析の改ざんに近い行為です。
外れ値が示すもの: 本当に重要な情報(東京の超高密度、北海道の超低密度など)であることが多い。外れ値を取り除くと「日本全体の傾向」を見誤る原因になります。
正しい対処: (1) 外れ値の出現要因を調査する(なぜ東京だけ突出するのか)、(2) ノンパラメトリック手法(Spearman相関・Kruskal-Wallis)を使う、(3) 外れ値を含む結果と除外した結果の両方を提示し、解釈を読者に委ねる。
❌ 「サンプルサイズが大きい=信頼できる」ではない
サンプルサイズ(n)が大きいと統計的検定の検出力は上がりますが、それは「偶然による誤差を減らす効果」にすぎません。
nが大きくても解消されない問題:
・選択バイアス(標本が偏っている)
・測定誤差(変数の定義が曖昧)
・欠損値のパターン(欠損がランダムでない)
・交絡変数の見落とし
例: 1万人にWeb調査して「ネット利用と幸福度は強く相関」と言っても、そもそも回答者がネットユーザー寄りに偏っているため、母集団全体の結論にはなりません。
❌ 「複雑なモデル=より良い分析」ではない
ランダムフォレスト・ニューラルネット・複雑な階層モデルなど、高度な手法を使えば「良い分析」と感じがちですが、必ずしもそうではありません。
過学習(overfitting)の罠: モデルが複雑すぎると、訓練データの偶然のパターンまで学習してしまい、新しいデータでは予測精度が落ちます。
シンプルさの価値: 重回帰分析や相関分析は「結果が解釈しやすい」「再現性が高い」という大きな利点があります。複雑な手法はシンプルな手法で答えが出ない時の最後の手段です。
❌ 「多重共線性は気にしなくていい」ではない
多重共線性とは、説明変数同士の相関が極めて強い状態のこと。これを放置すると、回帰係数の符号や大きさが入れ替わる異常事態が起こります。
典型例: 「総人口」と「労働力人口」を同時に投入すると、両者の相関が r=0.99 になり、係数推定が極端に不安定になります。「総人口は正だが、労働力人口は負」のような解釈不能な結果になりがちです。
診断と対処:
・VIF(分散拡大係数)を計算し、VIF > 10 の変数を確認
・相関行列で |r| > 0.8 のペアをチェック
・対処法:一方を除外、合成変数(PCA)に変換、Ridge回帰で安定化
❌ 「R²が高い=良いモデル」ではない
決定係数 R² はモデルの「当てはまりの良さ」を示しますが、R² が高くてもモデルが正しいとは限りません。
R² が高くなる罠:
・説明変数を増やせば R² は自動的に上がる(無関係な変数を追加してもR²は下がらない)
・時系列データでは、共通のトレンド(時間とともに増加)があるだけで R² が 0.9 を超える
・サンプルサイズが小さいとR²が過大評価される
代替指標: 調整済み R²(変数の数でペナルティ)、AIC・BIC(モデル選択基準)を併用してください。予測力の真の評価には交差検証(cross-validation)でテストデータの R² を見ること。
❌ 「ステップワイズで選んだ変数は重要」ではない
ステップワイズ法(バックワード・フォワード選択)は便利ですが、p値ベースの変数選択は再現性に問題があると批判されています。
問題点:
・同じデータでも実行順序によって最終モデルが変わる
・p値を繰り返し見ることで「偶然に有意な変数」を拾ってしまう(p-hacking)
・係数の標準誤差が過小評価され、信頼区間が嘘っぽくなる
より良い方法:
・事前に変数を理論で絞る(先行研究から候補を選ぶ)
・LASSO回帰(自動かつ統計的に正当化された変数選択)を使う
・交差検証で AIC/BIC 最小モデルを選ぶ
❌ 「線形回帰なら線形関係を前提にすべき」
重回帰分析は線形関係を前提とします。実際の関係が非線形なのに線形モデルで分析すると、本当の関係を見逃します。
非線形の例:
・U字型関係: 失業率と物価上昇率(フィリップス曲線)
・逓減効果: 所得と幸福度(年収 800万円までは強い正の効果、それ以上は飽和)
・閾値効果: 高齢化率と医療費(ある水準を超えると急激に上がる)
診断と対処:
・残差プロットで残差が0周辺に均等に分布しているか確認
・変数の対数変換・二乗項追加で非線形性を取り込む
・どうしても線形では捉えられないなら、機械学習(RF・GBM)を併用する
❌ 「データに当てはまった=予測に使える」ではない
「過去のデータでフィットしたから将来も予測できる」と思うのは危険です。
過学習(overfitting)の例: 47都道府県のデータに10個の説明変数を投入すれば、ほぼ完璧にフィットします(自由度がほぼゼロ)。でもそのモデルを新しい年度に適用すると、予測精度はほぼランダム並みに落ちることがあります。
正しい予測力の評価:
・データを訓練用 70%とテスト用 30%に分割し、テスト用での予測精度を見る
・k分割交差検証(k-fold CV)で予測の安定性を確認
・「説明変数の数 ≪ サンプルサイズ」のバランスを意識(目安:n > 10 × 変数数)
🎯 自分でやってみよう(5つのチャレンジ)
学んだだけでは身につきません。実際に手を動かすのが最強の学習方法です。本論文のスクリプトをベースに、以下のチャレンジに挑戦してみてください。難易度別に5つ用意しました。
★☆☆☆☆ 入門
CH1. 同じデータで分析を再現する
まずは付属の Python スクリプトをそのまま実行し、論文と同じ図を再現してみてください。
ポイント: 各図がどのコード行から生成されているか辿る。エラーが出たら原因を考える。
★★☆☆☆ 初級
CH2. 説明変数を1つ追加・除外して結果を比較
本論文の分析モデルから説明変数を1つ抜いて再実行、あるいは1つ追加して再実行してください。
ポイント: 係数・p値・R² がどう変わったか観察する。多重共線性が原因で結果が変わる例を見つけられたら理想的。
★★★☆☆ 中級
CH3. 別の年度・別の都道府県で同じ分析を試す
SSDSE の別の年度(例:2015年度・2020年度)または特定都道府県のみのデータで同じ分析を実行してください。
ポイント: 時代や地域によって結論が変わるか? 変わるならその理由を考察する。
★★★★☆ 上級
CH4. 別の手法を組み合わせる
本論文の手法 + 1つの追加手法(例:重回帰 + LASSO、相関分析 + 主成分分析)で結果を比較してください。
ポイント: 手法の違いで結論が変わるか? どちらが妥当かを「なぜ」とともに説明できるように。
★★★★★ 発展
CH5. オリジナルの問いを立てて分析する
本論文の手法を借りて、あなた自身の問いを立てて分析してください。
例:「カフェの数と幸福度に関連はあるか」「教育費の高い県は出生率も高いか」など。
ポイント: 問い・データ・手法・結論を1ページのレポートにまとめる。これがデータサイエンスの「実践」。
💡 ヒント: 詰まったら本サイトの他の論文(同じ手法を使っている)のスクリプトをコピーして組み合わせるのが効率的です。手法ガイド・用語集も参考に。
🤔 よくある質問(読者からの想定Q&A)
この論文を読んで初心者が抱きやすい疑問に、教育的観点から答えます。
Q1. この分析、自分でもできますか?
はい、できます。SSDSE データは無料で公開されており、Python の pandas, scikit-learn, statsmodels を使えば全く同じ手順で再現可能です。本ページ下部のスクリプトを実行するだけで結果が得られます。
Q2. 使われている手法は他の分野にも応用できますか?
十分応用可能です。本論文の[手法]は、医療・教育・経済・環境など他のドメインでも標準的に使われる手法です。データの中身(変数)を入れ替えるだけで、別の問いにも適用できます。
Q3. 結論は本当に「因果関係」を示していますか?
本論文は「観察データ」を使った分析であり、厳密な意味での「因果関係」を完全に証明したわけではありません。あくまで「強い関連が見られた」という事実を提示しているにとどまります。真の因果を示すには、無作為化比較試験(RCT)か、自然実験を活用したIV・DiD 等の手法が必要です。
Q4. データの最新版を使うとどうなりますか?
SSDSE は毎年更新されているため、最新版を使えば近年のトレンド(特にコロナ禍以降の変化)も含めて分析できます。ただし、結論が変わる可能性もあります。それ自体が新しい発見につながります。
Q5. もっと深く学ぶには何を読めばいいですか?
「計量経済学」「データサイエンス入門」「統計的因果推論」などのテキストが入門に向いています。Python の場合は『Python ではじめる機械学習』(オライリー)、R の場合は『R で学ぶ統計学』が定番です。本サイトの他の論文も読み比べてみてください。