このページの分析を自分で再現するには、以下の手順でデータを準備してください。コードの編集は不要です。
data/raw/ フォルダに入れます。html/figures/ に自動保存されます。
日本の少子化は長期的な社会問題であり、2023年の合計特殊出生率(TFR)は過去最低水準を更新した。少子化の要因として「未婚化・晩婚化」が指摘されるが、その影響を都道府県レベルの統計データで定量的に検証した研究は多くない。
まず「少子化における未婚化・晩婚化の影響婚姻率と合計特殊出生率の地域パネル分析」を統計的にとらえることが有効だと考えられる。 その理由は感覚や経験則だけでは、複雑な社会要因の中で「何が本当に効いているか」を見極めにくいからである。 本研究では公開データと統計手法を組み合わせ、この問いに定量的な答えを出すことを目指す。
本研究は47都道府県 × 12年間のパネルデータを用い、婚姻率が TFR に与える影響を固定効果モデル(FE)と変量効果モデル(RE)で推定し、Hausman検定でモデルを選択する。パネルデータ手法の強みは、観察されない都道府県固有の時不変の特性(文化・地理・歴史的背景等)を制御できる点にある。
パネルデータ分析 固定効果モデル Hausman検定 少子化・婚姻率
SSDSE-B-2026(社会・人口統計体系データセット、都道府県別)から、2012〜2023年の47都道府県データ(N=564)を使用する。
| 変数 | 定義・計算方法 | SSDSE-B 列名 | 役割 |
|---|---|---|---|
| 合計特殊出生率(TFR) | 15〜49歳女性の年齢別出生率の合計 | 合計特殊出生率 | 目的変数(Y) |
| 婚姻率 | 婚姻件数 ÷ 総人口 × 1000(人口千対) | 婚姻件数 / 総人口 | 主要説明変数 |
| 女性労働力率 | 15〜64歳女性人口 ÷ 総人口 × 100(%) | 15~64歳人口(女)/ 総人口 | 制御変数 |
| 消費支出 | 二人以上の世帯の月間消費支出(円) | 消費支出(二人以上の世帯) | 制御変数(生活水準) |
| 高齢化率 | 65歳以上人口 ÷ 総人口 × 100(%) | 65歳以上人口 / 総人口 | 制御変数 |
本研究が扱うのはバランスドパネル(Balanced Panel):47都道府県 × 12年間 = 564観測値。各都道府県が観察単位(entity)、年度が時間次元(time)である。
2012〜2023年の合計特殊出生率の推移を、6地域の代表都道府県(北海道・東京都・愛知県・大阪府・広島県・福岡県)で可視化する。COVID-19のパンデミックが2020〜2021年の出生動向に影響を与えた可能性を考慮し、該当期間をグレー帯で示す。
都道府県ごとの「出生文化の違い」(例:沖縄の高出生率の歴史的背景)は年度をまたいでも変化しない「時不変の変数(time-invariant variable)」である。こうした交絡は断面データ(クロスセクション)では制御が難しいが、パネルデータの固定効果モデルは各 entity の固有効果 αᵢ を推定することで自動的に除去できる。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | import os import numpy as np import pandas as pd import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt import matplotlib.patches as mpatches import statsmodels.api as sm from scipy import stats plt.rcParams['font.family'] = 'Hiragino Sans' plt.rcParams['axes.unicode_minus'] = False plt.rcParams['figure.dpi'] = 150 FIG_DIR = 'html/figures' DATA_B = 'data/raw/SSDSE-B-2026.csv' os.makedirs(FIG_DIR, exist_ok=True) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。matplotlib.use('Agg') — グラフを画面表示せずファイルに保存するためのおまじない。plt.rcParams['font.family'] — グラフの日本語表示用フォント指定(Macは Hiragino Sans、Windowsなら Yu Gothic 等)。os.makedirs('html/figures', exist_ok=True) — 図の保存先フォルダを作る(既にあってもOK)。f"...{x}..." はf-string。文字列の中に {変数} と書くだけで埋め込めて、{x:.2f} のように書式も指定できます。18 19 20 21 22 23 | # ── データ読み込み ────────────────────────────────────────────────────────── df_b = pd.read_csv(DATA_B, encoding='cp932', header=1) df_b = df_b[df_b['地域コード'].str.match(r'^R\d{5}', na=False)].copy() df_b['年度'] = df_b['年度'].astype(int) print("columns:", df_b.columns.tolist()) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。df['地域コード'].str.match(r'^R\d{5}', ...) — 正規表現で「R+数字5桁」の行(47都道府県)だけTrueにし、真偽値で行をフィルタ。.astype(int) — 列を整数に変換(年度などを数値比較するため)。df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。24 25 26 27 28 29 30 | # ── 派生変数の作成 ────────────────────────────────────────────────────────── # 合計特殊出生率(TFR) TFR_col = '合計特殊出生率' # 婚姻率 = 婚姻件数 / 総人口 × 1000(人口千対) df_b['婚姻率(千対)'] = df_b['婚姻件数'] / df_b['総人口'] * 1000 婚姻率col = '婚姻率(千対)' |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。31 32 33 34 35 36 | # 女性労働力率プロキシ = 15-64歳女性人口 / 総人口 × 100 df_b['女性労働力率(%)'] = df_b['15~64歳人口(女)'] / df_b['総人口'] * 100 女性就業col = '女性労働力率(%)' # 消費支出(実数、円) 消費支出col = '消費支出(二人以上の世帯)' |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。[式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。37 38 39 40 41 42 43 44 45 | # 高齢化率 = 65歳以上人口 / 総人口 × 100 df_b['高齢化率(%)'] = df_b['65歳以上人口'] / df_b['総人口'] * 100 高齢化率col = '高齢化率(%)' X_cols = [婚姻率col, 女性就業col, 消費支出col, 高齢化率col] print("TFR col:", TFR_col) print("X cols:", X_cols) print("年度:", sorted(df_b['年度'].unique())) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 | # ── 地域分類 ─────────────────────────────────────────────────────────────── region_map = { '北海道': '北海道・東北', '青森県': '北海道・東北', '岩手県': '北海道・東北', '宮城県': '北海道・東北', '秋田県': '北海道・東北', '山形県': '北海道・東北', '福島県': '北海道・東北', '茨城県': '関東', '栃木県': '関東', '群馬県': '関東', '埼玉県': '関東', '千葉県': '関東', '東京都': '関東', '神奈川県': '関東', '新潟県': '中部', '富山県': '中部', '石川県': '中部', '福井県': '中部', '山梨県': '中部', '長野県': '中部', '岐阜県': '中部', '静岡県': '中部', '愛知県': '中部', '三重県': '近畿', '滋賀県': '近畿', '京都府': '近畿', '大阪府': '近畿', '兵庫県': '近畿', '奈良県': '近畿', '和歌山県': '近畿', '鳥取県': '中国・四国', '島根県': '中国・四国', '岡山県': '中国・四国', '広島県': '中国・四国', '山口県': '中国・四国', '徳島県': '中国・四国', '香川県': '中国・四国', '愛媛県': '中国・四国', '高知県': '中国・四国', '福岡県': '九州・沖縄', '佐賀県': '九州・沖縄', '長崎県': '九州・沖縄', '熊本県': '九州・沖縄', '大分県': '九州・沖縄', '宮崎県': '九州・沖縄', '鹿児島県': '九州・沖縄', '沖縄県': '九州・沖縄' } region_colors = { '北海道・東北': '#4e9af1', '関東': '#e05c5c', '中部': '#f0a500', '近畿': '#5cb85c', '中国・四国': '#9b59b6', '九州・沖縄': '#f39c12' } df_b['地域'] = df_b['都道府県'].map(region_map) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。70 71 72 73 74 75 76 77 78 79 80 | # ── 代表6都道府県(地域ごと1都道府県)───────────────────────────────────── rep_prefs = { '北海道・東北': '北海道', '関東': '東京都', '中部': '愛知県', '近畿': '大阪府', '中国・四国': '広島県', '九州・沖縄': '福岡県', } fig1, ax1 = plt.subplots(figsize=(10, 5.5)) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 | # COVID帯(2020-2021) ax1.axvspan(2019.6, 2021.4, color='lightgray', alpha=0.45, zorder=0, label='COVID-19期') years = sorted(df_b['年度'].unique()) for region, pref in rep_prefs.items(): sub = df_b[df_b['都道府県'] == pref].sort_values('年度') ax1.plot(sub['年度'].values, sub[TFR_col].values, color=region_colors[region], linewidth=2.2, marker='o', markersize=5, label=f'{pref}({region})') ax1.set_xlabel('年度', fontsize=12) ax1.set_ylabel('合計特殊出生率', fontsize=12) ax1.set_title('合計特殊出生率の推移(代表6都道府県、2012–2023年)', fontsize=14, fontweight='bold') ax1.legend(fontsize=9, loc='lower left') ax1.set_xticks(years) ax1.tick_params(axis='x', rotation=45) ax1.grid(axis='y', linestyle='--', alpha=0.5) ax1.set_xlim(min(years) - 0.5, max(years) + 0.5) fig1.tight_layout() out1 = os.path.join(FIG_DIR, '2018_U2_fig1.png') fig1.savefig(out1, bbox_inches='tight') plt.close(fig1) print(f"Saved: {out1}") |
columns: ['年度', '地域コード', '都道府県', '総人口', '総人口(男)', '総人口(女)', '日本人人口', '日本人人口(男)', '日本人人口(女)', '15歳未満人口', '15歳未満人口(男)', '15歳未満人口(女)', '15~64歳人口', '15~64歳人口(男)', '15~64歳人口(女)', '65歳以上人口', '65歳以上人口(男)', '65歳以上人口(女)', '出生数', '出生数(男)', '出生数(女)', '合計特殊出生率', '死亡数', '死亡数(男)', '死亡数(女)', '転入者数(日本人移動者)', '転入者数(日本人移動者)(男)', '転入者数(日本人移動者)(女)', '転出者数(日本人移動者)', '転出者数(日本人移動者)(男)', '転出者数(日本人移動者)(女)', '婚姻件数', '離婚件数', '年平均気温', '最高気温(日最高気温の月平均の最高値)', '最低気温(日最低気温の月平均の最低値)', '降水日数(年間)', '降水量(年間)', '着工建築物数', '着工建築物床面積', '旅館営業施設数(ホテルを含む)', '旅館営業施設客室数(ホテルを含む)', '標準価格(平均価格)(住宅地)', '標準価格(平均価格)(商業地)', '幼稚園数', '幼稚園教員数', '幼稚園在園者数', '小学校数', '小学校教員数', '小学校児童数', '中学校数', '中学校教員数', '中学校生徒数', '中学校卒業者数', '中学校卒業者のうち進学者数', '高等学校数', '高等学校教員数', '高等学校生徒数', '高等学校卒業者数', '高等学校卒業者のうち進学者数', '短期大学数', '大学数', '短期大学教員数', '大学教員数', '短期大学学生数', '大学学生数', '短期大学卒業者数', '短期大学卒業者のうち進学者数', '大学卒業者数', '大学卒業者のうち進学者数', '専修学校数', '各種学校数', '専修学校生徒数', '各種学校生徒数', '新規求職申込件数(一般)', '月間有効求職者数(一般)', '月間有効求人数(一般)', '充足数(一般)', '就職件数(一般)', '一般旅券発行件数', '延べ宿泊者数', '外国人延べ宿泊者数', '着工新設住宅戸数', '着工新設持家数', '着工新設貸家数', '着工新設分譲住宅数', '着工新設住宅床面積', '着工新設持家床面積', '着工新設分譲住宅床面積', '着工新設貸家床面積', 'ごみ総排出量(総量)', '1人1日当たりの排出量', 'ごみのリサイクル率', '一般病院数', '一般診療所数', '歯科診療所数', '保育所等数', '保育所等定員数', '保育所等利用待機児童数', '保育所等在所児数', '保育所等保育士数', '消費支出(二人以上の世帯)', '食料費(二人以上の世帯)', '住居費(二人以上の世帯)', '光熱・水道費(二人以上の世帯)', '家具・家事用品費(二人以上の世帯)', '被服及び履物費(二人以上の世帯)', '保健医療費(二人以上の世帯)', '交通・通信費(二人以上の世帯)', '教育費(二人以上の世帯)', '教養娯楽費(二人以上の世帯)', 'その他の消費支出(二人以上の世帯)'] TFR col: 合計特殊出生率 X cols: ['婚姻率(千対)', '女性労働力率(%)', '消費支出(二人以上の世帯)', '高齢化率(%)'] 年度: [np.int64(2012), np.int64(2013), np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023)] Saved: html/figures/2018_U2_fig1.png
sort_values('列名', ascending=False) — 指定列で並べ替え(降順)。s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。最新年(2023年)の47都道府県データを使い、婚姻率(人口千対)と TFR の相関を地域別に可視化する。断面分析は変動の全体像を把握するが、都道府県固有効果を制御できないため、以降のパネル分析で補完する。
107 108 109 110 111 112 113 114 115 116 117 118 119 | latest_year = df_b['年度'].max() df_latest = df_b[df_b['年度'] == latest_year].copy() fig2, ax2 = plt.subplots(figsize=(11, 8)) for _, row in df_latest.iterrows(): reg = row['地域'] col = region_colors.get(reg, '#888888') ax2.scatter(row[婚姻率col], row[TFR_col], color=col, s=60, zorder=3, alpha=0.85) short = row['都道府県'].replace('県', '').replace('府', '').replace('都', '').replace('道', '') ax2.annotate(short, (row[婚姻率col], row[TFR_col]), fontsize=7.5, ha='left', va='bottom', xytext=(2, 2), textcoords='offset points') |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。for _, row in df.iterrows() — DataFrameを1行ずつ取り出すループ。1点ずつ描画したいときに使用。df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。120 121 122 123 124 125 126 127 | # 回帰直線 x_reg = df_latest[婚姻率col].astype(float).values y_reg = df_latest[TFR_col].astype(float).values valid = ~(np.isnan(x_reg) | np.isnan(y_reg)) x_reg, y_reg = x_reg[valid], y_reg[valid] slope, intercept, r_val, p_val, _ = stats.linregress(x_reg, y_reg) xline = np.linspace(x_reg.min(), x_reg.max(), 100) ax2.plot(xline, slope * xline + intercept, 'k--', linewidth=1.5) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。stats.linregress(x, y) — 単回帰の傾き・切片・r値・p値・標準誤差を返します。使わない値は _ で受け取り。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 | # 凡例 handles = [mpatches.Patch(color=c, label=r) for r, c in region_colors.items()] handles.append(plt.Line2D([0], [0], color='k', linestyle='--', label=f'回帰直線 r={r_val:.3f} p={p_val:.3f}')) ax2.legend(handles=handles, fontsize=9, loc='upper left') ax2.set_xlabel('婚姻率(人口千対)', fontsize=12) ax2.set_ylabel('合計特殊出生率', fontsize=12) ax2.set_title(f'婚姻率と合計特殊出生率の関係({latest_year}年、47都道府県)', fontsize=13, fontweight='bold') ax2.grid(linestyle='--', alpha=0.4) fig2.tight_layout() out2 = os.path.join(FIG_DIR, '2018_U2_fig2.png') fig2.savefig(out2, bbox_inches='tight') plt.close(fig2) print(f"Saved: {out2}") |
Saved: html/figures/2018_U2_fig2.png
[式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。| 変数 | FE 係数 | FE p値 | RE 係数 | RE p値 | 解釈 |
|---|---|---|---|---|---|
| 婚姻率(千対) | 0.189 | <0.001 | 0.191 | <0.001 | 婚姻率+1 → TFR +0.19 |
| 女性労働力率(%) | -0.055 | <0.001 | -0.057 | <0.001 | 就業増加は TFR 低下と関連 |
| 消費支出(円) | -2.2e-7 | 0.091 | -3.2e-7 | 0.019 | 生活費上昇はやや負の効果 |
| 高齢化率(%) | -0.003 | 0.494 | -0.003 | 0.432 | FE 推定では有意でない |
| Within R² | 0.714 | 0.713 | |||
両モデルの本質的な違いは「個体固有効果 αᵢ と説明変数 Xᵢₜ の相関」についての仮定にある。FE は相関を許容し(一致推定量)、RE は無相関を仮定する(より効率的だが不一致の可能性)。
145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 | short_labels = { 婚姻率col: '婚姻率\n(千対)', 女性就業col:'女性\n労働力率', 消費支出col:'消費支出', 高齢化率col:'高齢化率', } fig3, ax3 = plt.subplots(figsize=(9, 5)) y_pos = np.arange(len(X_cols)) bar_height = 0.35 fe_vals = [float(fe_params[c]) for c in X_cols] re_vals = [float(re_params[c]) for c in X_cols] ax3.barh(y_pos + bar_height/2, fe_vals, bar_height, color='#1565C0', alpha=0.85, label='固定効果モデル(FE)') ax3.barh(y_pos - bar_height/2, re_vals, bar_height, color='#E65100', alpha=0.75, label='変量効果モデル(RE)') ax3.set_yticks(y_pos) ax3.set_yticklabels([short_labels[c] for c in X_cols], fontsize=11) ax3.axvline(0, color='black', linewidth=0.8) ax3.set_xlabel('偏回帰係数', fontsize=11) title_str = f'固定効果 vs 変量効果モデルの係数比較\n{hausman_result}' ax3.set_title(title_str, fontsize=11, fontweight='bold') ax3.legend(fontsize=10) ax3.grid(axis='x', linestyle='--', alpha=0.4) fig3.tight_layout() out3 = os.path.join(FIG_DIR, '2018_U2_fig3.png') fig3.savefig(out3, bbox_inches='tight') plt.close(fig3) print(f"Saved: {out3}") |
Saved: html/figures/2018_U2_fig3.png
fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。[式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。Hausman(1978)検定は「変量効果モデルの仮定(個体効果と説明変数が無相関)が成立するか」を検証する。帰無仮説が棄却されれば FE を採用すべきとなる。
| 検定 | 統計量 | p値 | 判定 | 採用モデル |
|---|---|---|---|---|
| Hausman検定 | χ²=482.45 | <0.001 | H₀棄却 | 固定効果モデル(FE) |
| Poolability F検定 | F(46,513)=74.69 | <0.001 | 固定効果あり | プーリングOLS 不適 |
FE と RE の推定量の差 (β̂_FE - β̂_RE) が大きければ「RE の仮定が成立していない」と判断する。統計量は差ベクトルと分散行列の差の逆行列で二次形式を計算し、χ²分布に従う。
179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 | df_rank = df_latest[['都道府県', '地域', TFR_col]].dropna().sort_values(TFR_col, ascending=True).copy() national_avg = df_rank[TFR_col].mean() colors_bar = [region_colors.get(r, '#888') for r in df_rank['地域']] fig4, ax4 = plt.subplots(figsize=(10, 12)) ax4.barh(range(len(df_rank)), df_rank[TFR_col].values, color=colors_bar, alpha=0.85, edgecolor='white', linewidth=0.5) short_names = [p.replace('県', '').replace('府', '').replace('都', '').replace('道', '') for p in df_rank['都道府県']] ax4.set_yticks(range(len(df_rank))) ax4.set_yticklabels(short_names, fontsize=9) ax4.axvline(national_avg, color='red', linewidth=1.8, linestyle='--', label=f'全国平均 {national_avg:.3f}') ax4.set_xlabel('合計特殊出生率', fontsize=11) ax4.set_title(f'都道府県別 合計特殊出生率ランキング({latest_year}年)', fontsize=13, fontweight='bold') |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。sort_values('列名', ascending=False) — 指定列で並べ替え(降順)。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。196 197 198 199 200 201 202 203 204 205 206 207 208 209 | # 地域色凡例 handles_r = [mpatches.Patch(color=c, label=r) for r, c in region_colors.items()] handles_r.append(plt.Line2D([0], [0], color='red', linestyle='--', label=f'全国平均 {national_avg:.3f}')) ax4.legend(handles=handles_r, fontsize=8, loc='lower right') ax4.grid(axis='x', linestyle='--', alpha=0.4) fig4.tight_layout() out4 = os.path.join(FIG_DIR, '2018_U2_fig4.png') fig4.savefig(out4, bbox_inches='tight') plt.close(fig4) print(f"Saved: {out4}") print("\nDONE: 2018_U2_yushu") |
Saved: html/figures/2018_U2_fig4.png DONE: 2018_U2_yushu
x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。最新年(2023年)の47都道府県別 TFR を地域色分けで可視化する。地域格差の全体像と、固定効果モデルが制御すべき「時不変の地域差」の大きさを直感的に把握できる。
日本の合計特殊出生率の国際比較で重要なのが「結婚と出産の分離度」である。フランス・スウェーデンでは婚外子が全出生の50%以上を占め、婚姻率低下が直接 TFR に影響しにくい。一方、日本では婚外子は約2〜3%のみで、「未婚 = 出産しない」に近い構造が成立する。
211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 | hausman_stat = None hausman_p = None hausman_result = "(Hausman検定実行済み)" fe_params = None re_params = None try: from linearmodels.panel import PanelOLS, RandomEffects df_panel = df_b.dropna(subset=[TFR_col] + X_cols).copy() df_panel = df_panel.set_index(['都道府県', '年度']) # 固定効果モデル(Clustered SE by entity) fe = PanelOLS( df_panel[TFR_col].astype(float), df_panel[X_cols].astype(float), entity_effects=True ).fit(cov_type='clustered', cluster_entity=True) # 変量効果モデル re_exog = sm.add_constant(df_panel[X_cols].astype(float)) re = RandomEffects(df_panel[TFR_col].astype(float), re_exog).fit() fe_params = fe.params re_params = re.params[X_cols] # ── Hausman検定(手動実装)───────────────────────────────────────────── diff = (fe_params - re_params).values var_fe = fe.cov.loc[X_cols, X_cols].values var_re = re.cov.loc[X_cols, X_cols].values var_diff = var_fe - var_re # 正定値化(数値誤差対策) eigvals = np.linalg.eigvalsh(var_diff) if eigvals.min() < 0: var_diff += np.eye(len(diff)) * (-eigvals.min() + 1e-8) try: hausman_stat = float(diff @ np.linalg.inv(var_diff) @ diff) df_h = len(diff) hausman_p = 1 - stats.chi2.cdf(hausman_stat, df_h) if hausman_p < 0.05: hausman_result = (f"Hausman検定: χ²={hausman_stat:.3f} p={hausman_p:.3f} " f"→ 固定効果モデルを採用(RE不一致)") else: hausman_result = (f"Hausman検定: χ²={hausman_stat:.3f} p={hausman_p:.3f} " f"→ 変量効果モデル採用可(RE一致)") except Exception as he: hausman_result = f"Hausman検定(簡易): {he}" print("\n=== 固定効果モデル ===") print(fe.summary) print("\n=== 変量効果モデル ===") print(re.summary) print("\n", hausman_result) except Exception as e: print(f"Panel error: {e}") # フォールバック: プーリングOLS df_ols = df_b.dropna(subset=[TFR_col] + X_cols).copy() X_ols = sm.add_constant(df_ols[X_cols].astype(float)) ols = sm.OLS(df_ols[TFR_col].astype(float), X_ols).fit() fe_params = ols.params[X_cols] re_params = fe_params.copy() hausman_result = "(フォールバック: プーリングOLS)" print(ols.summary()) |
=== 固定効果モデル ===
PanelOLS Estimation Summary
================================================================================
Dep. Variable: 合計特殊出生率 R-squared: 0.7135
Estimator: PanelOLS R-squared (Between): -1.6525
No. Observations: 564 R-squared (Within): 0.7135
Date: Mon, May 18 2026 R-squared (Overall): -1.6465
Time: 11:23:23 Log-likelihood 1024.6
Cov. Estimator: Clustered
F-statistic: 319.47
Entities: 47 P-value 0.0000
Avg Obs: 12.000 Distribution: F(4,513)
Min Obs: 12.000
Max Obs: 12.000 F-statistic (robust): 140.35
P-value 0.0000
Time periods: 12 Distribution: F(4,513)
Avg Obs: 47.000
Min Obs: 47.000
Max Obs: 47.000
Parameter Estimates
=================================================================================
Parameter Std. Err. T-stat P-value Lower CI Upper CI
---------------------------------------------------------------------------------
婚姻率(千対) 0.1886 0.0162 11.607 0.0000 0.1566 0.2205
女性労働力率(%) -0.0545 0.0043 -12.724 0.0000 -0.0629 -0.0461
消費支出(二人以上の世帯) -2.247e-07 1.328e-07 -1.6912 0.0914 -4.857e-07 3.632e-08
高齢化率(%) -0.0030 0.0044 -0.6844 0.4940 -0.0117 0.0056
=================================================================================
F-test for Poolability: 74.688
P-value: 0.0000
Distribution: F(46,513)
Included effects: Entity
=== 変量効果モデル ===
RandomEffects Estimation Summary
================================================================================
Dep. Variable: 合計特殊出生率 R-squared: 0.6828
Estimator: RandomEffects R-squared (Between): 0.1493
No. Observations: 564 R-squared (Within): 0.7127
Date: Mon, May 18 2026 R-squared (Overall): 0.2795
Time: 11:23:23 Log-likelihood 980.48
Cov. Estimator: Unadjusted
F-statistic: 300.88
Entities: 47 P-value 0.0000
Avg Obs: 12.000 Distribution: F(4,559)
Min Obs: 12.000
Max Obs: 12.000 F-statistic (robust): 300.88
P-value 0.0000
Time periods: 12 Distribution: F(4,559)
Avg Obs: 47.000
Min Obs: 47.000
Max Obs:
…(長いため省略)import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。sm.add_constant(X) — 切片項(定数1の列)を先頭に追加。statsmodelsで必須。sm.OLS(y, X).fit() — 最小二乗法でモデルを推定。model.params, model.pvalues, model.conf_int() で結果取得。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。SSDSE-B-2026(47都道府県 × 12年、N=564)のパネルデータを用いた固定効果・変量効果分析の結果:
| データ | 出典 | 用途 |
|---|---|---|
| SSDSE-B-2026.csv | 統計数理研究所 SSDSE(社会・人口統計体系)都道府県別データ | 全分析(パネルデータ構築) |
| 合計特殊出生率 | 厚生労働省 人口動態統計(SSDSE-B に収録) | 目的変数 Y |
| 婚姻件数・総人口 | 厚生労働省 人口動態統計/総務省 人口推計(SSDSE-B に収録) | 婚姻率の計算 |
本ページの分析コードは SSDSE-B-2026(実データ)のみを使用。合成データは一切使用していない。
使用ライブラリ:pandas, numpy, matplotlib, statsmodels, linearmodels, scipy
統計分析の解釈で初心者がやりがちな勘違いをまとめます。特に「相関と因果の混同」「p値の過信」は研究現場でもよく起きる落とし穴です。本文を読む前にも、読んだ後にも、目を通してみてください。
統計の基本用語を初心者向けに解説します。本文中で見慣れない言葉が出てきたら、ここに戻って確認してください。
統計手法について「何のためか」「結果をどう読むか」を初心者向けに解説します。
この研究をさらに発展させるための3つの方向性を示します。「今回わかったこと(X)」から「次に検証すべき仮説(Y)」を立て、「具体的に何をするか(Z)」まで考えてみましょう。
学んだだけでは身につきません。実際に手を動かすのが最強の学習方法です。本論文のスクリプトをベースに、以下のチャレンジに挑戦してみてください。難易度別に5つ用意しました。
本論文で学んだ手法は、研究の世界だけでなく、行政・企業・NPO の現場でも様々に活用されています。具体的なシーンを紹介します。
この論文を読んで初心者が抱きやすい疑問に、教育的観点から答えます。