このページの分析を自分で再現するには、以下の手順でデータを準備してください。コードの編集は不要です。
data/raw/ フォルダに入れます。html/figures/ に自動保存されます。
食料費は家計消費の最重要項目の一つであり、その都道府県間格差は地域の生活水準・物価水準・消費構造の違いを反映している。本研究は、SSDSE-B(都道府県別統計データ)を用いて、食料費支出の地域格差の構造と決定要因を統計的に分析する。
まず「都道府県別食料費支出の地域格差分析消費構造と社会経済要因の重回帰」を統計的にとらえることが有効だと考えられる。 その理由は感覚や経験則だけでは、複雑な社会要因の中で「何が本当に効いているか」を見極めにくいからである。 本研究では公開データと統計手法を組み合わせ、この問いに定量的な答えを出すことを目指す。
SSDSE-B Pearson相関 OLS重回帰 時系列分析 地域比較
SSDSE-B(社会・人口統計体系データセット B)は、都道府県別の各種統計を収録する公的統計データである。2012〜2022年(または2023年)の時系列データを含む。
| データ | 出典 | 対象 |
|---|---|---|
| SSDSE-B-2026 | 統計数理研究所 | 47都道府県 × 複数年度 |
| 家計調査(二人以上世帯) | 総務省統計局(SSDSE-B収録) | 月次消費支出・食料費等 |
| 変数の種類 | 変数名 | 説明 | 予想される効果 |
|---|---|---|---|
| 目的変数 | 食料費(二人以上の世帯) | 月間食料費支出(円) | — |
| 説明変数 | 消費支出(二人以上の世帯) | 月間総消費支出(円) | 正(収入・生活水準の代理) |
| 高齢化率(65歳以上比率) | 65歳以上人口 / 総人口 × 100 | 負(高齢世帯は食料費が少ない) | |
| 光熱・水道費(二人以上の世帯) | 月間光熱水道費支出(円) | 正(寒冷地・生活費全般高) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | import os import numpy as np import pandas as pd import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt import statsmodels.api as sm from scipy import stats plt.rcParams['font.family'] = 'Hiragino Sans' plt.rcParams['axes.unicode_minus'] = False plt.rcParams['figure.dpi'] = 150 FIG_DIR = 'html/figures' DATA_B = 'data/raw/SSDSE-B-2026.csv' os.makedirs(FIG_DIR, exist_ok=True) df_b = pd.read_csv(DATA_B, encoding='cp932', header=1) df_b = df_b[df_b['地域コード'].str.match(r'^R\d{5}', na=False)].copy() df_b['年度'] = df_b['年度'].astype(int) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。matplotlib.use('Agg') — グラフを画面表示せずファイルに保存するためのおまじない。plt.rcParams['font.family'] — グラフの日本語表示用フォント指定(Macは Hiragino Sans、Windowsなら Yu Gothic 等)。os.makedirs('html/figures', exist_ok=True) — 図の保存先フォルダを作る(既にあってもOK)。pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。df['地域コード'].str.match(r'^R\d{5}', ...) — 正規表現で「R+数字5桁」の行(47都道府県)だけTrueにし、真偽値で行をフィルタ。.astype(int) — 列を整数に変換(年度などを数値比較するため)。f"...{x}..." はf-string。文字列の中に {変数} と書くだけで埋め込めて、{x:.2f} のように書式も指定できます。21 22 23 24 25 26 27 | # 全国行を除外(都道府県のみ) df_b = df_b[df_b['地域コード'] != 'R00000'].copy() print("=== SSDSE-B-2026 columns ===") print(df_b.columns.tolist()) print(f"\nShape: {df_b.shape}") print(f"Years: {sorted(df_b['年度'].unique())}") |
=== SSDSE-B-2026 columns === ['年度', '地域コード', '都道府県', '総人口', '総人口(男)', '総人口(女)', '日本人人口', '日本人人口(男)', '日本人人口(女)', '15歳未満人口', '15歳未満人口(男)', '15歳未満人口(女)', '15~64歳人口', '15~64歳人口(男)', '15~64歳人口(女)', '65歳以上人口', '65歳以上人口(男)', '65歳以上人口(女)', '出生数', '出生数(男)', '出生数(女)', '合計特殊出生率', '死亡数', '死亡数(男)', '死亡数(女)', '転入者数(日本人移動者)', '転入者数(日本人移動者)(男)', '転入者数(日本人移動者)(女)', '転出者数(日本人移動者)', '転出者数(日本人移動者)(男)', '転出者数(日本人移動者)(女)', '婚姻件数', '離婚件数', '年平均気温', '最高気温(日最高気温の月平均の最高値)', '最低気温(日最低気温の月平均の最低値)', '降水日数(年間)', '降水量(年間)', '着工建築物数', '着工建築物床面積', '旅館営業施設数(ホテルを含む)', '旅館営業施設客室数(ホテルを含む)', '標準価格(平均価格)(住宅地)', '標準価格(平均価格)(商業地)', '幼稚園数', '幼稚園教員数', '幼稚園在園者数', '小学校数', '小学校教員数', '小学校児童数', '中学校数', '中学校教員数', '中学校生徒数', '中学校卒業者数', '中学校卒業者のうち進学者数', '高等学校数', '高等学校教員数', '高等学校生徒数', '高等学校卒業者数', '高等学校卒業者のうち進学者数', '短期大学数', '大学数', '短期大学教員数', '大学教員数', '短期大学学生数', '大学学生数', '短期大学卒業者数', '短期大学卒業者のうち進学者数', '大学卒業者数', '大学卒業者のうち進学者数', '専修学校数', '各種学校数', '専修学校生徒数', '各種学校生徒数', '新規求職申込件数(一般)', '月間有効求職者数(一般)', '月間有効求人数(一般)', '充足数(一般)', '就職件数(一般)', '一般旅券発行件数', '延べ宿泊者数', '外国人延べ宿泊者数', '着工新設住宅戸数', '着工新設持家数', '着工新設貸家数', '着工新設分譲住宅数', '着工新設住宅床面積', '着工新設持家床面積', '着工新設分譲住宅床面積', '着工新設貸家床面積', 'ごみ総排出量(総量)', '1人1日当たりの排出量', 'ごみのリサイクル率', '一般病院数', '一般診療所数', '歯科診療所数', '保育所等数', '保育所等定員数', '保育所等利用待機児童数', '保育所等在所児数', '保育所等保育士数', '消費支出(二人以上の世帯)', '食料費(二人以上の世帯)', '住居費(二人以上の世帯)', '光熱・水道費(二人以上の世帯)', '家具・家事用品費(二人以上の世帯)', '被服及び履物費(二人以上の世帯)', '保健医療費(二人以上の世帯)', '交通・通信費(二人以上の世帯)', '教育費(二人以上の世帯)', '教養娯楽費(二人以上の世帯)', 'その他の消費支出(二人以上の世帯)'] Shape: (564, 112) Years: [np.int64(2012), np.int64(2013), np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023)]
df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 | region_map = { '北海道': '北海道・東北', '青森県': '北海道・東北', '岩手県': '北海道・東北', '宮城県': '北海道・東北', '秋田県': '北海道・東北', '山形県': '北海道・東北', '福島県': '北海道・東北', '茨城県': '関東', '栃木県': '関東', '群馬県': '関東', '埼玉県': '関東', '千葉県': '関東', '東京都': '関東', '神奈川県': '関東', '新潟県': '中部', '富山県': '中部', '石川県': '中部', '福井県': '中部', '山梨県': '中部', '長野県': '中部', '岐阜県': '中部', '静岡県': '中部', '愛知県': '中部', '三重県': '近畿', '滋賀県': '近畿', '京都府': '近畿', '大阪府': '近畿', '兵庫県': '近畿', '奈良県': '近畿', '和歌山県': '近畿', '鳥取県': '中国・四国', '島根県': '中国・四国', '岡山県': '中国・四国', '広島県': '中国・四国', '山口県': '中国・四国', '徳島県': '中国・四国', '香川県': '中国・四国', '愛媛県': '中国・四国', '高知県': '中国・四国', '福岡県': '九州・沖縄', '佐賀県': '九州・沖縄', '長崎県': '九州・沖縄', '熊本県': '九州・沖縄', '大分県': '九州・沖縄', '宮崎県': '九州・沖縄', '鹿児島県': '九州・沖縄', '沖縄県': '九州・沖縄', } region_colors = { '北海道・東北': '#4e9af1', '関東': '#e05c5c', '中部': '#f0a500', '近畿': '#5cb85c', '中国・四国': '#9b59b6', '九州・沖縄': '#f39c12', } region_order = ['北海道・東北', '関東', '中部', '近畿', '中国・四国', '九州・沖縄'] df_b['地域'] = df_b['都道府県'].map(region_map) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。53 54 55 56 57 58 | # 数値型変換 num_cols = ['食料費(二人以上の世帯)', '消費支出(二人以上の世帯)', '光熱・水道費(二人以上の世帯)', '住居費(二人以上の世帯)', '保健医療費(二人以上の世帯)', '総人口', '65歳以上人口'] for c in num_cols: df_b[c] = pd.to_numeric(df_b[c], errors='coerce') |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 | latest = df_b[df_b['年度'] == 2022].copy() latest['高齢化率'] = latest['65歳以上人口'] / latest['総人口'] * 100 latest['食料費率'] = (latest['食料費(二人以上の世帯)'] / latest['消費支出(二人以上の世帯)'] * 100) # 全国平均(SSDSE-B には全国行がないため 47都道府県平均) national_avg = latest['食料費(二人以上の世帯)'].mean() national_rate = latest['食料費率'].mean() print(f"\n=== 基本統計(2022年)===") print(f"全国平均 食料費: {national_avg:.0f}円/月") print(f"全国平均 食料費率: {national_rate:.1f}%") print(f"\n上位5都道府県(食料費):") top5 = latest.nlargest(5, '食料費(二人以上の世帯)')[['都道府県', '食料費(二人以上の世帯)', '地域']] print(top5.to_string(index=False)) print(f"\n下位5都道府県(食料費):") bot5 = latest.nsmallest(5, '食料費(二人以上の世帯)')[['都道府県', '食料費(二人以上の世帯)', '地域']] print(bot5.to_string(index=False)) |
=== 基本統計(2022年)=== 全国平均 食料費: 76598円/月 全国平均 食料費率: 26.5% 上位5都道府県(食料費): 都道府県 食料費(二人以上の世帯) 地域 東京都 87973 関東 埼玉県 87922 関東 神奈川県 85076 関東 滋賀県 84692 近畿 千葉県 84638 関東 下位5都道府県(食料費): 都道府県 食料費(二人以上の世帯) 地域 愛媛県 67889 中国・四国 沖縄県 68318 九州・沖縄 和歌山県 68715 近畿 鳥取県 69588 中国・四国 佐賀県 69993 九州・沖縄
.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。77 78 79 80 81 82 83 84 85 86 87 88 89 90 | print("\n=== 地域別 食料費平均(2022年) ===") region_stats = latest.groupby('地域')['食料費(二人以上の世帯)'].agg(['mean', 'std']) region_stats.columns = ['平均', '標準偏差'] region_stats['変動係数(%)'] = region_stats['標準偏差'] / region_stats['平均'] * 100 print(region_stats.round(0).to_string()) print("\n=== 時系列変化(COVID前後比較)===") pre_covid = df_b[df_b['年度'] == 2019].groupby('地域')['食料費(二人以上の世帯)'].mean() post_covid = df_b[df_b['年度'] == 2021].groupby('地域')['食料費(二人以上の世帯)'].mean() change = (post_covid - pre_covid) / pre_covid * 100 print("COVID前後(2019→2021)食料費変化率:") print(change.round(1).to_string()) print("\nDONE: 2019_H5_2_shorei") |
=== 地域別 食料費平均(2022年) ===
平均 標準偏差 変動係数(%)
地域
中国・四国 72186.0 2958.0 4.0
中部 79261.0 3654.0 5.0
九州・沖縄 71667.0 2816.0 4.0
北海道・東北 76239.0 2748.0 4.0
近畿 79198.0 6220.0 8.0
関東 82238.0 6008.0 7.0
=== 時系列変化(COVID前後比較)===
COVID前後(2019→2021)食料費変化率:
地域
中国・四国 1.1
中部 -0.2
九州・沖縄 3.5
北海道・東北 1.3
近畿 2.6
関東 2.6
DONE: 2019_H5_2_shoreidf.groupby('列').apply(関数) — グループごとに関数を適用。時系列や地域別の集計でよく使います。s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。2022年のSSDSE-Bデータを用いて、47都道府県の食料費(二人以上世帯)を降順に並べ、地域色分けとともに変動係数(CV)を算出した。
| 順位 | 都道府県 | 食料費(円/月) | 地域 |
|---|---|---|---|
| 1位 | 東京都 | 87,973 | 関東 |
| 2位 | 埼玉県 | 87,922 | 関東 |
| 3位 | 神奈川県 | 85,076 | 関東 |
| 43位 | 佐賀県 | 69,993 | 九州・沖縄 |
| 44位 | 鳥取県 | 69,588 | 中国・四国 |
| 45位 | 和歌山県 | 68,715 | 近畿 |
| 46位 | 沖縄県 | 68,318 | 九州・沖縄 |
| 47位 | 愛媛県 | 67,889 | 中国・四国 |
「食料費」(家計調査)と「食料自給率」(農林水産省)は全く異なる指標である。食料費は世帯の支出額を示し、食料自給率は国内生産量の割合を示す。都道府県別の「食料費が高い」ことは「食料を多く生産している」ことを意味しない。例えば東京は食料費が全国最高水準だが食料自給率はほぼ0%である。分析目的に合った指標を選ぶことが重要。
92 93 94 95 96 97 98 99 | fig1, ax1 = plt.subplots(figsize=(14, 8)) sorted_latest = latest.sort_values('食料費(二人以上の世帯)', ascending=False).reset_index(drop=True) colors_bar = [region_colors[r] for r in sorted_latest['地域']] bars = ax1.bar(range(len(sorted_latest)), sorted_latest['食料費(二人以上の世帯)'], color=colors_bar, width=0.85, alpha=0.88, edgecolor='white', linewidth=0.5) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。sort_values('列名', ascending=False) — 指定列で並べ替え(降順)。[式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。100 101 102 103 104 105 106 107 108 109 110 111 | # 全国平均線 ax1.axhline(y=national_avg, color='#333333', linewidth=1.8, linestyle='--', label=f'全国平均: {national_avg:,.0f}円') ax1.set_xticks(range(len(sorted_latest))) ax1.set_xticklabels(sorted_latest['都道府県'].str.replace('県', '').str.replace('府', '').str.replace('都', '').str.replace('道', ''), rotation=90, fontsize=7.5) ax1.set_ylabel('食料費(円/月)', fontsize=11) ax1.set_title('都道府県別 食料費(二人以上の世帯)ランキング\n2022年 SSDSE-B-2026', fontsize=13, fontweight='bold', pad=14) ax1.set_ylim(55000, 97000) ax1.yaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: f'{x/1000:.0f}千')) ax1.grid(axis='y', alpha=0.3, linewidth=0.6) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。112 113 114 115 116 117 118 | # 凡例(地域別) from matplotlib.patches import Patch legend_handles = [Patch(facecolor=region_colors[r], label=r) for r in region_order] legend_handles.append(plt.Line2D([0], [0], color='#333333', linewidth=1.8, linestyle='--', label=f'全国平均')) ax1.legend(handles=legend_handles, loc='upper right', fontsize=8.5, framealpha=0.92, ncol=2) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。119 120 121 122 123 124 125 126 127 128 | # 変動係数 cv = latest['食料費(二人以上の世帯)'].std() / latest['食料費(二人以上の世帯)'].mean() * 100 ax1.text(0.02, 0.04, f'変動係数 CV = {cv:.1f}%', transform=ax1.transAxes, fontsize=9, color='#555', bbox=dict(boxstyle='round,pad=0.3', facecolor='#f5f5f5', alpha=0.8)) ax1.spines[['top', 'right']].set_visible(False) plt.tight_layout() fig1.savefig(os.path.join(FIG_DIR, '2019_H5_2_fig1.png'), bbox_inches='tight') plt.close(fig1) print("\n[OK] fig1 saved") |
[OK] fig1 saved
df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。食料費支出と総消費支出のPearson相関係数を算出し、回帰直線とともに47都道府県の散布図を描いた。各都道府県を6地域で色分けし、地域パターンを視覚化した。
「消費支出」は「所得水準」の代理変数(proxy variable)として用いている。本来は可処分所得や世帯年収が理想だが、都道府県別集計では家計調査の消費支出が利用しやすい。代理変数を使う際は、代理の妥当性(validity)を議論することが重要。消費支出は所得以外(貯蓄率・家族構成・物価)の影響も含むため、解釈に注意が必要。
130 131 132 133 134 135 136 137 | fig2, ax2 = plt.subplots(figsize=(9, 7)) for region in region_order: sub = latest[latest['地域'] == region] ax2.scatter(sub['消費支出(二人以上の世帯)'], sub['食料費(二人以上の世帯)'], color=region_colors[region], s=60, alpha=0.85, edgecolors='white', linewidth=0.7, label=region, zorder=3) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。138 139 140 141 142 143 144 | # ラベル(重ならないように選択) for _, row in latest.iterrows(): pref = row['都道府県'].replace('県', '').replace('府', '').replace('都', '').replace('道', '') ax2.annotate(pref, (row['消費支出(二人以上の世帯)'], row['食料費(二人以上の世帯)']), fontsize=6.5, xytext=(3, 3), textcoords='offset points', alpha=0.8, color='#444') |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。for _, row in df.iterrows() — DataFrameを1行ずつ取り出すループ。1点ずつ描画したいときに使用。x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 | # 回帰直線 x_vals = latest['消費支出(二人以上の世帯)'] y_vals = latest['食料費(二人以上の世帯)'] mask = x_vals.notna() & y_vals.notna() slope, intercept, r_val, p_val, _ = stats.linregress(x_vals[mask], y_vals[mask]) xline = np.linspace(x_vals.min(), x_vals.max(), 100) ax2.plot(xline, slope * xline + intercept, color='#333', linewidth=1.8, linestyle='--', alpha=0.7, label=f'回帰直線') print(f"\nPearson r (食料費 vs 消費支出): r={r_val:.3f}, p={p_val:.4f}") ax2.set_xlabel('消費支出(円/月)', fontsize=11) ax2.set_ylabel('食料費(円/月)', fontsize=11) ax2.set_title(f'食料費 vs 消費支出 (2022年・47都道府県)\nr = {r_val:.3f}, p {"< 0.001" if p_val < 0.001 else f"= {p_val:.4f}"}', fontsize=12, fontweight='bold', pad=12) ax2.xaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: f'{x/10000:.0f}万')) ax2.yaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: f'{x/1000:.0f}千')) ax2.grid(alpha=0.25, linewidth=0.6) ax2.legend(loc='upper left', fontsize=8.5, framealpha=0.92) ax2.spines[['top', 'right']].set_visible(False) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。stats.linregress(x, y) — 単回帰の傾き・切片・r値・p値・標準誤差を返します。使わない値は _ で受け取り。df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。166 167 168 169 170 171 172 173 174 175 | # r, p テキスト ax2.text(0.97, 0.05, f'r = {r_val:.3f}\np < 0.001', transform=ax2.transAxes, fontsize=10, ha='right', va='bottom', bbox=dict(boxstyle='round,pad=0.5', facecolor='#fff3e0', alpha=0.9)) plt.tight_layout() fig2.savefig(os.path.join(FIG_DIR, '2019_H5_2_fig2.png'), bbox_inches='tight') plt.close(fig2) print("[OK] fig2 saved") |
Pearson r (食料費 vs 消費支出): r=0.722, p=0.0000 [OK] fig2 saved
s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。2012〜2022年の10年間にわたる地域別食料費の推移を折れ線グラフで可視化した。COVID-19が消費行動に与えた影響(2020〜2021年)に特に注目する。
| 地域 | 2019年(COVID前) | 2021年 | 変化率 |
|---|---|---|---|
| 九州・沖縄 | — | — | +3.5% |
| 近畿 | — | — | +2.6% |
| 関東 | — | — | +2.6% |
| 北海道・東北 | — | — | +1.3% |
| 中国・四国 | — | — | +1.1% |
| 中部 | — | — | −0.2% |
1時点のクロスセクション分析だけでは見えない「変化の方向」を時系列分析で捉えることができる。COVID-19のような外生的ショックが消費パターンをどう変えたかを分析するには、前後比較(差の差:DiD)や時系列トレンドの把握が有効。「内食回帰」現象は外食費の減少と家庭内食料費の増加を同時にもたらすため、食料費の変化の解釈には消費支出全体の変化との対比が重要。
177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 | fig3, ax3 = plt.subplots(figsize=(11, 6)) # COVID期間 ax3.axvspan(2020, 2021, color='#cccccc', alpha=0.35, label='COVID-19 期(2020-2021)') # 地域別年平均 ts_data = df_b.groupby(['年度', '地域'])['食料費(二人以上の世帯)'].mean().reset_index() for region in region_order: sub = ts_data[ts_data['地域'] == region].sort_values('年度') ax3.plot(sub['年度'], sub['食料費(二人以上の世帯)'], color=region_colors[region], linewidth=2.2, marker='o', markersize=5, label=region) ax3.set_xlabel('年度', fontsize=11) ax3.set_ylabel('食料費(円/月)', fontsize=11) ax3.set_title('地域別 食料費の時系列推移(2012〜2022年)\n6地域別平均・SSDSE-B-2026', fontsize=12, fontweight='bold', pad=12) ax3.set_xticks(sorted(df_b['年度'].unique())) ax3.set_xticklabels(sorted(df_b['年度'].unique()), rotation=45, fontsize=9) ax3.yaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: f'{x/1000:.0f}千')) ax3.grid(alpha=0.25, linewidth=0.6) ax3.legend(loc='upper left', fontsize=9, framealpha=0.92, ncol=2) ax3.spines[['top', 'right']].set_visible(False) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。df.groupby('列').apply(関数) — グループごとに関数を適用。時系列や地域別の集計でよく使います。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。sort_values('列名', ascending=False) — 指定列で並べ替え(降順)。x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。201 202 203 204 205 206 207 208 | # COVID注釈 ax3.text(2020.5, ax3.get_ylim()[0] * 1.005 + ax3.get_ylim()[1] * 0.005, 'COVID-19', fontsize=8.5, ha='center', color='#666', style='italic') plt.tight_layout() fig3.savefig(os.path.join(FIG_DIR, '2019_H5_2_fig3.png'), bbox_inches='tight') plt.close(fig3) print("[OK] fig3 saved") |
[OK] fig3 saved
df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。食料費を目的変数とし、消費支出・高齢化率・光熱水道費を説明変数とした最小二乗法(OLS)重回帰分析を実施した。各変数を標準化して標準化偏回帰係数(β)を算出し、説明力を比較した。
| 説明変数 | 標準化係数 β | 有意水準 | 解釈 |
|---|---|---|---|
| 消費支出(二人以上世帯) | +0.563 | *** p<0.001 | 最も影響力が大きい正の要因 |
| 高齢化率(65歳以上比率) | −0.402 | *** p<0.001 | 高齢化率が高いほど食料費が減少 |
| 光熱・水道費(二人以上世帯) | +0.254 | * p<0.05 | 生活費全般の高い地域で食料費も高い |
| 決定係数 R² = 0.645 自由度調整済み R² = 0.620 N = 47都道府県(2022年) | |||
地域格差を定量化する際、単純な最大・最小の差(レンジ)より変動係数(CV = 標準偏差 / 平均 × 100%)が有用である。CVは平均に対する相対的な散らばりを示すため、異なるスケールの変数間での格差比較が可能になる。食料費のCV約6%は「格差が比較的小さい」ことを示す一方、重回帰で残差(説明されない変動)を確認することで、「モデルで説明されない格差」の大きさを評価できる。
210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 | y_reg = latest['食料費(二人以上の世帯)'] X_reg = latest[['消費支出(二人以上の世帯)', '高齢化率', '光熱・水道費(二人以上の世帯)']].copy() mask_reg = X_reg.notna().all(axis=1) & y_reg.notna() X_reg_c = X_reg[mask_reg] y_reg_c = y_reg[mask_reg] # 標準化 X_std = (X_reg_c - X_reg_c.mean()) / X_reg_c.std() y_std = (y_reg_c - y_reg_c.mean()) / y_reg_c.std() X_sm = sm.add_constant(X_std) model = sm.OLS(y_std, X_sm).fit() coefs = model.params.drop('const') cis = model.conf_int().drop('const') pvals = model.pvalues.drop('const') var_labels = ['消費支出\n(二人以上世帯)', '高齢化率\n(65歳以上比率)', '光熱・水道費\n(二人以上世帯)'] def sig_mark(p): if p < 0.001: return '***' elif p < 0.01: return '**' elif p < 0.05: return '*' else: return 'n.s.' print(f"\n=== 重回帰結果(標準化係数)===") print(f"R² = {model.rsquared:.3f}, Adj.R² = {model.rsquared_adj:.3f}") for vn, coef, pv in zip(var_labels, coefs.values, pvals.values): print(f" {vn.replace(chr(10),' ')}: β={coef:.3f}, p={pv:.4f} {sig_mark(pv)}") fig4, ax4 = plt.subplots(figsize=(9, 5)) colors_coef = ['#e05c5c' if c > 0 else '#4e9af1' for c in coefs.values] y_pos = range(len(coefs)) bars4 = ax4.barh(y_pos, coefs.values, color=colors_coef, alpha=0.85, edgecolor='white', linewidth=0.8, height=0.55) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。sm.add_constant(X) — 切片項(定数1の列)を先頭に追加。statsmodelsで必須。sm.OLS(y, X).fit() — 最小二乗法でモデルを推定。model.params, model.pvalues, model.conf_int() で結果取得。df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 | # 95% CI for i, (lo, hi) in enumerate(zip(cis[0].values, cis[1].values)): ax4.plot([lo, hi], [i, i], color='#333', linewidth=2.5, zorder=4) ax4.plot([lo, lo], [i - 0.12, i + 0.12], color='#333', linewidth=2) ax4.plot([hi, hi], [i - 0.12, i + 0.12], color='#333', linewidth=2) # 有意水準マーク for i, (coef, pv) in enumerate(zip(coefs.values, pvals.values)): mark = sig_mark(pv) offset = 0.02 x_pos = coef + offset if coef >= 0 else coef - offset ha = 'left' if coef >= 0 else 'right' color = '#c0392b' if pv < 0.05 else '#888' ax4.text(x_pos, i, mark, va='center', ha=ha, fontsize=13, color=color, fontweight='bold') ax4.set_yticks(list(y_pos)) ax4.set_yticklabels(var_labels, fontsize=10) ax4.axvline(x=0, color='#333', linewidth=1.2, linestyle='-', alpha=0.6) ax4.set_xlabel('標準化偏回帰係数 (β)', fontsize=11) ax4.set_title(f'重回帰分析:食料費の決定要因(標準化偏回帰係数 + 95%CI)\nN=47都道府県, R²={model.rsquared:.3f}, 2022年', fontsize=11, fontweight='bold', pad=14) ax4.set_xlim(-0.85, 0.95) ax4.grid(axis='x', alpha=0.3, linewidth=0.6) ax4.spines[['top', 'right']].set_visible(False) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 | # 凡例説明 from matplotlib.patches import Patch legend_e = [Patch(facecolor='#e05c5c', label='正の効果(食料費を増加)'), Patch(facecolor='#4e9af1', label='負の効果(食料費を減少)')] ax4.legend(handles=legend_e, loc='lower right', fontsize=9, framealpha=0.9) # 有意水準凡例 ax4.text(0.01, -0.12, '有意水準: *** p<0.001 ** p<0.01 * p<0.05 n.s. 非有意', transform=ax4.transAxes, fontsize=8.5, color='#555') plt.tight_layout() fig4.savefig(os.path.join(FIG_DIR, '2019_H5_2_fig4.png'), bbox_inches='tight') plt.close(fig4) print("[OK] fig4 saved") |
=== 重回帰結果(標準化係数)=== R² = 0.645, Adj.R² = 0.620 消費支出 (二人以上世帯): β=0.563, p=0.0000 *** 高齢化率 (65歳以上比率): β=-0.402, p=0.0006 *** 光熱・水道費 (二人以上世帯): β=0.254, p=0.0152 * [OK] fig4 saved
import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。np.cumsum(arr) は累積和、np.linspace(a, b, n) は「aからbを等間隔でn個」。NumPyの定石です。SSDSE-B(47都道府県、2022年)を用いた分析の結果、都道府県別食料費支出の地域格差について以下の知見が得られた。
| データ | 出典 | 備考 |
|---|---|---|
| SSDSE-B-2026(都道府県別統計) | 統計数理研究所 | 実データを使用 |
| 家計調査(二人以上世帯) | 総務省統計局(SSDSE-B収録) | 食料費・消費支出・光熱水道費 |
| 人口統計(総人口・65歳以上人口) | 総務省(SSDSE-B収録) | 高齢化率の算出に使用 |
本教育用コードはSSDSE-B-2026の実データを使用。合成データは一切使用していない。
統計分析の解釈で初心者がやりがちな勘違いをまとめます。特に「相関と因果の混同」「p値の過信」は研究現場でもよく起きる落とし穴です。本文を読む前にも、読んだ後にも、目を通してみてください。
統計の基本用語を初心者向けに解説します。本文中で見慣れない言葉が出てきたら、ここに戻って確認してください。
統計手法について「何のためか」「結果をどう読むか」を初心者向けに解説します。
この研究をさらに発展させるための3つの方向性を示します。「今回わかったこと(X)」から「次に検証すべき仮説(Y)」を立て、「具体的に何をするか(Z)」まで考えてみましょう。
学んだだけでは身につきません。実際に手を動かすのが最強の学習方法です。本論文のスクリプトをベースに、以下のチャレンジに挑戦してみてください。難易度別に5つ用意しました。
本論文で学んだ手法は、研究の世界だけでなく、行政・企業・NPO の現場でも様々に活用されています。具体的なシーンを紹介します。
この論文を読んで初心者が抱きやすい疑問に、教育的観点から答えます。