このページの分析を自分で再現するには、以下の手順でデータを準備してください。コードの編集は不要です。
data/raw/ フォルダに入れます。html/figures/ に自動保存されます。
2010年代後半、訪日外国人(インバウンド)の急増に伴い、観光消費が地域経済に与える波及効果への関心が高まった。政府は2016年に「観光立国推進基本計画」を改定し、観光を日本の基幹産業と位置づけた。しかし、観光消費が都道府県の家計消費支出にどの程度貢献しているかを統計的に検証した研究は少なかった。
まず「都道府県別観光消費の地域経済波及効果宿泊・消費支出データによる重回帰分析」を統計的にとらえることが有効だと考えられる。 その理由は感覚や経験則だけでは、複雑な社会要因の中で「何が本当に効いているか」を見極めにくいからである。 本研究では公開データと統計手法を組み合わせ、この問いに定量的な答えを出すことを目指す。
重回帰分析(OLS) 標準化偏回帰係数 VIF診断 Pearson相関
統計数理研究所が公開する「社会・人口統計体系データセット(SSDSE)」のB区分(都道府県別・複数年)を使用。2019年度の47都道府県横断データを主たる分析対象とした(クロスセクション分析)。
| 変数の役割 | 変数名 | SSDSE-B での列名 | 単位 |
|---|---|---|---|
| 目的変数(Y) | 消費支出 | 消費支出(二人以上の世帯) | 円/月 |
| 説明変数(X) | 旅館密度(観光集積代理) | 旅館営業施設数 ÷ 総人口 × 1万 | 施設/万人 |
| 宿泊密度(観光需要代理) | 延べ宿泊者数 ÷ 総人口 | 回/人 | |
| 高齢化率(人口構造制御) | 65歳以上人口 ÷ 総人口 × 100 | % | |
| インバウンド比率(国際観光代理) | 外国人延べ宿泊者数 ÷ 延べ宿泊者数 × 100 | % |
| 手法 | 目的 | 使用関数(Python) |
|---|---|---|
| Pearson相関分析 | 2変数間の線形関係の強さと方向を確認 | scipy.stats.pearsonr() |
| OLS重回帰分析 | 複数変数で消費支出を同時説明 | statsmodels.OLS().fit() |
| 標準化偏回帰係数 | 単位が異なる変数の影響力を比較 | z-score標準化後にOLS |
| VIF診断 | 多重共線性の程度を数値化 | variance_inflation_factor() |
| 変数 | 標準化β | SE | p値 | 有意 | VIF |
|---|---|---|---|---|---|
| 宿泊施設密度(旅館・ホテル数/万人) | +0.198 | 0.212 | 0.357 | n.s. | 8.94 |
| 延べ宿泊者数(人口あたり) | −0.634 | 0.231 | 0.009 | ** | 10.51 |
| 高齢化率(65歳以上人口比) | −0.274 | 0.168 | 0.110 | n.s. | 5.63 |
| インバウンド比率(外国人宿泊者割合) | +0.147 | 0.184 | 0.429 | n.s. | 4.36 |
| モデル全体: R² = 0.221, Adj.R² = 0.147, F(4,42) = 2.98, p = 0.030 N=47 | |||||
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | import os import numpy as np import pandas as pd import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt import statsmodels.api as sm from scipy import stats from statsmodels.stats.outliers_influence import variance_inflation_factor from matplotlib.patches import Patch plt.rcParams['font.family'] = 'Hiragino Sans' plt.rcParams['axes.unicode_minus'] = False plt.rcParams['figure.dpi'] = 150 FIG_DIR = 'html/figures' DATA_B = 'data/raw/SSDSE-B-2026.csv' os.makedirs(FIG_DIR, exist_ok=True) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。import pandas as pd など — 必要なライブラリをまとめて呼び出します。as pd は短い別名(alias)。matplotlib.use('Agg') — グラフを画面表示せずファイルに保存するためのおまじない。plt.rcParams['font.family'] — グラフの日本語表示用フォント指定(Macは Hiragino Sans、Windowsなら Yu Gothic 等)。os.makedirs('html/figures', exist_ok=True) — 図の保存先フォルダを作る(既にあってもOK)。f"...{x}..." はf-string。文字列の中に {変数} と書くだけで埋め込めて、{x:.2f} のように書式も指定できます。19 20 21 22 23 24 25 26 | # ── データ読み込み ────────────────────────────────────────────────────────── df_b = pd.read_csv(DATA_B, encoding='cp932', header=1) df_b = df_b[df_b['地域コード'].str.match(r'^R\d{5}', na=False)].copy() df_b['年度'] = df_b['年度'].astype(int) print("=== SSDSE-B カラム一覧 ===") print(df_b.columns.tolist()) print() |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。pd.read_csv(...) でCSVを読み込みます。encoding='cp932' は日本語Windows由来の文字コード、header=1 は「2行目を列名として使う」。df['地域コード'].str.match(r'^R\d{5}', ...) — 正規表現で「R+数字5桁」の行(47都道府県)だけTrueにし、真偽値で行をフィルタ。.astype(int) — 列を整数に変換(年度などを数値比較するため)。df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 | # ── 6地域マッピング(SSDSE-B は「北海道」「青森県」…形式)───────────────── region_map = { '北海道': '北海道・東北', '青森県': '北海道・東北', '岩手県': '北海道・東北', '宮城県': '北海道・東北', '秋田県': '北海道・東北', '山形県': '北海道・東北', '福島県': '北海道・東北', '茨城県': '関東', '栃木県': '関東', '群馬県': '関東', '埼玉県': '関東', '千葉県': '関東', '東京都': '関東', '神奈川県': '関東', '新潟県': '中部', '富山県': '中部', '石川県': '中部', '福井県': '中部', '山梨県': '中部', '長野県': '中部', '岐阜県': '中部', '静岡県': '中部', '愛知県': '中部', '三重県': '近畿', '滋賀県': '近畿', '京都府': '近畿', '大阪府': '近畿', '兵庫県': '近畿', '奈良県': '近畿', '和歌山県': '近畿', '鳥取県': '中国・四国', '島根県': '中国・四国', '岡山県': '中国・四国', '広島県': '中国・四国', '山口県': '中国・四国', '徳島県': '中国・四国', '香川県': '中国・四国', '愛媛県': '中国・四国', '高知県': '中国・四国', '福岡県': '九州・沖縄', '佐賀県': '九州・沖縄', '長崎県': '九州・沖縄', '熊本県': '九州・沖縄', '大分県': '九州・沖縄', '宮崎県': '九州・沖縄', '鹿児島県': '九州・沖縄', '沖縄県': '九州・沖縄', } region_colors = { '北海道・東北': '#4e9af1', '関東': '#e05c5c', '中部': '#f0a500', '近畿': '#5cb85c', '中国・四国': '#9b59b6', '九州・沖縄': '#f39c12', } |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。54 55 56 57 58 59 | # ── 2019年度クロスセクションデータ ───────────────────────────────────────── df19 = df_b[df_b['年度'] == 2019].copy() df19 = df19.dropna(subset=[ '消費支出(二人以上の世帯)', '旅館営業施設数(ホテルを含む)', '延べ宿泊者数', '総人口', '65歳以上人口', '外国人延べ宿泊者数' ]).reset_index(drop=True) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。[式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。60 61 62 63 64 65 66 67 68 69 | # 代理変数の作成 df19['旅館密度'] = (df19['旅館営業施設数(ホテルを含む)'].astype(float) / df19['総人口'].astype(float) * 10000) # 旅館・ホテル数/万人 df19['宿泊密度'] = (df19['延べ宿泊者数'].astype(float) / df19['総人口'].astype(float)) # 延べ宿泊者数/人 df19['高齢化率'] = (df19['65歳以上人口'].astype(float) / df19['総人口'].astype(float) * 100) # 65歳以上% df19['外国人比率'] = (df19['外国人延べ宿泊者数'].astype(float) / df19['延べ宿泊者数'].astype(float) * 100) # インバウンド% df19['消費支出'] = df19['消費支出(二人以上の世帯)'].astype(float) # 円 |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。r, p = stats.pearsonr(...) — Pythonは複数戻り値を同時に受け取れる(タプルアンパック)。70 71 72 73 74 75 76 77 | # 地域ラベル df19['地域'] = df19['都道府県'].map(region_map) print("地域マッピング未対応:", df19[df19['地域'].isna()]['都道府県'].tolist()) print("=== 2019年度データ(47都道府県)基本統計 ===") summary_cols = ['旅館密度', '宿泊密度', '外国人比率', '高齢化率', '消費支出'] print(df19[summary_cols].describe().round(2)) print() |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。.describe() — 件数・平均・標準偏差・四分位・最大/最小を一括計算。データの素性チェックに必須。x if cond else y は三項演算子。リスト内包表記と組み合わせると、forとifを1行で書けます。78 79 80 81 82 83 84 85 86 | # ── 重回帰分析(OLS) ──────────────────────────────────────────────────────── X_vars = ['旅館密度', '宿泊密度', '高齢化率', '外国人比率'] y_var = '消費支出' df_reg = df19[X_vars + [y_var, '都道府県', '地域']].dropna().reset_index(drop=True) print(f"回帰分析サンプル数: {len(df_reg)}") X_raw = df_reg[X_vars].values.astype(float) y_raw = df_reg[y_var].values.astype(float) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。df[col](1列)と df[[col1, col2]](複数列)でカッコの数が違います。リストを渡していると覚えるとミスを減らせます。87 88 89 90 91 92 93 94 95 96 97 98 | # OLS(非標準化) X_ols = sm.add_constant(X_raw) model = sm.OLS(y_raw, X_ols).fit() print("=== 重回帰分析結果(非標準化) ===") print(f" R² = {model.rsquared:.4f}, Adj.R² = {model.rsquared_adj:.4f}") print(f" F-stat = {model.fvalue:.3f}, F p-val = {model.f_pvalue:.6f}") for i, v in enumerate(X_vars): stars = ('***' if model.pvalues[i+1] < 0.001 else '**' if model.pvalues[i+1] < 0.01 else '*' if model.pvalues[i+1] < 0.05 else 'n.s.') print(f" {v}: coef={model.params[i+1]:.2f}, p={model.pvalues[i+1]:.4f} {stars}") print() |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。sm.add_constant(X) — 切片項(定数1の列)を先頭に追加。statsmodelsで必須。sm.OLS(y, X).fit() — 最小二乗法でモデルを推定。model.params, model.pvalues, model.conf_int() で結果取得。s[:-n]「末尾n文字を除く」/s[n:]「先頭n文字を除く」。スライス [start:stop:step] はリスト・タプル・文字列共通の基本ワザです。99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 | # 標準化(z-score) X_mean = X_raw.mean(axis=0) X_sd = X_raw.std(axis=0, ddof=1) # ddof=1 for sample std y_mean = y_raw.mean() y_sd = y_raw.std(ddof=1) X_std = (X_raw - X_mean) / X_sd y_std = (y_raw - y_mean) / y_sd X_ols_std = sm.add_constant(X_std) model_std = sm.OLS(y_std, X_ols_std).fit() beta_std = model_std.params[1:] se_std = model_std.bse[1:] pvals_std = model_std.pvalues[1:] print("=== 標準化偏回帰係数 ===") for i, v in enumerate(X_vars): stars = ('***' if pvals_std[i] < 0.001 else '**' if pvals_std[i] < 0.01 else '*' if pvals_std[i] < 0.05 else 'n.s.') print(f" {v}: β={beta_std[i]:.4f}, SE={se_std[i]:.4f}, p={pvals_std[i]:.4f} {stars}") print() |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。sm.add_constant(X) — 切片項(定数1の列)を先頭に追加。statsmodelsで必須。sm.OLS(y, X).fit() — 最小二乗法でモデルを推定。model.params, model.pvalues, model.conf_int() で結果取得。np.cumsum(arr) は累積和、np.linspace(a, b, n) は「aからbを等間隔でn個」。NumPyの定石です。121 122 123 124 125 126 127 | # VIF vif_vals = [variance_inflation_factor(X_raw, i) for i in range(len(X_vars))] print("=== VIF(多重共線性診断) ===") for v, vf in zip(X_vars, vif_vals): flag = " ← 要注意(VIF>5)" if vf > 5 else "" print(f" {v}: VIF = {vf:.2f}{flag}") print() |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。{値:.2f}(小数2桁)、{値:,}(3桁区切り)、{値:>10}(右寄せ10桁)など、覚えると出力が一気に整います。128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 | # Pearson相関 r_val, p_val = stats.pearsonr(df19['旅館密度'], df19['消費支出']) print(f"=== Pearson相関:旅館密度 vs 消費支出 ===") print(f" r = {r_val:.4f}, p = {p_val:.6f}") print() df19_sorted = df19.sort_values('旅館密度', ascending=False).reset_index(drop=True) bar_colors = [region_colors[df19_sorted.loc[i, '地域']] for i in range(len(df19_sorted))] national_avg = df19['旅館密度'].mean() fig, ax = plt.subplots(figsize=(14, 6)) ax.bar(range(len(df19_sorted)), df19_sorted['旅館密度'], color=bar_colors, alpha=0.85, edgecolor='white', linewidth=0.5) ax.axhline(national_avg, color='black', linewidth=1.8, linestyle='--') ax.set_xticks(range(len(df19_sorted))) ax.set_xticklabels(df19_sorted['都道府県'], rotation=90, fontsize=8) ax.set_ylabel('旅館・ホテル数(施設数/万人)', fontsize=12) ax.set_title('図1:都道府県別宿泊施設密度(旅館・ホテル数/万人)ランキング〈2019年〉', fontsize=13, fontweight='bold', pad=14) legend_patches = [Patch(color=v, label=k, alpha=0.85) for k, v in region_colors.items()] legend_patches.append( plt.Line2D([0], [0], color='black', linewidth=1.8, linestyle='--', label=f'全国平均 {national_avg:.1f}施設/万人') ) ax.legend(handles=legend_patches, fontsize=9, loc='upper right', ncol=2) ax.set_xlim(-0.6, len(df19_sorted) - 0.4) ax.set_ylim(0, df19_sorted['旅館密度'].max() * 1.15) ax.spines['top'].set_visible(False) ax.spines['right'].set_visible(False) plt.tight_layout() fig.savefig(os.path.join(FIG_DIR, '2019_U5_3_fig1.png'), dpi=150, bbox_inches='tight') plt.close(fig) print("Figure 1 saved.") |
=== SSDSE-B カラム一覧 ===
['年度', '地域コード', '都道府県', '総人口', '総人口(男)', '総人口(女)', '日本人人口', '日本人人口(男)', '日本人人口(女)', '15歳未満人口', '15歳未満人口(男)', '15歳未満人口(女)', '15~64歳人口', '15~64歳人口(男)', '15~64歳人口(女)', '65歳以上人口', '65歳以上人口(男)', '65歳以上人口(女)', '出生数', '出生数(男)', '出生数(女)', '合計特殊出生率', '死亡数', '死亡数(男)', '死亡数(女)', '転入者数(日本人移動者)', '転入者数(日本人移動者)(男)', '転入者数(日本人移動者)(女)', '転出者数(日本人移動者)', '転出者数(日本人移動者)(男)', '転出者数(日本人移動者)(女)', '婚姻件数', '離婚件数', '年平均気温', '最高気温(日最高気温の月平均の最高値)', '最低気温(日最低気温の月平均の最低値)', '降水日数(年間)', '降水量(年間)', '着工建築物数', '着工建築物床面積', '旅館営業施設数(ホテルを含む)', '旅館営業施設客室数(ホテルを含む)', '標準価格(平均価格)(住宅地)', '標準価格(平均価格)(商業地)', '幼稚園数', '幼稚園教員数', '幼稚園在園者数', '小学校数', '小学校教員数', '小学校児童数', '中学校数', '中学校教員数', '中学校生徒数', '中学校卒業者数', '中学校卒業者のうち進学者数', '高等学校数', '高等学校教員数', '高等学校生徒数', '高等学校卒業者数', '高等学校卒業者のうち進学者数', '短期大学数', '大学数', '短期大学教員数', '大学教員数', '短期大学学生数', '大学学生数', '短期大学卒業者数', '短期大学卒業者のうち進学者数', '大学卒業者数', '大学卒業者のうち進学者数', '専修学校数', '各種学校数', '専修学校生徒数', '各種学校生徒数', '新規求職申込件数(一般)', '月間有効求職者数(一般)', '月間有効求人数(一般)', '充足数(一般)', '就職件数(一般)', '一般旅券発行件数', '延べ宿泊者数', '外国人延べ宿泊者数', '着工新設住宅戸数', '着工新設持家数', '着工新設貸家数', '着工新設分譲住宅数', '着工新設住宅床面積', '着工新設持家床面積', '着工新設分譲住宅床面積', '着工新設貸家床面積', 'ごみ総排出量(総量)', '1人1日当たりの排出量', 'ごみのリサイクル率', '一般病院数', '一般診療所数', '歯科診療所数', '保育所等数', '保育所等定員数', '保育所等利用待機児童数', '保育所等在所児数', '保育所等保育士数', '消費支出(二人以上の世帯)', '食料費(二人以上の世帯)', '住居費(二人以上の世帯)', '光熱・水道費(二人以上の世帯)', '家具・家事用品費(二人以上の世帯)', '被服及び履物費(二人以上の世帯)', '保健医療費(二人以上の世帯)', '交通・通信費(二人以上の世帯)', '教育費(二人以上の世帯)', '教養娯楽費(二人以上の世帯)', 'その他の消費支出(二人以上の世帯)']
地域マッピング未対応: []
=== 2019年度データ(47都道府県)基本統計 ===
旅館密度 宿泊密度 外国人比率 高齢化率 消費支出
count 47.00 47.00 47.00 47.00 47.00
mean 5.74 4.19 11.98 30.42 288524.91
std 3.44 2.46 9.27 3.06 26259.78
min 0.94 0.60 2.02 22.02 210593.00
25% 3.31 2.99 4.99 29.02 273613.50
50% 5.32 3.71 9.40 30.67 289882.00
75% 7.26 4.58 15.70 32.50 306377.50
max 16.33 16.50 38.59 36.93 355065.00
回帰分析サンプル数: 47
=== 重回帰分析結果(非標準化) ===
R² = 0.2211, Adj.R² = 0.1469
F-stat = 2.981, F p-val = 0.029680
旅館密度: coef=1508.27, p=0.3572 n.s.
宿泊密度: coef=-6772.87, p=0.0088 **
高齢化率: coef=-2350.43, p=0.1102 n.s.
外国人比率: coef=417.21, p=0.4290 n.s.
=== 標準化偏回帰係数 ===
旅館密度: β=0.1977, SE=0.2123, p=0.3572 n.s.
宿泊密度: β=-0.6342, SE=0.2307, p=0.0088 **
高齢化率: β=-0.2735, SE=0.1676, p=0.1102 n.s.
外国人比率: β=0.1472, SE=0.1843, p=0.4290 n.s.
=== VIF(多重共線性診断) ===
旅館密度: VIF = 8.94 ← 要注意(VIF>5)
宿泊密度: VIF = 10.51 ← 要注意(VIF>5)
高齢化率: VIF = 5.63 ← 要注意(VIF>5)
外国人比率: VIF = 4.36
=== Pearson相関:旅館密度 vs 消費支出 ===
r = -0.2557, p = 0.082767
Figure 1 saved.fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。sort_values('列名', ascending=False) — 指定列で並べ替え(降順)。ax.axhline / ax.axvline — 水平/垂直の点線。平均線や基準線として定番。stats.pearsonr(x, y) — Pearson相関係数 r と p値を同時に返します。fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。plt.subplots(figsize=(W, H)) で図サイズ指定、fig.savefig(..., bbox_inches='tight') で余白を自動で詰めて保存。複数の説明変数(X₁, X₂, …, Xₖ)を使って目的変数(Y)を同時に説明するモデル。各説明変数の「他の変数を固定した上での」純粋な効果(偏回帰係数)を推定する。
偏回帰係数はXとYの単位に依存するため、単位が異なる変数を比較できない。X・Y をいずれも z-score 標準化(平均0・標準偏差1)してから回帰した係数を「標準化偏回帰係数(β)」と呼び、−1〜+1の範囲で変数の相対的な重要度を比較できる。
説明変数間に強い相関があると(多重共線性)、係数の推定が不安定になり、p値が大きくなる。VIF はその程度を測る指標。VIF=1/(1−R²ⱼ)で計算され、変数 j を他の全変数で回帰したときの R²ⱼ が高いほど VIF が大きくなる。
| 方法 | 説明 | 本分析への適用 |
|---|---|---|
| 変数の削除 | 相関が高い変数のうち一方を除く | 旅館密度か宿泊密度のどちらか一方のみを使う |
| 変数の合成 | PCAなどで次元削減し合成変数を作る | 「観光集積指数」= PCA第1主成分 |
| Ridge回帰 | 正則化でL2ペナルティを追加し係数を安定化 | 係数縮小により多重共線性の影響を緩和 |
| 理論的選択 | 先行研究の理論に基づき重要な変数を選択 | 観光乗数の議論から「宿泊密度」が核心変数 |
166 167 168 169 170 171 | fig, ax = plt.subplots(figsize=(10, 7)) for region, grp in df19.groupby('地域'): ax.scatter(grp['旅館密度'], grp['消費支出'] / 10000, color=region_colors[region], s=60, alpha=0.85, label=region, zorder=3) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。df.groupby('列').apply(関数) — グループごとに関数を適用。時系列や地域別の集計でよく使います。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。df['A'] / df['B'] — pandasの列同士の四則演算は要素ごと(element-wise)。forループ不要なのが強み。172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 | # 都道府県ラベル for _, row in df19.iterrows(): ax.annotate(row['都道府県'], (row['旅館密度'], row['消費支出'] / 10000), fontsize=6.5, ha='left', va='bottom', alpha=0.75, xytext=(2, 2), textcoords='offset points') # 回帰直線 slope, intercept, r_lin, p_lin, _ = stats.linregress( df19['旅館密度'], df19['消費支出'] / 10000) x_plot = np.linspace(df19['旅館密度'].min() - 0.5, df19['旅館密度'].max() + 0.5, 200) ax.plot(x_plot, intercept + slope * x_plot, color='#333333', linewidth=1.8, linestyle='-', zorder=2) p_str = f'p = {p_lin:.4f}' if p_lin >= 0.0001 else 'p < 0.0001' ax.text(0.97, 0.05, f'r = {r_lin:.3f}\n{p_str}\nR² = {r_lin**2:.3f}', transform=ax.transAxes, ha='right', va='bottom', fontsize=11, bbox=dict(boxstyle='round,pad=0.4', facecolor='white', alpha=0.85)) ax.set_xlabel('宿泊施設密度(旅館・ホテル数/万人)', fontsize=12) ax.set_ylabel('消費支出(万円/世帯)', fontsize=12) ax.set_title('図2:宿泊施設密度と消費支出の関係〈2019年・47都道府県〉', fontsize=13, fontweight='bold', pad=12) legend_patches = [Patch(color=v, label=k, alpha=0.85) for k, v in region_colors.items()] ax.legend(handles=legend_patches, fontsize=9, loc='upper left', framealpha=0.85) ax.spines['top'].set_visible(False) ax.spines['right'].set_visible(False) plt.tight_layout() fig.savefig(os.path.join(FIG_DIR, '2019_U5_3_fig2.png'), dpi=150, bbox_inches='tight') plt.close(fig) print("Figure 2 saved.") |
Figure 2 saved.
stats.linregress(x, y) — 単回帰の傾き・切片・r値・p値・標準誤差を返します。使わない値は _ で受け取り。for _, row in df.iterrows() — DataFrameを1行ずつ取り出すループ。1点ずつ描画したいときに使用。fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。本分析で宿泊密度(延べ宿泊者数/人)が消費支出と負の有意な関係を示したことは、直感に反する。考えられる解釈を以下に整理する。
| 限界 | 改善策 |
|---|---|
| サンプルサイズ N=47(都道府県)は小さい | 市区町村レベルに落とし N を増やす(SSDSE-A 活用) |
| 観光消費の直接計測ができない(代理変数) | 観光庁「旅行・観光消費動向調査」の都道府県別データと接続 |
| 因果関係が不明(相関ベースの分析) | 操作変数法・パネルデータ固定効果モデルの適用 |
| 多重共線性により個々の係数が不安定 | 主成分回帰・Ridge回帰による安定化 |
観光消費が地域GDPに与える乗数効果は産業連関分析(Input-Output Analysis)で定量化される。統計モデルでの近似として、観光消費と消費支出の偏相関を「波及効果の代理指標」として用いる方法が論文研究で使われる。
本分析は2019年単年のクロスセクション分析だが、SSDSE-Bには2012〜2023年の複数年データがある。パネルデータ分析(固定効果・変量効果モデル)を使えば、都道府県固有の「見えない特性」をコントロールした、より精度の高い推定が可能になる。
206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 | df_ts = df_b[df_b['年度'].between(2012, 2022)].copy() df_ts['地域'] = df_ts['都道府県'].map(region_map) df_ts = df_ts.dropna(subset=['消費支出(二人以上の世帯)', '地域']) national_ts = (df_ts.groupby('年度')['消費支出(二人以上の世帯)'].mean() / 10000) region_ts = (df_ts.groupby(['年度', '地域'])['消費支出(二人以上の世帯)'].mean() / 10000) fig, ax = plt.subplots(figsize=(11, 6)) for region, color in region_colors.items(): lvl = region_ts.index.get_level_values('地域') if region in lvl: data = region_ts.xs(region, level='地域') ax.plot(data.index, data.values, color=color, linewidth=2.0, marker='o', markersize=4.5, label=region, alpha=0.9) ax.plot(national_ts.index, national_ts.values, color='black', linewidth=3.0, marker='D', markersize=5, label='全国平均', zorder=5) |
print はしません。データや図が裏で更新されただけ。次のステップへ進みましょう。df.groupby('列').apply(関数) — グループごとに関数を適用。時系列や地域別の集計でよく使います。fig, ax = plt.subplots(...) — 図全体(fig)と軸(ax)を作る定番。以降は ax.bar(...) 等で操作。.map() は「1対1の置き換え」、.apply() は「関数を当てる」。辞書なら .map()、ロジックなら .apply()。224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 | # COVID-19 シェーディング ax.axvspan(2019.7, 2021.3, alpha=0.07, color='red') ax.text(2020.5, national_ts.max() * 1.01, 'COVID-19', ha='center', fontsize=9, color='red', alpha=0.7) ax.set_xlabel('年度', fontsize=12) ax.set_ylabel('消費支出(万円/世帯)', fontsize=12) ax.set_title('図3:地域別消費支出の時系列推移〈2012–2022年〉', fontsize=13, fontweight='bold', pad=12) ax.set_xticks(range(2012, 2023)) ax.set_xticklabels(range(2012, 2023), rotation=45, fontsize=9) ax.legend(fontsize=9, loc='lower left', framealpha=0.85) ax.spines['top'].set_visible(False) ax.spines['right'].set_visible(False) plt.tight_layout() fig.savefig(os.path.join(FIG_DIR, '2019_U5_3_fig3.png'), dpi=150, bbox_inches='tight') plt.close(fig) print("Figure 3 saved.") |
Figure 3 saved.
fig.savefig(..., bbox_inches='tight') — 余白を自動で詰めて保存。plt.close() でメモリ解放。[式 for x in リスト] はリスト内包表記。forループでappendする代わりに1行でリストを作れます。SSDSE-B(47都道府県・2019年)を用いた重回帰分析の結果:
| 学習項目 | 本研究での学び |
|---|---|
| 代理変数 | 直接計測できない概念を既存統計で近似する方法と限界 |
| Pearson相関 | 2変数間の関係は第3変数によって反転することがある(Simpson's paradox) |
| 標準化偏回帰係数 | 単位の異なる変数の「相対的重要度」を β で比較 |
| VIF診断 | 多重共線性を数値化し、変数選択の根拠として利用 |
| 交絡因子 | 観察された負の関係は「本当の因果」ではなく第三の要因による可能性 |
| データ | 出典・URL |
|---|---|
| SSDSE-B 都道府県統計(2012–2023年) | 統計数理研究所 SSDSE(https://www.ism.ac.jp/ssdse/) |
| 旅館営業施設数・延べ宿泊者数 | 観光庁「宿泊旅行統計調査」→ SSDSE-B 収録 |
| 消費支出(二人以上の世帯) | 総務省「家計調査」→ SSDSE-B 収録 |
本ページの分析はすべてSSDSE-B-2026.csvの実データを使用。合成データは一切使用していません。
統計分析の解釈で初心者がやりがちな勘違いをまとめます。特に「相関と因果の混同」「p値の過信」は研究現場でもよく起きる落とし穴です。本文を読む前にも、読んだ後にも、目を通してみてください。
統計の基本用語を初心者向けに解説します。本文中で見慣れない言葉が出てきたら、ここに戻って確認してください。
統計手法について「何のためか」「結果をどう読むか」を初心者向けに解説します。
この研究をさらに発展させるための3つの方向性を示します。「今回わかったこと(X)」から「次に検証すべき仮説(Y)」を立て、「具体的に何をするか(Z)」まで考えてみましょう。
学んだだけでは身につきません。実際に手を動かすのが最強の学習方法です。本論文のスクリプトをベースに、以下のチャレンジに挑戦してみてください。難易度別に5つ用意しました。
本論文で学んだ手法は、研究の世界だけでなく、行政・企業・NPO の現場でも様々に活用されています。具体的なシーンを紹介します。
この論文を読んで初心者が抱きやすい疑問に、教育的観点から答えます。