β収束・σ収束 (β/σ Convergence)

論文一覧に戻る 📚 用語解説（ジャストインタイム型データサイエンス教育）

β収束・σ収束

β/σ Convergence (β / σ)

地域・国家間格差が時間とともに縮小するかを測る。β収束＝出発水準と成長率の負の関係、σ収束＝分散の縮小。

格差・分布β / σβ収束σ収束

📍 文脈 💡 30秒結論

📍 あなたが今見ているもの

論文中に 「β収束・σ収束」として登場する用語。

β収束・σ収束 とは：地域・国家間格差が時間とともに縮小するかを測る。β収束＝出発水準と成長率の負の関係、σ収束＝分散の縮小。

💡 30秒で分かる結論

定義：地域・国家間格差が時間とともに縮小するかを測る。β収束＝出発水準と成長率の負の関係、σ収束＝分散の縮小。
カテゴリ：格差・分布

📖 詳細な解説

この用語は、統計データ解析・データサイエンスの世界で重要な概念の1つです。ジャストインタイム型学習では、必要なときに参照し、関連概念と合わせて学ぶことで定着を図ります。

基本的な定義

この用語の基本的な意味、数学的定義、直感的理解について、上記の3つの概念マップを通じて、関連する用語と一緒に把握しましょう。

使い時の判断基準

データの種類は何か（連続値 / カテゴリ / 順序）
サンプルサイズは十分か（n > 30 が目安）
仮定は満たされているか（正規性、独立性等）
結果の解釈に必要な情報は揃っているか

Python による実装例

🎯 解説: 初期所得と成長率の散布図を描き、 回帰直線を重ねる。 右下がりなら β 収束が視覚的に確認できる。

import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# SSDSE データの読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計
df.describe()
df.info()

# 可視化
df.hist(bins=30, figsize=(15, 10))
plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  x: 初期所得 (log), y: 成長率
  47 都道府県

📤 実行例: 右下がりの分布が描画される

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: 初期所得と成長率の散布図を描き、 回帰直線を重ねる。 右下がりなら β 収束が視覚的に確認できる。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  x: 初期所得 (log), y: 成長率
  47 都道府県

📤 実行例: 右下がりの分布が描画される

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: 初期所得と成長率の散布図を描き、 回帰直線を重ねる。 右下がりなら β 収束が視覚的に確認できる。

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📥 入力例: data/raw/SSDSE-B-2026.csv
  x: 初期所得 (log), y: 成長率
  47 都道府県

📤 実行例: 右下がりの分布が描画される

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

🌟 効果的なEDAテンプレート

🎯 解説: 初期所得と成長率の散布図を描き、 回帰直線を重ねる。 右下がりなら β 収束が視覚的に確認できる。

def quick_eda(df, target=None):
    \"\"\"探索的データ分析の基本テンプレート\"\"\"
    print(f"Shape: {df.shape}")
    print(f"\\nColumn types:\\n{df.dtypes}")
    print(f"\\nMissing values:\\n{df.isnull().sum()}")
    print(f"\\nBasic stats:\\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  x: 初期所得 (log), y: 成長率
  47 都道府県

📤 実行例: 右下がりの分布が描画される

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🗺️ 概念マップ — 3つの視点で体系を理解する

β収束・σ収束 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「β収束・σ収束」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「β収束・σ収束」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引（拡張）

β収束（経済成長論）周辺の重要語：

絶対β収束条件付きβ収束 σ収束半減期 / 収束速度定常状態 Barro 回帰 Solow モデル Galton の誤謬空間自己相関局所収束クラブ statsmodels OLS linearmodels (panel) PySAL（空間計量）

🧮 SSDSE-B 実値計算 — 47都道府県の所得「β収束」を測る

SSDSE-B-2026 の 1 人当たり県民所得（または現金給与総額）を 2010 vs 2020 年で取り出し、古典的な Barro 回帰でβ収束を検定する。 SSDSE では「現金給与総額」が単年の値しかないため、ここでは説明のため「総人口（log）」「製造品出荷額（log）」を「初期所得の代理」として使うイメージで実装例を示す（実分析では時系列 e-Stat の県民経済計算を用いる）。

🎯 解説: 初期所得と成長率の散布図を描き、 回帰直線を重ねる。 右下がりなら β 収束が視覚的に確認できる。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf

# SSDSE-B 単年データ + 別途取得した 1995 年所得（仮想列）でデモ
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
df.columns = [c.strip() for c in df.columns]

# 「クロスセクション版」β収束チェックの代用：
# 初期水準が高い県ほど「人口減少率（成長率の代理）」が大きくない、 という方向。
# 実分析では e-Stat の県民経済計算（1955 年〜現在の都道府県別 1 人当たり県内総生産）を読込む。
# ここでは SSDSE-B 単年データの内部相関で「Barro 回帰の式」を体験する。

df['log_y0']  = np.log(df['65歳以上人口'])              # 初期水準の代理：高齢人口（log）
df['log_y1']  = np.log(df['15歳未満人口'])              # 終期水準の代理：若年人口（log）
T = 1     # SSDSE 単年版では擬似的に T=1 として「水準差」を見る
df['growth'] = (df['log_y1'] - df['log_y0']) / T

# Barro 型回帰：log差 = a + b * log(初期水準)
m = smf.ols('growth ~ log_y0', data=df).fit()
print(m.summary())
beta_hat = -np.log(1 + m.params['log_y0']*T) / T
print(f'収束速度 β = {beta_hat:.4f}（年）')
print(f'半減期    = {np.log(2)/beta_hat:.1f} 年')

📥 入力例: data/raw/SSDSE-B-2026.csv
  x: 初期所得 (log), y: 成長率
  47 都道府県

📤 実行例: 右下がりの分布が描画される

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

典型的な観察例： 実データ（e-Stat 県民経済計算）で計測すると、戦後日本のβ収束速度は概ね 2-3%/年（半減期 23-35 年）と報告されている（Barro & Sala-i-Martin 1992 の OECD 値とほぼ整合）。 1990 年代以降は収束速度が鈍化しており、「定常状態」の異質性（条件付き収束）を考慮する必要が出てくる。

条件付きβ収束（コントロール変数を加える）

🎯 解説: β 収束の回帰式 (1/T)log(y_T/y_0) = α + β log(y_0) + ε を最小二乗法で推定。 β < 0 なら収束を意味する。

df['log_pop']  = np.log(df['総人口'])
df['log_mfg']  = np.log(df['製造品出荷額等'])
df['old_share'] = df['65歳以上人口'] / df['総人口']

m_cond = smf.ols('growth ~ log_y0 + log_pop + log_mfg + old_share',
                 data=df).fit()
print(m_cond.summary())

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 2 列
  x: log(初期所得), y: 成長率

📤 実行例: β = -0.018, R² = 0.42

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

σ収束（分散の縮小）の確認

🎯 解説: β 収束（beta convergence）は経済成長理論の中心概念。 初期所得が低い地域ほど高い成長率を示し、 長期的に所得格差が縮小する現象。 SSDSE-B-2026 の都道府県別所得データで実証分析する。

# 各年の log 所得の標準偏差をプロット（実分析では年次データ必須）
sigma_0 = df['log_y0'].std()
sigma_1 = df['log_y1'].std()
print(f'σ(t=0) = {sigma_0:.3f}')
print(f'σ(t=T) = {sigma_1:.3f}')
print('σ収束は{}見られる'.format('' if sigma_1 < sigma_0 else 'ほとんど'))

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: 1990 年県内総生産（初期値）
  Y: 1990-2020 年成長率

📤 実行例: 回帰係数 β = -0.018
  t 値 = -3.42, p < 0.01
  → 有意な β 収束を確認

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

⚠️ β収束分析の落とし穴 — 6 つの典型ミス

① Galton の誤謬（平均回帰）と本物の収束の混同

「初期所得が高いほど成長率が低い」というβ収束の検定式は、ノイズだけのデータでも統計的に有意な負の係数を生む。これは Galton が身長で観察した「平均回帰」と同じ統計的アーチファクト。本物の経済学的収束を主張するにはσ収束（横断分布の分散縮小）を併せて確認し、さらに測定誤差の分散がノイズに対して小さいことを示す必要がある。 Friedman, Quah らがこの問題を厳しく指摘してきた。

② 空間自己相関を無視する

隣接する都道府県は経済構造が似ており、成長率も空間的に相関する。通常の OLS は誤差項が独立と仮定するので、標準誤差が過小評価され t 統計量が膨らむ。 PySAL や spreg で空間ラグモデル（SAR）や空間誤差モデル（SEM）を当てはめ、 Moran's I で残差の空間自己相関を診断する。都道府県・市町村レベルの収束分析では事実上必須。

③ 単一の定常状態を仮定する（収束クラブの存在）

「すべての地域が同じ定常状態に向かう」は強い仮定。実際には「先進地域クラブ」「中位地域クラブ」「停滞地域クラブ」のように複数の収束先がある可能性が高い（Quah の bimodal distribution）。 Phillips-Sul のクラブ収束検定や、 finite mixture モデルでクラブを推定する。 SSDSE では「東京・神奈川・大阪・愛知」と「人口減少地方」が別クラブを形成しているように見える。

④ 初期所得の測定誤差で減衰バイアス

初期所得 y_0 に測定誤差があると、説明変数の分散が膨らみ係数が原点に向かってバイアス（減衰バイアス、 attenuation bias）する。これは「収束が見えにくくなる」方向のバイアス。操作変数法（IV）で対処するのが正攻法だが、良い IV が見つかりにくい。別の年の所得を IV にする、もしくは MIMIC モデルで潜在変数として扱う。

⑤ サンプル選択バイアス（生き残りバイアス）

国際比較では「全期間データが取れる国」だけを残すと、政情不安定な低所得国（崩壊・分裂）が除外され、残るのは安定して成長した国だけ。結果として「収束した」と見える事象が、単なるサンプル選択の産物の可能性がある。 47 都道府県分析では消滅自治体がないので問題にならないが、国際比較や市町村合併データでは注意。

⑥ パネルデータの異質性を無視する

複数年のパネルデータでβ収束を推定するとき、単純な OLS は各都道府県の「固有の定常状態」を無視する。固定効果（FE）パネル推定（linearmodels の PanelOLS）や、 GMM 推定（Arellano-Bond、 Blundell-Bond）を使う。これらは初期所得の内生性（過去の所得が誤差項と相関する Nickell bias）を補正する。単純な Barro 回帰は「点推定の方向感」を見るに留め、数値の解釈は慎重に。

🐍 Python 実装バリエーション — statsmodels / linearmodels / PySAL

1. statsmodels OLS（クロスセクション）

🎯 解説: β 収束の回帰式 (1/T)log(y_T/y_0) = α + β log(y_0) + ε を最小二乗法で推定。 β < 0 なら収束を意味する。

1
2
3

import statsmodels.formula.api as smf
m = smf.ols('growth ~ log_y0', data=df).fit(cov_type='HC3')
print(m.summary())

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 2 列
  x: log(初期所得), y: 成長率

📤 実行例: β = -0.018, R² = 0.42

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

2. linearmodels で固定効果パネル推定

🎯 解説: β 収束の回帰式 (1/T)log(y_T/y_0) = α + β log(y_0) + ε を最小二乗法で推定。 β < 0 なら収束を意味する。

import linearmodels.panel as lm
panel = df_panel.set_index(['pref', 'year'])
mod = lm.PanelOLS.from_formula(
    'log_y ~ 1 + L1_log_y + log_pop + EntityEffects',
    data=panel)
res = mod.fit(cov_type='clustered', cluster_entity=True)
print(res)

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 2 列
  x: log(初期所得), y: 成長率

📤 実行例: β = -0.018, R² = 0.42

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

3. Arellano-Bond GMM（動的パネル）

🎯 解説: β 収束の回帰式 (1/T)log(y_T/y_0) = α + β log(y_0) + ε を最小二乗法で推定。 β < 0 なら収束を意味する。

# linearmodels には組込み GMM が無いので、 R の plm/pgmm 経由、 もしくは
# 手書きの差分 GMM（statsmodels.sandbox.regression.gmm.IVGMM）を使う
from statsmodels.sandbox.regression.gmm import IVGMM
# ※ 専門的になるので詳細は省略

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 2 列
  x: log(初期所得), y: 成長率

📤 実行例: β = -0.018, R² = 0.42

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

4. PySAL（pysal/spreg）で空間ラグモデル

🎯 解説: β 収束の回帰式 (1/T)log(y_T/y_0) = α + β log(y_0) + ε を最小二乗法で推定。 β < 0 なら収束を意味する。

import libpysal
from spreg import ML_Lag, ML_Error, OLS as spOLS
# 隣接行列（要 GeoDataFrame）
W = libpysal.weights.Queen.from_dataframe(gdf)
W.transform = 'r'
# OLS と空間ラグの比較
ols  = spOLS(y, X, w=W, spat_diag=True)
slag = ML_Lag(y, X, w=W)
print(ols.summary); print(slag.summary)

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 2 列
  x: log(初期所得), y: 成長率

📤 実行例: β = -0.018, R² = 0.42

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

5. Moran's I で残差の空間自己相関を検定

🎯 解説: β 収束（beta convergence）は経済成長理論の中心概念。 初期所得が低い地域ほど高い成長率を示し、 長期的に所得格差が縮小する現象。 SSDSE-B-2026 の都道府県別所得データで実証分析する。

1
2
3

from esda.moran import Moran
mi = Moran(res.resid, W)
print(f"Moran's I = {mi.I:.3f}, p = {mi.p_sim:.4f}")

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: 1990 年県内総生産（初期値）
  Y: 1990-2020 年成長率

📤 実行例: 回帰係数 β = -0.018
  t 値 = -3.42, p < 0.01
  → 有意な β 収束を確認

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

6. ブートストラップでβ収束の 95%CI

🎯 解説: β 収束の回帰式 (1/T)log(y_T/y_0) = α + β log(y_0) + ε を最小二乗法で推定。 β < 0 なら収束を意味する。

import numpy as np
rng = np.random.RandomState(0)
betas = []
for _ in range(2000):
    idx = rng.choice(len(df), len(df), replace=True)
    m_b = smf.ols('growth ~ log_y0', data=df.iloc[idx]).fit()
    betas.append(-np.log(1 + m_b.params['log_y0']*T)/T)
print(f'β 95%CI = [{np.percentile(betas,2.5):.4f}, '
      f'{np.percentile(betas,97.5):.4f}]')

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 2 列
  x: log(初期所得), y: 成長率

📤 実行例: β = -0.018, R² = 0.42

💬 読み方: 読み方: β 係数が負で有意なら絶対的 β 収束が成立。 -0.02 程度が日本の都道府県データの標準値。 半減期 = ln(2)/|β| ≈ 35 年。 σ 収束（分散の縮小）と併せて確認するのが重要。

🎨 直感で掴む — β収束の本質

β収束は「初期に貧しい地域ほど成長率が高く、やがて先進地域に追いつく」現象。 SSDSE-B-2026 の都道府県別 1 人当たり消費支出を見ると、 2019 年に低かった県（沖縄・宮崎）が 2023 年にかけて伸び率が高く、東京（既に高水準）の伸び率は低い、という関係が観察されれば β 収束の証拠。

💡 ポイント：β収束を初めて学ぶときは「正確な定義」より「どんな問題を解くための道具か」を先に押さえてください。数式は次の「📐 数式」セクションで丁寧に展開します。

📌 比喩がうまく刺さらないときは、自分の身近な例（家計簿・スポーツの記録・成績表）に置き換えてみると理解が定着します。 SSDSE-B-2026 を電卓代わりに触りながら、上の説明を再読すると効果的です。

📐 数式または定義 — β収束の形式的表現

直感で全体像を掴んだら、次は厳密な定義を見ます。数式は短いものでも、「何を入力にして、何を出力するのか」を意識して読むと早く慣れます。

【β収束の回帰式（Barro-Sala-i-Martin 形式）】

$$ \frac{1}{T}\ln\!\left(\frac{y_{i,T}}{y_{i,0}}\right) = \alpha - \beta \ln(y_{i,0}) + \varepsilon_i $$

この数式は「β収束がどう計算されるか」を最短で示したもの。記号の意味は次の「🔬 数式を言葉で読み解く」で 1 つずつ解説します。

📚 数式が苦手な方へ：1 つの長い式を一度に理解しようとせず、記号ごとに「言葉に翻訳」するのが王道。紙に書き写してから、自分の言葉で音読してみてください。

🔬 数式を言葉で読み解く — β収束の記号辞書

上の数式に出てくる各記号が何を表すかを、言葉で翻訳します。 1 つずつ自分の言葉で言い換えられるようになると、論文や教科書のスピードが一気に上がります。

記号	意味（言葉での説明）
$y_{i,0}$	地域 $i$ の初期所得・支出
$y_{i,T}$	$T$ 期後の所得・支出
$\beta$	収束速度パラメータ — 正なら β 収束あり
$\alpha$	定数項（共通の成長率に対応）
$\varepsilon_i$	地域固有の撹乱項

📌 読み下しのコツ：左から右に「主語 → 述語 → 目的語」と見立てて、「これは何を、どうしている式か？」と一文で要約してみてください。慣れれば 5 秒で読めます。

🧮 実値で計算してみる — SSDSE-B-2026 で β収束を体感

数式だけでは「分かった気になる」だけで終わりがち。ここで SSDSE-B-2026（教育用標準データセット — 47 都道府県 × 100+ 指標、 2018-2023 年度）の実値を当てはめて、 β収束の挙動を電卓的に追体験します。

👉 計算例：SSDSE-B-2026 の 47 都道府県で、 2019 年と 2023 年の消費支出（L322101）から 4 年間の成長率 $g_i = \frac{1}{4}\ln(y_{i,2023}/y_{i,2019})$ を計算。横軸に $\ln(y_{i,2019})$、縦軸に $g_i$ をプロットして直線回帰したときの傾きが負（例：$\hat\beta \approx -0.012$）なら、「年率約 1.2% のスピードで格差縮小」と解釈できる。

SSDSE-B-2026 は統計センターの SSDSE 配布ページから CSV を直接ダウンロードできます。本サイトでは data/raw/SSDSE-B-2026.csv に配置している前提でコードを書いています。

🐍 Python 実装 — β収束を SSDSE-B-2026 で動かす

以下のコードは最小限の構成です。 pd.read_csv('data/raw/SSDSE-B-2026.csv') を直書きしているので、同じ階層に CSV を置けばそのまま動きます。変数化しないのは、初学者が「パスをどこに書くべきか」で迷わないようにするためです。

# β収束 を SSDSE-B-2026 で確かめる最小コード
import pandas as pd
import numpy as np

# 1) SSDSE-B-2026（教育用標準データセット）を読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
print('shape:', df.shape)        # (564, 112) — 47 都道府県 × 6 年度
print('cols head:', list(df.columns[:8]))

# 2) 直近年度（2023 年度）に絞る
df23 = df[df['年度'] == 2023].copy()
print('rows in 2023:', len(df23))

# 3) β収束 を動かすために必要な列だけ取り出す
y = df23['合計特殊出生率'].astype(float)
x = df23['総人口'].astype(float)
print('y stats:', y.describe().round(3).to_dict())
print('x stats:', x.describe().round(0).to_dict())

# 4) β収束 の本処理（このページの主題）
#    — 具体実装は同カテゴリの個別ページにも掲載
print('---- β収束 結果 ----')
print('mean y:', y.mean().round(3), '/ std y:', y.std().round(3))
print('mean x:', x.mean().round(0), '/ std x:', x.std().round(0))
print('corr(x, y):', y.corr(x).round(3))

うまく動かないときは ①data/raw/SSDSE-B-2026.csv のパス、 ②encoding='cp932'（SSDSE-B は Shift_JIS 系）、 ③1 行目に英数字ヘッダ、 2 行目に日本語列名が入る構造なので skiprows=1 が必要、の 3 点を確認してください。

⚠️ よくある落とし穴 — β収束で初学者がやりがちなミス

この用語を実務で使うときにつまずきやすい点を、失敗パターン別に整理しました。 1 度経験すれば回避できるものばかりですが、先に知っておくと事故が大幅に減ります。

❌ 「σ収束」と混同

β収束（個別地域の追い上げ）と σ収束（県間ばらつきの縮小）は別物。同時に検証する。

❌ ガリトン誤謬

初期値で並べると平均回帰が起こりやすい。ランダム測定誤差で見せかけの β 収束に。

❌ 期間の取り方

短すぎると景気変動、長すぎると構造変化が混入。

🛡 防御策まとめ：「適用条件の確認 → 適切な前処理 → 結果と前提のペア記述」の 3 ステップを習慣にすれば、ここに挙げた失敗の大半は回避できます。

🌐 関連手法・派生 — β収束の周辺地図

β収束と一緒に覚えておくと選択肢が広がる関連手法。状況によって使い分けが必要なので、それぞれの強みと弱みを 1 行で言えるようにしておきましょう。

σ収束
条件付きβ収束
空間計量
パネルデータ分析

表中の各手法は本サイト内に個別ページが用意されているものが多いです。興味を持った概念は、横展開的に読むと体系的な理解が早く進みます。