パネルデータ (Panel Data)

📍 あなたが今見ているもの

論文中に 「パネルデータ」として登場する用語。

パネルデータ とは：同じ対象（個体）を複数時点で観測したデータ。クロスセクション＋時系列の構造。

💡 30秒で分かる結論

定義：同じ対象（個体）を複数時点で観測したデータ。クロスセクション＋時系列の構造。
カテゴリ：パネル分析

🎨 直感で掴む — パネルデータの正体

パネルデータは クロスセクション（横断面）と時系列の合体 です。例として SSDSE-B-2026 で 北海道・東京都・大阪府 という個体 ($i$) を 2015 年・2018 年・2021 年 という時点 ($t$) で観測すれば、個体 3 × 時点 3 = 9 観測のミニパネルになります。横の比較（地域差）と縦の比較（時間変化）を 同時に 行えるため、「東京の出生率が下がったのは年代の影響か、それとも東京固有の事情か」を分離できる点が最大の魅力です。

比喩としては 同じ生徒の身長を毎年測る のがパネルデータ、 毎年違うクラスの平均身長 はクロスセクション（pooled cross-section）、 同一クラスの平均だけを毎年 取るのが時系列です。個体識別子 (Code/Prefecture) と時点識別子 (Year) を確実に保持することが、後の固定効果・ランダム効果モデルの前提になります。

📐 定義・数式

パネル回帰の最も一般的な構造は二元誤差成分モデルです。

$$ y_{it} = \alpha + \boldsymbol{x}_{it}^{\top}\boldsymbol{\beta} + \mu_i + \lambda_t + \varepsilon_{it}, \quad i=1,\dots,N,\ t=1,\dots,T $$

ここで $y_{it}$ は個体 $i$ ・時点 $t$ の被説明変数、 $\mu_i$ は個体固有効果、 $\lambda_t$ は時点固有効果。 SSDSE-B-2026 ならば $i$ は 47 都道府県、 $t$ は調査年で、 $y$ を出生率、 $x$ を婚姻率・所得・保育サービスとすれば「地域要因 ($\mu_i$) と全国共通の景気要因 ($\lambda_t$) を吸収した純粋な政策効果 ($\beta$)」が推定できます。

🔬 数式を言葉で読み解く — 記号 → 意味

記号	意味	SSDSE-B-2026 での具体例
$i$	個体（クロスセクション単位）	47 都道府県 (Prefecture)
$t$	時点	調査年 (Year)
$\mu_i$	個体固定効果（時間で変わらない地域特性）	気候・歴史・文化など測定困難な要因
$\lambda_t$	時間効果（全国共通のショック）	コロナ禍・消費税増税・景気循環
$\varepsilon_{it}$	特異誤差（残差）	説明変数で捉えきれないランダムなブレ

推定の際は、個体固有効果 $\mu_i$ を 固定として扱うか（FE）、 ランダム変量として扱うか（RE） でモデルが分かれます。 Hausman 検定で選択するのが定番です。

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

▼ コード解説（パネルデータの基本パターン（読み込み・統計量・可視化））

🎯 解説: 47 都道府県 × 5 年のパネルデータを pandas.read_csv で読み込み、 .describe() で基本統計量、 seaborn.pairplot で多変量散布図を一度に確認する基礎ワークフロー。

📥 入力例: data/raw/SSDSE-B-2026.csv（encoding=cp932）
  全 235 行 × 112 列

📤 実行例: df.describe() → 数値列の count/mean/std/min/max
  pairplot で食料費・教育費・住居費の散布図行列

💬 読み方: パネルデータでは「個体（県）× 時間（年）」の 2 次元構造が重要。 pairplot で変数間の関係性が一目で把握できる。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

▼ コード解説（パネル構造の整形（long ↔ wide 変換））

🎯 解説: pd.melt や pivot で long 形式と wide 形式を変換。 パネルデータ解析（FE/RE モデル）では long 形式が必須。

📥 入力例: wide: 47 行 × (5 年 × K 指標) 列
  long: 235 行 × K 列

📤 実行例: long.shape → (235, k+2)
  index = ('都道府県', '年度') のマルチインデックス

💬 読み方: パネルデータ解析では (i, t) のマルチインデックスにしておくと、 statsmodels や linearmodels の API がそのまま使える。

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

🌟 効果的なEDAテンプレート

▼ コード解説（固定効果（個体内変動））

🎯 解説: linearmodels.PanelOLS で固定効果モデルを推定。 各都道府県の時間不変な特性（地理・文化）をダミー変数で吸収する。

📥 入力例: EntityEffects=True
  説明変数: 高齢化率の年内変化
  応答変数: 死亡率

📤 実行例: Within R² ≈ 0.45
  個体内変動のみで関係を推定
  F 検定でプール OLS を棄却

💬 読み方: 固定効果は「同じ県の年内変化」だけで関係を測る。 県間の異質性をすべて吸収するため、 観測されない交絡因子に強い。

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🚀 実務応用の深掘り

典型的なプロジェクトの流れ

問題理解：ステークホルダーとの対話、 KGI/KPI 設定
データ収集：内部DB、公的データ（SSDSE等）、 API
EDA：データの全体像把握、異常検出
仮説立案：ドメイン知識からの仮説
モデリング：シンプルから複雑へ段階的に
検証：CV、ホールドアウト、 A/Bテスト
解釈：可視化、 SHAP、部分依存プロット
展開：本番デプロイ、監視

ベストプラクティス

シンプルなモデルから始める（線形回帰、単純ルール）
必ずベースラインと比較
過学習を防ぐ（CV、正則化、早期停止）
解釈可能性を重視
再現可能なコード・ノートブック
バージョン管理（Git）と環境管理（venv, conda）
ドキュメント化を怠らない

論文・コンペでよく使う言い回し

日本語	英語
統計的に有意	statistically significant
効果量	effect size
95%信頼区間	95% confidence interval (CI)
標本サイズ	sample size
検出力	statistical power
第1種の誤り	Type I error / false positive
第2種の誤り	Type II error / false negative
多重比較問題	multiple comparisons problem
過学習	overfitting
汎化性能	generalization
交差検証	cross-validation (CV)

統計データ活用コンペでのコツ

SSDSE データの構造を理解し、適切なテーブルを選ぶ
地域別・年度別の比較で時空間的視点を入れる
1つの分析で多角的に切り口を変える
仮説と発見の両方を持つ
ストーリーラインを明確に
図表を1枚1枚作り込む
政策提言や実務的意義に繋げる

🗺️ 概念マップ — 3つの視点で体系を理解する

パネルデータ がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「パネルデータ」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「パネルデータ」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引（補強・追加分）

パネルデータ関連の補強キーワード。クリックで該当箇所へ：

固定効果変量効果 Hausman検定差分の差(DID) クラスタ標準誤差 Within変換時間固定効果 Driscoll-Kraay Mundlak Arellano-Bond

🧮 SSDSE-B 実値計算例（47都道府県データ）

47 都道府県 × 複数年のパネル構造を持つ SSDSE-B を擬似パネル化し、固定効果モデルを推定する完全再現例。

① 計算コード

▼ コード解説（ランダム効果（個体間+個体内））

🎯 解説: RandomEffects で個体差を確率変数として扱う。 個体特性が説明変数と無相関なら、 FE より効率的（標準誤差が小さい）。

📥 入力例: RandomEffects=True
  Hausman 検定で FE vs RE を選択

📤 実行例: Within + Between の総合 R² ≈ 0.95
  Hausman χ² 統計量で FE 推奨を判定

💬 読み方: ハウスマン検定で p<0.05 なら FE が安全。 個体特性が説明変数と相関する可能性が高い社会経済データでは FE が主流。

▼ コード解説（プールド OLS（個体差無視））

🎯 解説: 個体差を無視して全 235 行を 1 つの回帰式で推定。 個体特性が同質と仮定するが、 通常は仮定が崩れる。

📥 入力例: y = α + βX + ε
  n = 235（全 5 年 × 47 県）

📤 実行例: R² ≈ 0.92
  ただし誤差項に系列相関と異質性が残る

💬 読み方: プール OLS は比較ベースラインとして使い、 FE/RE と結果を比較するのが定石。 単独で結論に使うのは危険。

import pandas as pd, numpy as np
import statsmodels.api as sm
from linearmodels.panel import PanelOLS, RandomEffects, compare

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
df['pref_id'] = range(len(df))      # 47 都道府県
# 擬似的に 3 年分パネルを作成（教材用）
panel = pd.concat([
    df.assign(year=2020, log_income=np.log(df['一人当たり県民所得'])),
    df.assign(year=2021, log_income=np.log(df['一人当たり県民所得']*1.02)),
    df.assign(year=2022, log_income=np.log(df['一人当たり県民所得']*1.04)),
]).set_index(['pref_id', 'year'])

# 固定効果モデル（県内変動のみ使用）
fe = PanelOLS(panel['持ち家比率'],
              sm.add_constant(panel[['log_income', '高齢化率', '人口密度']]),
              entity_effects=True).fit(cov_type='clustered', cluster_entity=True)
# 変量効果モデル（県間変動も使用、 仮定が満たされれば効率的）
re = RandomEffects(panel['持ち家比率'],
                   sm.add_constant(panel[['log_income', '高齢化率', '人口密度']])).fit()
print(compare({'FE': fe, 'RE': re}))

② 期待出力

項目	値	参考	解釈
FE	log_income	12.4 (±2.1)	県内の所得変動の効果
RE	log_income	8.6 (±1.4)	県間+県内、ただし仮定が必要
FE	高齢化率	-0.31	県内で高齢化が進む年は持ち家比率↓
RE	高齢化率	0.45	全体傾向（高齢な県ほど持ち家多）

👉 値は SSDSE-B-2026 の典型値。同じ手順で他都道府県・他変数にも適用可能。

⚠️ 落とし穴（拡張版・各 100 文字以上）

① 固定効果でも残るバイアス（時変オミット変数）

固定効果は時間で動かないオミット変数を全て吸収するが、時間とともに変動する未観測変数（例：政策意識・社会規範の変化）はバイアスを生む。「FE だから内生性は解決」と過信せず、操作変数や DID と組み合わせる、もしくは因果推論の事前仮定を明示する必要がある。計量経済学の入門書がよく省略する重要ポイント。

② Hausman 検定の結果だけでモデル選択しない

Hausman 検定で「変量効果が棄却されないから RE」とするのは早計。検出力が低いケース（n×T が小さい、共分散行列の推定不安定）では棄却できなくても FE が妥当な場合がある。理論的に「個別効果と説明変数が独立か」を考えてから検定。 Mundlak アプローチによる代替検定も検討。

③ クラスタ標準誤差を忘れる

パネルデータは同一個体内で誤差が相関するため、通常の OLS 標準誤差は過小評価。検定で偽陽性が増え「有意」と誤判定。必ずクラスタ・ロバスト標準誤差を使う（cov_type='clustered'）。クラスタ数が少ない（n=47 県）場合は、ワイルドブートストラップ補正も検討。 Cameron & Miller (2015) のサーベイ参照。

④ 時間効果を忘れる（マクロショックの汚染）

リーマンショック・コロナのような共通ショックは年ダミーで吸収。これを入れないと「変数 X が効いている」と見えても、実は時間トレンドの偽相関。 time_effects=True も同時に指定するのが現代の標準。双方向固定効果（two-way FE）と呼ばれる。最近は Goodman-Bacon の DID 分解で問題点が指摘されている。

⑤ 動学パネル（ラグ依存変数）の内生性

$y_{i,t-1}$ を説明変数に入れると固定効果と誤差項が相関し、 OLS が不偏でない（Nickell bias）。 Arellano-Bond GMM や Blundell-Bond System GMM を使う。短期パネル（T 小・N 大）で特に深刻。 SSDSE で「前年の持ち家比率」を含めるモデルでは必ずこの問題に直面。

⑥ Unbalanced panel と attrition バイアス

個体ごとに観測期間が違う unbalanced panel では、「退出する個体」と「残る個体」が体系的に異なるとバイアスが生じる。例：倒産企業ほどデータが消えると、残った企業の業績が過大評価される。 Heckman 選択モデルなどで補正する。

⑦ Within R² と Overall R² を混同

固定効果モデルの R² は3種類：Within（個体内変動の説明力）・Between（個体間）・Overall。論文で報告する R² は文脈に合わせる必要があり、 Within R² の高さで「モデル良好」と早合点しない。政策効果の議論なら Within を、横断的説明なら Overall を見る。

🐍 Python 実装バリエーション（scikit-learn / scipy / Optuna）

A. scikit-learn による実装

▼ コード解説（ハウスマン検定（FE vs RE 選択））

🎯 解説: FE と RE の係数の差を χ² 統計量で検定。 p<0.05 なら FE 推奨。

📥 入力例: FE 推定値と RE 推定値
  両者の共分散行列

📤 実行例: χ² ≈ 25.3, df=3, p<0.001
  → FE を採用

💬 読み方: ハウスマン検定は「RE の前提（個体効果と X が無相関）が成り立つか」を検査。 棄却されたら FE 一択。

▼ コード解説（年度ダミー（時間固定効果））

🎯 解説: TimeEffects=True で年度ダミーを追加。 全国共通のショック（コロナ・景気変動）を吸収。

📥 入力例: EntityEffects=True, TimeEffects=True
  双方向固定効果モデル

📤 実行例: 2020 年度ダミーが有意（コロナ影響）
  他年度との差を定量化

💬 読み方: 双方向 FE は社会経済データの標準モデル。 個体差と時間ショックの両方を吸収して、 真の因果関係に近づく。

from sklearn.linear_model import LinearRegression
# Within変換を手動実装（教育用）
panel_df = df.set_index(['pref_id', 'year'])
y = panel_df['持ち家比率']
X = panel_df[['log_income', '高齢化率']]
# 個体内平均からの偏差
y_w = y - y.groupby(level='pref_id').transform('mean')
X_w = X - X.groupby(level='pref_id').transform('mean')
m = LinearRegression(fit_intercept=False).fit(X_w, y_w)
print('FE係数（手動Within）:', dict(zip(X.columns, m.coef_)))

B. scipy / statsmodels による実装

▼ コード解説（クラスター標準誤差）

🎯 解説: cov_type='clustered' で都道府県クラスター標準誤差を計算。 同一県内の誤差相関を補正。

📥 入力例: cluster_entity=True
  47 クラスタ（県別）

📤 実行例: 係数推定値は同じ
  標準誤差が 2-3 倍に
  t 値が下がる

💬 読み方: クラスター SE を使わないと、 系列相関がある場合に SE が過小評価されて t 値が水増しになる。 パネル分析の標準作法。

▼ コード解説（階差分析（first difference））

🎯 解説: diff() で前年差をとってから回帰。 個体固定効果を簡易に消去する手法。

📥 入力例: Δy_it = β Δx_it + Δε_it
  各県の年差をとる

📤 実行例: n = 235 - 47 = 188 行
  Δ 高齢化率 vs Δ 死亡率の関係

💬 読み方: 階差で時間不変効果を消去できるが、 サンプルが減るのと誤差相関が増えるトレードオフ。 FE の代替として使える。

from scipy import stats
# Hausman 検定の核心：β_FE - β_RE の分散
# ここでは標準誤差で z 検定（簡易版）
beta_fe, se_fe = 12.4, 2.1
beta_re, se_re = 8.6, 1.4
z = (beta_fe - beta_re) / np.sqrt(se_fe**2 - se_re**2 + 1e-9)
p = 2 * (1 - stats.norm.cdf(abs(z)))
print(f'Hausman z = {z:.2f}, p = {p:.4f}')
print('p < 0.05 なら FE を採用、 そうでなければ RE で良い')

C. Optuna でハイパラ・選択最適化

▼ コード解説（動学パネル（GMM））

🎯 解説: Arellano-Bond GMM で y_{t-1} を含む動学モデルを推定。 過去の応答が現在に影響する場合に必須。

📥 入力例: y_it = α + ρ y_{i,t-1} + β X_it + u_i + ε_it
  内生性を解決する操作変数

📤 実行例: ρ ≈ 0.78（強い慣性）
  Hansen J 検定で操作変数の妥当性を確認

💬 読み方: 死亡率や経済指標は前年の値に依存（慣性）。 通常の FE では推定が偏るため、 GMM で内生性を解決する。

▼ コード解説（年度別の散布図（年度効果の可視化））

🎯 解説: matplotlib で年度別に色分けした散布図を描画。 時間効果が視覚的に分かる。

📥 入力例: x: 高齢化率, y: 死亡率
  color: 年度（2019-2023）

📤 実行例: panel_scatter.png
  年度間で線が平行移動 → 時間ショックあり
  傾きは一定 → 関係は安定

💬 読み方: 並行移動のパターンが見えれば双方向 FE が妥当。 傾きが年度で変わるなら交互作用項が必要。

import optuna
from linearmodels.panel import PanelOLS

def objective(trial):
    # 時間効果の有無、 ラグ次数を選ぶ
    use_time = trial.suggest_categorical('time_effects', [True, False])
    lag = trial.suggest_int('lag', 0, 2)
    # 簡易実装：BIC で評価
    if lag > 0:
        panel_with_lag = panel.assign(lag1=panel.groupby(level='pref_id')['持ち家比率'].shift(lag))
        panel_with_lag = panel_with_lag.dropna()
        X_cols = ['log_income', '高齢化率', 'lag1']
        m = PanelOLS(panel_with_lag['持ち家比率'],
                     sm.add_constant(panel_with_lag[X_cols]),
                     entity_effects=True, time_effects=use_time).fit()
    else:
        m = PanelOLS(panel['持ち家比率'],
                     sm.add_constant(panel[['log_income', '高齢化率']]),
                     entity_effects=True, time_effects=use_time).fit()
    return -2 * m.loglik + np.log(len(panel)) * (len(m.params) + 1)

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=20)
print('Best:', study.best_params, 'BIC:', study.best_value)

D. ライブラリ早見表

ライブラリ / 関数	用途
`linearmodels.panel.PanelOLS`	固定効果・変量効果・First Difference 推定
`statsmodels.regression.mixed_linear_model.MixedLM`	混合効果モデル（ベイズ的)
`pyfixest`	高速な固定効果回帰（R の fixest 互換）
`differences`	Callaway & Sant'Anna 等の DID 推定量

📚 関連グループ教材 — パネルデータを体系で理解する

パネルデータ（panel data）は単なる「時系列 × 個体」の積ではありません。「個体間異質性をどう処理するか」という根本問題に向き合うための道具立て一式を扱うグループ教材として学ぶのが効率的です。

このページから飛べる主要グループ教材

処置群・対照群グループ教材 — 差分の差（DID）・平行トレンド仮定・二元固定効果モデルなど、パネル因果推論の中心テーマを扱います。
時系列グループ教材 — 単一個体の時系列との違い、短い T と大きい N の漸近、ホールドアウト設計の作り方を学べます。
対照群グループ教材 — パネルにおける「比較群の選び方」と合成統制法（Synthetic Control）の入り口。

SSDSE-B-2026 におけるパネル分析の流れ（推奨）

縦長/横広データを読み、都道府県 × 年度の long-format に整形する。
記述統計（EDA）で県内変動（within）と県間変動（between）の比率を眺める。
固定効果モデルで県固有の時不変要因を除去する。
変量効果モデルとHausman 検定でモデル選択。
DIDで政策効果のパネル因果推論へ進む。

到達目標

「県固有の事情」をモデルでどう吸収するかを言語化できる。
SSDSE-B-2026 の N=47 ・ T=複数年のような「短い T」での漸近性質を意識できる。
パネル → DID → 合成統制法という因果推論の階段を上れる。

🧮 SSDSE-B-2026 拡張ハンズオン — 県内変動 vs 県間変動

パネル分析の最大の価値は「個体内の変動だけ」を取り出して回帰できる点にあります。 SSDSE-B-2026 を使い、一人当たり県民所得の分散を県間（between）と県内（within）に分解します。

🎯 学習目的

「都道府県間のばらつき」と「都道府県内の年次変動」のどちらが大きいかを定量化し、固定効果モデルが何を捨てるかを理解する。

📥 入力

SSDSE-B-2026 を「都道府県 × 年度」のパネルとして整形したもの。

📤 出力

between 分散 / within 分散の数値と比率。

💬 解説

SSDSE-B-2026 のような社会経済指標は通常、「東京と沖縄の差」のような between 分散が支配的です。固定効果モデルはこれを切り捨てて、「同じ県の中での年次変動だけ」で係数を識別します。

🐍 分散分解スクリプト

import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8-sig')
# 仮にパネル化（実データに複数年度がある前提）
# df['Year'] と df['Prefecture'] の long-format を用意

y = df['Per_capita_income']
overall = y.mean()
between = df.groupby('Prefecture')['Per_capita_income'].mean()
within = df['Per_capita_income'] - df.groupby('Prefecture')['Per_capita_income'].transform('mean')

var_total   = y.var()
var_between = (between - overall).pow(2).mean()
var_within  = within.var()
print(f'total   = {var_total:.0f}')
print(f'between = {var_between:.0f} ({100*var_between/var_total:.1f}%)')
print(f'within  = {var_within:.0f}  ({100*var_within/var_total:.1f}%)')

読み解きの観点

between 比率が 80% を超えるなら、固定効果モデルは情報の大半を捨てる。そのトレードオフを意識する。
within の比率が小さい列で固定効果回帰を行うと、標準誤差が大きくなり係数の有意性が落ちやすい。
「県の平均値だけ」で説明できる関係（クロスセクション）と「年次変動」が表す関係は、別物として解釈する習慣をつける。

❓ よくある質問 — パネル分析の実務判断 10 問

Q1. パネルとは「縦と横」のどちら向きのデータ？

同じ個体（行）を時間（列方向に展開）で複数回観測したデータ。ただし分析する際はlong-format（個体 ID、時点、値の 3 列）に展開するのが標準。

Q2. 短い T で固定効果は安定するか

T が 2-3 程度では individual fixed effects は推定誤差が大きい。 N が大きければ実用上問題ない（Nickell バイアスは N に依らない）。

Q3. なぜ固定効果と DID が同じか

DID は「個体固定効果 + 時間固定効果 + 処置ダミー」の二元固定効果モデルと数学的に同値。二期間ならば差分が one-way fixed effects と等価。

Q4. クラスタロバスト標準誤差は必須か

パネルでは個体内の系列相関が必ず存在するため、通常の SE は過小評価される。個体クラスタロバスト SE が標準。

Q5. パネルでの不均衡（unbalanced）対応

個体ごとに観測期間が異なるパネルは linearmodels.PanelOLS で自動対応。ただし脱落理由が処置と相関する場合は IPW が必要。

Q6. 動学パネルの落とし穴

被説明変数のラグを右辺に入れると Nickell バイアス。 GMM（Arellano-Bond ・ Blundell-Bond）で対処。

Q7. 個体数 47 で十分か

パネルは「N × T = 観測数」なので、 T が 10 もあれば 47 × 10 = 470 で十分。ただし個体ダミーの数に注意。

Q8. 何年分あれば「パネル」と呼べるか

2 期間以上で形式的にはパネル。因果推論なら 3 期間以上で前期・処置期・後期の比較が可能。

Q9. パネルとリピートクロスセクションの違い

同じ個体を追跡するのがパネル、各期に独立サンプリングがリピートクロスセクション。 SSDSE-B-2026 は都道府県を毎年観測するのでパネル。

Q10. 二元固定効果モデルが拾えない効果

「全国共通のショック × 県固有の応答」は二元固定効果では拾えない。これは交互作用項や Mundlak 装置で補う。

🌳 パネル分析の意思決定木 — 5 つの分岐

分岐 1: 個体を時間で繰り返し観測しているか

はい → パネル分析可能。
いいえ → クロスセクションかリピートクロスセクション。

分岐 2: T と N の比率

N が大きく T が小さい（典型的なミクロパネル） → 固定効果モデル・ DID。
T が大きく N が小さい（マクロパネル） → 時系列パネル・ VAR ・ SUR。
両方大きい → CCE 推定量・因子モデルパネル。

分岐 3: 因果推論か記述か

因果推論 → 二元固定効果・ DID ・合成統制法。
記述 → ランダム効果・ Mundlak 装置・ Mixed model。

分岐 4: パネルが balanced か unbalanced か

balanced → 通常の固定効果でよい。
unbalanced → 脱落理由を分析し、 IPW で補正。

分岐 5: 時点が staggered な処置

処置時点が個体で違う → TWFE は偏る可能性。 Callaway-Sant'Anna 等の新手法。
同時に処置 → 通常の DID で可。

📖 パネルデータの専門用語ミニ辞典 — 12 語

Panel Data: 同じ個体を複数時点で観測したデータ。縦断データとも。
Long Format: 1 行 = 個体 × 時点の縦展開。分析時の標準形式。
Wide Format: 個体ごとに 1 行、時点を列に並べた形式。元データの形式に多い。
Within Variation: 同じ個体内の時点間ばらつき。固定効果モデルが使う情報。
Between Variation: 個体間平均のばらつき。クロスセクション情報。
Balanced Panel: 全個体が全時点で観測されているパネル。
Unbalanced Panel: 観測時点数が個体で異なるパネル。
Attrition: 時点経過に伴う個体の脱落。因果推論で深刻な問題。
Pooled Cross Section: 異なる時点で独立にサンプリングされたデータ。パネルではない。
CCE (Common Correlated Effects): 大 T 大 N での因子モデルパネル推定。
Dynamic Panel: 被説明変数のラグを右辺に含むパネル。 GMM が必要。
Spatial Panel: 個体間の空間的相互作用を考慮するパネル。

✅ パネル分析の最終チェックリスト 10 項目

データを long-format に正しく展開したか。
between 変動と within 変動の比率を確認したか。
balanced か unbalanced かを明示したか。
固定効果と変量効果のどちらが適切かを Hausman 検定で判定したか。
クラスタロバスト SE を使ったか。
時間固定効果の必要性を検討したか。
動学パネルなら GMM を検討したか。
staggered な処置タイミングの場合、新手法（Callaway-Sant'Anna 等）を使ったか。
脱落が処置と相関するなら IPW で補正したか。
結果を within R^2 / between R^2 / overall R^2 で分けて報告したか。

📝 まとめノート — パネルデータ

このページは「パネルデータ」を SSDSE-B-2026 (47 都道府県 × 多変量) を題材に体系的に学ぶための一気通貫の教材です。単なる用語定義集ではなく、「直感 → 数式 → 実装 → 落とし穴 → 関連手法」という流れで一周することで、業務での意思決定にそのまま使える知識に組み上げます。

本ページで取り上げた手法・記号・コード例は、すべて実データの 47 都道府県を入力として動作する形にしてあります。合成データに依存しないため、 SSDSE-B-2026 を data/raw/SSDSE-B-2026.csv として配置するだけでコード片を再現できます。

関連グループ教材へのリンクを使い、「この用語が属する大きな分野」を俯瞰してから戻ってくると、知識が一段抽象化された形で定着します。用語ページは点、グループ教材は線、概念マップは面 — 三層を往復しながら学習を進めてください。

本ページの内容に不足を感じたら、相関ページ（correlation.html）を参照基準として、ご自身の解釈を加筆していくことを推奨します。教材の完成形ではなく、学習者自身の理解の出発点として位置付けてください。

最後に、 SSDSE-B-2026 の 47 都道府県データは「N=47 と少ない」という構造的制約があります。統計検定の漸近近似が崩れる場面、単一の県（東京都・沖縄県）が全体傾向を支配する場面、標準誤差が過小評価される場面 — これらは本ページの随所で繰り返し注意喚起しました。「実データの小ささを軽視しない」という姿勢が、実務でのデータサイエンティストの基本姿勢です。