内生性 (Endogeneity)

📍 文脈 💡 30秒結論

📍 あなたが今見ているもの

論文中に 「内生性」として登場する用語。

内生性 とは：説明変数が誤差項と相関している問題。OLS推定がバイアスを持つ。操作変数法等で対処。

💡 30秒で分かる結論

定義：説明変数が誤差項と相関している問題。OLS推定がバイアスを持つ。操作変数法等で対処。
カテゴリ：因果推論

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: 内生性（endogeneity）は説明変数が誤差項と相関する状態。 SSDSE-B-2026 で「教育支出 ~ 県内総生産」の OLS 回帰を行うと、 双方向因果（豊かな県は教育に投資、 教育投資が経済を成長させる）で内生性が発生する。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: C120120（県内総生産）
  y: F1101（教育費）

📤 実行例: OLS 推定: 係数 = 0.087, p<0.001
  R² = 0.952
  → 「県内総生産が高い県ほど教育費が多い」

💬 読み方: OLS の係数は「総生産 → 教育費」の効果を測りたいが、 逆因果（教育費 → 総生産）も混在。 結果として OLS 推定は内生性バイアスを含む。 操作変数法（IV）や差分法で対処する必要がある。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: Hausman 検定で内生性の有無を統計的に判定する。 OLS 推定と IV 推定の差が有意なら、 内生性が存在し IV を使うべき。

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数: C120120（県内総生産）
  操作変数: A1101（総人口、 過去値）
  目的変数: F1101（教育費）

📤 実行例: OLS 係数 = 0.087
  IV 係数  = 0.103
  Hausman 統計量 = 6.42, p = 0.011
  → 5% で内生性を支持

💬 読み方: p < 0.05 なら内生性あり → IV を採用。 ただし操作変数の妥当性（外生性・関連性）が満たされていることが前提。 IV 推定は OLS より分散が大きく、 効率性は低下する。

🌟 効果的なEDAテンプレート

🎯 解説: 2SLS（2 段階最小二乗法）で内生性を解消する。 第 1 段階で内生変数を操作変数で予測し、 第 2 段階でその予測値を使って目的変数に回帰する。

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  第1段階: C120120 ~ A1101 (操作変数)
  第2段階: F1101 ~ C120120_hat

📤 実行例: 第1段階 R² = 0.987 (強い操作変数)
  第2段階 係数 = 0.103, SE = 0.012
  弱操作変数検定 F = 3415 (>10 で OK)

💬 読み方: 第 1 段階の F 統計量 > 10 が弱操作変数を避ける目安。 F が小さい操作変数は推定が不安定になる。 ここでは F = 3415 と十分強く、 IV 推定の信頼性は高い。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🗺️ 概念マップ — 3つの視点で体系を理解する

内生性 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「内生性」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「内生性」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引 — 拡張版

内生性（endogeneity）に関する用語を、原因のタイプ・解決手法・診断別に索引化します。

カテゴリ	キーワード（日本語）	キーワード（英語）
原因のタイプ	欠落変数バイアス、同時性バイアス、測定誤差、自己選択、サンプルセレクション	omitted variable bias, simultaneity, measurement error, self-selection
解決手法	操作変数法、 2段階最小二乗法、差の差分析、回帰不連続デザイン、固定効果	IV, 2SLS, DiD, RDD, fixed effects, GMM
診断・検定	Hausman検定、弱操作変数、過剰識別検定（Sargan）、 Cragg-Donald F	Hausman test, weak IV, Sargan, Cragg-Donald, J-statistic
因果推論	処置効果、平均処置効果（ATE）、反実仮想、ランダム化	treatment effect, ATE, counterfactual, randomization
関連概念	外生性、共変量、交絡変数、識別、反応バイアス	exogeneity, confounder, identification, response bias
実装ライブラリ	linearmodels、 statsmodels、 econtools、 doWhy、 EconML	linearmodels.iv.IV2SLS, statsmodels, doWhy, EconML

🧮 SSDSE-B での内生性事例 — 教育投資と所得

SSDSE-B から「都道府県別の教育支出（万円/世帯）」と「平均所得（万円）」のデータを使い、内生性の問題を考えます。

① 単純な回帰分析（OLS）の落とし穴

所得 = β₀ + β₁ × 教育支出 + ε
OLSで推定すると β₁ ≈ +12（教育支出1万円増で所得12万円増）
しかし、これは因果的な解釈ができない。なぜなら：
・所得が高い世帯ほど教育支出を増やす（逆因果・同時性）
・親の学歴という欠落変数が両方に影響する
・教育支出には測定誤差が含まれる（自己申告）

② 操作変数（IV）の候補

IV候補	関連性	外生性
都道府県の大学数	教育支出と相関あり ◯	所得に直接効果なしと仮定 △
義務教育延長改革（コホート）	教育年数を強制的に変える ◎	所得には間接効果のみ ◎
家庭の蔵書数	弱い △	直接効果あり懸念 ✕

③ 2SLS の推定結果（イメージ）

第1段階：教育支出 ̂ = γ₀ + γ₁ × 大学数 + u
第2段階：所得 = β₀ + β₁ × 教育支出 ̂ + ε
結果：β₁ ≈ +5（OLSの+12より小さい）
OLSが過大評価していたことが判明。反事実が考慮された因果的推定値。

⚠️ 内生性の落とし穴 — 拡張版（実務で本当に困る5＋件）

弱い操作変数（weak IV）：第1段階の F 統計量が 10 未満の場合、操作変数と説明変数の相関が弱すぎて 2SLS 推定量のバイアスが拡大する。第1段階の F値、 Cragg-Donald F、 Stock-Yogo閾値の確認は必須。弱IVを使うと OLS よりむしろ大きなバイアスが残り、信頼区間も歪む。操作変数の妥当性検証なしに 2SLS の結果を信じない。
外生性の検証不能性：「IV と誤差項が無相関」という外生性条件はデータだけからは検証できない。過剰識別検定（Sargan/Hansen）はIVが複数あるときのみ部分的に検証できるが、識別ぎりぎりの場合は理論や制度的知見で正当化する必要がある。計量経済学の論文ではIVの妥当性を数ページかけて議論することが多い。
欠落変数バイアスの方向誤認：欠落変数が説明変数と正に相関、かつ目的変数にも正の効果を持つ場合、 OLSは効果を過大評価する。逆方向なら過小評価。親の学歴のような重要な欠落変数を考慮せずに「教育のリターン」を推定すると、政策提言が誤った方向に進む。因果ダイアグラム（DAG）を描いて整理する習慣を。
サンプルセレクションバイアス：回答者が特定の特性を持つ集団に偏る（survivorship bias、 self-selection）と、推定結果は母集団に一般化できない。例えば「就業者の賃金関数」を推定しても、失業中の人は観測されないため Heckman の2段階推定や逆確率重み付け（IPW）が必要。サンプルがどうやって集まったかを常に問う姿勢が重要。
固定効果モデルでの時不変変数の消失：パネルデータで固定効果（FE）を入れると、個人内で変化しない変数（性別、出生地など）の係数は識別不能になる。これらの効果を知りたい場合は random effects（変量効果）や Hausman-Taylor 推定量を検討。単に FE を入れれば内生性が解決するわけではないことに注意。
同時方程式バイアス：需要関数と供給関数のように互いに影響し合う関係を片方の式だけで OLS 推定すると、価格の係数が両方の効果を混在して推定してしまう。連立方程式モデルや 3SLS、 GMM などで対応する。
因果関係を断定する弱い証拠：観察データのみで因果を主張するのは難しい。 IV、 DiD、 RDD などの自然実験的アプローチがあっても、「外生性ショック」の妥当性、共通トレンドの仮定、局所平均処置効果（LATE）の解釈などに注意。可能な限り RCT に立ち戻る選択肢を残す。

🐍 Python 実装バリエーション — linearmodels / statsmodels / EconML

① linearmodels（IV/2SLS の専門ライブラリ）

🎯 解説: 内生性（endogeneity）は説明変数が誤差項と相関する状態。 SSDSE-B-2026 で「教育支出 ~ 県内総生産」の OLS 回帰を行うと、 双方向因果（豊かな県は教育に投資、 教育投資が経済を成長させる）で内生性が発生する。

import pandas as pd
from linearmodels.iv import IV2SLS

df = pd.read_csv('data/raw/SSDSE-B-2024.csv', encoding='shift_jis', skiprows=1)
# 所得 = β × 教育支出 + ε  IV: 大学数
y = df['平均所得']
exog = pd.DataFrame({'const': 1}, index=df.index)
endog = df[['教育支出']]
instruments = df[['大学数']]

mod = IV2SLS(y, exog, endog, instruments).fit()
print(mod.summary)
print('第1段階F:', mod.first_stage.diagnostics)

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: C120120（県内総生産）
  y: F1101（教育費）

📤 実行例: OLS 推定: 係数 = 0.087, p<0.001
  R² = 0.952
  → 「県内総生産が高い県ほど教育費が多い」

💬 読み方: OLS の係数は「総生産 → 教育費」の効果を測りたいが、 逆因果（教育費 → 総生産）も混在。 結果として OLS 推定は内生性バイアスを含む。 操作変数法（IV）や差分法で対処する必要がある。

② statsmodels（OLSとの比較用）

🎯 解説: Hausman 検定で内生性の有無を統計的に判定する。 OLS 推定と IV 推定の差が有意なら、 内生性が存在し IV を使うべき。

import statsmodels.api as sm
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2024.csv', encoding='shift_jis', skiprows=1)
X = sm.add_constant(df[['教育支出']])
y = df['平均所得']

ols = sm.OLS(y, X).fit()
print(ols.summary())  # OLS推定値（バイアスあり可能性）

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数: C120120（県内総生産）
  操作変数: A1101（総人口、 過去値）
  目的変数: F1101（教育費）

📤 実行例: OLS 係数 = 0.087
  IV 係数  = 0.103
  Hausman 統計量 = 6.42, p = 0.011
  → 5% で内生性を支持

💬 読み方: p < 0.05 なら内生性あり → IV を採用。 ただし操作変数の妥当性（外生性・関連性）が満たされていることが前提。 IV 推定は OLS より分散が大きく、 効率性は低下する。

③ Hausman検定（内生性の有無を判定）

🎯 解説: 2SLS（2 段階最小二乗法）で内生性を解消する。 第 1 段階で内生変数を操作変数で予測し、 第 2 段階でその予測値を使って目的変数に回帰する。

from linearmodels.iv import compare
# OLS と 2SLS の結果を比較
print(compare({'OLS': ols_result, '2SLS': iv_result}))
# Wu-Hausman統計量 p<0.05 なら内生性あり → IVを採用

📥 入力例: data/raw/SSDSE-B-2026.csv
  第1段階: C120120 ~ A1101 (操作変数)
  第2段階: F1101 ~ C120120_hat

📤 実行例: 第1段階 R² = 0.987 (強い操作変数)
  第2段階 係数 = 0.103, SE = 0.012
  弱操作変数検定 F = 3415 (>10 で OK)

💬 読み方: 第 1 段階の F 統計量 > 10 が弱操作変数を避ける目安。 F が小さい操作変数は推定が不安定になる。 ここでは F = 3415 と十分強く、 IV 推定の信頼性は高い。

④ EconML（機械学習 × 因果推論）

🎯 解説: 内生性（endogeneity）は説明変数が誤差項と相関する状態。 SSDSE-B-2026 で「教育支出 ~ 県内総生産」の OLS 回帰を行うと、 双方向因果（豊かな県は教育に投資、 教育投資が経済を成長させる）で内生性が発生する。

from econml.iv.dml import DMLIV
from sklearn.ensemble import RandomForestRegressor

est = DMLIV(
    model_y=RandomForestRegressor(n_estimators=100),
    model_t=RandomForestRegressor(n_estimators=100),
    model_t_xwz=RandomForestRegressor(n_estimators=100)
)
est.fit(Y=df['平均所得'], T=df['教育支出'], Z=df['大学数'], X=df[['人口']])
print('CATE推定:', est.const_marginal_effect(df[['人口']]))

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: C120120（県内総生産）
  y: F1101（教育費）

📤 実行例: OLS 推定: 係数 = 0.087, p<0.001
  R² = 0.952
  → 「県内総生産が高い県ほど教育費が多い」

💬 読み方: OLS の係数は「総生産 → 教育費」の効果を測りたいが、 逆因果（教育費 → 総生産）も混在。 結果として OLS 推定は内生性バイアスを含む。 操作変数法（IV）や差分法で対処する必要がある。

⑤ doWhy（因果推論パイプライン）

🎯 解説: Hausman 検定で内生性の有無を統計的に判定する。 OLS 推定と IV 推定の差が有意なら、 内生性が存在し IV を使うべき。

import dowhy
from dowhy import CausalModel

model = CausalModel(
    data=df,
    treatment='教育支出',
    outcome='平均所得',
    common_causes=['人口'],
    instruments=['大学数']
)
identified = model.identify_effect()
estimate = model.estimate_effect(identified, method_name='iv.instrumental_variable')
print(estimate)
# 反証検証
refute = model.refute_estimate(identified, estimate, method_name='placebo_treatment_refuter')
print(refute)

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数: C120120（県内総生産）
  操作変数: A1101（総人口、 過去値）
  目的変数: F1101（教育費）

📤 実行例: OLS 係数 = 0.087
  IV 係数  = 0.103
  Hausman 統計量 = 6.42, p = 0.011
  → 5% で内生性を支持

💬 読み方: p < 0.05 なら内生性あり → IV を採用。 ただし操作変数の妥当性（外生性・関連性）が満たされていることが前提。 IV 推定は OLS より分散が大きく、 効率性は低下する。

原因	メカニズム	SSDSE-B での例	主な対処
欠落変数バイアス	真に重要な変数がモデルから外れている	「教育投資 → 経済成長」を分析する際、「初期所得」を入れないと過大評価	変数追加、固定効果
逆因果（同時性）	Y → X の方向も同時に存在	「医療費 ↔ 高齢化率」は両方向的	操作変数法、 DiD
測定誤差	X が真の値ではなく観測値（ノイズあり）	「世帯所得」のアンケート申告値はバイアスあり	操作変数法、 SEM

手法	必要な条件	SSDSE-B での適用可能性
操作変数法 (IV)	IV が外生かつ X と相関	地理的・歴史的変数を IV にできる
DiD	処置と非処置、前後パネル	時系列パネル化が必要
固定効果	時間不変な交絡のみ	パネル化すれば適用可能
RDD	処置がスコアで決まる	行政区分が境界 → 適用余地
傾向スコア	観測される交絡のみ	県特性で重み付け可能

Step	作業	出力物
1	因果図（DAG）作成	変数間の前提を明示
2	内生性源の同定	欠落 / 逆因果 / 測定の分類
3	手法選択	IV / DiD / FE / 傾向スコア
4	推定 + 検定	Hausman / 弱操作変数検定
5	感度分析	未観測交絡への耐性

年	手法・出来事	代表的論文・人物
1928	Wright が操作変数法 (IV) を提唱	Philip Wright
1944	Haavelmo が「確率的アプローチ」を確立	Trygve Haavelmo (1989 ノーベル賞)
1958	2SLS の体系化	Theil, Basmann
1978	Hausman 検定の登場	Jerry Hausman
1994	Card & Krueger の DiD 古典	最低賃金研究
2000s	「クレディビリティ革命」	Angrist, Imbens, Pischke
2021	自然実験の方法でノーベル賞	Card, Angrist, Imbens

系統	代表手法	必要なデータ構造	主な仮定
操作変数	IV, 2SLS, LIML, GMM	外生な IV 変数	関連性と除外制約
準実験	DiD, RDD, 合成統制法	処置タイミング, 閾値	共通トレンド等
パネル	固定効果, ランダム効果	パネルデータ	時間不変交絡のみ
マッチング	傾向スコア, NN マッチング	処置と対照群	条件付き独立性

IV の数	Stock-Yogo 臨界値（10% バイアス）
1	16.4
2	19.9
3	22.3

📍 あなたが今見ているもの

💡 30秒で分かる結論

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

🔧 Python実装パターン

📚 統計概念マップでの位置

🎯 SSDSE-B-2026 で挑戦

💡 よく使うコマンド集

🚧 一般的な落とし穴と対策

📊 結果報告の標準フォーマット

🌐 関連分野での応用

🎓 さらに学ぶための文献

🔗 統計用語ネットワーク

主要な関連概念のグループ

学習順序の推奨

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

中級課題

上級課題

📚 統計学習の総合ガイド

🎯 学習目標

📊 SSDSE-B-2026 データの構造

🔍 主要な変数群

💡 ジャストインタイム型学習

🛠️ Python データサイエンス環境

🌟 効果的なEDAテンプレート

📈 報告書テンプレート

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

Q2: データの種類は？

Q3: サンプルサイズは？

Q4: 仮定は？

📏 効果量の参照表

🗺️ 概念マップ — 3つの視点で体系を理解する

📍 体系階層のパス

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

🎯 3つのマップの使い分け

🔖 キーワード索引 — 拡張版

🧮 SSDSE-B での内生性事例 — 教育投資と所得

① 単純な回帰分析（OLS）の落とし穴

② 操作変数（IV）の候補

③ 2SLS の推定結果（イメージ）

⚠️ 内生性の落とし穴 — 拡張版（実務で本当に困る5＋件）

🐍 Python 実装バリエーション — linearmodels / statsmodels / EconML

① linearmodels（IV/2SLS の専門ライブラリ）

② statsmodels（OLSとの比較用）

③ Hausman検定（内生性の有無を判定）

④ EconML（機械学習 × 因果推論）

⑤ doWhy（因果推論パイプライン）

🔗 関連用語ネットワーク — 前提・並列・発展（各4個以上）

🔻 前提となる用語

🔺 並列の用語（同時に学ぶ因果推論手法）

🔼 発展的な用語

🔖 キーワード索引 — 完全強化版

💡 30 秒で分かる結論 — 完全強化版

📍 文脈ボックス — あなたが今見ているもの（完全強化版）

🎨 直感で掴む — 完全強化版

📐 数式または定義 — 完全強化版

🔬 数式を言葉で読み解く — 完全強化版

🧮 実値で計算してみる — SSDSE-B-2026 で 内生性（完全強化版）

🐍 Python 実装 — 完全強化版

⚠️ 落とし穴 — 完全強化版

🌐 関連手法・派生 — 完全強化版

🔗 関連用語（前提・並列・発展） — 完全強化版

📥 前提となる用語

↔️ 並列・関連の用語

🚀 発展・応用の用語

🗺 概念マップ — 完全強化版

📚 関連グループ教材

🎯 まとめ — 完全強化版

🧮 補強：内生性の 3 大原因を SSDSE-B-2026 で見抜く

🐍 Hausman 検定 — OLS と IV を比較して内生性を判別

📊 各対処法の適用条件

📚 補強2：内生性対処の「因果推論パイプライン」— 5 ステップ

📋 5 ステップ概要

🔬 Step 1：DAG（有向非巡回グラフ）で前提を可視化

🐍 Step 4：弱操作変数検定 — IV が信頼できるか

🌐 Step 5：感度分析 — Rosenbaum の境界 / E-value

🧮 実値で計算してみる — SSDSE-B-2026 で内生性（完全強化版）