操作変数法 (Instrumental Variable)

📍 文脈 💡 30秒結論

📍 あなたが今見ているもの

論文中に 「操作変数法」として登場する用語。

操作変数法 とは：内生性のある説明変数の「外生的な変動」だけを取り出す操作変数（IV）を使って推定する手法。

💡 30秒で分かる結論

定義：内生性のある説明変数の「外生的な変動」だけを取り出す操作変数（IV）を使って推定する手法。
カテゴリ：因果推論
必要条件：(1) 関連性 Cov(Z, X)≠0、 (2) 排除制約 Cov(Z, ε)=0。
代表手法：2SLS（2 段階最小二乗法）、 GMM、 LIML。
注意：弱操作変数（F < 10）だと推定量が不一致＆バイアス。

🔖 キーワード索引

操作変数法 2SLS GMM 内生性関連性条件排除制約第一段階 F 値弱操作変数 linearmodels IV2SLS statsmodels IV2SLS LATE Hausman 内生性検定 RDD DID

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: IV（操作変数法）は内生性バイアスを解消する手法。 SSDSE-B-2026 で「教育水準 → 県民所得」の効果を推定したいが、 逆因果（所得が高い県は教育水準が高い）が問題。 操作変数として「過去の人口」を使う。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数 X: 大学進学率
  操作変数 Z: 過去 10 年前の人口（A1101_lag）
  目的変数 Y: 県民所得

📤 実行例: OLS 推定: 係数 = 8.5
  IV 推定:  係数 = 12.3
  第1段階 F 値: 24.6 (>10 で強い)

💬 読み方: OLS は内生性で過小推定 → IV では大きい値。 IV が信頼できる条件は (1) 操作変数 Z が X と相関する、 (2) Z が Y に直接影響しない、 (3) Z が誤差項と無相関。 全てを統計的に検証することが望ましい。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: 弱操作変数の問題を確認する。 Z が X とほぼ相関しない場合、 IV 推定は標準誤差が膨大になり信頼できない。 第 1 段階の F 統計量 > 10 が一般的な目安。

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📥 入力例: data/raw/SSDSE-B-2026.csv
  弱い操作変数の例: 単年度の事象（誤差大）
  強い操作変数の例: 長期人口トレンド

📤 実行例: 弱 IV: F = 2.3 → 標準誤差爆発
  強 IV: F = 24.6 → 信頼できる推定

💬 読み方: F < 10 は弱操作変数の警告ライン（Staiger-Stock 基準）。 F が小さい場合は IV 推定が OLS よりさらに偏る。 操作変数選択は事前に「説得力のある排除制約」を検討してから。

🌟 効果的なEDAテンプレート

🎯 解説: 過剰識別（操作変数 > 内生変数）の場合は Sargan-Hansen 検定で操作変数の外生性を統計的に検証できる。 帰無仮説は「全操作変数が外生」。

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数 1 個に対し操作変数 3 個用意

📤 実行例: Sargan 統計量 = 1.84
  自由度 = 2 (操作変数数 - 内生変数数)
  p 値 = 0.398 → 外生性を棄却せず

💬 読み方: p > 0.05 なら操作変数の外生性を支持。 ただし、 「棄却されない」=「真に外生」とは限らない（検出力の問題）。 構造的な議論で操作変数の妥当性を補強することが必須。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🧮 SSDSE-B-2026 で IV 推定 — 教育年数 → 所得

「平均教育年数 → 一人当たり県民所得」を推定する際、教育年数は能力・家庭環境などの未観測要因と相関するため内生性を持ちます。操作変数として「義務教育卒業年齢の地域差」など外生的なものを使う想定で、ここでは「人口密度」を代理 IV として 2SLS を実演します（教育的サンプル）。

① 2SLS の手順

🎯 解説: IV（操作変数法）は内生性バイアスを解消する手法。 SSDSE-B-2026 で「教育水準 → 県民所得」の効果を推定したいが、 逆因果（所得が高い県は教育水準が高い）が問題。 操作変数として「過去の人口」を使う。

import pandas as pd
import statsmodels.api as sm
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
y = df['一人当たり県民所得'].astype(float)
X_endog = df['大学進学率'].astype(float)       # 内生変数
Z = df['人口密度'].astype(float)              # 操作変数（仮）
W = df['高齢化率'].astype(float)              # 外生コントロール

# 第一段階：X = π0 + π1 Z + π2 W + v
first = sm.OLS(X_endog, sm.add_constant(pd.concat([Z, W], axis=1))).fit()
F = first.fvalue   # 弱操作変数の判定
print(f'First-stage F = {F:.2f}')
X_hat = first.fittedvalues

# 第二段階：y = β0 + β1 X̂ + β2 W + u
second = sm.OLS(y, sm.add_constant(pd.concat([X_hat, W], axis=1))).fit()
print(second.summary())

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数 X: 大学進学率
  操作変数 Z: 過去 10 年前の人口（A1101_lag）
  目的変数 Y: 県民所得

📤 実行例: OLS 推定: 係数 = 8.5
  IV 推定:  係数 = 12.3
  第1段階 F 値: 24.6 (>10 で強い)

💬 読み方: OLS は内生性で過小推定 → IV では大きい値。 IV が信頼できる条件は (1) 操作変数 Z が X と相関する、 (2) Z が Y に直接影響しない、 (3) Z が誤差項と無相関。 全てを統計的に検証することが望ましい。

② 出力例（仮想数値）

推定	大学進学率の係数	SE	解釈
OLS（バイアスあり）	28.4	5.2	能力 ↔ 教育の交絡で過大
IV (2SLS)	17.6	8.7	外生変動のみの効果（一致推定）
First-stage F	11.4（>10 なので一応セーフ）

🐍 Python 実装バリエーション

A. `linearmodels.iv.IV2SLS`（業界標準）

🎯 解説: 弱操作変数の問題を確認する。 Z が X とほぼ相関しない場合、 IV 推定は標準誤差が膨大になり信頼できない。 第 1 段階の F 統計量 > 10 が一般的な目安。

from linearmodels.iv import IV2SLS
mod = IV2SLS(dependent=y,
             exog=sm.add_constant(W),
             endog=X_endog,
             instruments=Z)
res = mod.fit(cov_type='robust')
print(res.summary)
print('First-stage F =', res.first_stage)

📥 入力例: data/raw/SSDSE-B-2026.csv
  弱い操作変数の例: 単年度の事象（誤差大）
  強い操作変数の例: 長期人口トレンド

📤 実行例: 弱 IV: F = 2.3 → 標準誤差爆発
  強 IV: F = 24.6 → 信頼できる推定

💬 読み方: F < 10 は弱操作変数の警告ライン（Staiger-Stock 基準）。 F が小さい場合は IV 推定が OLS よりさらに偏る。 操作変数選択は事前に「説得力のある排除制約」を検討してから。

B. `statsmodels.sandbox.regression.gmm.IV2SLS`（旧 API）

🎯 解説: 過剰識別（操作変数 > 内生変数）の場合は Sargan-Hansen 検定で操作変数の外生性を統計的に検証できる。 帰無仮説は「全操作変数が外生」。

from statsmodels.sandbox.regression.gmm import IV2SLS as SMIV
mod = SMIV(endog=y, exog=sm.add_constant(pd.concat([X_endog, W],axis=1)),
           instrument=sm.add_constant(pd.concat([Z, W],axis=1))).fit()
print(mod.summary())

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数 1 個に対し操作変数 3 個用意

📤 実行例: Sargan 統計量 = 1.84
  自由度 = 2 (操作変数数 - 内生変数数)
  p 値 = 0.398 → 外生性を棄却せず

💬 読み方: p > 0.05 なら操作変数の外生性を支持。 ただし、 「棄却されない」=「真に外生」とは限らない（検出力の問題）。 構造的な議論で操作変数の妥当性を補強することが必須。

C. 自前で 2SLS を組む（教育用）

🎯 解説: IV（操作変数法）は内生性バイアスを解消する手法。 SSDSE-B-2026 で「教育水準 → 県民所得」の効果を推定したいが、 逆因果（所得が高い県は教育水準が高い）が問題。 操作変数として「過去の人口」を使う。

X1 = sm.add_constant(pd.concat([Z, W], axis=1))
pi = sm.OLS(X_endog, X1).fit()
X_hat = pi.predict(X1)
X2 = sm.add_constant(pd.concat([X_hat, W], axis=1))
beta = sm.OLS(y, X2).fit()
print(beta.params)

📥 入力例: data/raw/SSDSE-B-2026.csv
  内生変数 X: 大学進学率
  操作変数 Z: 過去 10 年前の人口（A1101_lag）
  目的変数 Y: 県民所得

📤 実行例: OLS 推定: 係数 = 8.5
  IV 推定:  係数 = 12.3
  第1段階 F 値: 24.6 (>10 で強い)

💬 読み方: OLS は内生性で過小推定 → IV では大きい値。 IV が信頼できる条件は (1) 操作変数 Z が X と相関する、 (2) Z が Y に直接影響しない、 (3) Z が誤差項と無相関。 全てを統計的に検証することが望ましい。

D. GMM 推定（過剰識別の場合）

🎯 解説: 弱操作変数の問題を確認する。 Z が X とほぼ相関しない場合、 IV 推定は標準誤差が膨大になり信頼できない。 第 1 段階の F 統計量 > 10 が一般的な目安。

from linearmodels.iv import IVGMM
gmm = IVGMM(dependent=y, exog=sm.add_constant(W),
            endog=X_endog, instruments=pd.concat([Z, W], axis=1)).fit()
print(gmm.summary)
print('Sargan J =', gmm.j_stat)  # 過剰識別検定

📥 入力例: data/raw/SSDSE-B-2026.csv
  弱い操作変数の例: 単年度の事象（誤差大）
  強い操作変数の例: 長期人口トレンド

📤 実行例: 弱 IV: F = 2.3 → 標準誤差爆発
  強 IV: F = 24.6 → 信頼できる推定

💬 読み方: F < 10 は弱操作変数の警告ライン（Staiger-Stock 基準）。 F が小さい場合は IV 推定が OLS よりさらに偏る。 操作変数選択は事前に「説得力のある排除制約」を検討してから。

⚠️ 操作変数法の落とし穴 7 連発

1. 弱操作変数（weak IV）に気付かない。第一段階 F 値 < 10 の操作変数は、 2SLS 推定量が大きなバイアスを持ち、信頼区間も誤って狭くなります。 Stock-Yogo 基準（F > 16.38 等）や Anderson-Rubin 検定で弱 IV 耐性のある推論に切り替えましょう。

2. 排除制約（exclusion restriction）を検定で確かめようとする。排除制約は「Z は誤差項 ε と無相関」という仮定で、 ε は観測できないため統計的に検証できません。経済学的・制度的論拠（自然実験・くじ引き・政策的境界）を文章で説得する以外に方法はないのが本質です。

3. LATE（局所平均処置効果）を ATE と誤読する。2SLS が推定するのは「コンプライア（Z の変化で X が動くサブグループ）の平均処置効果」であって、母集団全体への効果ではありません。政策推奨で「全員に同じ効果がある」と書くのは誤りです。

4. クラスタ標準誤差を忘れる。都道府県・学校・企業など階層構造を持つデータでは、観測値が同一クラスタ内で相関しています。 cov_type='clustered' を必ず指定しないと SE が過小評価され、偽陽性が増えます。

5. 操作変数の数を増やせば良いと思う（過剰識別）。IV を増やすほど弱 IV になりやすく、また Sargan/Hansen J 検定が棄却されると識別自体が怪しくなります。「強い IV を 1 個」が原則で、追加するなら Anderson-Rubin の耐性推論を主にしましょう。

6. 内生性検定（Durbin-Wu-Hausman）で p > 0.05 なら OLS で良い、と即断。検定の検出力次第なので、「内生性が無いと結論付ける」のは強すぎる主張。経済学的根拠で内生性が疑わしいなら、 IV と OLS の両方を併記する論文構成が安全です。

7. 自然実験を装った操作変数を捏造する。「天気」「距離」「制度変更」を IV として使う論文は多いですが、これらが別経路で y に影響するなら排除制約が破綻します。想定される他経路を 5 つは列挙し、それぞれ反論できる準備をしてから IV を選びましょう。

🔗 関連用語（前提・並列・発展）

📘 前提となる用語

重回帰 — IV の比較対象としての OLS。
内生性 — IV が解決すべき問題。
最小二乗法 — 2SLS は 2 回の OLS。
潜在結果フレーム（処置群） — 因果推論の前提。

⚖️ 並列で比較する用語

DID（差の差分法） — 並行トレンドで因果識別。
回帰不連続デザイン — 閾値で因果識別。
マッチング・処置群設定 — 観測共変量で調整。
Hausman 検定 — 内生性そのものの検定。

🚀 発展で学ぶ用語

GMM — 多操作変数・動学パネルへの拡張。
LATE / 複合的処置効果 — IV の対象母集団の議論。
弱操作変数 — Anderson-Rubin / Stock-Yogo。
コントロール関数法（GMM 拡張） — 非線形 IV の代替アプローチ。
自然実験 — IV の理論的源泉。

🗺️ 概念マップ — 3つの視点で体系を理解する

操作変数法 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 統計・データサイエンス › 因果推論 › 因果手法 › IV

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「操作変数法」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「操作変数法」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

診断	基準	対処
第一段階 F	≥ 10	LIML やAR 信頼区間で頑健化
Hansen J	p > 0.10	操作変数の見直し
Hausman	p < 0.05	内生性ありで IV 使用
クラスター SE	パネル時	都道府県クラスターで補正

推定方法	係数	解釈
OLS	+0.42	相関的（因果ではない）
2SLS	+0.28	LATE 因果効果
Hausman p	0.03	内生性あり → IV 使用

手法	識別の核となる仮定	向く場面	不向きな場面
IV	操作変数の外生性 + 関連性	内生性が強い断面データ	妥当な IV が見つからない時
DID	平行トレンド	政策変更前後のパネル	トレンドが揃わない時
RDD	閾値近傍の連続性	明確な閾値ルール存在	閾値操作の懸念
自然実験	外生的ショック	災害・制度変更等	ショックが内生的な時
傾向スコア	観測共変量で条件付独立	観測データで共変量豊富	未観測の交絡あり

📍 あなたが今見ているもの

💡 30秒で分かる結論

🔖 キーワード索引

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

🔧 Python実装パターン

📚 統計概念マップでの位置

🎯 SSDSE-B-2026 で挑戦

💡 よく使うコマンド集

🚧 一般的な落とし穴と対策

📊 結果報告の標準フォーマット

🌐 関連分野での応用

🎓 さらに学ぶための文献

🔗 統計用語ネットワーク

主要な関連概念のグループ

学習順序の推奨

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

中級課題

上級課題

📚 統計学習の総合ガイド

🎯 学習目標

📊 SSDSE-B-2026 データの構造

🔍 主要な変数群

💡 ジャストインタイム型学習

🛠️ Python データサイエンス環境

🌟 効果的なEDAテンプレート

📈 報告書テンプレート

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

Q2: データの種類は？

Q3: サンプルサイズは？

Q4: 仮定は？

📏 効果量の参照表

🧮 SSDSE-B-2026 で IV 推定 — 教育年数 → 所得

① 2SLS の手順

② 出力例（仮想数値）

🐍 Python 実装バリエーション

A. linearmodels.iv.IV2SLS（業界標準）

B. statsmodels.sandbox.regression.gmm.IV2SLS（旧 API）

C. 自前で 2SLS を組む（教育用）

D. GMM 推定（過剰識別の場合）

⚠️ 操作変数法の落とし穴 7 連発

🔗 関連用語（前提・並列・発展）

📘 前提となる用語

⚖️ 並列で比較する用語

🚀 発展で学ぶ用語

🗺️ 概念マップ — 3つの視点で体系を理解する

📍 体系階層のパス

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

🎯 3つのマップの使い分け

🔖 キーワード索引 — 完全強化版

💡 30 秒で分かる結論 — 完全強化版

📍 文脈ボックス — あなたが今見ているもの（完全強化版）

🎨 直感で掴む — 完全強化版

📐 数式または定義 — 完全強化版

🔬 数式を言葉で読み解く — 完全強化版

🧮 実値で計算してみる — SSDSE-B-2026 で 操作変数法（IV）（完全強化版）

🐍 Python 実装 — 完全強化版

⚠️ 落とし穴 — 完全強化版

🌐 関連手法・派生 — 完全強化版

🔗 関連用語（前提・並列・発展） — 完全強化版

📥 前提となる用語

↔️ 並列・関連の用語

🚀 発展・応用の用語

🗺 概念マップ — 完全強化版

📚 関連グループ教材

🔎 IV をさらに深掘り — 弱操作変数・診断・LATE 解釈

① 弱操作変数の診断 — F < 10 は危険信号

② 過剰識別検定 — Sargan / Hansen J

③ LATE — 「誰の処置効果か」を明示する

④ クラスター頑健 SE — 都道府県をクラスターにする

📊 SSDSE-B-2026 ミニケース — 教育投資が賃金に与える因果効果

手順 1 — データ準備

手順 2 — OLS と 2SLS の比較

手順 3 — 結果の解釈

手順 4 — 報告書への落とし込み

🧭 IV vs 他の因果識別戦略 — どこで使い分けるか

A. `linearmodels.iv.IV2SLS`（業界標準）

B. `statsmodels.sandbox.regression.gmm.IV2SLS`（旧 API）

🧮 実値で計算してみる — SSDSE-B-2026 で操作変数法（IV）（完全強化版）