VIF（分散拡大係数） (Variance Inflation Factor)

📖 もっと詳しく

VIF（Variance Inflation Factor, 分散拡大係数）は、多重共線性の強さを変数ごとに定量化する指標。重回帰の診断で必ず計算します。

定義：$\text{VIF}_j = 1 / (1 - R_j^2)$

ここで $R_j^2$ は、「説明変数 $x_j$ を残りの説明変数で回帰したときの $R^2$」。もし $x_j$ が他変数で完全に予測できるなら $R_j^2 = 1$ → VIF が無限大。完全に独立なら $R_j^2 = 0$ → VIF = 1。

目安：

VIF < 5：問題なし
VIF 5〜10：要注意（係数の信頼性に疑問）
VIF > 10：深刻（変数を整理する必要）

使い方：

各説明変数の VIF を計算
最大の VIF が10超なら、その変数を落とすか主成分化
再計算して最大の VIF を確認
すべて VIF < 5 になるまで繰り返す

Python：from statsmodels.stats.outliers_influence import variance_inflation_factor

VIF の閾値は固い決まりではない：10 という値も慣習で、厳しめに 3 を採用する研究者もいます。領域ごとの慣行に従いましょう。

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: SSDSE-B-2026 の説明変数間の多重共線性を VIF（分散拡大係数）で診断。 VIF=1/(1-R²ᵢ)、 ある変数を他の変数で回帰した R² から計算。 VIF>10 で問題、 >5 で注意。

📥 入力例: data/raw/SSDSE-B-2026.csv
  X = df[['A1101','A1301','B1101','C1101']]
  4 変数

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📤 実行例: VIF 一覧
  A1101(人口): 45.2（深刻）
  A1301(高齢者数): 38.1（深刻）
  B1101(GDP): 12.5（問題）
  C1101(従業者数): 22.3（深刻）

💬 読み方: VIF>10 は深刻な多重共線性。 人口系変数は強相関（人口多→高齢者多→従業者多）。 対策: 変数選択（一つ残す）・主成分分析・リッジ回帰。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: statsmodels の variance_inflation_factor で各変数の VIF を計算。 ループで全変数分一括算出する標準実装。

📥 入力例: data/raw/SSDSE-B-2026.csv
  from statsmodels.stats.outliers_influence import variance_inflation_factor
  X.shape = (47, 4)

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📤 実行例: VIF 計算結果
  feature  VIF
  A1101    45.2
  A1301    38.1
  B1101    12.5
  C1101    22.3

💬 読み方: variance_inflation_factor(X, i) で i 番目の列の VIF を返す。 切片を含むか含まないかで値が変わる（add_constant 推奨）。 結果は DataFrame で整理。

🌟 効果的なEDAテンプレート

🎯 解説: VIF と相関行列の関係を確認。 2 変数間 r=0.9 なら VIF=1/(1-0.81)=5.3。 r=0.95 なら VIF=10.3。 r が大きいと急速に VIF 悪化。

📥 入力例: data/raw/SSDSE-B-2026.csv
  相関行列 corr = df[['A1101','A1301']].corr()
  r = 0.998（人口と高齢者数）

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📤 実行例: r = 0.998
  R² = r² = 0.996
  VIF = 1/(1-0.996) = 250
  極めて深刻

💬 読み方: 2 変数の場合は r²=R² と一致。 r=0.99 で VIF=50、 r=0.995 で VIF=100、 r=0.999 で VIF=500。 強相関ペアは片方を必ず除外。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🗺️ 概念マップ — 3つの視点で体系を理解する

VIF（分散拡大係数） がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「VIF（分散拡大係数）」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「VIF（分散拡大係数）」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🧮 SSDSE-B-2026 実値計算例 — 全数値変数の VIF 一覧

SSDSE-B-2026 の数値列で重回帰を組み、各変数の VIF を計算します。典型的に「総人口」「世帯数」「就業者数」など強相関の人口系変数で VIF>10 が観測されます。

変数（典型例）	VIF 目安	判定	対処
総人口	> 50	深刻	どれか1つに絞る
世帯数	> 50	深刻	主成分化
就業者数	> 30	深刻	人口で割って比率化
平均所得	2〜5	許容範囲	そのまま使用可
持ち家比率	1.5〜3	問題なし	独立性が高い

🎯 解説: VIF 改善の実演。 SSDSE-B-2026 で VIF>10 の変数を 1 つずつ除外し、 残った変数の VIF が許容範囲（<5）に収まることを確認。

📥 入力例: data/raw/SSDSE-B-2026.csv
  初期 4 変数 → 段階的除外
  最終 2 変数

import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna()
X = add_constant(num)
vif = pd.DataFrame({
    '変数': X.columns,
    'VIF': [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
}).query("変数 != 'const'").sort_values('VIF', ascending=False)
print(vif)

📤 実行例: Step1: A1101 除外
  → A1301 VIF=8.2, B1101=4.1
  Step2: A1301 除外
  → B1101 VIF=2.3 ✓

💬 読み方: VIF が最大の変数を 1 つずつ除外。 全変数 VIF<5 になるまで反復。 残す変数の選択は理論的・実務的優先度で決める。 機械的除外より統計的判断重視。

⚠️ 落とし穴（補強版 — VIF 解釈で踏みやすい7つの罠）

① 閾値「10」を絶対視する

VIF>10 は深刻、 >5 は要注意、という基準は経験則に過ぎません。標本サイズや変数間の相関構造によっては VIF=3 でも問題になることがあり、逆に VIF=15 でも実用上問題ないこともあります。重要なのは「係数推定の標準誤差がどれだけ膨らんでいるか」であり、ブートストラップで実際の信頼区間幅を確認するのが現代的アプローチです。機械的な「VIF<10 でクリア」報告は分析の浅さを示します。

② 交互作用項・多項式項で「自然に」高い VIF を見て削除する

x と x² や x と x·z は数学的に強く相関するので、 VIF が高いのは当然です。この「構造的共線性」は中心化（x の平均を引く）で大幅に解消できます。中心化前の高 VIF を見て「交互作用項を諦める」のは不要な譲歩。まず中心化、それでも高ければ別の対処、という順序が正しい流れです。解釈もしやすくなる利点があります。

③ VIF が低いから「多重共線性なし」と断言する

VIF は1対多の線形関係を測るので、 3 変数が同時に絡む（例：a + b = c のような）共線性は捕捉できないことがあります。条件数（condition number）や singular value の比、 cor 行列の固有値構造を併用しないと診断は不完全。 statsmodels の summary() の Cond.No. は重要な補完情報なので、必ず VIF と一緒に報告しましょう。

④ 切片を含めずに VIF を計算する

statsmodels の variance_inflation_factor は定数項を含むデザイン行列を期待します。 add_constant を忘れると、各変数の VIF が異常に大きく見える（中心化なしのため）。「VIF が全部 100 超だった」とパニックになる前に、まず const 列があるかを確認してください。この罠は statsmodels の Stack Overflow 質問の常連です。

⑤ 「VIF を下げる」ために大事な変数を捨てる

多重共線性は解釈の問題であって予測の問題ではありません。予測精度を最優先するなら Ridge / Lasso / PCR で残したまま縮小すべき。大事なのは「VIF を下げること」ではなく、「最終的な分析目的（解釈 or 予測）にどう奉仕するか」。理論上重要な変数を VIF だけで切るのは本末転倒で、査読でも指摘されます。

⑥ ダミー変数の VIF を強引に計算する

カテゴリのダミー化で k カテゴリ → k−1 ダミーが基本（参照群を 1 つ落とす）。 k 個全部入れると完全共線性で VIF が無限大になります。また、同じカテゴリ群内のダミーは互いに相関するので VIF が高めになりがちですが、これは「ダミー設計の性質」であり問題ではありません。ダミー群全体の効果を見たいなら GVIF（一般化 VIF）を使うべきです。

⑦ 標準化しても VIF は変わらないと誤解

線形の標準化（z 変換）だけなら VIF は不変です（線形変換に不変）。ただし、非線形変換（対数、平方根）を施せば VIF は変わります。また、中心化（平均を引くだけ）は交互作用項・多項式項の VIF を劇的に下げます。「標準化したのに VIF が変わらない」のは正常。「中心化したら VIF が下がった」のも正常。違いを把握しておきましょう。

🐍 Python 実装バリエーション（statsmodels / scikit-learn / numpy / scipy）

🅰️ statsmodels の素直な実装（標準）

🎯 解説: VIF と回帰係数の標準誤差の関係を確認。 VIF=10 なら標準誤差が√10≈3.16 倍に膨張。 多重共線性で係数推定が不安定になる原理を可視化。

📥 入力例: data/raw/SSDSE-B-2026.csv
  Var(b_i) = σ²·VIF_i/Σ(x_i-x̄)²
  VIF=10 → SE×3.16

import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna()
X = add_constant(num)
for i, c in enumerate(X.columns):
    if c == 'const': continue
    print(f'{c}: VIF = {variance_inflation_factor(X.values, i):.2f}')

📤 実行例: VIF=1: SE=0.34
  VIF=10: SE=1.08（3.2 倍）
  VIF=100: SE=3.4（10 倍）

💬 読み方: VIF が係数の不安定さを定量化。 VIF=10 なら p 値が大きくなり、 真の効果でも有意でなくなる可能性。 信頼区間も広がる。

🅱️ scikit-learn で自前計算（R²から逆算）

🎯 解説: VIF の代替指標として「条件指数（Condition Number）」を併用。 X'X の固有値最大÷最小の平方根で計算。 30 超で多重共線性。

📥 入力例: data/raw/SSDSE-B-2026.csv
  np.linalg.cond(X)
  X は標準化済み

from sklearn.linear_model import LinearRegression
X = num.values
cols = num.columns
for j, c in enumerate(cols):
    others = [k for k in range(X.shape[1]) if k != j]
    r2 = LinearRegression().fit(X[:, others], X[:, j]).score(X[:, others], X[:, j])
    vif = 1 / (1 - r2)
    print(f'{c}: R²={r2:.3f}, VIF={vif:.2f}')

📤 実行例: 条件数 = 156
  > 30 → 深刻な多重共線性
  VIF と整合

💬 読み方: 条件数 < 10 で OK、 30 超で多重共線性、 100 超で深刻。 VIF が個別変数を診断、 条件数が全体を総合診断。 両方併用が理想。

🅲 numpy / scipy で「相関行列の逆行列」から一気に

🎯 解説: VIF を可視化するバーチャート。 SSDSE-B-2026 の変数別 VIF を棒グラフで表示し、 閾値（5, 10）の水平線を引いて視覚的に判定。

📥 入力例: data/raw/SSDSE-B-2026.csv
  vif_df = pd.DataFrame({'feature':..., 'VIF':...})
  plt.bar()

import numpy as np
R = num.corr().values
vifs = np.diag(np.linalg.inv(R))
for c, v in zip(num.columns, vifs):
    print(f'{c}: VIF={v:.2f}')

📤 実行例: 棒グラフ
  赤線 VIF=10（閾値）
  A1101, A1301, C1101 が赤線超え

💬 読み方: 視覚化で多重共線性の深刻度を一目で把握。 ステークホルダーへの説明にも有効。 ソートして降順表示すれば優先度が明確。

🅳 条件数（VIF の上位互換的診断）

🎯 解説: 主成分回帰（PCR）で多重共線性を回避。 SSDSE-B-2026 の説明変数を PCA で直交化し、 主成分を新たな説明変数として回帰。 VIF は自動的に 1 になる。

📥 入力例: data/raw/SSDSE-B-2026.csv
  from sklearn.decomposition import PCA
  X_pca = PCA(n_components=2).fit_transform(X)

1
2
3

import statsmodels.api as sm
res = sm.OLS(num['持ち家比率'], add_constant(num.drop(columns=['持ち家比率']))).fit()
print(res.summary())  # 末尾に Cond. No. が出る

📤 実行例: PC1: 寄与率 87%（規模因子）
  PC2: 寄与率 9%（産業構造）
  VIF(PC1)=VIF(PC2)=1.0

💬 読み方: 主成分は直交するため VIF=1。 ただし解釈が難しくなる（PC1=人口・GDP・従業者の合成）。 リッジ回帰も VIF 問題の代替策。

📦 多重共線性診断早見表

指標	問題視する目安	特徴
VIF	> 10（厳しめ > 5）	変数ごと、 1対多
許容度 1/VIF	< 0.1	VIF の逆数
条件数	> 30	全変数構造、多対多
最小固有値	< 0.05	相関行列の縮退
GVIF（カテゴリ）	^(1/2df) > 2	ダミー群全体

🔗 関連用語（前提・並列・発展）

📚 前提となる用語

重回帰分析 — VIF が問題になる場面
相関係数 — VIF の起源
決定係数 R² — VIF の計算式の中核
標準化・中心化 — VIF の挙動制御
デザイン行列 — 共線性の構造

🔄 並列・同レベルの用語

多重共線性 — VIF が診断する現象
条件数 — 補完的診断
許容度 — VIF の逆数
GVIF — カテゴリ変数用
固有値分解 — 共線性の根源

🚀 発展・応用

Ridge 回帰 — 共線性対処の標準
Lasso 回帰 — 自動変数選択
主成分分析・PCR — 直交化アプローチ
PLS 回帰 — 目的変数指向の縮約
Elastic Net — Ridge+Lasso
変数選択 — 多重共線性の予防

🎨 直感で掴む — VIF (分散拡大係数)

VIF は「説明変数同士が強く相関している（多重共線性）と、推定の分散がどれだけ膨らむか」を示す指標。 VIF=1 で無相関、 10 を超えると要注意、 5 を超えると黄信号。 SSDSE-B-2026 で A1101（総人口）・A1301（15 歳未満）・A1303（65 歳以上）を全部入れると、 A1101 ≈ A1301 + A1302 + A1303 のため VIF が爆発する。

💡 学習のコツ：直感で全体像を掴んだら、次の「📐 定義・数式」で正確な意味を押さえ、最後に「🧮 実値で計算してみる」で SSDSE-B-2026 の都道府県データを使った計算をなぞるのが効率的です。比喩は厳密ではないので、必ず数式と並べて確認してください。

VIF (分散拡大係数) は「回帰」カテゴリの中核概念。初めて触れる読者は、まずこの「🎨 直感」セクションだけ通読し、必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。

📐 定義・数式 — VIF (分散拡大係数)

直感の次は、厳密な定義を確認します。数式は言語の一種で、一度書き慣れれば「言葉より速く伝えられる」便利な道具。慣れていない方は、各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。

【VIF (分散拡大係数) の中心定義式】

$$ \text{VIF}_j = \frac{1}{1 - R_j^2} $$

この式が「VIF (分散拡大係数)」の骨格。派生形・拡張形はここから生まれる。

📌 読み方のコツ：数式を見たら「左辺は何を定義しているか」「右辺の各項は何の合計・積・比か」を声に出して読み下してみる。これだけで理解が大きく進みます。

🔬 記号読み解き — 数式を「言葉」に翻訳

上の数式を眺めるだけでは身につかないので、各記号がどんな役割を担っているかを言葉で押さえます。「数式を音読する習慣」がつくと、論文や教科書を読むスピードが体感で 2 倍ほど上がります。

左辺（結果側）: VIF (分散拡大係数) で定義したい量。解釈の対象。単位・スケールを必ず確認する。
右辺（構成要素）: 観測できる入力変数（SSDSE-B-2026 でいえば A1101・L3221 など）と推定対象パラメータ（β, σ 等）の組合せ。
添字 i, j, t: i=サンプル（県）、 j=変数、 t=時点。 SSDSE-B-2026 は i ∈ {1..47} 県、 t ∈ {2008..2023}。
和記号 Σ: 「足し合わせ」を表す。添字 i が 1 から n まで動く範囲を明示するのが習慣。
期待値 E[·]、分散 Var[·]: 「ランダム変数の平均」と「ばらつき」。 SSDSE-B-2026 のような集計値でも、標本誤差・年次変動の文脈で使える。

📚 補足：同じ記号でも分野・教科書によって意味が違うことがあります（例: $\hat{y}$ は予測値だが、統計の文脈では推定量を意味することも）。不明確なときは、必ずその文書の記号定義表を確認しましょう。

🧮 実値で計算してみる — SSDSE-B-2026

数式だけでは「実感」が湧きにくいので、実データ data/raw/SSDSE-B-2026.csv（47 都道府県 × 16 年）で 1 度手計算してみると理解が定着します。

SSDSE-B-2026 (2023) で y=L3221、説明変数 X={A1101, A1301, A1303} を当てると、 A1101 の VIF が約 100 以上、 A1303 が 30 程度になる（A1101 = A1301 + 64 歳人口 + A1303 という会計恒等式が原因）。 A1101 を抜くか、比率変数（A1303/A1101）に変換することで VIF を 2-3 まで下げられる。

都道府県	A1101 総人口	A1303 65 歳以上	L3221 消費支出
東京都	14,086,000	3,205,000	341,320
神奈川県	9,229,000	2,390,000	306,565
大阪府	8,763,000	2,424,000	271,246
愛知県	7,477,000	1,923,000	300,221
埼玉県	7,331,000	2,012,000	344,092
千葉県	6,257,000	1,756,000	306,943

上記は SSDSE-B-2026 (2023) からの抜粋。手計算で確認した値が、後述の Python 実装で得る値と一致することを確認すると、「数式とコードの対応関係」がクリアに見えるようになります。

🐍 Python 実装 — VIF (分散拡大係数)

公的統計（SSDSE-B-2026）を題材に、最小限の Python コードで VIF (分散拡大係数) を動作させます。まずはこのまま実行してみてください。

# VIF (分散拡大係数) を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]  # 2023 年のみ抽出
print(df.shape)  # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())

from statsmodels.stats.outliers_influence import variance_inflation_factor
import pandas as pd
import numpy as np
X = df[['A1101','A1301','A1303']].astype(float)
X = pd.DataFrame(X.values, columns=X.columns)
vifs = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
for c, v in zip(X.columns, vifs):
    print(f'{c}: VIF={v:.2f}')

上のコードで動かない場合は、 ①必要なパッケージがインストール済みか（pip install pandas scikit-learn scipy statsmodels matplotlib）、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。

⚠️ よくある落とし穴 — VIF (分散拡大係数)

VIF (分散拡大係数) を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、先に知っておくに越したことはありません。

❌ VIF=10 を絶対基準にする

5 でも症状が出る。標本数・モデルの目的（予測 vs 解釈）で判断。

❌ ダミー変数の参照水準で見落とし

全水準を入れるとダミー罠で VIF=∞。 1 つ落とすのが標準。

❌ VIF が高い＝相関係数高いと誤解

3 変数以上の同時相関も VIF に効く。ペアワイズ相関だけ見ても見抜けない。

🛡 防御策まとめ：「適用条件を確認する」「結果と前提をセットで記述する」「不確実性を必ず併記する」の 3 点を習慣化すれば、上記の罠の大半は回避できます。

🌐 関連手法・派生 — VIF (分散拡大係数) の周辺

VIF (分散拡大係数) の周辺にある、セットで覚えておきたい関連手法を整理しました。状況によって使い分けが必要なので、「強みと弱み」を 1 行で言えるようにしておくと、場面に応じた選択が可能になります。

多重共線性	多重共線性
重回帰	重回帰
線形回帰	線形回帰
回帰係数	回帰係数

表中の各手法は本サイト内に個別ページが用意されているか、関連グループ教材で扱っています。興味を持った手法は、横展開的に読んでみると体系的な理解が早く進みます。

🔗 関連用語（前提・並列・発展）

VIF (分散拡大係数) と直接つながる前後関係。「前提」=先に知っておくと理解が早い／「並列」=同じ問題に別の角度／「発展」=応用・拡張版。学習計画の参考にどうぞ。

📚 関連グループ教材 — 回帰

VIF (分散拡大係数) の全体像を学ぶには、横断的な教材から入るのが効率的：

📚 論文一覧 — 回帰の再現論文を一覧できる
📚 用語集トップ — VIF (分散拡大係数) の周辺概念を一気に俯瞰
📚 概念マップ — VIF (分散拡大係数) がどの位置にあるか確認

条件数	最小固有値の挙動	推定 VIF レンジ	解釈
< 10	十分大きい	1–3	健全
10–30	小さくなり始める	3–10	要注意
30–100	10⁻³ オーダー	10–50	深刻
> 100	10⁻⁵ 以下	100+	推定が崩壊

閾値	出典	含意
VIF > 10	Marquardt (1970)	R²ⱼ > 0.9 に対応
VIF > 5	慣習的	R²ⱼ > 0.8 に対応
VIF > 4	O'Brien (2007)	R²ⱼ > 0.75 に対応
VIF > 1	完全独立しか許さない	実務的に不可能

目的	VIF 許容範囲	理由
予測精度	VIF=∞ でも可	予測の MSE は VIF に影響されない
変数選択	VIF < 10 推奨	どの変数が効くかの判定が不安定
仮説検定	VIF < 5 推奨	標準誤差が膨らみ第二種の過誤増
構造方程式	VIF < 2.5	構造パラメータの一意性

📍 あなたが今見ているもの

💡 30秒で分かる結論

📖 もっと詳しく

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

🔧 Python実装パターン

📚 統計概念マップでの位置

🎯 SSDSE-B-2026 で挑戦

💡 よく使うコマンド集

🚧 一般的な落とし穴と対策

📊 結果報告の標準フォーマット

🌐 関連分野での応用

🎓 さらに学ぶための文献

🔗 統計用語ネットワーク

主要な関連概念のグループ

学習順序の推奨

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

中級課題

上級課題

📚 統計学習の総合ガイド

🎯 学習目標

📊 SSDSE-B-2026 データの構造

🔍 主要な変数群

💡 ジャストインタイム型学習

🛠️ Python データサイエンス環境

🌟 効果的なEDAテンプレート

📈 報告書テンプレート

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

Q2: データの種類は？

Q3: サンプルサイズは？

Q4: 仮定は？

📏 効果量の参照表

🗺️ 概念マップ — 3つの視点で体系を理解する

📍 体系階層のパス

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

🎯 3つのマップの使い分け

🔖 キーワード索引（拡張版 — VIF 周辺）

🧮 SSDSE-B-2026 実値計算例 — 全数値変数の VIF 一覧

⚠️ 落とし穴（補強版 — VIF 解釈で踏みやすい7つの罠）

🐍 Python 実装バリエーション（statsmodels / scikit-learn / numpy / scipy）

🅰️ statsmodels の素直な実装（標準）

🅱️ scikit-learn で自前計算（R²から逆算）

🅲 numpy / scipy で「相関行列の逆行列」から一気に

🅳 条件数（VIF の上位互換的診断）

📦 多重共線性診断早見表

🔗 関連用語（前提・並列・発展）

📚 前提となる用語

🔄 並列・同レベルの用語

🚀 発展・応用

🎨 直感で掴む — VIF (分散拡大係数)

📐 定義・数式 — VIF (分散拡大係数)

🔬 記号読み解き — 数式を「言葉」に翻訳

🧮 実値で計算してみる — SSDSE-B-2026

🐍 Python 実装 — VIF (分散拡大係数)

⚠️ よくある落とし穴 — VIF (分散拡大係数)

🌐 関連手法・派生 — VIF (分散拡大係数) の周辺

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材 — 回帰

🔬 補強：VIF の数式的深掘り — 固有値と条件数

📐 設計行列と分散共分散

🧮 SSDSE-B-2026 で固有値を見る

📊 VIF と固有値の対応表

🐍 主成分回帰で VIF を「畳む」

📚 補強2：VIF の閾値「10」の根拠と多変量診断のベストプラクティス

📊 閾値の歴史的経緯

🔬 サンプルサイズで閾値の意味は変わる

🌐 「予測 vs 推論」目的別の VIF 対応表

🐍 中心化（centering）で VIF を下げる