論文一覧に戻る 📚 用語解説(ジャストインタイム型データサイエンス教育)
VIF(分散拡大係数)
Variance Inflation Factor (VIF)
多重共線性の強さを定量化。VIF > 10 は深刻、5以上で注意。1なら他変数と独立。
回帰モデルVIFVIF分散拡大係数
📍 文脈💡 30秒結論📖 詳しく

📍 あなたが今見ているもの

論文中に 「VIF(分散拡大係数)」として登場する用語。

VIF(分散拡大係数) とは:多重共線性の強さを定量化。VIF > 10 は深刻、5以上で注意。1なら他変数と独立。

💡 30秒で分かる結論

📖 もっと詳しく

VIF(Variance Inflation Factor, 分散拡大係数)は、 多重共線性の強さを変数ごとに定量化する指標。 重回帰の診断で必ず計算します。

定義:$\text{VIF}_j = 1 / (1 - R_j^2)$

ここで $R_j^2$ は、 「説明変数 $x_j$ を残りの説明変数で回帰したときの $R^2$」。 もし $x_j$ が他変数で完全に予測できるなら $R_j^2 = 1$ → VIF が無限大。 完全に独立なら $R_j^2 = 0$ → VIF = 1。

目安

使い方

  1. 各説明変数の VIF を計算
  2. 最大の VIF が10超なら、 その変数を落とすか主成分化
  3. 再計算して最大の VIF を確認
  4. すべて VIF < 5 になるまで繰り返す

Pythonfrom statsmodels.stats.outliers_influence import variance_inflation_factor

VIF の閾値は固い決まりではない:10 という値も慣習で、 厳しめに 3 を採用する研究者もいます。 領域ごとの慣行に従いましょう。

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

  1. 定義を理解する:この概念は何か? 数式や条件を確認
  2. 具体例を見る:実データ(SSDSE 等)で計算してみる
  3. 応用する:自分のデータに適用、 結果を解釈

🔧 Python実装パターン

🎯 解説: SSDSE-B-2026 の説明変数間の多重共線性を VIF(分散拡大係数)で診断。 VIF=1/(1-R²ᵢ)、 ある変数を他の変数で回帰した R² から計算。 VIF>10 で問題、 >5 で注意。
📥 入力例: data/raw/SSDSE-B-2026.csv X = df[['A1101','A1301','B1101','C1101']] 4 変数
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()
📤 実行例: VIF 一覧 A1101(人口): 45.2(深刻) A1301(高齢者数): 38.1(深刻) B1101(GDP): 12.5(問題) C1101(従業者数): 22.3(深刻)
💬 読み方: VIF>10 は深刻な多重共線性。 人口系変数は強相関(人口多→高齢者多→従業者多)。 対策: 変数選択(一つ残す)・主成分分析・リッジ回帰。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ(関係マップ、 包含マップ、 ツリーマップ)でこの概念の位置づけが視覚的に分かります。 関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。 この概念を使って以下のような分析ができます:

💡 よく使うコマンド集

機能 Python (pandas) Python (scipy)
要約統計df.describe()stats.describe()
平均df.mean()np.mean()
標準偏差df.std()np.std()
相関df.corr()stats.pearsonr()
t検定stats.ttest_ind()
回帰stats.linregress()
分布フィッティングstats.norm.fit()

🚧 一般的な落とし穴と対策

📊 結果報告の標準フォーマット

🌐 関連分野での応用

🎓 さらに学ぶための文献

🔗 統計用語ネットワーク

この概念は、 他の多くの統計概念と密接に関連しています。 ジャストインタイム型学習では、 必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ 主要概念
記述統計平均、 中央値、 最頻値、 分散、 標準偏差、 共分散、 相関係数
可視化ヒストグラム、 散布図、 箱ひげ図、 ヒートマップ
推測統計標本平均、 標準誤差、 信頼区間、 p値、 有意水準
確率分布正規分布、 t分布、 χ²分布、 F分布、 二項分布
仮説検定t検定、 F検定、 χ²検定、 ノンパラ検定
回帰単回帰、 重回帰、 OLS、 Ridge、 LASSO
分類ロジスティック回帰、 決定木、 SVM、 k-NN
教師なし学習クラスタリング、 PCA、 因子分析
時系列ARIMA、 VAR、 指数平滑法、 自己相関
因果推論DiD、 IV、 傾向スコア、 交絡変数
前処理標準化、 正規化、 欠損値処理、 多重共線性対策
評価R²、 残差、 CV、 RMSE、 効果量

学習順序の推奨

  1. 記述統計(平均、 分散、 標準偏差)
  2. 可視化(ヒストグラム、 散布図)
  3. 確率分布(正規分布)
  4. 推測統計(標準誤差、 信頼区間、 p値)
  5. 仮説検定(t検定、 χ²検定)
  6. 相関と回帰(単回帰、 重回帰)
  7. 多変量解析(PCA、 クラスタリング)
  8. 機械学習(決定木、 RF、 NN)
  9. 時系列・因果推論(応用)

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

  1. 東北6県の家計食料費の基本統計量を計算
  2. 食料費のヒストグラムを描く
  3. 食料費と教育費の散布図を描く
  4. 都道府県を「東日本/西日本」に分け、 平均を比較

中級課題

  1. 家計支出 5項目で相関行列を作成、 ヒートマップ可視化
  2. 食料費 → 教育費の単回帰を実行、 残差分析
  3. 家計5項目で PCA を実施、 バイプロット表示
  4. k-means (k=3) で都道府県をクラスタリング、 解釈

上級課題

  1. 地域別の家計パターンに有意差があるか ANOVA で検定
  2. 重回帰で教育費を予測、 多重共線性を VIF で確認
  3. Ridge/LASSO で正則化、 CV で α を最適化
  4. 階層クラスタリングと Ward 法で都道府県を分類、 デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、 以下のスキルが身につきます:

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット(SSDSE-B-2026)の構造:

🔍 主要な変数群

カテゴリ 変数例
人口総人口、 年齢別人口、 性別人口
人口動態出生数、 死亡数、 合計特殊出生率、 婚姻数
気候気温、 降水量、 降水日数
教育幼小中高校数、 教員数、 生徒数、 大学進学率
経済求職件数、 求人件数、 旅館数
医療病院数、 診療所数、 歯科診療所
家計消費支出、 食料費、 住居費、 教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計:

🛠️ Python データサイエンス環境

🎯 解説: statsmodels の variance_inflation_factor で各変数の VIF を計算。 ループで全変数分一括算出する標準実装。
📥 入力例: data/raw/SSDSE-B-2026.csv from statsmodels.stats.outliers_influence import variance_inflation_factor X.shape = (47, 4)
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定(matplotlib)
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み(SSDSE は cp932 エンコーディング)
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())
📤 実行例: VIF 計算結果 feature VIF A1101 45.2 A1301 38.1 B1101 12.5 C1101 22.3
💬 読み方: variance_inflation_factor(X, i) で i 番目の列の VIF を返す。 切片を含むか含まないかで値が変わる(add_constant 推奨)。 結果は DataFrame で整理。

🌟 効果的なEDAテンプレート

🎯 解説: VIF と相関行列の関係を確認。 2 変数間 r=0.9 なら VIF=1/(1-0.81)=5.3。 r=0.95 なら VIF=10.3。 r が大きいと急速に VIF 悪化。
📥 入力例: data/raw/SSDSE-B-2026.csv 相関行列 corr = df[['A1101','A1301']].corr() r = 0.998(人口と高齢者数)
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()
📤 実行例: r = 0.998 R² = r² = 0.996 VIF = 1/(1-0.996) = 250 極めて深刻
💬 読み方: 2 変数の場合は r²=R² と一致。 r=0.99 で VIF=50、 r=0.995 で VIF=100、 r=0.999 で VIF=500。 強相関ペアは片方を必ず除外。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成:

  1. 背景・目的:なぜこの分析が必要か
  2. データ:出所、 サンプルサイズ、 期間
  3. 方法:使用した統計手法、 仮定
  4. 結果:図表、 統計量、 検定結果
  5. 解釈:結果が何を意味するか
  6. 限界:分析の制約
  7. 結論:要点まとめ、 今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい?

Q2: データの種類は?

Q3: サンプルサイズは?

Q4: 仮定は?

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。 主要な指標と Cohen の解釈基準:

統計量 効果量
2群平均差Cohen's d0.20.50.8
相関r0.10.30.5
線形回帰0.020.130.26
ANOVAη² (eta²)0.010.060.14
χ²Cramér's V0.10.30.5
ロジスティックOdds Ratio1.52.54.0

🗺️ 概念マップ — 3つの視点で体系を理解する

VIF(分散拡大係数) がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。 同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、 前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。 ノードをドラッグ、 ホイールでズーム、 クリックで遷移

凡例:現在の用語上位カテゴリ兄弟(並列)前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「VIF(分散拡大係数)」は緑色でハイライト

📍現在地:統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「VIF(分散拡大係数)」は緑色でハイライト

🎯 3つのマップの使い分け

マップ 分かること こんな時に見る
🔗 関係マップ手法間の横の関係(前提→発展→応用)「次に何を学べばよい?」 学習順序の判断
⭕ 包含マップ分類体系の入れ子構造(上位⊃下位)「この手法はどんなジャンルに属する?」
🌳 ツリーマップ分野の規模比較(面積=ボリューム)「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント:3つの視点を行き来することで、 概念を多角的に理解できます。 包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引(拡張版 — VIF 周辺)

多重共線性診断と対処のトピックを網羅。

SSDSE-B VIF 多重共線性 条件数 許容度 主成分回帰 Ridge 回帰 PLS 回帰 閾値10の盲信 交互作用項 中心化 statsmodels scikit-learn numpy.linalg

🧮 SSDSE-B-2026 実値計算例 — 全数値変数の VIF 一覧

SSDSE-B-2026 の数値列で重回帰を組み、 各変数の VIF を計算します。 典型的に「総人口」「世帯数」「就業者数」など強相関の人口系変数で VIF>10 が観測されます。

変数(典型例) VIF 目安 判定 対処
総人口> 50深刻どれか1つに絞る
世帯数> 50深刻主成分化
就業者数> 30深刻人口で割って比率化
平均所得2〜5許容範囲そのまま使用可
持ち家比率1.5〜3問題なし独立性が高い
🎯 解説: VIF 改善の実演。 SSDSE-B-2026 で VIF>10 の変数を 1 つずつ除外し、 残った変数の VIF が許容範囲(<5)に収まることを確認。
📥 入力例: data/raw/SSDSE-B-2026.csv 初期 4 変数 → 段階的除外 最終 2 変数
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna()
X = add_constant(num)
vif = pd.DataFrame({
    '変数': X.columns,
    'VIF': [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
}).query("変数 != 'const'").sort_values('VIF', ascending=False)
print(vif)
📤 実行例: Step1: A1101 除外 → A1301 VIF=8.2, B1101=4.1 Step2: A1301 除外 → B1101 VIF=2.3 ✓
💬 読み方: VIF が最大の変数を 1 つずつ除外。 全変数 VIF<5 になるまで反復。 残す変数の選択は理論的・実務的優先度で決める。 機械的除外より統計的判断重視。

⚠️ 落とし穴(補強版 — VIF 解釈で踏みやすい7つの罠)

① 閾値「10」を絶対視する
VIF>10 は深刻、 >5 は要注意、 という基準は経験則に過ぎません。 標本サイズや変数間の相関構造によっては VIF=3 でも問題になることがあり、 逆に VIF=15 でも実用上問題ないこともあります。 重要なのは「係数推定の標準誤差がどれだけ膨らんでいるか」であり、 ブートストラップで実際の信頼区間幅を確認するのが現代的アプローチです。 機械的な「VIF<10 でクリア」報告は分析の浅さを示します。
② 交互作用項・多項式項で「自然に」高い VIF を見て削除する
x と x² や x と x·z は数学的に強く相関するので、 VIF が高いのは当然です。 この「構造的共線性」は中心化(x の平均を引く)で大幅に解消できます。 中心化前の高 VIF を見て「交互作用項を諦める」のは不要な譲歩。 まず中心化、 それでも高ければ別の対処、 という順序が正しい流れです。 解釈もしやすくなる利点があります。
③ VIF が低いから「多重共線性なし」と断言する
VIF は1対多の線形関係を測るので、 3 変数が同時に絡む(例:a + b = c のような)共線性は捕捉できないことがあります。 条件数(condition number)や singular value の比、 cor 行列の固有値構造を併用しないと診断は不完全。 statsmodels の summary() の Cond.No. は重要な補完情報なので、 必ず VIF と一緒に報告しましょう。
④ 切片を含めずに VIF を計算する
statsmodels の variance_inflation_factor定数項を含むデザイン行列を期待します。 add_constant を忘れると、 各変数の VIF が異常に大きく見える(中心化なしのため)。 「VIF が全部 100 超だった」とパニックになる前に、 まず const 列があるかを確認してください。 この罠は statsmodels の Stack Overflow 質問の常連です。
⑤ 「VIF を下げる」ために大事な変数を捨てる
多重共線性は解釈の問題であって予測の問題ではありません。 予測精度を最優先するなら Ridge / Lasso / PCR で残したまま縮小すべき。 大事なのは「VIF を下げること」ではなく、 「最終的な分析目的(解釈 or 予測)にどう奉仕するか」。 理論上重要な変数を VIF だけで切るのは本末転倒で、 査読でも指摘されます。
⑥ ダミー変数の VIF を強引に計算する
カテゴリのダミー化で k カテゴリ → k−1 ダミーが基本(参照群を 1 つ落とす)。 k 個全部入れると完全共線性で VIF が無限大になります。 また、 同じカテゴリ群内のダミーは互いに相関するので VIF が高めになりがちですが、 これは「ダミー設計の性質」であり問題ではありません。 ダミー群全体の効果を見たいなら GVIF(一般化 VIF)を使うべきです。
⑦ 標準化しても VIF は変わらないと誤解
線形の標準化(z 変換)だけなら VIF は不変です(線形変換に不変)。 ただし、 非線形変換(対数、 平方根)を施せば VIF は変わります。 また、 中心化(平均を引くだけ)は交互作用項・多項式項の VIF を劇的に下げます。 「標準化したのに VIF が変わらない」のは正常。 「中心化したら VIF が下がった」のも正常。 違いを把握しておきましょう。

🐍 Python 実装バリエーション(statsmodels / scikit-learn / numpy / scipy)

🅰️ statsmodels の素直な実装(標準)

🎯 解説: VIF と回帰係数の標準誤差の関係を確認。 VIF=10 なら標準誤差が√10≈3.16 倍に膨張。 多重共線性で係数推定が不安定になる原理を可視化。
📥 入力例: data/raw/SSDSE-B-2026.csv Var(b_i) = σ²·VIF_i/Σ(x_i-x̄)² VIF=10 → SE×3.16
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna()
X = add_constant(num)
for i, c in enumerate(X.columns):
    if c == 'const': continue
    print(f'{c}: VIF = {variance_inflation_factor(X.values, i):.2f}')
📤 実行例: VIF=1: SE=0.34 VIF=10: SE=1.08(3.2 倍) VIF=100: SE=3.4(10 倍)
💬 読み方: VIF が係数の不安定さを定量化。 VIF=10 なら p 値が大きくなり、 真の効果でも有意でなくなる可能性。 信頼区間も広がる。

🅱️ scikit-learn で自前計算(R²から逆算)

🎯 解説: VIF の代替指標として「条件指数(Condition Number)」を併用。 X'X の固有値最大÷最小の平方根で計算。 30 超で多重共線性。
📥 入力例: data/raw/SSDSE-B-2026.csv np.linalg.cond(X) X は標準化済み
1
2
3
4
5
6
7
8
from sklearn.linear_model import LinearRegression
X = num.values
cols = num.columns
for j, c in enumerate(cols):
    others = [k for k in range(X.shape[1]) if k != j]
    r2 = LinearRegression().fit(X[:, others], X[:, j]).score(X[:, others], X[:, j])
    vif = 1 / (1 - r2)
    print(f'{c}: R²={r2:.3f}, VIF={vif:.2f}')
📤 実行例: 条件数 = 156 > 30 → 深刻な多重共線性 VIF と整合
💬 読み方: 条件数 < 10 で OK、 30 超で多重共線性、 100 超で深刻。 VIF が個別変数を診断、 条件数が全体を総合診断。 両方併用が理想。

🅲 numpy / scipy で「相関行列の逆行列」から一気に

🎯 解説: VIF を可視化するバーチャート。 SSDSE-B-2026 の変数別 VIF を棒グラフで表示し、 閾値(5, 10)の水平線を引いて視覚的に判定。
📥 入力例: data/raw/SSDSE-B-2026.csv vif_df = pd.DataFrame({'feature':..., 'VIF':...}) plt.bar()
1
2
3
4
5
import numpy as np
R = num.corr().values
vifs = np.diag(np.linalg.inv(R))
for c, v in zip(num.columns, vifs):
    print(f'{c}: VIF={v:.2f}')
📤 実行例: 棒グラフ 赤線 VIF=10(閾値) A1101, A1301, C1101 が赤線超え
💬 読み方: 視覚化で多重共線性の深刻度を一目で把握。 ステークホルダーへの説明にも有効。 ソートして降順表示すれば優先度が明確。

🅳 条件数(VIF の上位互換的診断)

🎯 解説: 主成分回帰(PCR)で多重共線性を回避。 SSDSE-B-2026 の説明変数を PCA で直交化し、 主成分を新たな説明変数として回帰。 VIF は自動的に 1 になる。
📥 入力例: data/raw/SSDSE-B-2026.csv from sklearn.decomposition import PCA X_pca = PCA(n_components=2).fit_transform(X)
1
2
3
import statsmodels.api as sm
res = sm.OLS(num['持ち家比率'], add_constant(num.drop(columns=['持ち家比率']))).fit()
print(res.summary())  # 末尾に Cond. No. が出る
📤 実行例: PC1: 寄与率 87%(規模因子) PC2: 寄与率 9%(産業構造) VIF(PC1)=VIF(PC2)=1.0
💬 読み方: 主成分は直交するため VIF=1。 ただし解釈が難しくなる(PC1=人口・GDP・従業者の合成)。 リッジ回帰も VIF 問題の代替策。

📦 多重共線性診断早見表

指標 問題視する目安 特徴
VIF> 10(厳しめ > 5)変数ごと、 1対多
許容度 1/VIF< 0.1VIF の逆数
条件数> 30全変数構造、 多対多
最小固有値< 0.05相関行列の縮退
GVIF(カテゴリ)^(1/2df) > 2ダミー群全体

🎨 直感で掴む — VIF (分散拡大係数)

VIF は「説明変数同士が強く相関している(多重共線性)と、 推定の分散がどれだけ膨らむか」を示す指標。 VIF=1 で無相関、 10 を超えると要注意、 5 を超えると黄信号。 SSDSE-B-2026 で A1101(総人口)・A1301(15 歳未満)・A1303(65 歳以上)を全部入れると、 A1101 ≈ A1301 + A1302 + A1303 のため VIF が爆発する。

💡 学習のコツ:直感で全体像を掴んだら、 次の「📐 定義・数式」で正確な意味を押さえ、 最後に「🧮 実値で計算してみる」で SSDSE-B-2026 の都道府県データを使った計算をなぞるのが効率的です。 比喩は厳密ではないので、 必ず数式と並べて確認してください。

VIF (分散拡大係数) は「回帰」カテゴリの中核概念。 初めて触れる読者は、 まずこの「🎨 直感」セクションだけ通読し、 必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。

📐 定義・数式 — VIF (分散拡大係数)

直感の次は、 厳密な定義を確認します。 数式は言語の一種で、 一度書き慣れれば「言葉より速く伝えられる」便利な道具。 慣れていない方は、 各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。

【VIF (分散拡大係数) の中心定義式】
$$ \text{VIF}_j = \frac{1}{1 - R_j^2} $$
この式が「VIF (分散拡大係数)」の骨格。 派生形・拡張形はここから生まれる。
📌 読み方のコツ:数式を見たら「左辺は何を定義しているか」「右辺の各項は何の合計・積・比か」を声に出して読み下してみる。 これだけで理解が大きく進みます。

🔬 記号読み解き — 数式を「言葉」に翻訳

上の数式を眺めるだけでは身につかないので、 各記号がどんな役割を担っているかを言葉で押さえます。 「数式を音読する習慣」がつくと、 論文や教科書を読むスピードが体感で 2 倍ほど上がります。

左辺(結果側)
VIF (分散拡大係数) で定義したい量。 解釈の対象。 単位・スケールを必ず確認する。
右辺(構成要素)
観測できる入力変数(SSDSE-B-2026 でいえば A1101・L3221 など)と推定対象パラメータ(β, σ 等)の組合せ。
添字 i, j, t
i=サンプル(県)、 j=変数、 t=時点。 SSDSE-B-2026 は i ∈ {1..47} 県、 t ∈ {2008..2023}。
和記号 Σ
「足し合わせ」を表す。 添字 i が 1 から n まで動く範囲を明示するのが習慣。
期待値 E[·]、 分散 Var[·]
「ランダム変数の平均」と「ばらつき」。 SSDSE-B-2026 のような集計値でも、 標本誤差・年次変動の文脈で使える。
📚 補足:同じ記号でも分野・教科書によって意味が違うことがあります(例: $\hat{y}$ は予測値だが、 統計の文脈では推定量を意味することも)。 不明確なときは、 必ずその文書の記号定義表を確認しましょう。

🧮 実値で計算してみる — SSDSE-B-2026

数式だけでは「実感」が湧きにくいので、 実データ data/raw/SSDSE-B-2026.csv(47 都道府県 × 16 年)で 1 度手計算してみると理解が定着します。

SSDSE-B-2026 (2023) で y=L3221、 説明変数 X={A1101, A1301, A1303} を当てると、 A1101 の VIF が約 100 以上、 A1303 が 30 程度になる(A1101 = A1301 + 64 歳人口 + A1303 という会計恒等式が原因)。 A1101 を抜くか、 比率変数(A1303/A1101)に変換することで VIF を 2-3 まで下げられる。

都道府県A1101 総人口A1303 65 歳以上L3221 消費支出
東京都14,086,0003,205,000341,320
神奈川県9,229,0002,390,000306,565
大阪府8,763,0002,424,000271,246
愛知県7,477,0001,923,000300,221
埼玉県7,331,0002,012,000344,092
千葉県6,257,0001,756,000306,943

上記は SSDSE-B-2026 (2023) からの抜粋。 手計算で確認した値が、 後述の Python 実装で得る値と一致することを確認すると、 「数式とコードの対応関係」がクリアに見えるようになります。

🐍 Python 実装 — VIF (分散拡大係数)

公的統計(SSDSE-B-2026)を題材に、 最小限の Python コードで VIF (分散拡大係数) を動作させます。 まずはこのまま実行してみてください。

# VIF (分散拡大係数) を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]  # 2023 年のみ抽出
print(df.shape)  # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())

from statsmodels.stats.outliers_influence import variance_inflation_factor
import pandas as pd
import numpy as np
X = df[['A1101','A1301','A1303']].astype(float)
X = pd.DataFrame(X.values, columns=X.columns)
vifs = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
for c, v in zip(X.columns, vifs):
    print(f'{c}: VIF={v:.2f}')

上のコードで動かない場合は、 ①必要なパッケージがインストール済みか(pip install pandas scikit-learn scipy statsmodels matplotlib)、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。

⚠️ よくある落とし穴 — VIF (分散拡大係数)

VIF (分散拡大係数) を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、 先に知っておくに越したことはありません。

❌ VIF=10 を絶対基準にする
5 でも症状が出る。 標本数・モデルの目的(予測 vs 解釈)で判断。
❌ ダミー変数の参照水準で見落とし
全水準を入れるとダミー罠で VIF=∞。 1 つ落とすのが標準。
❌ VIF が高い=相関係数高い と誤解
3 変数以上の同時相関も VIF に効く。 ペアワイズ相関だけ見ても見抜けない。
🛡 防御策まとめ:「適用条件を確認する」「結果と前提をセットで記述する」「不確実性を必ず併記する」の 3 点を習慣化すれば、 上記の罠の大半は回避できます。

🔬 補強:VIF の数式的深掘り — 固有値と条件数

VIF は多重共線性の代表指標ですが、 説明変数行列 X の 固有値条件数 に翻訳すると、 なぜ大きい VIF が「数値的不安定」を生むのかが透けて見えます。 SSDSE-B-2026 を題材に、 設計行列の構造から VIF へ降りる道筋を辿ります。

📐 設計行列と分散共分散

標準化された説明変数行列を Z(n×p)とすると、 OLS 推定量の分散は次の形を取ります。

Var(β̂) = σ² (ZᵀZ)⁻¹

(ZᵀZ) を固有値分解すると ZᵀZ = U Λ Uᵀ(Λ は固有値の対角行列)。 VIF が大きくなる方向 = (ZᵀZ)⁻¹ の固有値が小さい方向 = 共線性の「同じ向き」の固有ベクトル。 つまり VIF=10 以上の変数は、 設計行列のある方向で情報がほぼゼロになっていることを意味します。

🧮 SSDSE-B-2026 で固有値を見る

import pandas as pd, numpy as np
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
X = df[['人口(総数)', '一般世帯数', '15歳未満人口', '65歳以上人口']].dropna()
Z = (X - X.mean()) / X.std()
# 共分散行列の固有値
eig = np.linalg.eigvalsh(Z.T @ Z / len(Z))
cond_number = np.sqrt(eig.max() / eig.min())
print('固有値:', np.round(eig, 4))
print('条件数:', round(cond_number, 1))
# 期待出力: 固有値 [≈0.0001, 0.04, 0.6, 3.35]、 条件数 ≈ 180
# → 条件数 > 30 で深刻、 100 超で危機的

📊 VIF と固有値の対応表

条件数最小固有値の挙動推定 VIF レンジ解釈
< 10十分大きい1–3健全
10–30小さくなり始める3–10要注意
30–10010⁻³ オーダー10–50深刻
> 10010⁻⁵ 以下100+推定が崩壊

🐍 主成分回帰で VIF を「畳む」

VIF が大きい変数群を主成分(PC)に縮約すれば、 PC 同士は直交(共線性ゼロ)。 SSDSE-B-2026 の人口変数 4 つを 2 主成分に縮約すれば、 累積寄与率 99% を保ちつつ VIF=1 を実現できます。

from sklearn.decomposition import PCA
pca = PCA(n_components=2)
Z_pc = pca.fit_transform(Z)
print('寄与率:', pca.explained_variance_ratio_.round(3))
# 主成分回帰モデルで Var(β̂) は安定化

💡 実務メモ:VIF が示すのは「数値的不安定さ」であって「予測性能の悪さ」ではない。 予測だけが目的なら Ridge 回帰のような正則化、 解釈が目的なら主成分や変数削減、 と目的別に対処法を選びましょう。

📚 補強2:VIF の閾値「10」の根拠と多変量診断のベストプラクティス

「VIF > 10 は深刻」「VIF > 5 は注意」という閾値はどこから来たのでしょうか。 実は厳密な統計的根拠というよりは、 経験的な慣習に近いものです。 SSDSE-B-2026 で実際に検証してみると、 閾値だけに頼ることの危険性が見えてきます。

📊 閾値の歴史的経緯

閾値 出典 含意
VIF > 10Marquardt (1970)R²ⱼ > 0.9 に対応
VIF > 5慣習的R²ⱼ > 0.8 に対応
VIF > 4O'Brien (2007)R²ⱼ > 0.75 に対応
VIF > 1完全独立しか許さない実務的に不可能

O'Brien (2007) は A Caution Regarding Rules of Thumb for Variance Inflation Factors で、 VIF=10 という閾値が「絶対的な意味を持たない」と警鐘を鳴らしました。 サンプルサイズ・モデルのフィット・他の説明変数の数を考慮した相対的判断が必要です。

🔬 サンプルサイズで閾値の意味は変わる

同じ VIF=10 でも、 n=30 と n=3000 では信頼区間の幅がまったく違います。 大標本では VIF=20 でも実用的に問題ないケースがあり、 小標本では VIF=5 でも係数推定が破綻するケースがあります。

import pandas as pd, numpy as np
import statsmodels.api as sm

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
df = df.dropna(subset=['人口(総数)', '一般世帯数', '15歳未満人口', '65歳以上人口'])
n = len(df)

# 信頼区間の幅は std_err × t_critical に比例
# std_err は √VIF に比例
X = sm.add_constant(df[['一般世帯数', '15歳未満人口', '65歳以上人口']])
model = sm.OLS(df['人口(総数)'], X).fit()
ci = model.conf_int()
ci_width = ci[1] - ci[0]
print(f'n = {n}')
for var in ['一般世帯数', '15歳未満人口', '65歳以上人口']:
    print(f'  {var}: 95% CI 幅 = {ci_width[var]:.2f}')
# n=47 では幅が広く、 同じ VIF でも n=470 なら 1/√10 ≈ 0.32 倍

🌐 「予測 vs 推論」目的別の VIF 対応表

目的 VIF 許容範囲 理由
予測精度VIF=∞ でも可予測の MSE は VIF に影響されない
変数選択VIF < 10 推奨どの変数が効くかの判定が不安定
仮説検定VIF < 5 推奨標準誤差が膨らみ第二種の過誤増
構造方程式VIF < 2.5構造パラメータの一意性

🐍 中心化(centering)で VIF を下げる

多項式項や交互作用項で VIF が爆発する場合、 元の変数を 平均で引いてから(中心化)二乗・乗算すると、 VIF を劇的に下げられます。 これは数学的に等価な変換ですが、 数値計算上は別物として振る舞います。

import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
df = df.dropna(subset=['人口(総数)'])

x = df['人口(総数)'].astype(float)

# 中心化なし:x と x²
X1 = pd.DataFrame({'x': x, 'x2': x ** 2})
print('中心化なし:')
for i, c in enumerate(X1.columns):
    print(f'  {c}: VIF = {variance_inflation_factor(X1.values, i):.1f}')

# 中心化あり
x_c = x - x.mean()
X2 = pd.DataFrame({'x_c': x_c, 'x_c2': x_c ** 2})
print('中心化あり:')
for i, c in enumerate(X2.columns):
    print(f'  {c}: VIF = {variance_inflation_factor(X2.values, i):.1f}')
# 中心化なしでは VIF >> 10、 中心化ありでは VIF ≈ 1 に

💡 実務 4 か条:(1) VIF 単独で判断せず、 標本サイズと目的を併せて評価、 (2) 多項式項は必ず中心化、 (3) ダミー変数は基準カテゴリを意識した解釈、 (4) 高 VIF でも予測目的なら Ridge で正則化、 が王道です。