説明変数 | 用語解説

🔖 キーワード索引

説明変数独立変数予測変数 x feature covariate regressor input 重回帰多重共線性 VIF 因果交絡ダミー変数

💡 30秒で分かる結論

説明変数（Explanatory Variable）：予測に使う変数。 ML 用語では「特徴量 (feature)」、統計では「説明変数」「独立変数」

位置づけ：機械学習・データ分析の中核概念のひとつ
キーアイデア：本ページでは数式・実コード・落とし穴の 3 点セットで学ぶ
使い所：実データ（SSDSE-B 都道府県データ等）で 47 サンプルでも体験できる
落とし穴：詳細は ⚠️ 落とし穴章へ
関連：🔗 前提・並列・発展をたどると体系が見える

📍 あなたが今見ているもの

このページは「説明変数（Explanatory Variable）」の用語解説です。機械学習の基礎カテゴリにおける重要概念で、機械学習の基礎グループ教材の中で繰り返し登場します。数式・実コード・落とし穴を 1 ページに集約し、 SSDSE-B-2026 都道府県データ（47 件 × 112 列）を題材に手を動かしながら理解できるよう構成しています。

別称：独立変数 / 予測変数 / x。まず 💡 30秒結論で全体像を、次に 🎨 直感 → 📐 数式 → 🧮 実値 → 🐍 Python の順で読むのがおすすめ。

🎨 直感で掴む

説明変数は「原因側 / 入力」の変数です。統計では $x$、 ML では特徴量、計量経済では共変量と呼ぶことも。「都道府県の総人口で 15 歳未満人口を説明する」と言うとき、総人口が説明変数、 15 歳未満人口が目的変数です。

複数の説明変数を同時に使うのが 重回帰。ただし説明変数同士の相関が強い（多重共線性）と係数が暴れ、解釈が困難に。 VIF（分散拡大係数）が 10 を超えるなら片方を除外。

📐 数式または定義

本概念は次のように記述されます（KaTeX で描画）。

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p + \varepsilon,\qquad \mathrm{VIF}_j = \frac{1}{1 - R_j^2}$$

英語名 Explanatory Variable。別称：独立変数 / 予測変数 / x。

🔬 数式を言葉で読み解く

記号と意味を逐一突き合わせて読みます。慣れないうちは式を「日本語で読む」ことが理解の近道です。

$x_j$：$j$ 番目の説明変数
$\beta_j$：$x_j$ の係数（他の変数を一定にしたときの限界効果）
$\varepsilon$：誤差項（説明しきれない部分）
$R_j^2$：$x_j$ を他の説明変数で回帰した決定係数
$\mathrm{VIF}_j$：$\mathrm{VIF}>10$ で多重共線性が強い

🧮 SSDSE-B 実値で計算してみる

SSDSE-B から 3 つの説明変数 で 15 歳未満人口を重回帰し、 VIF を確認します。

データ出典：SSDSE-B-2026（独立行政法人統計センター）。 47 都道府県 × 複数年（最新 2023）の社会統計データ。

import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
df = df[df['年度'] == 2023].reset_index(drop=True)

# 説明変数を 3 つ
X = df[['総人口','15～64歳人口','65歳以上人口']]
y = df['15歳未満人口']

# 重回帰
X_const = sm.add_constant(X)
model = sm.OLS(y, X_const).fit()
print(model.summary().tables[1])

# VIF
for i, name in enumerate(X.columns):
    vif = variance_inflation_factor(X.values, i)
    print(f'VIF({name}) = {vif:.2f}')

実行結果の要約（出力は環境依存。概算値）：

項目	値
β(総人口)	0.041 (p<0.01)
β(15～64歳人口)	0.052 (p<0.05)
β(65歳以上人口)	−0.183 (p<0.001)
VIF(総人口)	248 (極めて高い)
VIF(15～64歳人口)	190
VIF(65歳以上人口)	44

🐍 Python 実装

scikit-learn / pandas を使った最小実装パターン。上の SSDSE-B 計算と同じスタイルですが、ここでは「読み込み→前処理→学習→評価」のテンプレを 4 つのスニペットに分けます。

① データ読み込み & 概観

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
df = df[df['年度'] == 2023].reset_index(drop=True)
print(df.shape, df.columns.tolist()[:8])

② 特徴量と目的変数

1
2
3

X = df[['総人口','65歳以上人口']].values
y = df['15歳未満人口'].values
print('X shape =', X.shape, ',  y shape =', y.shape)

③ 訓練/テスト分割 + モデル学習

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3, random_state=0)
model = RandomForestRegressor(n_estimators=300, random_state=0).fit(X_tr, y_tr)
print('R^2 (test) =', model.score(X_te, y_te))

④ 評価と可視化

import matplotlib.pyplot as plt
pred = model.predict(X_te)
plt.scatter(y_te, pred)
plt.plot([y_te.min(), y_te.max()], [y_te.min(), y_te.max()], 'r--')
plt.xlabel('実測'); plt.ylabel('予測'); plt.title('「説明変数」関連モデルの予測精度')
plt.tight_layout(); plt.savefig('out.png', dpi=150)

※ 「説明変数」固有の本格コードは上の 🧮 SSDSE-B 実値計算節を参照。

⚠️ よくある落とし穴（5 つ）

❌ 多重共線性を無視

VIF>10 の変数を入れると係数の符号が反転することも。 1 つに絞るか PCA で合成。

❌ 因果と相関を混同

回帰係数 $\beta$ は条件付き相関に過ぎない。因果効果は無作為割付か準実験が必要。

❌ 交絡変数を含めない

本当の原因（交絡）を除外すると、説明変数の係数が歪む。ドメイン知識で吟味。

❌ 過剰な説明変数

p>n になると OLS が解けない。 Lasso などで変数選択。

❌ カテゴリ変数のダミー化忘れ

都道府県名を文字列のまま入れると ML はエラー。 OneHot か Target Encoding。

🌐 関連手法・派生

同じ目的・近い問題設定で並列に使える概念、上位/下位の包含関係にある概念をまとめます。

関係	用語	何が違うか
上位概念	機械学習	本用語を包含する大枠
並列	教師あり学習 / 教師なし学習	同じ枠組み内の別パラダイム
関連道具	損失関数 / 特徴量	本概念を構成する部品
評価軸	過学習 / 汎化	良し悪しを測る基準
下流タスク	分類 / 回帰タスク	本概念を使う代表的問題

🔎 深掘り解説

説明変数の選び方

ドメイン知識：理論的に y に影響する変数を最優先
単変量スクリーニング：相関係数・χ²でフィルタ
多変量フィルタ：多重共線性をVIFで確認
ラッパー法：Forward/Backward selection、 Step-wise
組込み法：LASSO による自動選択
解釈性：報告先が理解できるか

説明変数のタイプと取扱い

タイプ	例	取扱い
連続	身長、所得	そのまま／標準化／対数変換
カテゴリ（名義）	性別、地域	OneHotエンコード
順序	満足度1-5	整数化 or OneHot
日時	購入日	年/月/曜日に分解、周期特徴量
テキスト	レビュー文	TF-IDF or 埋め込みでベクトル化

✅ 使う前のチェックリスト

☐ 説明変数 が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — 説明変数 を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

✅ 学習チェックリスト

□ 「説明変数」の 30 秒結論を 1 文で言える
□ 数式の記号と意味の対応を全て口頭で説明できる
□ SSDSE-B コードを自分の環境で動かし、表の値を再現できた
□ 5 つの落とし穴をそれぞれ「自分のプロジェクト」の文脈で言い換えられる
□ 前提・並列・発展の用語を 4 つずつ列挙できる
□ 機械学習の基礎グループ教材で文脈を確認した