BIC | 用語解説

🔖 キーワード索引

BICBayesian Information Criterionモデル選択ベイズ情報量規準Schwarz情報量規準

本ページは BIC（Bayesian Information Criterion）を多角的に解説します。上のチップは、検索・関連語の手がかりです。

💡 30秒で分かる結論

モデル選択の代表的情報量規準。「適合度」と「複雑さ」のバランスを 1 つの数値で評価
公式：BIC = −2 log L + k log n（L = 尤度、 k = パラメータ数、 n = サンプル数）
AIC より複雑さへのペナルティが強い（log n 倍）
BIC 最小のモデルを選ぶ（小さいほど良い）
大標本では 真のモデルを選ぶことが理論的に保証（一致性）

📍 文脈 — どこで使う概念か

BIC（Bayesian Information Criterion, ベイズ情報量規準）は、 1978 年に Schwarz が提案した モデル選択の標準ツール。回帰、時系列、混合分布、隠れマルコフモデル等の比較で広く使われます。 AIC と並ぶ二大選択基準で、 BIC は真のモデル選択、 AIC は予測性能と棲み分けるのが一般的理解です。

🎨 直感で掴む — 具体例で理解する

モデル選択の原理：

モデルを複雑にすると、データへの当てはまり（尤度）は良くなる
しかし複雑すぎると 過学習で汎化性能が落ちる
「適合度の良さ」と「複雑さのペナルティ」のバランスが最適点

BIC は −2 log L（尤度の指標、小さいほど適合度が良い）に、 k log n（パラメータ数 × log(サンプル数) のペナルティ）を足します。これを最小化するモデルを選ぶ。

AIC のペナルティは 2k で、 BIC の k log n よりも軽い。サンプル数 n=100 なら log(100)≈4.6 で、 BIC は AIC の 2.3 倍厳しいことになります。

📐 定義・数式

【BIC の定義】

$$\mathrm{BIC} = -2 \log L + k \log n$$

$L$ = 最大尤度、 $k$ = パラメータ数、 $n$ = サンプル数

AIC との比較：

【AIC】

$$\mathrm{AIC} = -2 \log L + 2k$$

ペナルティが定数 2k なのが BIC との違い

🔬 記号・要素の読み解き

$L$（最大尤度）: 「このモデルが、このデータを生み出す確率」の最大値
$-2 \log L$: 適合度の指標。小さいほどモデルがデータに合っている
$k$: モデルが推定したパラメータの個数
$\log n$: サンプル数の対数。 $n$ が増えるほどペナルティが強くなる
$k \log n$: パラメータ数 $\times$ サンプル数の対数 = BIC のペナルティ項

🧮 数値例・実値計算

例：3 つの回帰モデルを n=100 のデータで比較：

モデル	変数数 k	−2 log L	BIC	選択
単回帰（k=2）	2	180	180 + 2×4.6 = 189.2
重回帰（k=5）	5	150	150 + 5×4.6 = 173.0	✅
重回帰（k=10）	10	140	140 + 10×4.6 = 186.0

k=10 は適合度は最高だが、ペナルティで負ける。 k=5 が BIC 最小で選択される。

🐍 Python 実装例

最小コードで動かしてみる例：

import statsmodels.api as sm
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
X = sm.add_constant(df[['高齢化率', '人口密度']])
y = df['死亡率']

model = sm.OLS(y, X).fit()
print(f'AIC = {model.aic:.2f}')
print(f'BIC = {model.bic:.2f}')

⚠️ よくある落とし穴

❌ AIC と混同

BIC は真のモデル選択、 AIC は予測性能寄り。目的に応じて使い分け。

❌ 非ネストモデルでの比較

全く違う構造のモデル間では、尤度の比較自体に注意が必要。

❌ サンプル数の効果

n が小さいと AIC≈BIC。大標本では BIC が AIC よりシンプルなモデルを選びがち。

❌ 尤度計算の前提

BIC は正規分布仮定の最大尤度を前提とすることが多い。違うとき要注意。

❌ 差の解釈

$\Delta$BIC < 2 は「ほぼ同等」、 6〜10 は「強い」、 10 以上は「決定的」（Raftery の経験則）。