交差検証 | 用語解説

🔖 キーワード索引

CVk-fold評価過学習汎化性能sklearn

📍 文脈 ── どこで出会うか

「精度95%でした」と言うとき、 1回のtrain/testだけだと運次第。 CVは「複数回試して平均」する保険です。競技でも論文でも、評価の信頼性は CV で担保するのが標準。

🎨 直感で掴む

「テスト勉強」に例えるなら：

train/test 1回分割：模試を1回だけ受けて偏差値を出す。たまたま得意な分野が出れば高得点
5-fold CV：模試を5回受けて平均する。偶然の影響を平均化
LOOCV：問題集の全問を1問ずつテストとして使う極端版。計算は重いが推定は安定

図：5-fold CV の模式図。 5回の試行で各サンプルが必ず1回ずつテスト側に回る。

📐 定義／数式

【k-fold CV のスコア推定】

$$\text{CV score} = \frac{1}{k}\sum_{i=1}^{k} \text{Score}(f_i, D_{\text{test},i})$$

$f_i$ は fold $i$ の学習モデル、 $D_{\text{test},i}$ は fold $i$ のテストデータ

標準誤差も算出できる：$SE = \sigma_{\text{folds}} / \sqrt{k}$。これで信頼区間付きで「精度 = $0.85 \pm 0.02$」と報告可能。

🔬 記号を読み解く

k: 分割数。慣例は 5 or 10。多いほど分散減・計算重
Stratified: 分類で各fold内のクラス比率を揃える。不均衡データで必須
Repeated k-fold: k-fold を複数回ランダム分割でくり返し平均
Nested CV: 外側でモデル評価、内側でハイパーパラメータ選択。「調整時の漏洩」を防ぐ

🧮 実値で計算してみる

47都道府県データを 5-fold で分割すると：

各 fold のテストは約 9〜10 県、訓練は約 37〜38 県
fold ごとに R² を計算 → 5個の値（例：0.81, 0.78, 0.85, 0.79, 0.83）
平均 = 0.812、標準偏差 = 0.027 → 「R² ≈ 0.81 ± 0.01」と報告

1回だけ test=北海道〜青森とランダムに引いて R²=0.85 が出るより、はるかに信頼性が高い数値です。

🐍 Python 実装

最小限のスニペットで動作確認できる例。公的データ（SSDSE 等）を想定しています。

from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import Ridge

kf = KFold(n_splits=5, shuffle=True, random_state=0)
scores = cross_val_score(Ridge(alpha=1.0), X, y, cv=kf, scoring='r2')
print(f"R² = {scores.mean():.3f} ± {scores.std():.3f}")
# 5つの fold それぞれの R² を確認
print(scores)

⚠️ よくある落とし穴

❌ 1. ハイパラ調整と評価を同じCVで実施

CVスコアでチューニング → そのCVスコアを報告、は楽観バイアス。 Nested CVへ

❌ 2. 時系列でshuffleしてCV

未来→過去の漏洩。 TimeSeriesSplitを使う

❌ 3. クラス不均衡でStratifiedにしない

foldによって少数クラスが0個になる事故

❌ 4. 前処理をCVの外で実施

fit済みのscalerが全データの情報を持つ。 Pipelineで包む

❌ 5. k=2のような少なすぎる分割

推定分散が大きい。 5〜10が標準

🌐 関連手法・派生

KFold — 標準のk-fold分割
StratifiedKFold — クラス比率を保つ
GroupKFold — 同グループを同foldへ
TimeSeriesSplit — 時系列の正しい分割
LeaveOneOut — n-1個で学習、 1個でテスト

🔗 関連用語（前提・並列・発展）

役割で色分け：前提／上位／並列／発展／応用

[並列]検証データ [前提]train-test分割 [並列]データリーケージ [発展]ハイパラ調整 [並列]過学習

📚 関連グループ教材

この用語の全体像を学ぶには、横断的な教材で文脈を掴むのが効率的です。

🔎 深掘り解説

主要なCV変種一覧

名前	用途	分割方法
KFold	標準	ランダムにk分割
StratifiedKFold	分類（不均衡）	クラス比率を保つ
GroupKFold	群あり	同一群を同foldへ
TimeSeriesSplit	時系列	過去→未来の順序
LeaveOneOut	少数データ	1サンプルずつテスト
RepeatedKFold	低分散評価	k-foldをr回繰り返し
ShuffleSplit	柔軟分割	毎回ランダム分割

Nested CV：「評価」と「調整」の正しい分離

ハイパラ調整したCVスコアをそのまま報告すると楽観バイアス。 Nested CV では外側で評価、内側で調整：

from sklearn.model_selection import cross_val_score, GridSearchCV, KFold

inner = KFold(n_splits=3)
outer = KFold(n_splits=5)
grid  = GridSearchCV(estimator, param_grid, cv=inner)
scores = cross_val_score(grid, X, y, cv=outer)
print(scores.mean(), scores.std())

外側5fold × 内側3fold = 15回学習。計算重いが評価信頼性が桁違いに上がる。

k の選び方

k=5：実務で最も使われる。分散と計算量のバランスが良い
k=10：n が大きいときの標準。 Kohavi(1995) が経験的に推奨
k=n（LOOCV）：n が小さい（<30）ときに使用。計算重
k=2：基本的に避ける。 trainサイズが半減し精度低下

✅ 使う前のチェックリスト

☐ 交差検証 が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — 交差検証 を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔎 深掘り解説

主要なCV変種一覧

名前	用途	分割方法
KFold	標準	ランダムにk分割
StratifiedKFold	分類（不均衡）	クラス比率を保つ
GroupKFold	群あり	同一群を同foldへ
TimeSeriesSplit	時系列	過去→未来の順序
LeaveOneOut	少数データ	1サンプルずつテスト
RepeatedKFold	低分散評価	k-foldをr回繰り返し
ShuffleSplit	柔軟分割	毎回ランダム分割

Nested CV：「評価」と「調整」の正しい分離

ハイパラ調整したCVスコアをそのまま報告すると楽観バイアス。 Nested CV では外側で評価、内側で調整：

from sklearn.model_selection import cross_val_score, GridSearchCV, KFold

inner = KFold(n_splits=3)
outer = KFold(n_splits=5)
grid  = GridSearchCV(estimator, param_grid, cv=inner)
scores = cross_val_score(grid, X, y, cv=outer)
print(scores.mean(), scores.std())

外側5fold × 内側3fold = 15回学習。計算重いが評価信頼性が桁違いに上がる。

k の選び方

k=5：実務で最も使われる。分散と計算量のバランスが良い
k=10：n が大きいときの標準。 Kohavi(1995) が経験的に推奨
k=n（LOOCV）：n が小さい（<30）ときに使用。計算重
k=2：基本的に避ける。 trainサイズが半減し精度低下

✅ 使う前のチェックリスト

☐ 交差検証 が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — 交差検証 を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

📚 関連グループ教材

この用語の全体像を学ぶには、まず横断的な教材で文脈を掴むのが効率的です：

📚 機械学習の基礎 — このカテゴリの全体像を学ぶ
📚 モデル選択 — このカテゴリの全体像を学ぶ
📚 評価指標 — このカテゴリの全体像を学ぶ

🔗 同カテゴリの他用語

データリーケージ訓練・テスト分割教師あり学習教師なし学習強化学習分類回帰タスク目的変数説明変数特徴量訓練データ検証データテストデータ過学習

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈 ── どこで出会うか

🎨 直感で掴む

📐 定義／数式

🔬 記号を読み解く

🧮 実値で計算してみる

🐍 Python 実装

⚠️ よくある落とし穴

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

🔎 深掘り解説

主要なCV変種一覧

Nested CV：「評価」と「調整」の正しい分離

k の選び方

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

🔎 深掘り解説

主要なCV変種一覧

Nested CV：「評価」と「調整」の正しい分離

k の選び方

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

📚 関連グループ教材

🔗 同カテゴリの他用語