データリーケージ

🔖 キーワード索引

情報漏洩過学習評価バイアス時系列target leakagetrain-test split

💡 30秒で分かる結論

データリーケージ ── テストデータの情報が訓練に混入する問題

テストデータの情報（あるいは未来情報）が、 意図せず訓練データに混じり込む現象
症状：CVスコアは絶好調なのに、本番で精度が崩壊する
主な3パターン：(1) 目的変数を含む特徴量、 (2) 前処理が train/test で共有、 (3) 時系列で未来→過去の漏洩
対策：(a) 分割を最初に、 (b) 前処理はtrain で fit / test に transform、 (c) 時系列はTimeSeriesSplit
「精度が異常に高い」「ありえないほど美しい結果」は、まずリーケージを疑う

📍 文脈 ── どこで出会うか

Kaggleでも論文でも、「再現できない高精度」の犯人No.1がデータリーケージです。教育用ノートブックでもしばしば見落とされるため、検出と防止の習慣付けが重要です。

🎨 直感で掴む

3つの典型パターンを実例で：

パターンA：目的変数の代替を入れてしまう
「がんの有無」を予測したいのに、説明変数に「がん治療フラグ」を入れる。学習データではほぼ完璧に予測できるが、本番で「治療フラグはまだ立っていない患者」に対しては無力。

パターンB：前処理を全データで実施
全データの平均で標準化 → trainとtestの統計量が混ざる → testの情報がtrainに漏れる。「StandardScaler を fit_transform で全体に」が典型的アンチパターン。

パターンC：時系列でランダム分割
未来のデータが訓練に、過去のデータがテストに入ってしまう。「明日の株価を昨日のデータで答え合わせ」になってしまう。

📐 定義／数式

リーケージの数学的本質は「独立同分布（i.i.d.）仮定の崩壊」：

【正しい設定】

$$(X_{\text{train}}, y_{\text{train}}) \perp (X_{\text{test}}, y_{\text{test}})$$

訓練データとテストデータは独立でなければならない

リーケージは、この独立性が情報経路（特徴量、前処理、時間順）を通じて破られた状態です。

🔬 記号を読み解く

Target leakage（目的変数漏洩）: 目的変数の値が決まった後に観測される情報を特徴量に入れる
Train-test contamination（前処理漏洩）: 標準化・欠損補完・カテゴリエンコードを全データで実施
Group leakage（グループ漏洩）: 同一患者のデータが train と test の両方に分散
Temporal leakage（時間漏洩）: 時系列でランダム分割し、未来が訓練側に入る

🧮 実値で計算してみる

SSDSE-B（47都道府県）で「人口」を予測する想定の悪い例／良い例：

	❌ NG	✅ OK
分割	StandardScaler を fit(df) してから train_test_split	train_test_split してから scaler.fit(X_train)、 X_test には transform のみ
特徴量	「世帯数」「年間出生数」など人口で割って作る指標を含める	人口とは独立に観測される指標のみ使用
結果	R²=0.999（怪しいほど高い）	R²=0.85（妥当な範囲）

🐍 Python 実装

最小限のスニペットで動作確認できる例。公的データ（SSDSE 等）を想定しています。

# 良い例：Pipeline で前処理を train のみに fit
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score

pipe = Pipeline([
    ('scaler', StandardScaler()),  # cv の各 fold で train のみに fit される
    ('model',  Ridge(alpha=1.0))
])
scores = cross_val_score(pipe, X, y, cv=5, scoring='r2')
print(scores.mean())  # リーケージなしの正しい評価

⚠️ よくある落とし穴

❌ 1. 「精度が高すぎる」のを喜ぶ

CVで0.99超えは大体リーケージ。まず特徴量を1つずつ抜いて挙動を確認

❌ 2. SMOTEなどoversamplingを分割前に実施

同じレコードがtrainとtestに散らばってリーク。必ず分割後にtrain側だけで

❌ 3. 欠損補完を全データで実施

fit_transform(df.full) → split は典型アンチパターン

❌ 4. 時系列でshuffle=True

TimeSeriesSplit や明示的な時刻による cutoff を使う

❌ 5. 「IDが特徴量に含まれている」のを見落とす

患者ID等が無作為に見えて目的変数と相関している場合あり

📚 関連グループ教材

この用語の全体像を学ぶには、横断的な教材で文脈を掴むのが効率的です。

🔎 深掘り解説

📛 著名なリーケージ事例

Kaggle Heritage Health Prize：入院IDから入院時期が推定でき、結果ラベルがリーク
Netflix Prize：タイムスタンプから将来のレビューを予測できてしまう
医療画像コンペ：撮影機器のメタデータが疾患と相関、機器情報が漏洩
金融予測：「翌日の株価」を予測するつもりが、集計タイミングで実は当日の情報を含む

🔍 リーケージを見抜く7つの兆候

CVスコアが「異常に高い」（0.99 など）
train と test の精度がほぼ同じで両方とも高い（過学習でなく漏洩）
1つの特徴量が単独で精度の大半を担う
特徴量名に「target」「label」「result」を含む
本番投入後、精度が10倍以上劣化
時系列で「未来の集計指標」が特徴量に
群（患者、ユーザ）が train/test で重複

時系列リーケージの専門対策

Walk-forward validation：時間を進めながら学習・予測
Embargo：train と test の間にギャップを設けて漏洩防止
Purging：将来情報を含むサンプルを除外
Backtesting：シミュレーションで本番動作を検証

✅ 使う前のチェックリスト

☐ データリーケージ が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — データリーケージ を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔎 深掘り解説

📛 著名なリーケージ事例

Kaggle Heritage Health Prize：入院IDから入院時期が推定でき、結果ラベルがリーク
Netflix Prize：タイムスタンプから将来のレビューを予測できてしまう
医療画像コンペ：撮影機器のメタデータが疾患と相関、機器情報が漏洩
金融予測：「翌日の株価」を予測するつもりが、集計タイミングで実は当日の情報を含む

🔍 リーケージを見抜く7つの兆候

CVスコアが「異常に高い」（0.99 など）
train と test の精度がほぼ同じで両方とも高い（過学習でなく漏洩）
1つの特徴量が単独で精度の大半を担う
特徴量名に「target」「label」「result」を含む
本番投入後、精度が10倍以上劣化
時系列で「未来の集計指標」が特徴量に
群（患者、ユーザ）が train/test で重複

時系列リーケージの専門対策

Walk-forward validation：時間を進めながら学習・予測
Embargo：train と test の間にギャップを設けて漏洩防止
Purging：将来情報を含むサンプルを除外
Backtesting：シミュレーションで本番動作を検証

✅ 使う前のチェックリスト

☐ データリーケージ が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — データリーケージ を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈 ── どこで出会うか

🎨 直感で掴む

📐 定義／数式

🔬 記号を読み解く

🧮 実値で計算してみる

🐍 Python 実装

⚠️ よくある落とし穴

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

🔎 深掘り解説

📛 著名なリーケージ事例

🔍 リーケージを見抜く7つの兆候

時系列リーケージの専門対策

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

🔎 深掘り解説

📛 著名なリーケージ事例

🔍 リーケージを見抜く7つの兆候

時系列リーケージの専門対策

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

📚 関連グループ教材

🔗 同カテゴリの他用語