論文一覧に戻る 📚 用語集トップ 🗺 概念マップ
📚 用語解説
📚 用語解説
外れ値処理
Outlier Handling
データ処理

🔖 キーワード索引

外れ値IQRZ-scoreWinsorizeロバスト統計異常検知

💡 30秒で分かる結論

外れ値処理 ── 外れ値を検出・除去・修正する一連の処理

📍 文脈 ── どこで出会うか

平均、 標準偏差、 回帰係数、 相関係数――どれも外れ値1個で大きく動きます。 散布図/箱ひげ図で必ず目視確認するのが分析の第一歩。

🎨 直感で掴む

47都道府県の「人口」を例に:

でも東京を「外れ値だから除外」は分析意図を壊す。 全国を語るなら残すべき。 中位都市を語るなら除外も検討。

📐 定義/数式

【IQR法による外れ値判定】
$Q_1$(第1四分位), $Q_3$(第3四分位), $\text{IQR} = Q_3 - Q_1$
外れ値の条件:$x < Q_1 - 1.5 \cdot \text{IQR}$ または $x > Q_3 + 1.5 \cdot \text{IQR}$
【Z-scoreによる判定】
$$ z_i = \frac{x_i - \bar{x}}{s}, \quad |z_i| > 3 \text{ なら外れ値候補} $$

🔬 記号を読み解く

外れ値(outlier)
大多数から離れた値、 という相対的概念
異常値(anomaly)
分布の生成過程から逸脱した値、 という意味論的概念
影響点(influential point)
回帰結果を大きく変える点。 外れ値とは別概念(Cookの距離で評価)
Winsorization
上下p%を打ち切り、 端の値で置換する穏当な処理

🧮 実値で計算してみる

47都道府県の「人口」で IQR 法:

🐍 Python 実装

最小限のスニペットで動作確認できる例。 公的データ(SSDSE 等)を想定しています。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# IQR法
q1, q3 = df['人口'].quantile([0.25, 0.75])
iqr = q3 - q1
mask = (df['人口'] >= q1 - 1.5*iqr) & (df['人口'] <= q3 + 1.5*iqr)
df_clean = df[mask]
print(df[~mask][['都道府県','人口']])    # 外れ値の確認

# Winsorize(上下2.5%を打ち切り)
from scipy.stats.mstats import winsorize
df['人口_w'] = winsorize(df['人口'], limits=[0.025, 0.025])

⚠️ よくある落とし穴

❌ 1. 「目障りだから除外」は禁忌
なぜ外れ値か理解せず除去するのは恣意的
❌ 2. Z-score は正規前提
歪んだ分布では誤判定。 IQRや修正Z-scoreの方が頑健
❌ 3. 多変量外れ値を見落とす
各変数単独では正常でも、 組み合わせで異常 → Mahalanobis距離やIsolationForest
❌ 4. 時系列で平均から判定
トレンド/季節性込みで判定。 残差ベースで
❌ 5. 結果を比較せず削除
「あり/なし」両方で結果を出して感度分析を

📚 関連グループ教材

この用語の全体像を学ぶには、 横断的な教材で文脈を掴むのが効率的です。

🔎 深掘り解説

外れ値の発生源

多変量外れ値

「身長180cm」も「体重50kg」も単独では正常。 でも「180cm × 50kg」は珍しい組合せ → 多変量外れ値。 検出には:

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

  1. データの可視化(散布図、 ヒストグラム、 箱ひげ図)で異常を確認
  2. サンプルサイズ・欠損・外れ値を確認
  3. 仮定が満たされているか診断(正規性検定、 等分散性検定など)
  4. 類似研究での標準的な手法を確認
  5. 結果を複数手法でクロスチェック(頑健性確認)

🔎 深掘り解説

外れ値の発生源

多変量外れ値

「身長180cm」も「体重50kg」も単独では正常。 でも「180cm × 50kg」は珍しい組合せ → 多変量外れ値。 検出には:

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

  1. データの可視化(散布図、 ヒストグラム、 箱ひげ図)で異常を確認
  2. サンプルサイズ・欠損・外れ値を確認
  3. 仮定が満たされているか診断(正規性検定、 等分散性検定など)
  4. 類似研究での標準的な手法を確認
  5. 結果を複数手法でクロスチェック(頑健性確認)