論文一覧に戻る 📚 用語集トップ 🗺 概念マップ
📚 用語解説
📚 用語解説
クレンジング処理
Data Cleansing
データ前処理

💡 30秒で分かる結論

外れ値・異常値・欠損値の処理

🎨 直感で掴む

モデルに渡す前にデータをクレンジング・変換する工程。 ここでの誤りが下流に伝播するので慎重に。

本ページでは クレンジング処理 を、 定義・前提条件・使い方・落とし穴の順に整理して解説します。 厳密な定義より、 まず何を、 いつ、 どう使うかを理解することを優先してください。

📐 定義

外れ値・異常値・欠損値の処理

英語名 Data Cleansing

🎯 いつ・どこで使うか

📋 前提条件・適用範囲

この用語を理解・使用するときは、 次のような前提を意識してください:

⚠️ よくある落とし穴

❌ リーケージ
訓練データの統計量を使って検証/テストを変換。 必ず Pipeline。
❌ 過剰なクレンジング
外れ値削除のしすぎは情報損失。
❌ スケーリングの選択
StandardScaler / RobustScaler / MinMaxScaler を用途別に使い分け。

🐍 Python での扱い

SSDSE-B-2026 のような公的統計データを Python で扱う際の基本パターン:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
import pandas as pd
import numpy as np

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.shape)
print(df.dtypes)
print(df.describe())

# 「クレンジング処理」の文脈で扱う場合の例:
# 分野: データ前処理
# 関連手法は同カテゴリの他用語を参照してください。

具体的なコードは データエンジニアリング を参照してください。

📝 レポートでの報告

分析結果を報告するときに含めるべき情報:

✅ チェックリスト