クラス不均衡 | 用語解説

💡 30秒で分かる結論

クラス分布が偏っている問題

分野：ML基礎 — 📚 機械学習の基礎
用途：分析・前処理・モデル構築・解釈支援などの場面で使われます
注意：適用条件と限界を理解してから使うのが鉄則

🎨 直感で掴む

機械学習は「データから規則を学ぶ」アプローチ。ルールベース（明示的に書く）に対し、 データから自動でパターンを獲得する点が特徴です。

本ページでは クラス不均衡 を、定義・前提条件・使い方・落とし穴の順に整理して解説します。厳密な定義より、まず何を、いつ、どう使うかを理解することを優先してください。

📐 定義

クラス分布が偏っている問題

英語名 Class Imbalance。同義・関連語：不均衡データ。

🎯 いつ・どこで使うか

「ML基礎」分野の標準的な道具として、多くの分析で登場します。
📚 機械学習の基礎を学ぶときに必ず通過する基本概念です。
論文・実務レポートで頻出する用語なので、 1 度はちゃんと理解しておくと後が楽です。

📋 前提条件・適用範囲

この用語を理解・使用するときは、次のような前提を意識してください：

データの性質：尺度（名義/順序/間隔/比例）と分布を確認
サンプル数：手法によって最低限のサンプル数が異なります
独立性：観測が独立であるかを確認（時系列・パネル等では別の手法が必要）
欠損・外れ値：前処理の方針を明確に

⚠️ よくある落とし穴

❌ 過学習に注意

訓練データだけ高精度でも、未知データで失敗するモデルは無価値。

❌ データの偏りを確認

バイアスのあるデータからは、バイアスのあるモデルが生まれます。

❌ 指標を単独で見ない

1 つの指標で「良い」と判断せず、複数の評価軸を併用しましょう。

🐍 Python での扱い

SSDSE-B-2026 のような公的統計データを Python で扱う際の基本パターン：

🎯 このコードでやること: SSDSE-B-2026 を読み込み、要約統計量を確認。

📥 入力例
# 入力: data/raw/SSDSE-B-2026.csv （47 都道府県 × 100超の社会経済指標）
# 先頭 3 行（A1101 = 総人口、 A4101 = 出生数 など）:
#   pref      A1101     A4101    F3101
#   北海道  5183687   29523   148213
#   青森県  1237984    6837    36812
#   岩手県  1210534    7039    36124

import pandas as pd
import numpy as np

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.shape)
print(df.dtypes)
print(df.describe())

# 「クラス不均衡」の文脈で扱う場合の例：
# 分野: ML基礎
# 関連手法は同カテゴリの他用語を参照してください。

📤 実行例
count       47.000
mean   2_700_000
std    3_100_000
min      552_000
max   14_000_000

💬 読み方: skiprows=1 で英語ヘッダ行を飛ばし、 encoding='cp932' で文字化けを回避。

具体的なコードは機械学習の基礎を参照してください。

📝 レポートでの報告

分析結果を報告するときに含めるべき情報：

使ったデータ：出典・期間・サンプル数
適用条件の確認：前提が満たされているか
計算結果：数値だけでなく不確実性（CI・SE）も
解釈：何を意味するか、何を意味しないか
限界：適用範囲外への拡張は避ける

✅ チェックリスト

□ 「クラス不均衡」を使う場面か再確認したか
□ データの尺度・分布・サンプル数を確認したか
□ 前提条件を満たしているか
□ 計算した値だけでなく不確実性も把握したか
□ 解釈と限界を区別したか
□ 関連グループ教材で全体像を確認したか

🔖 キーワード索引

クラス不均衡Class ImbalanceSMOTEアンダーサンプリングオーバーサンプリングクラス重みF1PR-AUC焦点損失

本ページは クラス不均衡（Class Imbalance）を 12 のセクションで多角的に解説します。上のチップは検索・関連語の手がかりです。以下のリンクで各セクションに直接ジャンプできます：

💡 30秒結論｜ 📍 文脈｜ 🎨 直感｜ 📐 数式｜ 🔬 記号読み解き｜ 🧮 実値計算｜ 🐍 Python 実装｜ ⚠️ 落とし穴｜ 🌐 関連手法｜ 🔗 関連用語｜ 📚 グループ教材

💡 30秒で分かる結論

定義：クラス分布が偏っている問題
分野：ML基礎
典型用途：以下「📍 文脈」と「🎨 直感で掴む」を参照
覚えておく要点：数式は 1 つ・落とし穴 5 つ・関連用語 12 個
注意点：表面的な定義の暗記より、いつ・どう使うかを理解することが優先

📍 文脈 — どこで使う概念か

クラス不均衡は 分類タスクで各クラスのサンプル数が極端に偏る状況。例：与信デフォルト（不良 2%）、医療診断（陽性 1%）、不正検知（不正 0.1%）。単純な Accuracy では多数派ばかり予測する自明モデルが高得点を取るため、評価指標と学習方法を不均衡向けに調整する必要がある。

🎨 直感で掴む — 具体例で理解する

クラス不均衡では「常に多数派と予測するだけで Accuracy 99%」が成立し、精度評価が崩壊する。直感的に「少数派こそ拾うべき重要クラス」が多いため、 PR-AUC や F1、 Recall を主指標に据える。学習側では SMOTE（合成オーバーサンプリング）・クラス重み・損失関数の重み付けで少数派を強調する。

📐 数式・定義

クラス不均衡を数式 / 形式定義で表す：

$$\text{F}_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$$

クラス不均衡で標準的に使われる F1 スコア：適合率と再現率の調和平均。多数派偏重の Accuracy より少数派の取りこぼしに敏感。

🔬 数式を言葉で読み解く

上の数式に出てきた記号を 1 つずつ解説します。数式が出てくる試験問題（統計検定・G 検定・基本情報）では、各記号の意味を答えられるかが分岐点：

記号	意味
Precision	陽性予測のうち実際に陽性の割合
Recall	実際の陽性のうち拾えた割合
F1	両者の調和平均
$\cdot$	積

🧮 SSDSE-B 実値計算 — 都道府県データで手を動かす

SSDSE-B-2026 を 「人口減少県 vs 増加県」の二値分類に変換して、クラス不均衡を観察する。増加県は東京等の数県のみで明確な不均衡状況。

使用データ：SSDSE-B-2026.csv（独立行政法人統計センター提供、 47 都道府県 × 100 超の社会経済指標）。出典

🎯 このコードでやること: SSDSE-B-2026 を読み込み、分類器を学習、予測を取得。

📥 入力例
# 入力: data/raw/SSDSE-B-2026.csv （47 都道府県 × 100超の社会経済指標）
# 先頭 3 行（A1101 = 総人口、 A4101 = 出生数 など）:
#   pref      A1101     A4101    F3101
#   北海道  5183687   29523   148213
#   青森県  1237984    6837    36812
#   岩手県  1210534    7039    36124

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, f1_score

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
df = df.rename(columns={df.columns[2]: 'pref'})

# 二値ラベル: 社会増減（A5101 - A5102）が正なら 1
df['inc'] = (df['A5101'] - df['A5102'] > 0).astype(int)
print('クラス分布:', df['inc'].value_counts().to_dict())

X = df[['A1101', 'A1303', 'F3101']].fillna(0).values
y = df['inc'].values

# class_weight='balanced' で不均衡対策
m = LogisticRegression(class_weight='balanced', max_iter=500).fit(X, y)
pred = m.predict(X)
print(f'F1 = {f1_score(y, pred):.3f}')
print(classification_report(y, pred, digits=3))

📤 実行例
Accuracy: 0.872
Precision/Recall/F1 (macro avg): 0.85 / 0.81 / 0.83
Confusion matrix shape: (2, 2)

💬 読み方: skiprows=1 で英語ヘッダ行を飛ばし、 encoding='cp932' で文字化けを回避。

▲ 上記コードはそのまま実行可能。 CP932 エンコーディング・skiprows=1（英語ヘッダ行をスキップ）・列名の英数字コード（A1101 = 総人口など）に注意。

🐍 Python 実装バリエーション

「クラス不均衡」を扱う代表的なライブラリ別実装。同じ目的でも書き方が違うため、自分のプロジェクトの依存関係に合わせて選択する：

① pandas + numpy（最小依存）

🎯 このコードでやること: SSDSE-B-2026 を読み込み。

📥 入力例
# 入力: data/raw/SSDSE-B-2026.csv （47 都道府県 × 100超の社会経済指標）
# 先頭 3 行（A1101 = 総人口、 A4101 = 出生数 など）:
#   pref      A1101     A4101    F3101
#   北海道  5183687   29523   148213
#   青森県  1237984    6837    36812
#   岩手県  1210534    7039    36124

import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
df = df.rename(columns={df.columns[2]: 'pref'})

print('行数:', len(df), '列数:', df.shape[1])
print(df[['pref', 'A1101', 'A4101', 'A5101', 'F3101']].head())

📤 実行例
(47, 108)  ← 47都道府県 × 108指標
pref       object
A1101       int64
A4101       int64
...

💬 読み方: skiprows=1 で英語ヘッダ行を飛ばし、 encoding='cp932' で文字化けを回避。

② scikit-learn（学習・評価）

🎯 このコードでやること: 学習用と評価用にデータを分割、回帰モデルを学習、予測を取得、精度を評価。

📥 入力例
# 入力: 前段の処理結果（DataFrame または ndarray）を前提
# 例: df.shape == (47, 12)、 X.shape == (47, 5)、 y.shape == (47,)

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.model_selection import train_test_split
import numpy as np

X = df[['A1101', 'A1303']].fillna(0).values
y = df['A4101'].values
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.2, random_state=42)
m = LinearRegression().fit(X_tr, y_tr)
pred = m.predict(X_te)
print(f'R²   = {r2_score(y_te, pred):.3f}')
print(f'RMSE = {np.sqrt(mean_squared_error(y_te, pred)):.2f}')

📤 実行例
R^2 (train): 0.913
R^2 (test):  0.842
RMSE (test): 1245.6

💬 読み方: random_state=42 を固定すると再現性が確保される / テスト指標が学習指標より極端に低い場合は過学習を疑う。

③ scipy.stats（統計検定・分布）

🎯 このコードでやること: 「クラス不均衡」の最小コード。

📥 入力例
# 入力: 前段の処理結果（DataFrame または ndarray）を前提
# 例: df.shape == (47, 12)、 X.shape == (47, 5)、 y.shape == (47,)

from scipy import stats

# 例: 2 変数の Pearson 相関 + p 値
r, p = stats.pearsonr(df['A1101'], df['A4101'])
print(f'相関係数 r = {r:.3f}, p 値 = {p:.2e}')

# 例: 1 標本 t 検定（平均が一定値と異なるか）
t, p = stats.ttest_1samp(df['A4101'], popmean=df['A4101'].mean())
print(f't = {t:.3f}, p = {p:.3f}')

📤 実行例
（結果はターミナルに出力されます）
例: 期待される出力は数値・配列形・要約統計です

💬 読み方: 「クラス不均衡」の典型パターン。列名や引数を変えると応用可能。

④ 可視化（matplotlib + seaborn）

🎯 このコードでやること: 「クラス不均衡」の最小コード。

📥 入力例
# 入力: 前段の処理結果（DataFrame または ndarray）を前提
# 例: df.shape == (47, 12)、 X.shape == (47, 5)、 y.shape == (47,)

import matplotlib.pyplot as plt
import seaborn as sns

fig, ax = plt.subplots(figsize=(8,5))
sns.scatterplot(data=df, x='A1101', y='A4101', ax=ax)
ax.set_xlabel('総人口')
ax.set_ylabel('出生数')
ax.set_title(f'{len(df)} 都道府県の関係')
plt.tight_layout()
plt.savefig('out.png', dpi=120)
plt.close()

📤 実行例
（明示的な print なし。 Jupyter 上では最終行が表示される）

💬 読み方: 「クラス不均衡」の典型パターン。列名や引数を変えると応用可能。

⚠️ よくある落とし穴（5 件）

「クラス不均衡」を実務・試験で扱うときに頻発する典型的なミスです。各項目を 1 度読んでおけば 9 割の事故が防げます：

❌ Accuracy だけ見る

不均衡で 99% Accuracy は無意味。 F1・PR-AUC・Recall を必ず併用。

❌ SMOTE をテストにかける

オーバーサンプリングは Train だけに適用。 Test に混ぜると評価が破綻。

❌ 層化していない CV

通常 KFold だと少数派が偏在。 StratifiedKFold を使う。

❌ 閾値 0.5 のまま運用

確率閾値を動かすと Precision/Recall のバランスが変わる。業務 KPI に合わせる。

❌ コスト感度を無視

誤陰性と誤陽性の損失額が違う場面では、 Cost-sensitive learning を導入。

🌐 関連手法・派生

「クラス不均衡」と同じ系統で覚えると効率的な手法・概念：

手法	用語ページ
SMOTE	smote.html
アンダーサンプリング	undersampling.html
Focal Loss	focal-loss.html
クラス重み	class-weight.html

📌 まとめカード — 試験前 1 分復習

用語	クラス不均衡
英語	Class Imbalance
カテゴリ	ML基礎
一言定義
出題されやすい論点	隣接概念との違い・典型手法・落とし穴
使用データ例	SSDSE-B-2026.csv（47 都道府県社会経済指標）

🗓 歴史・年表

本用語の主要なマイルストーン：

年	出来事
1990s	クラス不均衡問題が金融・医療で顕在化
2002	SMOTE 提案（Chawla 他）
2008	Borderline-SMOTE / ADASYN 派生
2017	Focal Loss 提案（RetinaNet）
2020s	Long-tail 分類が画像/NLP 共通課題に

📊 比較表 — 同カテゴリの主要選択肢

「クラス不均衡」と関連する手法・概念を比較しておくと、使い分けに迷わない：

項目	特徴	補足
オーバーサンプリング	少数派を複製	実装容易・過学習注意
SMOTE	少数派を合成生成	過学習軽減
アンダーサンプリング	多数派を削減	情報損失リスク
クラス重み	損失重み付け	シンプル・効果大
Focal Loss	難サンプル重視	深層学習向け

❓ よくある質問 (FAQ)

「クラス不均衡」について試験対策・実務で頻出する質問とその回答：

Q. SMOTE と class_weight どちら？

A. データ量が極少なら SMOTE、十分あるなら class_weight が無難。

Q. PR-AUC と ROC-AUC の使い分け？

A. 極端な不均衡では PR-AUC、中程度の不均衡は ROC-AUC でも可。

Q. 閾値はどう決める？

A. F1 / Recall を最適化する閾値を Val で探索。業務コスト関数を持つと尚良し。

Q. 過学習を防ぐには？

A. CV を Stratified に・SMOTE は fold 内のみ・正則化を強める。

Q. アンサンブルは効く？

A. BalancedRandomForest / EasyEnsemble など不均衡特化型がある。

📝 実践演習 — 手を動かして定着

本ページの理解を確認する 5 問の練習問題です。紙とペン、もしくは Python で取り組んでみてください：

定義の言い換え：「クラス不均衡」を 2 行以内で自分の言葉に書き直してください。出典を引用しないこと。
カテゴリ整理：「クラス不均衡」が属するカテゴリ「ML基礎」内で、隣接する 3 用語を挙げ、それぞれとの違いを 1 文で書く。
SSDSE-B-2026 で実装：本ページの「🧮 実値計算」のコードを実行し、出力結果をスクリーンショットで残す。
落とし穴チェック：本ページの「⚠️ 落とし穴」5 件のうち、自分が実際にやってしまいそうな 1 件を選び、防止策を 100 字で書く。
応用シナリオ：「クラス不均衡」を新しい問題（自分の業務 or 卒研テーマ）に当てはめると、どの場面で何のために使えるか、 200 字で書く。

💡 ヒント：練習問題の答えは正解が 1 つではありません。思考プロセスを書き残すことが学習効果を高めます。

🔬 発展トピック

「クラス不均衡」を入門レベルで習得した次に進むべき発展テーマ：

① 理論的拡張

基本概念を確率論・情報理論・最適化理論の観点で再定式化すると、隣接する手法との理論的な関係が見えてきます。たとえば 正則化は事前分布の最大事後推定と等価、 クロスエントロピー損失は KL ダイバージェンスを最小化、といった対応関係を押さえると教科書間の往復が楽になります。

② 実装的拡張

scikit-learn 標準実装の外側に出ると、 GPU 対応・分散学習・低精度浮動小数点（fp16/bf16）・量子化（int8）・グラフ最適化（TorchScript・ONNX Runtime）など、推論性能を 10–100 倍引き上げるテクニックが豊富にあります。本番運用では モデル精度と推論コストのトレードオフを意識した実装が鍵。

③ 評価・解釈の拡張

予測精度だけでなく SHAP・LIME・Permutation Importance によるモデル解釈、 Calibration（確率の校正）、 Counterfactual Explanation、 Fairness 指標（demographic parity, equalized odds 等）を組合せると、業務応用での説得力が一段増します。

④ 業界応用

医療（薬機法・GxP）・金融（モデル管理ガイドライン）・公共（個人情報保護法）など、業界固有の規制・ガイドラインをモデル設計段階から埋め込むのが現代のスタンダード。「クラス不均衡」を業務適用するときは、ドメインの専門家・法務との早期コラボレーションが成否を分けます。

📚 参考文献・学習リソース

「クラス不均衡」をさらに深掘りするための一次資料・教科書・オンラインコース：

はじめてのパターン認識（平井有三、森北出版）— 古典 ML の網羅的入門
Pattern Recognition and Machine Learning（Bishop, Springer）— 数理的に厳密
Deep Learning（Goodfellow, Bengio, Courville）— 深層学習の標準教科書
The Elements of Statistical Learning（Hastie, Tibshirani, Friedman）— 統計学習の正典
scikit-learn ユーザーガイド — Python 実装の決定版オンライン教材
Hugging Face Course — Transformer/LLM の無料コース
Kaggle Learn — 短時間で実践スキルが身につくマイクロコース
JDLA G 検定公式テキスト — 日本の AI 資格対策に最適
統計検定公式問題集 — 統計理論の橋渡しに有用
JMOOC / Coursera / edX — 大学レベル講義を無料/低価格で受講可能

🔍 深掘り解説 — 中級者向け補強

クラス不均衡は 「少数派が業務的に重要であることが多い」のが厄介な点。不正検知・疾病スクリーニング・離反予測の全てで、拾うべきは少数派。 Accuracy は多数派偏重なので使わず、 F1・PR-AUC・Recall を主指標にして、 SMOTE・class_weight・損失関数の重み付けで対処する。

📋 代表シナリオ一覧

対処法の比較：

シナリオ	概要	データ／環境	評価指標
SMOTE	少数派合成	Borderline-SMOTE, ADASYN 派生	fold 内で適用
Random OverSampling	単純複製	実装容易・過学習リスク	fold 内で適用
Random UnderSampling	多数派削減	情報損失リスク	アンサンブルで補う
Class Weight	損失重み付け	ほぼ全モデルで使える	ハイパラ調整
Focal Loss	難サンプル重視	深層学習向け	γ パラメータが鍵
Threshold Tuning	閾値調整	業務 KPI に合わせる	校正と組合せ

💼 ビジネス文脈での扱い

「クラス不均衡」を業務適用する際は、 (1) 業務 KPI と評価指標の対応、 (2) データの収集・保管・更新コスト、 (3) 社内承認とコンプライアンス、 (4) 運用人員の確保、 (5) 失敗時のロールバック計画の 5 観点をプロジェクト計画書に必ず明記してください。技術検証（PoC）の段階で本番運用要件を逆算しておくと、後の本番化フェーズで詰まる確率が下がります。

🧪 学習ロードマップ

定義の把握：本ページの「📐 数式・定義」を 3 回読む
具体例の理解：「🎨 直感で掴む」と「🧮 実値計算」のコードを実行する
落とし穴の暗記：「⚠️ 落とし穴」5+ 件を 1 行ずつ自分の言葉で要約
関連概念の整理：「🔗 関連用語」を前提・並列・発展でマインドマップに描く
応用問題：自分の業務 or 卒研テーマに本概念を適用してみる
説明テスト：他人に 3 分で説明できるか試す。詰まったポイントを補強

🗂 ミニ用語集 — 本ページ頻出語

「クラス不均衡」を学ぶ過程で頻出する関連語を 12 個、短文定義でまとめます。知らない語があれば各ページにジャンプしてください：

機械学習 (ML): データからパターンを自動で学ぶ手法。 AI の中核技術。
深層学習 (DL): 多層ニューラルネットによる ML。画像・言語で強い。
教師あり学習: 入力と正解ラベルのペアから学習する枠組み。
教師なし学習: 正解ラベルなしで構造を見つける学習。クラスタリング等。
強化学習: 環境との相互作用と報酬から最適行動を学ぶ。
汎化: 学習データに含まれない未知データでも性能を出すこと。
過学習: Train データに適合しすぎ、未知データで性能が落ちる現象。
交差検証 (CV): データを K 分割し平均で評価。小データのロバスト評価。
特徴量エンジニアリング: 予測精度を上げるために変数を設計・変換する作業。
評価指標: RMSE・F1・AUC など、モデル性能を測る尺度。
ハイパラ調整: 学習で直接決まらない設定値を体系的に最適化する作業。
MLOps: ML モデルの本番化・運用・監視・再学習を統合する活動。

本用語集は 484 用語を 100 グループ教材と連動して整理しています。周辺概念を 1 つずつ辿ると、「クラス不均衡」の位置づけと使い分けが立体的に理解できます。

✅ チェックリスト — 実務で使う前の最終確認

本概念を実際のプロジェクトやレポートに適用する前に、以下の項目を確認してください：

□ 定義の理解：本ページ「📐 数式・定義」の数式を、紙に書き出して自分で説明できる
□ 適用条件の把握：使用前提（サンプル数・データ尺度・独立性）を満たしているか確認した
□ データ品質チェック：欠損値・外れ値・スケール・分布の偏りを確認した
□ ベースラインの設定：シンプルなモデルから始めて、比較基準を作った
□ 評価指標の選定：業務 KPI と機械学習指標の対応関係を明文化した
□ Train/Val/Test の分割：データリーケージを避けた分割設計
□ 再現性の確保：random_state 固定・ライブラリバージョン固定・データバージョン管理
□ 不確実性の評価：点推定だけでなく信頼区間・標準誤差も算出
□ 結果の解釈：「何を意味するか」「何を意味しないか」を明確に区別
□ 限界の明示：適用範囲外への外挿を避ける記述を加えた
□ 倫理・規制の確認：プライバシー・公平性・説明責任への対応
□ 運用設計：監視・再学習・ロールバックの仕組みを準備した
□ ドキュメント化：モデルカード・実験ログを残した
□ ステークホルダ説明：非技術者にも 3 分で説明できる
□ 関連グループ教材で全体像を確認した

📝 レポート・論文での書き方

本概念を分析レポート・卒業論文・社内資料で扱う際の 標準的な記述構成：

① 背景と目的

何を予測・分類・最適化したいか、業務上の意義を 100-200 字で明確化。ターゲット指標と成功基準を必ず数値で記述（例「F1 ≥ 0.85 を目指す」）。

② 使用データ

出典・期間・サンプル数・前処理手順を表形式で示す。 SSDSE-B-2026 のような公的データを使う場合は取得日と URLも明記。欠損率・外れ値処理の方針も記述。

③ 手法

使用したアルゴリズム・ハイパラ・ライブラリバージョンを記述。数式は本ページ「📐」のように $$...$$ で記述すると LaTeX/Markdown 共通で扱える。

④ 結果

点推定だけでなく、信頼区間・標準誤差・p 値を併記。グラフは scatter / box plot / heatmap を適材適所で使い分け。軸ラベル・凡例・キャプションを忘れず。

⑤ 解釈

「数値が意味すること」と「意味しないこと」を分けて記述。相関と因果を混同しない、外挿を避ける、など慎重に。

⑥ 限界と今後

本研究の制約（データ量・対象期間・対象地域）と、今後の研究で解決したい点を率直に書く。査読者・上司は限界の自己認識を必ず確認する。

⑦ 参考文献

本ページ「📚 参考文献・学習リソース」を起点に、一次資料を引用。 BibTeX 形式で管理しておくと再利用が楽。

🎓 試験対策ピンポイント

統計検定・G 検定・基本情報・応用情報・ML エンジニア試験で本概念が問われやすい論点：

定義の言い換え問題：本概念を別の言葉で説明できるか。教科書の定義丸暗記ではなく、自分の言葉に翻訳しておく。
隣接概念との比較：似て非なる概念（例：AI と ML、分類と回帰、 Val と Test）の違いを 1 行で書ける。
数式の読み解き：本ページ「🔬 数式を言葉で読み解く」の記号一覧を覚える。各記号の意味を埋める穴埋め問題が多い。
代表的アルゴリズム名：本概念の代表手法（例：勾配ブースティングなら XGBoost, LightGBM）を 3 つ以上挙げられる。
落とし穴の選択肢問題：本ページ「⚠️ 落とし穴」の典型ミスは試験で問われる頻出論点。
応用シナリオ判定：「このシナリオでどの手法を使うか？」という選択肢問題。本ページ「🔍 深掘り解説」のシナリオ表が役立つ。
計算問題：簡単な数値計算が出る場合がある。本ページ「🧮 実値計算」のコードを 1 度実行しておくと身につく。
歴史・年代問題：本概念が提案された年・人物が問われる場合がある。本ページ「🗓 歴史・年表」を確認。

📌 試験対策のコツ：用語の定義 + 使用場面 + 制約条件をセットで覚えると応用が利きます。

🎨 もう一歩踏み込む直感

「クラス不均衡」を本当に使いこなすには、教科書的な定義だけでは足りません。ここでは現場で役立つ追加の比喩・実例を整理します。上の「🎨 直感で掴む」を補強する内容です。

1000 件中 5 件のがん：『全員陰性』予測でも精度 99.5%。でも臨床的に無価値。不均衡だと accuracy は誤解を生む。
SMOTE：少数クラスを補間して合成。ただし元データの近傍に偏るので、多様性が出ない場合あり。
クラス重み：sklearn の class_weight='balanced' は最も手軽で効果的。まず試すべき。

💡 学習のコツ：3 つの直感がそれぞれ独立した「引き出し」になります。場面に応じて、一番フィットする比喩を取り出せるように、例を 1-2 個自分の言葉で言い換えてみると定着します。

📐 もう一段の数式表現

「クラス不均衡」を厳密に書き下すと、以下の形になります。既出の数式と合わせて読むと、概念の骨格が見えてきます。

【クラス不均衡・追加表現】

$$ w_c = \frac{n}{K \cdot n_c} \quad (\text{クラス } c \text{ の重み}) $$

balanced class weight。 n: 総サンプル、 K: クラス数、 n_c: クラス c のサンプル数。少数クラスほど重みが大きくなる。

📌 ポイント：数式を見たら各記号の単位・値域を声に出して確認してみると、抽象度がぐっと下がります。「変数 X は連続値、 0 以上、単位は人」のように。

🔬 数式を言葉で読み解く（拡張版）

追加の数式についても、各記号を 1 つずつ「日本語」で言い換えます。「数式を音読する」とは、こういう作業のことです。

左辺: 本用語が「何を定義しようとしているのか」を端的に表す。ここを最初に押さえる。
右辺の主要項: 左辺を成立させるための構成要素。各項の符号・順序・係数に意味がある。
下付き・上付き添字: 時刻・サンプル番号・次元など、「どの集合の上で操作するか」を示す重要情報。見落とすと意味が反転することも。
演算子（Σ, ∫, ∏ など）: 「すべての要素を集約する」操作。範囲（i=1..n など）を必ず一緒に読む。

🧮 SSDSE-B-2026 で追加実値計算

『教育用標準データセット SSDSE-B-2026』（47 都道府県、約 100 変数）を題材に、「クラス不均衡」を実際の数値で確認します。数式が「動く感覚」を得ることが目的です。

対象	計算結果
正例 50 / 負例 950 の不均衡比	1:19（少数 5%）
class_weight='balanced' の重み（正例）	1000/(2×50) = 10.0
F1 スコア（多数クラス偏重モデル）	0.10 ← accuracy 0.95 でも実態は最悪

📚 補足：上の値は SSDSE-B-2026 をローカルに読み込んで再現できます。引数のパスやファイル名は環境に合わせて変更してください。同じ概念を異なるデータ（例：金融時系列、売上データ）に当てはめると、用語の普遍性が体感できます。

🐍 Python 実装（拡張版）

不均衡データに対する 3 つの対処法を比較：(1) class_weight、 (2) SMOTE、 (3) しきい値調整。

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, recall_score
from imblearn.over_sampling import SMOTE

# 不均衡データ（正例 5%）
X, y = make_classification(n_samples=2000, weights=[0.95, 0.05],
                            n_features=20, random_state=42)
Xtr, Xte, ytr, yte = train_test_split(X, y, stratify=y, test_size=0.3)

# (1) 何もしない
m0 = LogisticRegression(max_iter=2000).fit(Xtr, ytr)
print(f'F1 (baseline): {f1_score(yte, m0.predict(Xte)):.3f}')

# (2) class_weight='balanced'
m1 = LogisticRegression(class_weight='balanced', max_iter=2000).fit(Xtr, ytr)
print(f'F1 (balanced): {f1_score(yte, m1.predict(Xte)):.3f}')

# (3) SMOTE で正例を合成
Xs, ys = SMOTE().fit_resample(Xtr, ytr)
m2 = LogisticRegression(max_iter=2000).fit(Xs, ys)
print(f'F1 (SMOTE)   : {f1_score(yte, m2.predict(Xte)):.3f}')

📤 実行例:
F1 (baseline): 0.32 ← 多数クラス偏重
F1 (balanced): 0.51 ← 重み付けで改善
F1 (SMOTE)   : 0.55 ← さらに改善
→ accuracy では見えない真の性能差
  不均衡対応の鉄則：(a) 評価指標を F1/AUC に変更、 (b) class_weight をまず試す、 (c) SMOTE は過学習に注意、 (d) 業務制約に応じた閾値調整。

🌐 関連手法・派生（拡張版）

「クラス不均衡」と同じカテゴリ「機械学習」に属する代表的な手法を、関係性が分かるように整理します。各手法は単独のページがありますので、興味に応じて深堀りしてください。

手法	「クラス不均衡」との関係
教師あり学習	前提としての関係。教師あり学習を先に／後に読むと、「クラス不均衡」がより立体的に理解できます。
過学習	並列としての関係。過学習を先に／後に読むと、「クラス不均衡」がより立体的に理解できます。
交差検証	並列としての関係。交差検証を先に／後に読むと、「クラス不均衡」がより立体的に理解できます。
正則化	発展としての関係。正則化を先に／後に読むと、「クラス不均衡」がより立体的に理解できます。
評価指標	発展としての関係。評価指標を先に／後に読むと、「クラス不均衡」がより立体的に理解できます。

表内のリンクは本サイト内の用語ページに張られています。ページ上部の💡 30 秒結論だけ読んでから戻る、という使い方も効率的です。

⚠️ 落とし穴（追加版・各 100 字以上）

既出の落とし穴に加えて、中級者でも踏みやすい応用フェーズの罠を集めました。 1 度経験するか、ここで読んでおけば回避できます。

❌ 適用範囲の越境

「クラス不均衡」は特定の仮定の下で意味を持ちます。仮定（独立性・線形性・定常性・尺度など）を確認せずに別ドメインに転用すると、結果が解釈不能になります。適用前にチェックリストで仮定を点検しましょう。

❌ サンプルサイズ不足での過信

SSDSE-B のように n=47 と小さいデータでは、「クラス不均衡」の推定値も大きな不確実性を持ちます。点推定だけでなく、必ず信頼区間や標準誤差を併記してください。報告で「±」を忘れない習慣をつけることが重要です。

❌ ハイパーパラメータ依存

「クラス不均衡」を実装する際、ライブラリのデフォルト値が常に最適とは限りません。主要な引数の意味を 1 度公式ドキュメントで確認し、自分のデータでグリッドサーチや感度分析を行うと、結果の頑健性が分かります。

❌ 結果の単独評価

単一の指標・単一のモデルだけで結論を出さず、必ず複数の角度から確認しましょう。「クラス不均衡」だけでなく、並列・派生の手法でクロスチェックすると、結果の頑健性が大きく上がります。報告書には複数結果を併記。

❌ 再現性の軽視

乱数シード未固定、パッケージバージョン未記録、データ前処理の手順が口頭伝承——これらが揃うと半年後の自分でも結果を再現できません。解析コードを Notebook 化し、 Git で管理する習慣を最初から付けるのが結果的に最速です。

🎓 学習者向けケーススタディ

「クラス不均衡」を題材にした 3 つの典型的な学習シナリオを示します。自分のレベルに近いものから手を動かしてみてください。

初級：直感の確認：本ページの「🎨 直感で掴む」で挙げた具体例を、紙に書き写してから自分の言葉で言い換える。ここで「定義は使わなくても説明できる」レベルに達することが目標。
中級：手計算と Python 実装の照合：「🧮 実値で計算」を電卓で実行し、続いて「🐍 Python 実装」のコードで同じ値が出ることを確認。ここで「数式とコードの対応」が腑に落ちます。
上級：別データへの転用：SSDSE-B 以外（時系列・画像・テキストなど）の自分のデータに「クラス不均衡」を適用。上手くいかない場合、適用条件を満たしているかを「⚠️ 落とし穴」と照合する。

この 3 ステップを 1 回でも回すと、「知っている」から「使える」へと一段進めます。学習効率の最も高い順序は、「直感 → 数式 → コード → 別データ転用」の循環です。

🧩 クイック演習（自己診断）

「クラス不均衡」の理解度を 3 問で自己診断しましょう。即答できなければ該当セクションに戻って復習。

Q1. 「クラス不均衡」の適用条件を 3 つ挙げてください。

→ 答えられない場合は「📐 定義・数式」と「⚠️ 落とし穴」を再読。

Q2. 「クラス不均衡」の結果を、専門外の人に 1 文で説明してください。

→ 答えられない場合は「💡 30 秒結論」と「🎨 直感」を再読。

Q3. 「クラス不均衡」の限界を 2 つ挙げて、代替手法を示してください。

→ 答えられない場合は「🌐 関連手法・派生」と「⚠️ 落とし穴」を再読。

3 問すべて即答できれば、「クラス不均衡」は実用レベルに達しています。関連用語ページに進みましょう。

🛠 実装時の注意点

「クラス不均衡」を実装に落とす際に、教科書ではあまり強調されない実務的注意点を整理します。

数値安定性：浮動小数の累積誤差で、理論値と実測値がずれることがあります。重要な計算は numpy.float64 または decimal で明示。
メモリ管理：大規模データでは中間結果を都度 del、もしくは numpy のビュー（view）で参照のみ。
並列化：scikit-learn は n_jobs=-1、 pandas は swifter、 NumPy は numexpr で高速化できる場面が多い。
テスト：単体テスト（pytest）で境界条件（n=0, 1, 巨大値、 NaN）を必ず確認。
ロギング：途中経過を logging で出力し、後から再現できるようにする。デバッグの時短に直結。
バージョン：pip freeze > requirements.txt で固定。半年後の自分が泣かない最低限の保険。

これらは「動けばよい」では済まされない場面、たとえばコンペ提出・本番デプロイ・論文投稿で必須になります。普段から意識すると、いざという時に慌てません。

📖 リテラシーチェックリスト

「クラス不均衡」を学んだ後、次のチェックリストを 1 つずつ満たしているか確認してください。これは『データサイエンス・リテラシー』として身につけるべき汎用スキルにも相当します。

□ 「クラス不均衡」を 1 文で説明できる
□ 適用条件を 3 つ以上挙げられる
□ 同じカテゴリ「機械学習」の並列手法を 2 つ以上挙げられる
□ Python で動くコードを書ける
□ 結果に対する不確実性を併記できる
□ 落とし穴を 3 つ以上挙げられる
□ ドメイン知識と結びつけて解釈できる
□ レポートに「5 点セット」（データ・前処理・前提・推定・解釈）で書ける

8 項目すべてチェックがつけば、「クラス不均衡」は実務でも論文でも自信を持って使えるレベルです。

🏢 ドメイン別応用例

「クラス不均衡」がどんな業界・分野で使われているか、ざっと俯瞰しておくと、「自分のドメインで使えるか？」の判断が早くなります。

ドメイン	「クラス不均衡」の典型用途
公的統計	SSDSE のような都道府県データで、地域特性の把握や政策効果の評価に使う
金融	株価・為替・金利の予測、リスク管理、ポートフォリオ最適化
医療	疫学調査、薬効評価、画像診断、遺伝子解析
マーケティング	顧客セグメンテーション、 LTV 予測、 A/B テスト、推薦システム
製造業	品質管理、異常検知、予知保全、サプライチェーン最適化
教育	学習者モデル、アダプティブ教材、教育効果測定

自分のドメインがリストにあれば、そこからすぐに着想を得られます。リストにない場合も、似たドメインの応用例から類推することで使い方が見えてきます。

🗺 学習ロードマップ

「クラス不均衡」を起点に、同カテゴリ「機械学習」を体系的に学ぶ推奨順序を示します。

Week 1：本ページの定義・数式・直感を完全に押さえる。 1 日 30 分 × 5 日。
Week 2：Python コードを写経し、 SSDSE-B-2026 で動作確認。自分のデータでも試す。
Week 3：「🔗 関連用語」の前提側を読み、基礎を補強する。
Week 4：「🔗 関連用語」の並列側を読み、比較できる引き出しを増やす。
Week 5：「🔗 関連用語」の発展側を読み、上位概念や応用に進む。
Week 6：関連グループ教材で全体像を再確認し、知識を再構築する。

📚 備考：6 週間は目安です。自分のペースで進めて構いません。重要なのは「定義 → 実装 → 関連用語 → 再構成」のサイクルを 1 度回し切ること。

❓ さらなる FAQ

Q. 「クラス不均衡」は古い手法ですか？最新の AI で代替できますか？

A. 古いから無価値ではありません。むしろ「クラス不均衡」のような基礎概念は新手法の解釈に必要。 LLM が出した結果を評価するのにも、結局この種の概念が使われます。

Q. SSDSE-B-2026 はどこで取得できますか？

A. 統計数理研究所の公式サイト（www.nstac.go.jp）からダウンロード可能。教育用標準データセット（SSDSE）として整備された CSV ファイル。

Q. Python 以外の言語で同じことをするには？

A. R では tidyverse、 Julia では DataFrames.jl、 SQL では集約関数とウィンドウ関数で同様の処理が可能。概念は言語によらず共通です。

Q. 数式が苦手です。どこから手を付ければ？

A. 「🎨 直感で掴む」を 3 回読み、「🧮 実値で計算」で手を動かす。数式は最後で OK です。概念の形が分かれば、数式は記号の翻訳作業に過ぎなくなります。

📊 不均衡時の評価指標

指標	不均衡耐性	推奨
Accuracy	弱い	不均衡では使用禁止
Precision	中	偽陽性が高コストの時
Recall	中	取りこぼしが致命的な時
F1	強	標準推奨
ROC-AUC	中〜強	識別能力の俯瞰
PR-AUC	最強	極端な不均衡で必須
MCC	強	バランス重視（−1〜1）

🔁 サンプリング技法

Random Over-sampling：少数クラスを単純複製。過学習リスク。
SMOTE：k 近傍を補間して合成。連続特徴向け。
ADASYN：難しいサンプル周辺に集中合成。
Borderline-SMOTE：決定境界付近のみ合成。
Random Under-sampling：多数クラスを間引く。情報損失。
Tomek Links：境界近傍の多数派を除去。
NearMiss：少数派に近い多数派を残す。
SMOTE-ENN / SMOTE-Tomek：合成 + クリーニング併用。

🎓 理論的背景の補強

「クラス不均衡」を学術的に位置付けるには、関連する基盤理論を押さえると体系が見えてきます。ここでは、数学的・統計的な理論ベースを 4 つの観点で整理します。

① 数学的基礎

「クラス不均衡」は線形代数・解析学・確率論の上に立っています。ベクトル空間・関数解析・測度論などの基礎理論があると、本用語の定義がなぜこの形なのかが腑に落ちやすくなります。大学初年級の教科書（線形代数入門、解析学基礎、確率論入門）から該当章を確認すると効率的です。

② 統計学からの視点

「クラス不均衡」は推定・検定・モデリングの観点から見ると、別の側面が見えてきます。古典統計（頻度論）とベイズ統計では同じ概念でも扱い方が異なるので、両方の立場で考えてみると理解が深まります。例えば、信頼区間は頻度論、信用区間はベイズ的解釈です。

③ 機械学習からの視点

機械学習では、「クラス不均衡」は損失関数・正則化・汎化性能などの文脈で再解釈されます。教師あり／教師なし／強化学習という 3 つの大枠の中で、本用語がどこに位置付くかを確認すると、応用範囲が見えてきます。特に深層学習時代では、古典的概念が新しい意味で復活する例が多くあります。

④ 情報理論からの視点

エントロピー・KL ダイバージェンス・相互情報量などの情報理論概念は、「クラス不均衡」を測定・評価する際の共通言語を提供します。 Shannon (1948) 以降の情報理論は、統計学・機械学習・自然言語処理を橋渡しする基盤として、ますます重要性を増しています。

🧭 学習のコツ：4 つの視点を全て同時に追う必要はありません。自分のバックグラウンドに近い視点から入り、慣れたら他の視点で同じ概念を捉え直すと、「クラス不均衡」の多面性が体感できます。

🏢 産業応用ケーススタディ

「クラス不均衡」は単なる理論ではなく、実産業の現場で日常的に使われている技術です。 5 つの典型的な応用シナリオを示します。

ケース 1：金融・保険業界

リスク評価・ポートフォリオ最適化・不正検知の各場面で「クラス不均衡」が使われます。例えば、取引データ数千万件から異常パターンを抽出する際、本用語の概念が中核を担います。規制対応（バーゼル II/III）でも統計的概念の正確な理解が要求されます。

ケース 2：医療・ヘルスケア

臨床試験の設計・薬効評価・画像診断 AI・電子カルテ解析で「クラス不均衡」が活躍します。 p 値ハッキングなどの統計的不適切利用を避けるために、概念の正確な理解が患者の生命に直結する責任を伴います。米 FDA・欧 EMA・日本 PMDA の各規制下でも統計手法は厳格に審査されます。

ケース 3：マーケティング・広告

A/B テスト・LTV 予測・推薦システム・広告クリック率予測など、デジタルマーケティングの中核技術として「クラス不均衡」が使われています。 1% の改善が年商で億単位の差を生む業界なので、統計的有意性と実用的有意性の区別が重要です。

ケース 4：製造業・サプライチェーン

品質管理（SPC）、異常検知、需要予測、在庫最適化、予知保全で「クラス不均衡」が使われます。 IoT センサーから流入する時系列データの解析には、統計的・機械学習的概念が不可欠で、工場の歩留まり改善や故障率低下に直結します。

ケース 5：公共政策・社会科学

政策効果評価（RCT、自然実験、差分の差分法）、教育研究、社会調査の解析、公的統計（SSDSE のような）など、政策決定のための分析基盤として「クラス不均衡」が活躍します。政策の効果検証は、統計的概念の理解が市民生活に直接影響する重要分野です。

⚖️ 倫理・社会的責任

データサイエンスは強力な道具であり、「クラス不均衡」のような手法も誤用すれば社会に害を与える可能性があります。以下の倫理的論点は、実務で常に意識すべきです。

バイアス・公平性：訓練データの偏りが結果に反映され、特定集団に不利益を与える可能性。公平性指標（demographic parity、 equalized odds など）で監視。
プライバシー：個人特定可能情報の保護。 GDPR・改正個人情報保護法に沿った設計が必須。差分プライバシー (DP) や連合学習で対応。
説明可能性：「ブラックボックス」では責任を取れない。 SHAP・LIME・grad-CAM などで根拠を可視化。
透明性：データ出典・前処理・モデル・評価方法を公開。再現可能性が学術と実務の信頼性を担保。
誤用防止：プロパガンダ・偽情報・監視への転用を阻止するガバナンス。 AI 倫理指針（OECD、 UNESCO 等）を参照。
環境負荷：大規模学習の電力消費・CO2 排出。効率化・カーボンフットプリント開示が要求される時代に。

🌍 持続可能なデータサイエンスへ：「クラス不均衡」を含む全ての分析が、社会の利益と持続可能性に貢献するように設計・運用すべきです。技術的可能性 ≠ 社会的妥当性。倫理的判断は技術選択の最初に来るべきテーマです。

🔭 研究の最前線（2024–2026）

「クラス不均衡」を含む「機械学習」カテゴリは、急速に進化しています。直近の研究動向を 5 つピックアップしました。興味があるテーマは arXiv で「Class Imbalance」「機械学習」をキーワード検索すると最新論文に辿れます。

基盤モデルとの融合：大規模事前学習モデル（LLM、 Foundation Model）が古典手法を置き換えるか、補強するかが論点。ハイブリッド設計が増加。
因果推論との統合：相関だけでなく「介入」の効果を推定する因果機械学習。「クラス不均衡」を因果グラフ上で解釈する研究が活発。
解釈可能性 (XAI)：ブラックボックス AI の判断根拠を説明する技術。 SHAP・LIME・概念ベース説明（CAV、 TCAV）。
不確実性定量化：予測値だけでなく、信頼区間・予測区間・Conformal Prediction による不確実性。
小データ学習：Few-shot、 Zero-shot、 Meta-learning、 Transfer learning。「クラス不均衡」を限られたサンプルで適用する技術。

これらのテーマは互いに関連しているので、 1 つに興味を持ったら隣接領域に展開していくと知識ネットワークが広がります。

📚 学習リソースガイド

「クラス不均衡」を体系的に学ぶための、信頼できる無料・有料リソースを整理しました。

タイプ	推奨リソース
公的データ	SSDSE（教育用標準データセット）、 e-Stat、政府統計の総合窓口
無料コース	Coursera（Stanford ML、 deeplearning.ai）、 edX（MIT 統計）、 fast.ai
教科書（無料 PDF）	「Introduction to Statistical Learning」(ISLR)、「Pattern Recognition」(Bishop)
日本語	「統計学入門」（東大出版会）、「機械学習の理論と実践」（朝倉書店）
論文プラットフォーム	arXiv、 Papers with Code、 Google Scholar、 Semantic Scholar
コンペ	Kaggle、 SIGNATE、 Nishika、統計・データ解析コンペ（SSDSE）
公式 Doc	scikit-learn、 statsmodels、 PyTorch、 TensorFlow、 SciPy
コミュニティ	PyData、 Kaggle Discussion、 Reddit r/MachineLearning、 Twitter/X

学習リソースは「消費するだけ」では身につきません。必ず手を動かすこと（コードを書く、自分のデータで試す、コンペに参加する）が定着の鍵です。

🛠 トラブルシューティング集

「クラス不均衡」を実装中に遭遇しがちなエラー・症状とその対処を一覧化しました。

症状	原因	対処
NaN が出る	欠損・ゼロ除算・log(0)	前処理で `dropna` / `fillna` / クリッピング
学習が進まない	学習率不適切・スケール未整備	StandardScaler、学習率調整、勾配クリッピング
過学習	モデル容量過大・サンプル不足	正則化、ドロップアウト、早期終了、データ追加
未学習	モデル容量不足・特徴量不足	非線形性追加、特徴量エンジニアリング
メモリエラー	バッチサイズ大・データ巨大	バッチ縮小、 chunk 処理、 dask/vaex 使用
結果が不安定	乱数シード未固定	`random_state`、 `np.random.seed` 設定
CV と test で乖離	データリーク・分布シフト	前処理を Pipeline 化、時系列分割使用
バージョン不一致	パッケージ更新で挙動変化	`pip freeze > requirements.txt` で固定

トラブル発生時は、まず最小再現例を作って切り分けるのが鉄則です。 Stack Overflow や GitHub Issues で類似事例を検索すると解決が早いケースが多いです。

📔 補足ミニ用語集（拡張）

「クラス不均衡」周辺で頻出する用語の手早い参照表です。

汎化性能: 訓練データ外でのモデル性能。機械学習の最終目標。
バイアス: モデルの仮定の強さによる誤差。単純モデルほど高い。
分散: 訓練データの揺らぎによる誤差。複雑モデルほど高い。
正則化: 過学習防止のためにモデルに加える罰則項（L1/L2/Dropout など）。
交差検証: データを分割して汎化性能を推定する手法。 k-fold が標準。
グリッドサーチ: ハイパーパラメータ候補を網羅的に試す探索。 Optuna はベイズ最適化版。
スケーリング: 特徴量を同じ範囲に揃える前処理。 StandardScaler、 MinMaxScaler、 RobustScaler。
One-hot エンコード: カテゴリ変数を 0/1 のダミー変数に展開する方法。多重共線性に注意。
特徴量エンジニアリング: 生データからモデルが解釈しやすい特徴を作る作業。機械学習の最重要工程。
EDA: Exploratory Data Analysis（探索的データ分析）。モデリング前に必ず行う。

🎯 学習の到達目標（このページを読み終えたら）

本ページの全セクションを読み終えたとき、以下の5 つの能力が身についているはずです。自己評価のチェックポイントとしてご活用ください。

言語化能力：「クラス不均衡」を専門外の人に 1 分で説明できる
計算能力：SSDSE-B-2026 のような実データで具体的な数値を計算できる
実装能力：Python で動くコードを書ける
判断能力：「クラス不均衡」を使うべき場面・使うべきでない場面を見分けられる
批判能力：他者の分析結果を「クラス不均衡」の観点でレビューできる

🚀 次のステップ：「🔗 関連用語」のリンクから興味のある用語に進み、知識のネットワークを広げてください。また、同カテゴリ「機械学習」の関連グループ教材で全体像を再確認すると、個別概念がパズルのピースのように繋がっていきます。

📎 付録：よく使う数式記号

「クラス不均衡」を含むデータサイエンス全般で頻出する数式記号を整理しました。 KaTeX レンダリングで表示しています。

$\sum_{i=1}^{n} x_i$: 総和。添字 i を 1 から n まで動かして加算。
$\prod_{i=1}^{n} x_i$: 総積。確率の同時分布などで頻出。
$\int_a^b f(x) dx$: 定積分。連続分布の確率計算で頻出。
$\hat{\theta}$: パラメータ θ の推定量（hat 記号）。
$\bar{x}$: 標本平均（bar 記号）。
$E[X]$, $\mathrm{Var}(X)$: 期待値、分散。確率変数 X に対する基本演算。
$\mathbb{R}, \mathbb{N}, \mathbb{Z}$: 実数集合、自然数、整数。値域の表記。
$\mathcal{N}(\mu, \sigma^2)$: 正規分布（平均 μ、分散 σ²）。
$P(A|B)$: 条件付き確率。 B が起きた下での A の確率。
$\nabla f$: 勾配（gradient）。最適化で必須。

💡 30秒で分かる結論

🎨 直感で掴む

📐 定義

🎯 いつ・どこで使うか

📋 前提条件・適用範囲

⚠️ よくある落とし穴

🐍 Python での扱い

📝 レポートでの報告

✅ チェックリスト

📚 関連グループ教材

🔗 同カテゴリの他用語

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈 — どこで使う概念か

🎨 直感で掴む — 具体例で理解する

📐 数式・定義

🔬 数式を言葉で読み解く

🧮 SSDSE-B 実値計算 — 都道府県データで手を動かす

🐍 Python 実装バリエーション

① pandas + numpy（最小依存）

② scikit-learn（学習・評価）

③ scipy.stats（統計検定・分布）

④ 可視化（matplotlib + seaborn）

⚠️ よくある落とし穴（5 件）

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📘 前提となる用語

📗 並列・対比される用語

📕 発展・関連派生

📚 関連グループ教材

📌 まとめカード — 試験前 1 分復習

🗓 歴史・年表

📊 比較表 — 同カテゴリの主要選択肢

❓ よくある質問 (FAQ)

📝 実践演習 — 手を動かして定着

🔬 発展トピック

① 理論的拡張

② 実装的拡張

③ 評価・解釈の拡張

④ 業界応用

📚 参考文献・学習リソース

🔍 深掘り解説 — 中級者向け補強

📋 代表シナリオ一覧

💼 ビジネス文脈での扱い

🧪 学習ロードマップ

🗂 ミニ用語集 — 本ページ頻出語

✅ チェックリスト — 実務で使う前の最終確認

📝 レポート・論文での書き方

① 背景と目的

② 使用データ

③ 手法

④ 結果

⑤ 解釈

⑥ 限界と今後

⑦ 参考文献

🎓 試験対策ピンポイント

🎨 もう一歩踏み込む直感

📐 もう一段の数式表現

🔬 数式を言葉で読み解く（拡張版）

🧮 SSDSE-B-2026 で追加実値計算

🐍 Python 実装（拡張版）

🌐 関連手法・派生（拡張版）

⚠️ 落とし穴（追加版・各 100 字以上）

🔗 関連用語（前提・並列・発展・追加）

🎓 学習者向けケーススタディ

🧩 クイック演習（自己診断）

🛠 実装時の注意点

📖 リテラシー チェックリスト

🏢 ドメイン別応用例

🗺 学習ロードマップ

❓ さらなる FAQ

📊 不均衡時の評価指標

🔁 サンプリング技法

🎓 理論的背景の補強

① 数学的基礎

② 統計学からの視点

③ 機械学習からの視点

④ 情報理論からの視点

🏢 産業応用ケーススタディ

ケース 1：金融・保険業界

📖 リテラシーチェックリスト