カテゴリ変数 | 用語解説

🔖 キーワード索引

カテゴリ変数質的変数名義順序エンコーディングOneHot

📍 文脈 ── どこで出会うか

質問紙、アンケート、顧客属性、商品分類など、実データはカテゴリだらけ。正しく数値化しないと機械学習モデルが動きません。

🎨 直感で掴む

3種類の量的データ vs カテゴリ変数：

尺度	例	大小比較	差の計算
名義	血液型, 性別	×	×
順序	満足度1-5	○	×
間隔	温度（℃）	○	○（比は×）
比例	身長, 所得	○	○

📐 定義／数式

OneHotエンコーディング（K個のカテゴリ → K個の0/1列）：

【OneHot 例】

色 = "赤" → [1, 0, 0]
色 = "青" → [0, 1, 0]
色 = "緑" → [0, 0, 1]

回帰では K-1個 に減らす（ダミー変数の罠回避）。 sklearn なら drop='first'。

🔬 記号を読み解く

名義尺度: 大小なし。例：地域、性別、ジャンル
順序尺度: 大小あり、間隔不明。例：金銀銅、学年
OneHot: カテゴリ毎に0/1列を作る
Label Encoding: 0,1,2,…と整数化。順序ありに使う
Target Encoding: カテゴリ毎に目的変数の平均で置換。リーケージ注意

🧮 実値で計算してみる

都道府県（47カテゴリ）の扱い方：

OneHot → 47列に展開、 1列ドロップで46列
地域ブロック（8区分）にまとめてから OneHot → 7列
Target Encoding → 県毎の死亡率平均で1列に

状況により使い分け。高次元すぎる場合は次元削減か集約を検討。

🐍 Python 実装

最小限のスニペットで動作確認できる例。公的データ（SSDSE 等）を想定しています。

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# pandas での OneHot（基準1列削除）
dummies = pd.get_dummies(df['地域'], drop_first=True, prefix='region')
df2 = pd.concat([df.drop('地域', axis=1), dummies], axis=1)

# sklearn 版
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(drop='first', sparse_output=False)
encoded = enc.fit_transform(df[['地域']])
print(encoded[:3])

⚠️ よくある落とし穴

❌ 1. 順序のないカテゴリにLabelEncoding

0,1,2に距離があるかのように学習される

❌ 2. OneHotで列爆発

商品ID 10万件をOneHotすると列爆発。 Embedding等を検討

❌ 3. ダミー変数の罠

基準カテゴリを落とさず全て入れると多重共線性で係数が不定

❌ 4. Target Encodingでのリーケージ

全データでaggregateすると目的変数の情報がfeatureに混じる。 CV内で計算する

❌ 5. 未知カテゴリの扱い

本番で訓練時にないカテゴリが来た時の挙動を設計

🌐 関連手法・派生

OneHot Encoding — 標準的な数値化
Label Encoding — 順序ありに使う
Target Encoding — カテゴリの目的変数平均
Embedding — 深層学習での密ベクトル化
CatBoost — カテゴリ変数を内部処理する勾配ブースティング

🔗 関連用語（前提・並列・発展）

役割で色分け：前提／上位／並列／発展／応用

[上位]説明変数 [並列]OneHotエンコーディング [上位]特徴量エンジニアリング [応用]χ²検定 [応用]Cramer V

📚 関連グループ教材

この用語の全体像を学ぶには、横断的な教材で文脈を掴むのが効率的です。

🔎 深掘り解説

エンコーディング選択ガイド

状況	推奨
順序なし、少数カテゴリ（<10）	OneHot
順序あり	Label Encoding（整数）
多数カテゴリ（10〜100）	Target / Frequency Encoding
高カーディナリティ（>1000）	Embedding（深層学習）
木モデル全般	OneHotなしでもOK（CatBoost等）
線形モデル	OneHot必須（drop_first=True）

カテゴリ変数の統計検定

χ²検定：2つのカテゴリ変数の独立性
Cramer V：χ²ベースの関連強度（0-1）
Fisher's exact：小サンプル向け
Mosaic plot：独立性の可視化
多項ロジット：多クラス目的変数の回帰

✅ 使う前のチェックリスト

☐ カテゴリ変数 が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — カテゴリ変数 を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔎 深掘り解説

エンコーディング選択ガイド

状況	推奨
順序なし、少数カテゴリ（<10）	OneHot
順序あり	Label Encoding（整数）
多数カテゴリ（10〜100）	Target / Frequency Encoding
高カーディナリティ（>1000）	Embedding（深層学習）
木モデル全般	OneHotなしでもOK（CatBoost等）
線形モデル	OneHot必須（drop_first=True）

カテゴリ変数の統計検定

χ²検定：2つのカテゴリ変数の独立性
Cramer V：χ²ベースの関連強度（0-1）
Fisher's exact：小サンプル向け
Mosaic plot：独立性の可視化
多項ロジット：多クラス目的変数の回帰

✅ 使う前のチェックリスト

☐ カテゴリ変数 が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — カテゴリ変数 を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

📚 関連グループ教材

この用語の全体像を学ぶには、まず横断的な教材で文脈を掴むのが効率的です：

📚 代表値（平均・中央値・最頻値） — このカテゴリの全体像を学ぶ
📚 ばらつきの指標 — このカテゴリの全体像を学ぶ
📚 確率分布 — このカテゴリの全体像を学ぶ

🔗 同カテゴリの他用語

相関係数共分散 Spearman順位相関係数尺度水準量的変数質的変数名義尺度順序尺度間隔尺度比例尺度測定誤差 SSDSE

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈 ── どこで出会うか

🎨 直感で掴む

📐 定義／数式

🔬 記号を読み解く

🧮 実値で計算してみる

🐍 Python 実装

⚠️ よくある落とし穴

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

🔎 深掘り解説

エンコーディング選択ガイド

カテゴリ変数の統計検定

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

🔎 深掘り解説

エンコーディング選択ガイド

カテゴリ変数の統計検定

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

📚 関連グループ教材

🔗 同カテゴリの他用語