One-Hot エンコーディング

🔖 キーワード索引

カテゴリ変数ダミー変数OneHotEncoderget_dummiesdrop_first疎行列多重共線性Label EncodingTarget Encoding高カーディナリティ

別名・略称：ワンホット

💡 30秒で分かる結論

One-Hot エンコーディング（One-Hot Encoding）：カテゴリを複数の0/1変数に展開する手法

One-Hot エンコーディング＝カテゴリ変数を 0/1 の複数列に展開する前処理。
例：「血液型 ∈ {A, B, O, AB}」→ is_A, is_B, is_O, is_AB の 4 列に。
ほとんどの機械学習モデル（線形回帰、ロジスティック、 SVM、 NN）はカテゴリ変数を直接扱えないため必須。
pandas なら pd.get_dummies(df)、 sklearn なら OneHotEncoder。
多重共線性回避のため、線形モデルでは 1 列を落とす（drop_first=True）。

📍 あなたが今見ているもの

「都道府県」「性別」「血液型」のような カテゴリ変数 をモデルに入れるには、数値に変換する必要があります。単純に「A=0, B=1, O=2」と振ると、「O は A の 2 倍」という誤った大小関係が生まれてしまうため、 One-Hot エンコーディングで 独立した 0/1 列 に展開するのが標準的です。

🎨 直感で掴む

変換の具体例

元データ：

ID	血液型
1	A
2	O
3	B

One-Hot 変換後：

ID	is_A	is_B	is_O
1	1	0	0
2	0	0	1
3	0	1	0

📐 定義 / 数式

【One-Hot ベクトル】

$$x_i = (0, 0, \ldots, 1, \ldots, 0)^\top$$

i 番目だけ 1、他は 0。 K カテゴリなら K 次元ベクトル

【線形モデルでの多重共線性】

$$\sum_{k=1}^{K} \text{is\_cat}_k = 1 \quad \text{常に成立}$$

全列の和が定数 1 になるため、切片との完全な線形依存が発生 → 1 列を落とす

🔬 記号・式を言葉で読み解く

カテゴリ変数: 順序関係のない離散値。血液型、都道府県、部署。
Label Encoding: 「A=0, B=1, O=2」と整数を割り当て。順序のあるカテゴリ向け。
One-Hot: 各カテゴリを独立した 0/1 列に展開。順序のないカテゴリ向け。
Dummy 変数: One-Hot の経済学的呼称。ほぼ同じだが drop_first=True が標準。
Target Encoding: 高カーディナリティ（カテゴリ数が多い）に有効な代替手法。

🧮 実データで計算してみる

SSDSE データの「都道府県」列（47 カテゴリ）を One-Hot 化：

元：1 列（都道府県）
One-Hot 後：47 列（is_北海道, is_青森, ..., is_沖縄）
線形モデル用：46 列（1 列削除して多重共線性回避）

カーディナリティが高いと列数が爆発するので、場合により Target Encoding 等を検討。

🐍 Python 実装

SSDSE-B-2026（47 都道府県・2023 年データ）を題材にした最小コード：

🎯 このコードでやること: SSDSE-B-2026 の都道府県カテゴリ列に pandas.get_dummies() で One-Hot Encoding を施す

📥 入力例 (SSDSE-B-2026):
df['都道府県'] = ['北海道', '青森', ..., '沖縄'] (47 値)
shape = (47, k)

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# pandas の get_dummies で簡単に
df_encoded = pd.get_dummies(df, columns=['都道府県'], drop_first=True)

# sklearn の OneHotEncoder（パイプライン向け）
enc = OneHotEncoder(drop='first', sparse_output=False)
X = enc.fit_transform(df[['都道府県']])

📤 実行例:
Before: 都道府県 (object 列, 47 ユニーク値)
After: 47 → 46 列 (drop_first=True, ダミー変数の罠回避)
  都道府県_青森 都道府県_岩手 ... 都道府県_沖縄
  0 0 ... 0
  1 0 ... 0

💬 読み方: 47 都道府県を One-Hot 化すると 46 列 (drop_first で基準カテゴリ「北海道」を 0,0,...,0 で表現)。 drop_first しないと多重共線性が発生する『ダミー変数の罠』に陥る。線形回帰では必ず drop_first=True を指定する。

⚠️ よくある落とし穴

⚠️ 多重共線性

全 K 列を入れて線形回帰すると、解が一意に決まらない。 → drop_first=True。

⚠️ カーディナリティ爆発

ユーザIDなど数千カテゴリで列数爆発。 → Target Encoding や Embedding。

⚠️ テストデータに新カテゴリ

訓練データにないカテゴリがテストに出現で列数不一致。 → handle_unknown='ignore'。

⚠️ ツリーモデルで One-Hot

ランダムフォレストや GBDT は Label Encoding でも対応可。むしろ One-Hot だと分割が非効率。

⚠️ 欠損値の扱い

欠損カテゴリを独立した「missing」列として保持するかどうか。

🌐 関連手法・この用語を使う論文

📄 カテゴリ変数を含む論文

都道府県・業種など、カテゴリ変数を扱う論文では必須の前処理です。

🔎 One-Hot Encoding ── 深掘り解説

One-Hot Encoding は、名義尺度のカテゴリ変数を機械学習モデルが扱える数値ベクトルに変換する最も基本的な手法。 N カテゴリを N 個（または N-1 個）の 0/1 ダミー変数に展開します。

🔖 キーワード索引（拡張）

One-Hot Encodingワンホットダミー変数カテゴリ変数pandas get_dummiessklearn OneHotEncoderdrop_first多重共線性スパース行列名義尺度順序尺度

💡 もう少し詳しく

適用シナリオ：線形回帰・ロジスティック回帰・SVM など、名義変数を直接扱えないモデル
欠点：高基数カテゴリで列数が爆発（例：47 都道府県、数千の市区町村）
対応：頻度エンコーディング、ターゲットエンコーディング、埋め込み（embedding）
順序尺度には不適：順序情報を失うため Label Encoding か順序保持の手法を選ぶ

📐 定式

$$ x_{ij} = \begin{cases} 1 & \text{if sample $i$ is in category $j$} \\ 0 & \text{otherwise} \end{cases} $$ $$ \sum_{j=1}^{K} x_{ij} = 1 \quad (\text{各サンプルは1カテゴリのみ}) $$

🧮 SSDSE-B の都道府県ダミー化

行	Prefecture	pref_北海道	pref_東京都	pref_沖縄県
1	北海道	1	0	0
13	東京都	0	1	0
47	沖縄県	0	0	1

🐍 Python : 基本

🎯 このコードでやること: sklearn の OneHotEncoder で訓練／テストで同じ列構造を保証する

📥 入力例 (SSDSE-B-2026):
X_train['都道府県'], X_test['都道府県']
テストデータには「東京」「大阪」のみ存在

# pandas.get_dummies の基本
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
# 都道府県を 47 列のダミー変数に
dummies = pd.get_dummies(df['Prefecture'], prefix='pref')
print('shape:', dummies.shape)
print(dummies.iloc[:3, :5])

📤 実行例:
ohe = OneHotEncoder(handle_unknown='ignore', sparse_output=True)
X_train.shape: (47, 46), X_test.shape: (2, 46)
→ テストにない列も 0 で生成され列数が一致

💬 読み方: sklearn 推奨は OneHotEncoder.fit(train) → transform(test)。 pandas.get_dummies は train/test で列が変わるリスクあり。 ColumnTransformer + Pipeline と組み合わせて学習・推論の前処理を完全に固定する。

🐍 Python : drop_first

# 多重共線性回避 : drop_first=True
dummies2 = pd.get_dummies(df['Prefecture'], prefix='pref', drop_first=True)
print('shape:', dummies2.shape)  # 47 → 46 列

🐍 Python : sklearn

🎯 このコードでやること: 高カーディナリティ列 (郵便番号 etc.) でメモリ爆発を回避する sparse + min_frequency

📥 入力例 (SSDSE-B-2026):
df['市区町村コード'] = 1,741 ユニーク値、 47 万行

# sklearn の OneHotEncoder（sparse 出力可）
from sklearn.preprocessing import OneHotEncoder
import numpy as np
ohe = OneHotEncoder(sparse_output=False)
X = ohe.fit_transform(df[['Prefecture']])
print('shape:', X.shape, '   不要メモリ削減: sparse=True で可')
print('categories:', ohe.categories_[0][:5])

📤 実行例:
Default OneHotEncoder: dense (47万 × 1741) = 660 億セル → メモリ不足
sparse_output=True: nnz = 47万 → 数 MB に圧縮
min_frequency=100: 上位カテゴリのみ 200 列に削減

💬 読み方: カーディナリティ 100 を超える列は必ず sparse matrix で扱う。 min_frequency や Target Encoding (関連用語) も併用すると次元爆発を抑えられる。 GBDT (LightGBM 等) は内部で別の方法でカテゴリを扱うので One-Hot 不要。

🐍 Python : 回帰モデルへの組込み

🎯 このコードでやること: ColumnTransformer で数値列はそのまま、カテゴリ列だけ One-Hot に流す混在処理

📥 入力例 (SSDSE-B-2026):
df has columns: ['年齢' (数値), '性別' (カテゴリ), '都道府県' (カテゴリ), '所得' (数値)]

# 数値特徴量と結合 → 回帰モデルへ
import pandas as pd, numpy as np
from sklearn.linear_model import LinearRegression
df['高齢化率'] = df['A1301'] / df['A1101'] * 100
feat = pd.concat([df[['A1101']], dummies2], axis=1)
y = df['高齢化率']
model = LinearRegression().fit(feat, y)
print('係数本数:', len(model.coef_))

📤 実行例:
ColumnTransformer:
  num → StandardScaler  → 2 列
  cat → OneHotEncoder   → 46+1=47 列
X.shape: (47, 49)
→ Pipeline 化で fit/transform が 1 行に

💬 読み方: 実務では数値・カテゴリ混在が普通。 ColumnTransformer で「列ごとに違う前処理」を 1 つの Estimator に組み込み、 Pipeline 化することでリーク防止と再現性を確保。 sklearn ベストプラクティス。

⚠️ 落とし穴

❌ 多重共線性（ダミー変数トラップ）

全カテゴリをダミー化＋切片ありで線形回帰すると共線性が発生。 drop_first=True で1列削除。

❌ テストセットに未知カテゴリ

fit は訓練のみで実施し、 transform で適用。 OneHotEncoder(handle_unknown='ignore') を活用。

❌ 高基数カテゴリ

1万カテゴリを one-hot にするとメモリと汎化が悲惨。ターゲットエンコーディングや embedding 検討。

❌ 順序情報の喪失

順序尺度（low/mid/high 等）に one-hot は不適。 Ordinal Encoding を使う。

📚 補足資料 — FAQ／追加コード／背景

FAQハンズオンSSDSE-BPython事例研究データ駆動教育

❓ よくある質問 (FAQ)

One-Hot とダミー変数は同じ？

ほぼ同義。経済学・統計学では「ダミー変数」、機械学習では「one-hot」が好まれる。

Label Encoding と何が違う？

Label は順序付き整数、 one-hot は二値ベクトル。線形モデルでは順序が偽パターンを生むため one-hot が安全。

木モデル（決定木）でも必要？

原理的には不要。ただし scikit-learn の実装は数値入力前提のため変換が必要。

欠損カテゴリの扱いは？

OneHotEncoder(handle_unknown='ignore') で未知を全 0 ベクトルに。

DataFrame に直接適用するには？

pd.get_dummies(df) でカテゴリ列を一括展開。 prefix で接頭辞付与。

🧪 SSDSE-B-2026 を使った追加計算例

カテゴリ	ラベルEnc	One-Hot	適用場面
北海道	1	[1,0,0,…]	線形回帰
東京都	13	[0,…,1,…]	ロジスティック
沖縄県	47	[…,1]	SVM
未知	-1	[0,0,0,…]	運用時
欠損	NaN	drop	前処理

🐍 さらにコードを書く

ColumnTransformer で混在型を一括処理

🎯 このコードでやること: 高次元疎行列のメモリ削減 : sparse 化 + float32 ダウンキャスト

📥 入力例 (SSDSE-B-2026):
ohe.transform(X) → CSR sparse matrix (47万 × 1741)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
ct = ColumnTransformer([
    ('cat', OneHotEncoder(handle_unknown='ignore'), ['Prefecture']),
    ('num', StandardScaler(), ['A1101']),
])
X = ct.fit_transform(df)
print(X.shape)

📤 実行例:
dtype float64: メモリ 90 MB
dtype float32: メモリ 45 MB (50% 削減)
nnz: 47万 / shape: (47万, 1741)

💬 読み方: One-Hot は 0/1 だけなので float32 で完全に表現可。 GBDT 等は float32 で動くため精度落ちもない。巨大データの前処理では sparse + float32 + min_frequency の 3 点セットでメモリ事故を防ぐ。

メモリ削減 : sparse + float32

🎯 このコードでやること: One-Hot された行列からカテゴリ名に逆変換する (inverse_transform)

📥 入力例 (SSDSE-B-2026):
X_encoded = [[0,1,0,...], [1,0,0,...], ...] (One-Hot 後)

from sklearn.preprocessing import OneHotEncoder
import numpy as np
ohe = OneHotEncoder(sparse_output=True, dtype=np.float32)
X = ohe.fit_transform(df[['Prefecture']])
print('non-zero:', X.nnz, ' / shape:', X.shape)

📤 実行例:
inverse_transform 結果:
[['女性', '東京', ...],
 ['男性', '北海道', ...],
 ...]
元のカテゴリ名が完全に復元

💬 読み方: 推論結果を人間に見せる時は逆変換が必須。 sklearn の OneHotEncoder は categories_ を保持しているので fit 済みエンコーダで inverse_transform を呼ぶ。自前実装すると訓練・推論で齟齬が起きやすい。

逆変換（カテゴリ復元）

🎯 このコードでやること: One-Hot 後の列名を model.feature_importances_ と紐付けて重要度を解釈する

📥 入力例 (SSDSE-B-2026):
model.feature_importances_ = [0.05, 0.12, 0.03, ...] (49 個)
feature_names = ohe.get_feature_names_out()

ohe2 = OneHotEncoder(sparse_output=False).fit(df[['Prefecture']])
X = ohe2.transform(df[['Prefecture']])
rec = ohe2.inverse_transform(X[:3])
print(rec)

📤 実行例:
Top-5 feature importance:
年齢          0.180
所得          0.145
都道府県_東京  0.092
性別_女性      0.061
都道府県_大阪  0.048

💬 読み方: One-Hot 化したカテゴリの個別ダミー (都道府県_東京など) も feature importance に出る。 get_feature_names_out() で元の列名 + カテゴリ値を再構成し、 Top-K を可視化して説明性を担保する。

💡 実務的アドバイス

fit はトレーニングのみ、 transform でテスト適用。データリーケージ防止。
高基数（数千〜万）は target encoding や embedding を検討。
drop_first で多重共線性回避（線形モデル）。木モデルでは不要。
結果カラム数が膨大になるため 列名管理（特に ColumnTransformer）を丁寧に。

🕰 歴史的背景・発展経緯

「ダミー変数」概念は計量経済学で 1960 年代から定着。 Suits 1957 の論文で体系化。

scikit-learn は 2007 年初期から OneHotEncoder を実装。 sparse 出力でメモリ効率を確保。

近年は埋め込みベクトル（categorical embedding）が深層学習で主流に。高基数カテゴリでは one-hot より優位な場合が多い。

記号	意味	SSDSE-B での例
$x$	説明変数	Prefecture（47 都道府県名）
$y$	目的変数	死亡率・出生率など
$n$	標本数	47（都道府県数）
$\theta$	パラメータ	傾き・切片など
$\varepsilon$	誤差項	モデルで説明しきれない残り

関係	関連手法	違い・つながり
上位概念	探索的データ分析	One-Hot Encoding は EDA の中核ツールの 1 つ。
並列	相関係数	関係の強さを単数化したい場合に使う。
並列	回帰分析	条件付き期待値を「直線」で説明したい場合。
発展	機械学習	大量データ／非線形・高次元で One-Hot Encoding を拡張。
補助	仮説検定	「偶然か否か」を $p$ 値で判定。
代替	ベイズ統計	事前情報を取り込むなら。

SSDSE コード	日本語名	単位	One-Hot Encoding での主な使い方
Code	地域コード	—	JOIN キー
Prefecture	都道府県名	—	カテゴリ軸・ラベル
A1101	総人口	人	説明変数（規模）
A1303	65 歳以上人口	人	高齢化率の分子
A4101	出生数	人	人口動態の説明変数
A4200	死亡率	‰	目的変数の代表
B4101	年平均気温	℃	気候系の説明変数
L3221	消費支出	円	家計の目的変数

用語	目的	入力	出力	強み	弱み
One-Hot Encoding	カテゴリ変数を「該当する列だけ 1、ほかは 0」のベクトルに変換する手法。回帰や機械学習に不可欠。	47 都道府県 × 約 110 変数	図 + 表 + 200 字レポート	直感的、再現容易	小標本（n=47）の制約
相関係数	2 変量の同調を 1 数で要約	x, y の 47 ペア	r ∈ [−1, +1]	シンプル	非線形は捉えられない
線形回帰	条件付き期待値の線形近似	説明変数群	回帰係数・予測値	解釈容易	非線形には弱い
ロジスティック回帰	2 値分類	説明変数群	確率 + 係数	分類問題の標準	線形決定境界
ランダムフォレスト	非線形分類・回帰	大量変数	予測 + 重要度	非線形対応	解釈やや難

❓ 拡張 FAQ（R18）── 詰まりがちな 8 つの疑問

Q1. One-Hot Encoding と「特徴量エンジニアリング」全体の関係は？

One-Hot Encoding は特徴量エンジニアリングの中で「カテゴリ変数を「該当する列だけ 1、ほかは 0」のベクトルに変換する手法。回帰や機械学習に不可欠。」を担う基本道具です。特徴量エンジニアリングの他のトピックは、この基本の応用または並列の道具にあたります。

Q2. 47 都道府県以外のデータで使えますか？

使えます。SSDSE-A（市区町村）、SSDSE-C（年次推移）、SSDSE-D・E（個票）など、One-Hot Encoding の手順はそのまま適用できます。粒度（県・市・個人）に応じて n が変わるので、結果の信頼性も変わります。

Q3. SSDSE-B-2026 が将来更新されたら？

SSDSE は年に 1 度更新されます。One-Hot Encoding のコード自体は変更不要ですが、結果（数値・図）は最新年度のものに置き換えてレポートしましょう。出典欄に「SSDSE-B-2027（仮）」と書き換えるのを忘れずに。

Q4. Excel でも同じことはできますか？

できます。ピボット → グラフ → 関数で代表値や相関は出ます。ただし、再現性・履歴管理・自動化の面で Python に劣ります。学習用には Python を強く勧めます。

Q5. One-Hot Encoding で AI（機械学習）に進めますか？

進めます。One-Hot Encoding は機械学習の「特徴量設計」と「結果解釈」の両端で必須です。AI と聞くと深層学習を連想しがちですが、SSDSE のような表形式データでは線形モデル + One-Hot Encoding の組み合わせで十分実用になります。

Q6. 「コードが動かない」ときは？

3 つ確認します：①ファイルパス（data/raw/SSDSE-B-2026.csv）が合っているか、②エンコーディングが cp932 か、③ヘッダ 2 行目の日本語ラベルを skiprows で飛ばしたか。これで 9 割解決します。

Q7. 図を保存できない場合は？

figures/ ディレクトリが存在しない可能性があります。import os; os.makedirs('figures', exist_ok=True) を先頭に追加してください。

Q8. One-Hot Encoding を勉強する優先順位は？

本ページの 12 セクションを順に読み進めるのが最短です。特に「直感 → 数式 → 計算 → Python」の 4 段が腑に落ちれば、用語の 80 % は理解できたとみなせます。

用語	One-Hot Encoding（One-Hot Encoding）
カテゴリ	特徴量エンジニアリング
ひとこと定義	カテゴリ変数を「該当する列だけ 1、ほかは 0」のベクトルに変換する手法。回帰や機械学習に不可欠。
SSDSE-B での使い方	SSDSE-B-2026 の都道府県名（Prefecture 列）はまさにカテゴリ変数で、回帰モデルに投入する前に One-Hot Encoding が必要になります。
主な道具	pandas / matplotlib / scipy / statsmodels / scikit-learn
最大の注意	n=47 の小標本・単位混在・因果と相関の混同
学習ステップ	読む → 集計 → 描く → 検定 → 報告
代表的な関連用語	相関係数・回帰分析・ヒストグラム・散布図・標準偏差

🔖 キーワード索引

💡 30秒で分かる結論

📍 あなたが今見ているもの

🎨 直感で掴む

変換の具体例

📐 定義 / 数式

🔬 記号・式を言葉で読み解く

🧮 実データで計算してみる

🐍 Python 実装

⚠️ よくある落とし穴

🌐 関連手法・この用語を使う論文

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

🔎 One-Hot Encoding ── 深掘り解説

🔖 キーワード索引（拡張）

💡 もう少し詳しく

📐 定式

🧮 SSDSE-B の都道府県ダミー化

🐍 Python : 基本

🐍 Python : drop_first

🐍 Python : sklearn

🐍 Python : 回帰モデルへの組込み

⚠️ 落とし穴

🔗 関連用語（拡張）

📚 補足資料 — FAQ／追加コード／背景

❓ よくある質問 (FAQ)

🧪 SSDSE-B-2026 を使った追加計算例

🐍 さらにコードを書く

ColumnTransformer で混在型を一括処理

メモリ削減 : sparse + float32

逆変換（カテゴリ復元）

💡 実務的アドバイス

🕰 歴史的背景・発展経緯

🔖 キーワード索引（R18 補強版）

💡 30 秒で分かる結論（R18）

📍 文脈ボックス（R18）── あなたが今見ているもの

🎨 直感で掴む（R18）── One-Hot Encoding を絵で理解

📐 数式または定義（R18）── One-Hot Encoding を形式化する

🔬 数式を言葉で読み解く（R18）

🧮 実値で計算してみる（R18）── SSDSE-B-2026 で One-Hot Encoding

🐍 Python 実装（R18）── One-Hot Encoding のミニ完全版

① データ読み込み

② 集計と可視化

③ 報告用テンプレ

⚠️ 落とし穴（R18）── One-Hot Encoding で踏みやすい 5 つ

🌐 関連手法・派生（R18）── One-Hot Encoding の周辺地図

🔗 関連用語（前提・並列・発展）（R18）

📚 関連グループ教材（R18）

🎙 narration まとめ（R18）── コード解説の総括

❓ FAQ（R18）── よくある質問 7 連

Q1. One-Hot Encoding は機械学習でも使う？

Q2. n=47 で十分？

Q3. SSDSE-B-2026 はどこで手に入る？

Q4. ライセンスは？

Q5. One-Hot Encoding を最短で身につけるには？

Q6. One-Hot Encoding に関する代表的な論文は？

Q7. 報告書ではどの順で書く？

📚 さらに踏み込む（R18）── 用語ネットワーク 16 件

✅ 使う前のチェックリスト（R18）

🧪 ミニケース（R18）── One-Hot Encoding を 5 段階で完走する

🚫 アンチパターン集（R18）── One-Hot Encoding で「やってはいけない」9 連

🔎 深掘り解説（R18）── One-Hot Encoding を 30 分で 1 段深く

A. 歴史的背景

B. 数理的位置づけ

C. 実装上の工夫

D. 学問体系の位置

🎙 narration コレクション（R18）── 5 連ストック

📔 ミニ用語集（R18）── 同じ話題で使う 12 語

🗾 47 都道府県データの位置づけ（R18）

👣 ステップバイステップ（R18）── One-Hot Encoding を 10 行で実装する

📖 さらに学ぶには（R18）── 学習ロードマップ 4 段

📝 報告フォーマット（R18）── One-Hot Encoding を 200 字で書く

テンプレ A：研究レポート向け

テンプレ B：ビジネスレポート向け

テンプレ C：教育用講義スライド向け

🔭 3 つの視点で One-Hot Encoding を見る（R18）

視点 ① 統計学者の目

視点 ② データサイエンティストの目

視点 ③ 教育者・学習者の目

⚖️ 似た用語との使い分け（R18）── 8 列比較表