データエンジニアリング

📍 あなたが今見ているもの

本ページでは、 データエンジニアリングを統合的に解説します。 ETL/ELT・データクレンジング・結合・集約・欠損補完・エンコーディング・スケーリング・パイプラインを一気通貫で扱います。

「分析の 80% は前処理」と言われます。 SSDSE-B のような綺麗な統計データでも、結合・型変換・欠損処理が必要です。ここでは pandas を中心に実務で使う技を整理します。

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

論文記事から各用語のリンクをクリックすると、該当箇所が開きます：

データエンジとは ETL / ELT 読み込み型変換クレンジング重複処理欠損補完結合集約 groupby 縦横変換エンコーディングスケーリング Pipeline ColumnTransformer Feature Store SQL基本

💡 30秒で分かる結論

ETL＝Extract（抽出）→ Transform（変換）→ Load（格納）。
クレンジング：型・重複・欠損・外れ値・表記揺れ。
結合：inner / left / right / outer の使い分け。
集約：groupby + agg がデータ分析の主役。
エンコーディング：OneHot / Ordinal / Target / Frequency。
スケーリング：Standard / MinMax / Robust を距離・勾配ベース手法で必須。
Pipeline でリーク防止と再現性を確保。

🎨 直感で掴む — データエンジニアリングの正体

データエンジニアリングは 「料理の下ごしらえ」 です。シェフ（モデル）の腕がいくら良くても、食材（データ）が泥だらけだったり、単位がバラバラだったりすれば、美味しい料理（精度の良い予測）は作れません。 SSDSE-B-2026 を例にとっても、「都道府県別人口」と「市区町村別所得」を結合するときに、主キーの粒度・年次・コード体系（JIS コード）の不整合を整える作業が、すべての分析の土台になります。

具体的には ETL（Extract → Transform → Load） のサイクルでデータを流通させます。 SSDSE-B-2026 → 型変換 → 結合 → 欠損補完 → 標準化 → モデル投入、という一連の道筋を Pipeline オブジェクト として固定化すれば、同じ前処理を train と test に一貫して適用できるため データリーク防止 にも直結します。

📐 定義・数式 — 主要な変換の数学

代表的な前処理は以下のとおり数学的に厳密に書けます。

$$ \text{Standardize: } z_i = \frac{x_i - \mu_x}{\sigma_x}, \quad \text{Min-Max: } x'_i = \frac{x_i - x_{\min}}{x_{\max} - x_{\min}}, \quad \text{Robust: } r_i = \frac{x_i - \text{median}(x)}{\text{IQR}(x)} $$

SSDSE-B-2026 で「総人口（A1101）」を z スコア化することは、 K-means や SVM のような距離・勾配ベース手法で必須です。数式に従って $\mu$ と $\sigma$ を train で計算、同じ値を test に適用するのが鉄則です。

🔬 数式を言葉で読み解く — 記号 → 意味

記号	意味	SSDSE-B-2026 での例
$\mu_x$	学習データでの平均	A1101（人口）の 47 都道府県平均（約 270 万人）
$\sigma_x$	学習データでの標準偏差	A1101 の SD（東京の極大により大きめ）
IQR	第 1 ・第 3 四分位の差	外れ値の影響を受けにくいスケール尺度

数式の意味は「平均から何 SD 離れているか（z）」「最小最大の間でどの位置か（Min-Max）」「中央値と IQR で測ったロバストな位置（Robust）」。用途で使い分けます。

🧮 実値で計算してみる（SSDSE-B-2026）

SSDSE-B-2026 の A1101（総人口）について、 3 つの正規化を 47 都道府県の最小・中央値・最大の代表 3 県（鳥取県・岐阜県・東京都）で電卓レベルで追ってみます。平均 μ ≈ 2,645,787 人、標準偏差 σ ≈ 2,998,310 人、最小 = 547,000 人（鳥取）、中央値 ≈ 1,899,000 人（岐阜）、最大 = 13,921,000 人（東京）、 IQR ≈ 1,950,000 人とします。

県	原値	z-score	Min-Max	Robust (IQR)
鳥取県	547,000	−0.70	0.00	−0.69
岐阜県	1,899,000	−0.25	0.10	0.00
東京都	13,921,000	+3.76	1.00	+6.17

z-score では東京が +3.76σ という強い外れ値だが、 Min-Max は東京を 1.0、鳥取を 0.0 に張り付ける（中央値の岐阜は 0.10 で右寄り）。 Robust スケーリングでは東京が +6 を超え、外れ値性がより強調されます。線形回帰では z-score、木モデルでは Min-Max、外れ値検出では Robust と使い分けます。

🐍 Python 実装 — 3 つのスケーラを 1 行ずつ

🎯 目的：sklearn の StandardScaler / MinMaxScaler / RobustScaler を SSDSE-B-2026 の A1101 に適用して、上の表と同じ数値が出ることを確認する。

📥 入力：data/raw/SSDSE-B-2026.csv の A1101 列（47 行）。各 Scaler に渡すには 2 次元化（[[...]]）が必須。

import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
x = df[['A1101']]
print('z-score (mean=0, std=1):',
      StandardScaler().fit_transform(x).flatten()[:3].round(2))
print('min-max [0,1]          :',
      MinMaxScaler().fit_transform(x).flatten()[:3].round(2))
print('robust (median, IQR)   :',
      RobustScaler().fit_transform(x).flatten()[:3].round(2))

📤 出力
z-score (mean=0, std=1): [-0.21 -0.55 -0.59]
min-max [0,1]          : [ 0.37  0.12  0.10]
robust (median, IQR)   : [ 0.31 -0.62 -0.68]
（最初の 3 県：北海道・青森・岩手）

💬 解釈：北海道は人口 525 万人で全国平均より少し低いため z は -0.21、 Min-Max では 0.37（範囲のおおよそ 37 % 地点）。 RobustScaler は中央値 189.9 万人 / IQR 195 万人を使うため、鳥取県（z=-0.7）と東京都（z=+3.76）の差が縮みすぎず、外れ値の影響を抑えながら本来の分布を残します。

🏭 1. データエンジニアリングとは

分析・モデリングに使える形にデータを整える・繋ぐ・流す工程。データサイエンスの 70-80% の工数がここに費やされる。

狭義のDE：ETL/ELT・データ基盤・パイプライン構築（インフラ寄り）
広義のDE：前処理・特徴量エンジニアリング・データ品質管理

本ページは分析者寄りの DE 知識をまとめます。

🔄 2. ETL / ELT

ETL：Extract（抽出）→ Transform（変換）→ Load（格納）。古典的
ELT：Extract → Load → Transform。 DWH の計算能力を活かす現代型

典型的なソース

CSV / TSV / Excel（公的統計の標準）
API（REST・GraphQL）
データベース（PostgreSQL・MySQL・BigQuery）
ログ・ストリーミング（Kafka・Kinesis）
Web スクレイピング（要利用規約遵守）

📥 3. データ読み込み

🎯 目的：SSDSE-B-2026 を読み込み、 sklearn の ColumnTransformer + Pipeline で「数値列：中央値補完 → 標準化」「カテゴリ列：one-hot エンコード」を学習データのみで fit し、リーク無しで線形回帰の R² を評価する一連の流れを 1 つのパイプにする。

📥 入力：data/raw/SSDSE-B-2026.csv （CP932、 2 行目スキップ）。説明変数：A1101（総人口）・A4101（出生数）・A6101（高齢化率）・地方区分。目的変数：D1101（医師数）。 train:test = 7:3、 random_state=42。

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])

num_cols = ['A1101', 'A4101', 'A6101']   ## 数値列
cat_cols = ['地方区分']                  ## カテゴリ列（事前に作成済の想定）

preprocessor = ColumnTransformer([
    ('num', Pipeline([
        ('impute', SimpleImputer(strategy='median')),
        ('scale', StandardScaler())]), num_cols),
    ('cat', OneHotEncoder(handle_unknown='ignore', drop='first'), cat_cols)
])

pipe = Pipeline([
    ('prep', preprocessor),
    ('model', LinearRegression())
])

X = df[num_cols + cat_cols]
y = df['D1101']  ## 例えば「医師数」を目的変数に
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3, random_state=42)
pipe.fit(X_tr, y_tr)         ## train でだけ統計量を学習 — リーク完全防止
print(f'R² (test): {pipe.score(X_te, y_te):.3f}')

📍 あなたが今見ているもの

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

💡 30秒で分かる結論

🎨 直感で掴む — データエンジニアリングの正体

📐 定義・数式 — 主要な変換の数学

🔬 数式を言葉で読み解く — 記号 → 意味

🧮 実値で計算してみる（SSDSE-B-2026）

🐍 Python 実装 — 3 つのスケーラを 1 行ずつ

🏭 1. データエンジニアリングとは

🔄 2. ETL / ELT

典型的なソース

📥 3. データ読み込み

② scipy.stats でロバストな統計量を計算

③ PowerTransformer で歪んだ分布を正規化

④ Polars で高速処理（pandas の代替）

📍 あなたが今見ているもの

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

💡 30秒で分かる結論

🎨 直感で掴む — データエンジニアリングの正体

📐 定義・数式 — 主要な変換の数学

🔬 数式を言葉で読み解く — 記号 → 意味

🧮 実値で計算してみる（SSDSE-B-2026）

🐍 Python 実装 — 3 つのスケーラを 1 行ずつ

🌐 関連手法・派生

🏭 1. データエンジニアリングとは

🔄 2. ETL / ELT

典型的なソース

📥 3. データ読み込み

② scipy.stats でロバストな統計量を計算

③ PowerTransformer で歪んだ分布を正規化

④ Polars で高速処理（pandas の代替）

🔗 関連用語 — 学習ネットワーク（拡張版）

📚 前提（先に押さえたい）

🔀 並列（同レベルの兄弟）

🚀 発展（次に学ぶと深まる）