scikit-learn | 用語解説

🔖 キーワード索引

scikit-learnscikit-learnライブラリsklearn

本ページは scikit-learn（scikit-learn）を多角的に解説します。上のチップは、検索・関連語の手がかりです。

💡 30秒で分かる結論

Python の 機械学習ライブラリの定番。 SVM、ランダムフォレスト、 k-means など 100+ アルゴリズム
統一 API：fit / predict / transform ─ どのモデルでも同じ書き方
前処理、ハイパラ調整、評価指標、パイプラインまでワンストップ
学術界・産業界の事実上の標準。教育・本番運用の両方で使われる
深層学習は範囲外（PyTorch / TensorFlow へ）

📍 文脈 — どこで使う概念か

scikit-learn は 2007 年に David Cournapeau が GSoC で開始したプロジェクトで、 Python の機械学習エコシステムの中核です。 NumPy / SciPy / pandas / matplotlib との連携が完璧で、入門から実務まで幅広く使われます。ドキュメントの質も非常に高く、機械学習を学ぶならまず scikit-learnと言われるほど。

🎨 直感で掴む — 具体例で理解する

scikit-learn の哲学は 「統一 API」。どんなアルゴリズムでも同じ 3 つのメソッドで使える：

fit(X, y)：学習
predict(X)：予測
transform(X)：変換（前処理など）

これにより、ロジスティック回帰を SVM に差し替えるのにクラス名 1 行だけ変えれば済む。アルゴリズム比較が極めて容易です。

主な機能群：

分類：LogisticRegression, SVC, RandomForestClassifier, GradientBoostingClassifier
回帰：LinearRegression, Ridge, Lasso, GradientBoostingRegressor
クラスタリング：KMeans, DBSCAN, AgglomerativeClustering
次元削減：PCA, TruncatedSVD, t-SNE（一部）
前処理：StandardScaler, OneHotEncoder, SimpleImputer
パイプライン：Pipeline で前処理 + モデルを連結
評価：accuracy_score, mean_squared_error, cross_val_score

📐 定義

Python の機械学習標準ライブラリ

英語名 scikit-learn、カテゴリ：ライブラリ。

🔬 記号・要素の読み解き

Estimator: 学習可能なオブジェクト（モデル）。 fit を持つ
Transformer: データ変換するオブジェクト。 fit_transform を持つ
Predictor: 予測するオブジェクト。 predict を持つ
Pipeline: 複数の処理を直列に繋ぐ。リーク防止に必須
GridSearchCV: ハイパラ探索を交差検証で行うクラス
random_state: 再現性のための乱数シード。必ず指定

🧮 数値例・実値計算

scikit-learn 標準ワークフロー（典型 7 ステップ）：

データを train_test_split で分割
StandardScaler で標準化（fit は訓練データのみ）
モデル選択（例：RandomForestClassifier）
fit(X_train, y_train) で学習
predict(X_test) で予測
accuracy_score 等で評価
必要なら GridSearchCV でハイパラ調整

🐍 Python 実装例

最小コードで動かしてみる例：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

# パイプラインで前処理 + モデルを連結
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('rf', RandomForestClassifier(n_estimators=100, random_state=42)),
])

X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.2, random_state=42)
pipe.fit(X_tr, y_tr)
print('Acc:', accuracy_score(y_te, pipe.predict(X_te)))

⚠️ よくある落とし穴

❌ Data Leakage

テストデータも含めて fit_transform すると情報漏洩。必ず Pipeline + train でのみ fit。

❌ random_state 未指定

再現性がなく、デバッグ困難。すべて固定する。

❌ カテゴリ変数の扱い

scikit-learn は数値前提。必ず OneHotEncoder か OrdinalEncoder。

❌ 不均衡データ

accuracy だけ見ると、多数クラス予測で「精度 95%」が出てしまう。 ROC-AUC / F1 を見る。

❌ 深層学習を期待しない

scikit-learn の MLP は教育用。本格 NN は PyTorch / TensorFlow へ。