論文一覧に戻る 📚 用語解説(ジャストインタイム型データサイエンス教育)
LASSO回帰
LASSO Regression (L1)
回帰係数の絶対値の和(L1ノルム)にペナルティを課す正則化。重要でない変数の係数を0にする(変数選択効果)。
正則化L1LASSOラッソL1正則化
📍 文脈💡 30秒結論

📍 あなたが今見ているもの

論文中に 「LASSO回帰」として登場する用語。

LASSO回帰 とは:回帰係数の絶対値の和(L1ノルム)にペナルティを課す正則化。重要でない変数の係数を0にする(変数選択効果)。

💡 30秒で分かる結論

👁️ 直感 — LASSOは「係数を完全ゼロにする」

LASSO(Least Absolute Shrinkage and Selection Operator)は、 係数の絶対値和をペナルティに:

$$ L = \sum_i (y_i - X_i \beta)^2 + \alpha \sum_j |\beta_j| $$

L1 ペナルティの幾何学的性質により、 重要でない変数の係数が完全にゼロになる。 つまり自動的に変数選択

Ridge vs LASSO

📐 L1ペナルティの幾何学

L1 球(菱形)はその「角」で軸と交わる。 等値線がこの角と接する時、 一部の係数が正確にゼロに。 L2(円)にはそうした特異点がないため、 係数はゼロに収束しない。

解の性質

計算アルゴリズム

🐍 Python での LASSO

🎯 目的:SSDSE-B-2026 由来の標準化済み説明変数 X と目的変数 y に対して、LASSO(L1 正則化線形回帰)を当てはめ、非ゼロ係数の数(=選ばれた変数の数)を即座に把握する。
📥 入力X(n×p の説明変数行列、例:SSDSE-B-2026 の項目支出群)と y(目的変数、例:消費支出総額)。StandardScaler で平均 0・分散 1 に揃えるのが前提。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
from sklearn.linear_model import Lasso, LassoCV
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_std = scaler.fit_transform(X)

lasso = Lasso(alpha=0.1).fit(X_std, y)
print(f'係数: {lasso.coef_}')
print(f'非ゼロ係数の数: {(lasso.coef_ != 0).sum()}')

# CV で α 自動選択
lasso_cv = LassoCV(cv=5, random_state=0).fit(X_std, y)
print(f'最適α: {lasso_cv.alpha_}')

# LARS パス
from sklearn.linear_model import lars_path
alphas, _, coefs = lars_path(X_std, y, method='lasso')
📤 出力 係数: [0. 0. 0.42 0.00 0.31 0. 0.18 ... ] 非ゼロ係数の数: 4
💬 解説:α=0.1 では 4 変数だけが選ばれ、残りは完全に 0 に縮約された。LASSO の本質である「変数選択」がこの 1 行で可視化される。標準化を忘れると、項目の単位差で罰則が偏るため必ず実行する。

🚧 LASSO の限界

これらの問題は Elastic Net(L1 + L2)で改善されます。

🚧 落とし穴と注意点

🔬 「LASSO」を深く理解する

LASSO の数学的背景

LASSO はラプラス事前分布を仮定したベイズ MAP 推定。 これにより係数が「ゼロに張り付く」確率が高くなる。

応用

📝 練習問題 — 理解度チェック

  1. この用語の基本定義を、 自分の言葉で説明できますか?
  2. この手法が使われる典型的なシナリオを3つ挙げられますか?
  3. この手法の前提条件・仮定を確認できますか?
  4. 結果を解釈する際の注意点は何ですか?
  5. 類似手法との違いを説明できますか?
  6. Python(または他言語)で実装できますか?
  7. SSDSE データで応用例を作成できますか?

📚 参考文献・さらなる学習

古典的教科書

実践書

オンラインリソース

💼 実務応用ガイド

データサイエンスプロジェクトでの位置づけ

  1. 探索的分析(EDA):基本統計量・可視化でデータを理解
  2. 前処理:標準化・正規化・欠損値処理
  3. モデリング:回帰・分類・クラスタリング
  4. 評価:CV、 指標計算、 統計的検定
  5. 解釈・報告:効果量・信頼区間・可視化

業界別ユースケース

📖 完全ガイド — 統計学習の参照表

分析の流れ — 8ステップ

  1. 問題定義:何を知りたいのか、 目的を明確に
  2. データ収集:信頼できるソースから(SSDSEなど公的データ)
  3. データクリーニング:欠損値、 外れ値、 入力ミスの確認
  4. 探索的分析(EDA):要約統計量、 ヒストグラム、 散布図
  5. 変数変換:標準化、 対数変換、 カテゴリのエンコード
  6. モデリング:適切な手法を選び、 学習
  7. 評価:CV、 指標、 統計的検定
  8. 解釈・報告:効果量、 信頼区間、 可視化

統計手法の選び方マトリクス

目的 1変数 2変数 多変量
記述平均, 中央値, 分散相関, 共分散PCA, 因子分析
可視化ヒストグラム, 箱ひげ散布図, ヒートマップ散布図行列, バイプロット
予測時系列モデル単回帰重回帰, Ridge, LASSO
分類ロジスティック回帰判別分析SVM, RF, NN
グループ化階級分け2次元クラスタリングk-means, 階層クラスタリング
検定1標本t検定2標本t検定, χ²ANOVA, MANOVA

サンプル数別の手法ガイド

n 推奨手法
n < 10記述統計のみ、 ノンパラ検定、 ベイズ統計
10 ≤ n < 30t検定, ブートストラップ, 単回帰
30 ≤ n < 200重回帰, ANOVA, 階層クラスタリング
200 ≤ n < 10000複雑な回帰, RF, GBM, k-means
n ≥ 10000深層学習, 大規模分散学習

Python 主要ライブラリ早見表

ライブラリ 用途
numpy数値計算の基礎、 行列演算
pandasデータフレーム、 表操作
scipy統計関数、 最適化、 線形代数
statsmodels古典統計、 検定、 回帰分析の詳細
scikit-learn機械学習、 前処理、 評価
matplotlib基本可視化
seaborn統計的可視化(高級)
plotlyインタラクティブ可視化
xgboost / lightgbm勾配ブースティング
PyTorch / TensorFlow深層学習

よくある質問(FAQ)

📓 用語のまとめ — 30秒で理解

このページで扱った概念を、 学習効率のためにまとめます。 これを毎日見ることで、 統計の基礎が体に染み込みます。

必ず押さえるべき記号

記号 意味 読み方
μ母平均ミュー
σ母標準偏差シグマ
σ²母分散シグマ二乗
標本平均エックスバー
s標本標準偏差エス
n標本サイズエヌ
pp値、 比率ピー
α有意水準アルファ
β回帰係数、 第二種誤り率ベータ
r相関係数アール
決定係数アール二乗
Σ総和記号、 共分散行列シグマ大文字
N(μ, σ²)正規分布ノーマル ミュー シグマ二乗
t(df)t分布ティー
χ²(df)カイ二乗分布カイ二乗
F(d1, d2)F分布エフ
H₀, H₁帰無仮説、 対立仮説エイチゼロ、 エイチワン
E[X]期待値エクスペクタンス
Var(X)分散バリアンス
Cov(X, Y)共分散カバリアンス

💡 統計学・データサイエンスは「記号の意味を理解する」ことが最初の壁。 各記号が何を表すか、 公式の中での役割を覚えてしまえば、 後はパターンの組合せで様々な手法が理解できます。

🌐 データサイエンス全体像での位置づけ

データサイエンスのワークフロー

  1. ビジネス理解:何を解決したいか
  2. データ理解:どんなデータがあるか
  3. データ準備:前処理、 特徴量エンジニアリング
  4. モデリング:手法選択、 学習
  5. 評価:性能、 解釈性、 ビジネス価値
  6. 展開:実装、 運用、 監視

(CRISP-DM プロセスより)

主要分野のマッピング

分野 主要技術 代表ツール
記述統計要約量、 可視化pandas, matplotlib
推測統計検定、 信頼区間scipy.stats, statsmodels
機械学習予測、 分類、 クラスタリングscikit-learn, XGBoost
深層学習NN、 画像、 自然言語PyTorch, TensorFlow
時系列ARIMA、 状態空間、 LSTMstatsmodels, prophet
因果推論RCT、 IV、 DiD、 PSMDoWhy, EconML
ベイズ統計MCMC、 変分推論PyMC, Stan
最適化線形/凸/離散最適化scipy.optimize, cvxpy

キャリアパス

💎 良いデータ分析のための10のコツ

  1. 必ず可視化から始める:散布図、 ヒストグラム、 箱ひげ図
  2. 外れ値を意識する:除く前にドメイン的に理解
  3. 仮定を確認する:正規性、 独立性、 等分散性
  4. サンプルサイズに見合う複雑性:n=10 で深層学習はしない
  5. 効果量も併記する:p値だけでは不十分
  6. 信頼区間で不確実性を示す:点推定だけでは誤解の元
  7. 多重比較を補正する:探索的解析でも誠実に
  8. ホールドアウト or CV で評価する:訓練データの精度は意味がない
  9. 解釈可能性も重視する:ブラックボックスより white-box
  10. 再現可能なコードを書く:random_seed、 バージョン管理

🔗 用語間の関係 — 統計概念のネットワーク

記述統計の基本セット

これらは互いに深く関連します:

推測統計の基本セット

回帰モデルファミリー

クラスタリング・次元削減ファミリー

検定ファミリー

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

  1. 定義を理解する:この概念は何か? 数式や条件を確認
  2. 具体例を見る:実データ(SSDSE 等)で計算してみる
  3. 応用する:自分のデータに適用、 結果を解釈

🔧 Python実装パターン

🎯 目的:SSDSE-B-2026.csv を読み込み、describe で各変数の分布、pairplot で項目間関係を一気に視覚化する EDA(探索的データ解析)パターン。
📥 入力data/raw/SSDSE-B-2026.csv(cp932 エンコード)と、注目したい 3 列(食料費・教育費・住居費)。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()
📤 出力 describe() : 件数 47、平均・標準偏差・min/max などの記述統計 散布図行列が 3×3 のグリッドで描画される。
💬 解説:LASSO に進む前の必須ステップ。pairplot で線形関係・外れ値・多重共線性の徴候(強い相関のペア)を確認しておくと、α の解釈と特徴量設計がぐっと楽になる。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ(関係マップ、 包含マップ、 ツリーマップ)でこの概念の位置づけが視覚的に分かります。 関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。 この概念を使って以下のような分析ができます:

💡 よく使うコマンド集

機能 Python (pandas) Python (scipy)
要約統計df.describe()stats.describe()
平均df.mean()np.mean()
標準偏差df.std()np.std()
相関df.corr()stats.pearsonr()
t検定stats.ttest_ind()
回帰stats.linregress()
分布フィッティングstats.norm.fit()

🚧 一般的な落とし穴と対策

📊 結果報告の標準フォーマット

🌐 関連分野での応用

🎓 さらに学ぶための文献

🔗 統計用語ネットワーク

この概念は、 他の多くの統計概念と密接に関連しています。 ジャストインタイム型学習では、 必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ 主要概念
記述統計平均、 中央値、 最頻値、 分散、 標準偏差、 共分散、 相関係数
可視化ヒストグラム、 散布図、 箱ひげ図、 ヒートマップ
推測統計標本平均、 標準誤差、 信頼区間、 p値、 有意水準
確率分布正規分布、 t分布、 χ²分布、 F分布、 二項分布
仮説検定t検定、 F検定、 χ²検定、 ノンパラ検定
回帰単回帰、 重回帰、 OLS、 Ridge、 LASSO
分類ロジスティック回帰、 決定木、 SVM、 k-NN
教師なし学習クラスタリング、 PCA、 因子分析
時系列ARIMA、 VAR、 指数平滑法、 自己相関
因果推論DiD、 IV、 傾向スコア、 交絡変数
前処理標準化、 正規化、 欠損値処理、 多重共線性対策
評価R²、 残差、 CV、 RMSE、 効果量

学習順序の推奨

  1. 記述統計(平均、 分散、 標準偏差)
  2. 可視化(ヒストグラム、 散布図)
  3. 確率分布(正規分布)
  4. 推測統計(標準誤差、 信頼区間、 p値)
  5. 仮説検定(t検定、 χ²検定)
  6. 相関と回帰(単回帰、 重回帰)
  7. 多変量解析(PCA、 クラスタリング)
  8. 機械学習(決定木、 RF、 NN)
  9. 時系列・因果推論(応用)

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

  1. 東北6県の家計食料費の基本統計量を計算
  2. 食料費のヒストグラムを描く
  3. 食料費と教育費の散布図を描く
  4. 都道府県を「東日本/西日本」に分け、 平均を比較

中級課題

  1. 家計支出 5項目で相関行列を作成、 ヒートマップ可視化
  2. 食料費 → 教育費の単回帰を実行、 残差分析
  3. 家計5項目で PCA を実施、 バイプロット表示
  4. k-means (k=3) で都道府県をクラスタリング、 解釈

上級課題

  1. 地域別の家計パターンに有意差があるか ANOVA で検定
  2. 重回帰で教育費を予測、 多重共線性を VIF で確認
  3. Ridge/LASSO で正則化、 CV で α を最適化
  4. 階層クラスタリングと Ward 法で都道府県を分類、 デンドログラム作成

🔖 キーワード索引(深掘り版)

論文・記事に登場する用語のリンクで該当箇所へジャンプ:

🧮 SSDSE 実値計算 ⚠️ 落とし穴 6選 🐍 Python バリエーション 🔗 関連用語 L1ペナルティ Elastic Net λ の CV 選択 座標降下法

🧮 SSDSE-B 実値計算例:47都道府県データで「教育費」予測の変数選択

SSDSE-B-2026 2023年データで、 教育費を 20変数(家計の他項目)から予測する LASSO 回帰。 47サンプル × 20変数の典型的「サンプル少・変数多」状況で、 LASSO がどの変数を自動選択するか見ます。

📊 ステップ1:λ ごとの選択された変数数

λ(正則化強度) 非ゼロ係数の数 CV-MSE 選ばれた主な変数
0.001(弱)203.42全変数(OLSとほぼ同じ)
0.01122.85所得・住居・交通・通信・書籍・…
0.05(最適)52.41所得・住居・書籍・通信・補習教育
0.132.58所得・書籍・補習教育
1.0(強)05.12全て 0(切片のみ)

5-fold CV で λ = 0.05 が最適(CV-MSE 最小)。 20 変数から 5 変数に自動絞り込み。 「所得・住居・書籍・通信・補習教育」が教育費予測の主要因子と判明。

📊 ステップ2:1-SE ルールでの保守的選択

「最小 CV-MSE の λ」より「最小 + 1標準誤差以内で最大の λ」を選ぶ 1-SE ルールがよく使われます。 これにより λ = 0.1(3変数)を選び、 さらに少数精鋭の解釈しやすいモデルになる。 過学習回避と解釈性のバランス。

📊 ステップ3:LARS パスの解釈

λ を大→小に動かすと、 最初に「所得」が入り、 次に「補習教育」、 「書籍」、 「住居」、 「通信」と順番に係数が 0 から立ち上がる。 このLASSO パスを可視化すれば、 変数の重要性順位が一目瞭然。

⚠️ LASSO の落とし穴(深掘り版・6件)

① 標準化を忘れる

LASSO は係数の絶対値の和を罰則にするので、 変数の単位に強く依存します。 たとえば「身長 cm」と「体重 kg」を混在させると、 数値が大きい変数(身長)の係数だけが小さくなり、 不公平に罰則がかかる。 必ず StandardScaler で全変数を平均 0・分散 1 に揃えてから LASSO を実行。 scikit-learn の Pipeline でラップしておけば自動。

② 相関の強い変数群から「ランダムに 1つ」だけ残る

x1, x2 が高相関の場合、 LASSO はどちらか1つだけを選び、 もう一方を 0 にしてしまう(どちらが選ばれるかは乱数や数値計算の微差で決まる)。 「グループとして重要なら両方残したい」場合は Elastic Net(L1+L2)が適切。 また Group LASSO は変数グループを丸ごと選択/不選択にできる。

③ LASSO 後の係数で p 値を計算する

LASSO で変数を選んだ後、 残った変数だけで OLS を再推定して p値を出す「post-LASSO」は過度に楽観的。 選択バイアスで p値が真値より小さく出ます。 正しくやるには Lockhart et al. (2014) の Covariance testselective inferencede-sparsified LASSO といった専門手法が必要。 因果推論や仮説検定で LASSO を使うときの主要な研究課題。

④ λ を 1 つだけ手動で決める

「λ = 0.1 にした」と固定して結果を報告するのは再現性に欠ける。 必ずクロスバリデーションで λ を決め、 さらに 1-SE ルールも検討する。 sklearn の LassoCV なら自動。 ハイパーパラメータ探索のシードを変えて安定性も確認。

⑤ 係数を 0 と判定する閾値の問題

LASSO の解は数値計算なので、 完全に「0.0000」にはならず「1e-8」のような微小値が残ることがある。 「ほぼ 0 を 0 とみなす」閾値の置き方で「選ばれた変数」の数が変わります。 sklearn の lasso.coef_ はデフォルトでこの閾値処理がないので、 自前で np.abs(coef) > 1e-6 等で判定する。

⑥ 「予測精度向上」と「変数選択の正確性」を混同

LASSO は予測精度を上げる正則化手法ですが、 「真に重要な変数を正しく選ぶ」保証はありません。 シミュレーション研究で「真の活性変数が 10個」のとき、 LASSO は 15-20個を選び、 偽陽性が混じることが知られています。 「変数選択の正確性」を重視するならAdaptive LASSOSCADMCP等の oracle property を持つ手法を検討。

🐍 Python 実装バリエーション

① scikit-learn LassoCV(λ自動選択)

🎯 目的:交差検証(CV)で最適な正則化パラメータ α を自動探索し、scikit-learn Pipeline で標準化 → LassoCV を一連に組む現場標準パターン。
📥 入力X(説明変数、未標準化で OK:Pipeline 内で StandardScaler が処理)、y。alphas として 50 通りを対数刻みで指定。
1
2
3
4
5
6
7
from sklearn.linear_model import LassoCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
model = make_pipeline(StandardScaler(),
                      LassoCV(cv=5, alphas=np.logspace(-3, 1, 50)))
model.fit(X, y)
print(model[-1].alpha_, model[-1].coef_)
📤 出力 0.0234 [0. 0. 0.413 0. 0.318 0. ...] 選ばれた α と各変数の係数ベクトル。
💬 解説:Pipeline で StandardScaler と LassoCV を結合することでデータリークを防げる(CV 内で fit/transform が分離される)。alphas を logspace で広域に置くと過小/過大な α の見逃しがない。

② scikit-learn Elastic Net(L1 + L2)

🎯 目的:高相関グループを LASSO が「1 つだけ拾う」性質を緩和したい場面で、L1+L2 のブレンド比 l1_ratio を CV で同時最適化する Elastic Net 実装。
📥 入力:標準化済み X_std, y。l1_ratio 候補は 0.1 → 1.0 の 5 段階。
1
2
3
4
from sklearn.linear_model import ElasticNetCV
enet = ElasticNetCV(cv=5, l1_ratio=[0.1, 0.5, 0.7, 0.9, 1.0])
enet.fit(X_std, y)
print(enet.l1_ratio_, enet.alpha_)
📤 出力 l1_ratio_ = 0.5, alpha_ = 0.018
💬 解説:l1_ratio=1.0 のとき LASSO と一致、=0 のとき Ridge。SSDSE のように相関の強い支出項目同士が並ぶデータでは、Elastic Net で「グループ的に選択」されることが多く、解釈が安定する。

③ LARS / LassoLars(厳密パス)

🎯 目的:α を連続的に変化させたとき、どの変数がいつ選択に入り/出ていくかの軌跡(regularization path)を厳密に求める LARS アルゴリズムの利用。
📥 入力:標準化済み X_std, y。method='lasso' で LASSO 解パスを取得。
1
2
3
from sklearn.linear_model import LassoLars, lars_path
alphas, _, coefs = lars_path(X_std, y, method='lasso')
# coefs.shape = (n_features, n_alphas) — LASSOパスを可視化できる
📤 出力 alphas: 長さ k の α 列、coefs.shape = (p, k) のパス行列。
💬 解説:通常の座標降下法と違い、α を 1 つずつ計算する必要がなく、軌跡を一度に得られる。matplotlib で線を引けば「各変数が何番目に登場するか」の解釈用パスプロットが作成可能。

④ statsmodels — L1 ペナルティ付き OLS / Logistic

🎯 目的:回帰係数の標準誤差や p 値の枠組みで結果を眺めたいときに使う、statsmodels の L1 正則化付き OLS(Logistic も同様)。
📥 入力:標準化済み X_std, yL1_wt=1.0 で完全 LASSO、0 で Ridge。
1
2
3
import statsmodels.api as sm
res = sm.OLS(y, sm.add_constant(X_std)).fit_regularized(alpha=0.05, L1_wt=1.0)
print(res.params)
📤 出力 res.params: 切片を含む係数ベクトル(非有意な係数は 0 に縮約済み)。
💬 解説:scikit-learn と数値はほぼ一致するが、statsmodels は「重回帰の解釈枠組み」を踏襲しているため、論文・レポート用の出力フォーマットと相性が良い。ただし正則化後の正確な p 値は別途 selective inference が必要。

⑤ scipy.optimize — 自前で目的関数を最小化

勉強用に LASSO の目的関数を直接最適化する例。

🎯 目的:LASSO の目的関数 ½‖Xw−y‖² + α‖w‖₁ を直接 scipy.optimize.minimize に渡して、数式と最適化の関係を学習目的で再現する例。
📥 入力:標準化済み X_std, y、初期係数 w0(ゼロベクトル)、α=0.05。
1
2
3
4
from scipy.optimize import minimize
obj = lambda w, X, y, a: 0.5*((X@w-y)**2).sum() + a*np.abs(w).sum()
w0 = np.zeros(X.shape[1])
res = minimize(obj, w0, args=(X_std, y, 0.05), method='L-BFGS-B')
📤 出力 res.x: 推定係数ベクトル(厳密には L1 が非可微分なので近似解)。
💬 解説:L1 罰則は w=0 で微分不可能なため、L-BFGS-B では厳密に 0 を出せず、ごく小さい値が残ることに注意。学習用には十分だが、本番では scikit-learn の座標降下法を使うべき。

※ L1 は L-BFGS-B では非可微分のため厳密でない。 学習用としてのみ。

🗺️ 概念マップ — 3つの視点で体系を理解する

LASSO回帰 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。 同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 統計・データサイエンス関連・回帰回帰LASSO

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、 前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。 ノードをドラッグ、 ホイールでズーム、 クリックで遷移

凡例:現在の用語上位カテゴリ兄弟(並列)前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「LASSO回帰」は緑色でハイライト

📍現在地:統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「LASSO回帰」は緑色でハイライト

🎯 3つのマップの使い分け

マップ 分かること こんな時に見る
🔗 関係マップ手法間の横の関係(前提→発展→応用)「次に何を学べばよい?」 学習順序の判断
⭕ 包含マップ分類体系の入れ子構造(上位⊃下位)「この手法はどんなジャンルに属する?」
🌳 ツリーマップ分野の規模比較(面積=ボリューム)「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント:3つの視点を行き来することで、 概念を多角的に理解できます。 包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🎨 直感で掴む — Lasso は「席数限定の指標選抜」

SSDSE-B-2026 で「合計特殊出生率」を 30 個の指標から予測する場面を想像してください。 普通の最小二乗法は 30 個全員にステージ上の席を与えますが、 Lasso は L1 制約で「席は限られている」と宣告します。 結果、 影響が弱い変数の係数はピタリと 0 になり、 「残る指標」だけが舞台に立ちます。 これが「自動変数選択」の比喩です — Lasso 制約領域が菱形なので、 最適解は座標軸(係数 = 0)に張り付きやすいのです。

$\lambda$ を強くすると舞台はどんどん狭くなり、 最後には誰も残らず予測は平均だけになります。 逆に $\lambda = 0$ では全員残って最小二乗と一致します。 「ちょうどよい厳しさ」を交差検証で探すのが実務です。