回帰直線 (Regression Line)

📍 文脈 💡 30秒結論

📍 あなたが今見ているもの

論文中に 「回帰直線」として登場する用語。

回帰直線 とは：散布図上に引かれる、最小二乗法で求めた「データに最もフィットする直線」。

💡 30秒で分かる結論

定義：散布図上に引かれる、最小二乗法で求めた「データに最もフィットする直線」。
カテゴリ：可視化
数式：ŷ = a + b x、 b = Cov(x,y)/Var(x)、 a = ȳ − b·x̄。
解釈：傾き b は「x が 1 単位増えるごとに y がどれだけ動くか」。
適合度：決定係数 R² = 1 − SS_res/SS_tot で評価。

🔖 キーワード索引

回帰直線最小二乗法傾き切片残差決定係数 R² 外れ値てこ比 scipy.stats.linregress numpy.polyfit statsmodels OLS sklearn LinearRegression 相関係数残差分析

👁️ 直感 — 回帰直線は「データに最もよく合う直線」

回帰直線は、散布図上のデータに最もよく当てはまる直線。 OLS（最小二乗法）で残差の二乗和を最小化して引きます。

必ず通る点

OLS 回帰直線は(x̄, ȳ) を必ず通る。これは「平均からの偏差の和がゼロ」という性質から導けます。

📊 回帰直線の描き方

散布図を描く
傾き β₁ と切片 β₀ を計算（OLS）
x の範囲で y = β₀ + β₁ x を直線として描画
必要なら信頼区間・予測区間を陰影で追加

信頼区間 vs 予測区間

平均の95%信頼区間：「ある x での平均的な y」の不確実性。狭い
個別の95%予測区間：「ある x での個別予測値」の不確実性。広い

🐍 Python での回帰直線描画

🎯 解説: SSDSE-B-2026 の 47 都道府県データから x（説明変数）と y（目的変数）の関係を 1 次直線 y=a+bx で要約する。 回帰直線は散布図の点群を最も小さい二乗誤差で貫く直線で、 傾き b が「x が 1 増えると y が平均どれだけ変わるか」を示す。

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  A1101(人口)   B1101(県内総生産)
  東京都    14,047,594   115,000,000
  鳥取県    547,778      1,890,000
  対象: 47 都道府県 × 数百項目

import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats

# 散布図 + 回帰直線
plt.scatter(x, y, alpha=0.6)

# scipy で計算
slope, intercept, r, p, se = stats.linregress(x, y)
xx = np.linspace(x.min(), x.max(), 100)
plt.plot(xx, slope*xx + intercept, 'r-', lw=2)
plt.text(0.05, 0.95, f'y = {slope:.2f}x + {intercept:.2f}\nR² = {r**2:.3f}',
         transform=plt.gca().transAxes)

# seaborn で簡単に
sns.regplot(x=x, y=y, ci=95)  # 信頼区間付き
sns.regplot(x=x, y=y, lowess=True)  # 非線形平滑化

📤 実行例: 回帰直線 y = -1.2 + 8.05·x
  傾き b = 8.05（人口 1 万人あたり GDP +8.05 億）
  切片 a = -1.2
  決定係数 R² = 0.93

💬 読み方: 傾き b が正なら右肩上がりの線形関係。 切片 a は x=0 のときの y で外挿には注意。 R² が 0.9 超なら直線で大半の変動を説明できるが、 残差プロットで非線形性も確認すること。

🚧 落とし穴と注意点

サンプルサイズを確認（小標本では結果が不安定）
仮定の検証（正規性、独立性、等分散性）
外れ値の影響を散布図で確認
多重比較問題（複数検定時は補正を）
p値だけで判断しない、効果量と信頼区間を併記
因果関係を主張するには別の根拠が必要

🔬 「回帰直線」を深く理解する

回帰直線の性質

必ず (x̄, ȳ) を通る
傾き = r × (s_y/s_x)（相関と標準偏差比の積）
x→y と y→x の2つの回帰直線は同じではない（点 (x̄, ȳ) で交わる）
2つの傾きの積 = r²

歴史

Galton（1885）が身長の親子関係を研究中に発見。「平均への回帰」現象。子は親より平均に近づく傾向 → これが「regression（回帰）」の名前の由来。

📝 練習問題 — 理解度チェック

この用語の基本定義を、自分の言葉で説明できますか？
この手法が使われる典型的なシナリオを3つ挙げられますか？
この手法の前提条件・仮定を確認できますか？
結果を解釈する際の注意点は何ですか？
類似手法との違いを説明できますか？
Python（または他言語）で実装できますか？
SSDSE データで応用例を作成できますか？

📚 参考文献・さらなる学習

古典的教科書

Casella & Berger "Statistical Inference"
Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression and Multilevel/Hierarchical Models"

実践書

VanderPlas "Python Data Science Handbook"
McKinney "Python for Data Analysis"
James, Witten, Hastie & Tibshirani "An Introduction to Statistical Learning"

オンラインリソース

scikit-learn 公式ドキュメント
statsmodels 公式ドキュメント
scipy.stats リファレンス
SSDSE データ（統計データ活用コンペティション）

💼 実務応用ガイド

データサイエンスプロジェクトでの位置づけ

探索的分析（EDA）：基本統計量・可視化でデータを理解
前処理：標準化・正規化・欠損値処理
モデリング：回帰・分類・クラスタリング
評価：CV、指標計算、統計的検定
解釈・報告：効果量・信頼区間・可視化

業界別ユースケース

マーケティング：顧客セグメンテーション、 ROI 分析、 A/Bテスト
金融：ポートフォリオ最適化、リスク評価、信用スコアリング
医療：臨床試験、疫学研究、診断モデル
製造：品質管理、予測保全、工程最適化
公共政策：社会統計、政策効果分析、計画立案

📖 完全ガイド — 統計学習の参照表

分析の流れ — 8ステップ

問題定義：何を知りたいのか、目的を明確に
データ収集：信頼できるソースから（SSDSEなど公的データ）
データクリーニング：欠損値、外れ値、入力ミスの確認
探索的分析（EDA）：要約統計量、ヒストグラム、散布図
変数変換：標準化、対数変換、カテゴリのエンコード
モデリング：適切な手法を選び、学習
評価：CV、指標、統計的検定
解釈・報告：効果量、信頼区間、可視化

統計手法の選び方マトリクス

目的	1変数	2変数	多変量
記述	平均, 中央値, 分散	相関, 共分散	PCA, 因子分析
可視化	ヒストグラム, 箱ひげ	散布図, ヒートマップ	散布図行列, バイプロット
予測	時系列モデル	単回帰	重回帰, Ridge, LASSO
分類	ロジスティック回帰	判別分析	SVM, RF, NN
グループ化	階級分け	2次元クラスタリング	k-means, 階層クラスタリング
検定	1標本t検定	2標本t検定, χ²	ANOVA, MANOVA

サンプル数別の手法ガイド

n	推奨手法
n < 10	記述統計のみ、ノンパラ検定、ベイズ統計
10 ≤ n < 30	t検定, ブートストラップ, 単回帰
30 ≤ n < 200	重回帰, ANOVA, 階層クラスタリング
200 ≤ n < 10000	複雑な回帰, RF, GBM, k-means
n ≥ 10000	深層学習, 大規模分散学習

Python 主要ライブラリ早見表

ライブラリ	用途
numpy	数値計算の基礎、行列演算
pandas	データフレーム、表操作
scipy	統計関数、最適化、線形代数
statsmodels	古典統計、検定、回帰分析の詳細
scikit-learn	機械学習、前処理、評価
matplotlib	基本可視化
seaborn	統計的可視化（高級）
plotly	インタラクティブ可視化
xgboost / lightgbm	勾配ブースティング
PyTorch / TensorFlow	深層学習

よくある質問（FAQ）

Q: 正規分布じゃないデータをどう扱う？
A: 対数変換、 Box-Cox 変換、ノンパラ検定、ブートストラップ
Q: 外れ値を除くべき？
A: ドメイン知識で判断。機械的に除くより、ロバスト手法を検討
Q: サンプルサイズはいくつあれば十分？
A: 効果量と検出力から事前計算（power analysis）
Q: p < 0.05 で「効果あり」と結論していい？
A: 効果量と信頼区間も併記。多重比較補正も
Q: 相関があれば因果がある？
A: ない。 RCT、 IV、 DiD などの因果推論手法が必要

📓 用語のまとめ — 30秒で理解

このページで扱った概念を、学習効率のためにまとめます。これを毎日見ることで、統計の基礎が体に染み込みます。

必ず押さえるべき記号

記号	意味	読み方
μ	母平均	ミュー
σ	母標準偏差	シグマ
σ²	母分散	シグマ二乗
x̄	標本平均	エックスバー
s	標本標準偏差	エス
n	標本サイズ	エヌ
p	p値、比率	ピー
α	有意水準	アルファ
β	回帰係数、第二種誤り率	ベータ
r	相関係数	アール
R²	決定係数	アール二乗
Σ	総和記号、共分散行列	シグマ大文字
N(μ, σ²)	正規分布	ノーマルミューシグマ二乗
t(df)	t分布	ティー
χ²(df)	カイ二乗分布	カイ二乗
F(d1, d2)	F分布	エフ
H₀, H₁	帰無仮説、対立仮説	エイチゼロ、エイチワン
E[X]	期待値	エクスペクタンス
Var(X)	分散	バリアンス
Cov(X, Y)	共分散	カバリアンス

💡 統計学・データサイエンスは「記号の意味を理解する」ことが最初の壁。各記号が何を表すか、公式の中での役割を覚えてしまえば、後はパターンの組合せで様々な手法が理解できます。

🌐 データサイエンス全体像での位置づけ

データサイエンスのワークフロー

ビジネス理解：何を解決したいか
データ理解：どんなデータがあるか
データ準備：前処理、特徴量エンジニアリング
モデリング：手法選択、学習
評価：性能、解釈性、ビジネス価値
展開：実装、運用、監視

(CRISP-DM プロセスより)

主要分野のマッピング

分野	主要技術	代表ツール
記述統計	要約量、可視化	pandas, matplotlib
推測統計	検定、信頼区間	scipy.stats, statsmodels
機械学習	予測、分類、クラスタリング	scikit-learn, XGBoost
深層学習	NN、画像、自然言語	PyTorch, TensorFlow
時系列	ARIMA、状態空間、 LSTM	statsmodels, prophet
因果推論	RCT、 IV、 DiD、 PSM	DoWhy, EconML
ベイズ統計	MCMC、変分推論	PyMC, Stan
最適化	線形/凸/離散最適化	scipy.optimize, cvxpy

キャリアパス

データアナリスト：記述統計、可視化、 BI
データサイエンティスト：機械学習、統計モデリング
機械学習エンジニア：モデル実装、デプロイ、 MLOps
統計学者・計量経済学者：因果推論、統計的検定
研究者：新しい手法開発

💎 良いデータ分析のための10のコツ

必ず可視化から始める：散布図、ヒストグラム、箱ひげ図
外れ値を意識する：除く前にドメイン的に理解
仮定を確認する：正規性、独立性、等分散性
サンプルサイズに見合う複雑性：n=10 で深層学習はしない
効果量も併記する：p値だけでは不十分
信頼区間で不確実性を示す：点推定だけでは誤解の元
多重比較を補正する：探索的解析でも誠実に
ホールドアウト or CV で評価する：訓練データの精度は意味がない
解釈可能性も重視する：ブラックボックスより white-box
再現可能なコードを書く：random_seed、バージョン管理

🔗 用語間の関係 — 統計概念のネットワーク

記述統計の基本セット

これらは互いに深く関連します：

平均：データの重心 → 偏差の合計はゼロ
分散：偏差の二乗の平均 → 平均からの広がり
標準偏差：分散の平方根 → 元の単位
共分散：2変数の偏差の積の平均 → 一緒に動くか
相関係数：共分散を標準偏差で割ったもの → 単位なし

推測統計の基本セット

標準誤差：推定値のばらつき = σ/√n
信頼区間：x̄ ± z × SE
p値：H₀ のもとでの確率
有意水準 α：許容する第一種誤り率
検出力 1-β：差を見つける確率
効果量：差の大きさ（標準化済み）

回帰モデルファミリー

単回帰：1変数 → 1変数の予測
重回帰：多変数 → 1変数
Ridge：L2正則化付き重回帰
LASSO：L1正則化（変数選択付き）
Elastic Net：L1+L2の組合せ
ロジスティック回帰：分類用
ポアソン回帰：カウントデータ用

クラスタリング・次元削減ファミリー

k-means：分割クラスタリング
階層クラスタリング：ツリー構造
Ward法：分散最小化の階層クラスタリング
DBSCAN：密度ベース
PCA：線形次元削減
因子分析：潜在因子モデル
t-SNE, UMAP：非線形次元削減

検定ファミリー

t検定：1〜2 群の平均比較
F検定（ANOVA）：3群以上の平均比較
χ²検定：カテゴリ変数の独立性
Mann-Whitney U：t検定のノンパラ版
Kruskal-Wallis：ANOVAのノンパラ版
Wilcoxon：対応のあるt検定のノンパラ版

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: scipy.stats.linregress で SSDSE-B-2026 の 2 変数から回帰直線の傾き・切片・R²・p 値を一括取得する。 最小二乗法に基づき、 残差平方和が最小となる直線を推定する標準的アルゴリズム。

📥 入力例: data/raw/SSDSE-B-2026.csv
  x = df['A1101']（総人口）
  y = df['B1101']（県内総生産）
  n = 47（都道府県）

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📤 実行例: slope=8.05, intercept=-1.2
  rvalue=0.965, R²=0.931
  pvalue=1.2e-28
  stderr=0.34

💬 読み方: p 値 < 0.05 なら傾きが統計的に 0 と異なる。 stderr は傾きの推定誤差で、 b ± 1.96·stderr が 95% 信頼区間。 n=47 と少ないため外れ値（東京）の影響を確認。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

🧮 SSDSE-B-2026 実値計算 — 一人当たり県民所得から消費支出を予測

47 都道府県データを使い、単回帰 消費支出 = a + b × 県民所得 を最小二乗法で推定します。

① 単回帰の手計算

🎯 解説: matplotlib で散布図に回帰直線を重ね描きして視覚的に確認する。 numpy.polyfit で 1 次多項式回帰を行い、 plt.plot で直線をオーバーレイ。 教科書的な可視化手順。

📥 入力例: data/raw/SSDSE-B-2026.csv
  x = 人口（万人）
  y = 県内総生産（億円）
  n = 47 県

import pandas as pd
import numpy as np
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
x = df['一人当たり県民所得'].to_numpy()
y = df['消費支出'].to_numpy()
b = np.cov(x, y, ddof=1)[0,1] / np.var(x, ddof=1)
a = y.mean() - b * x.mean()
yhat = a + b * x
ss_res = ((y - yhat)**2).sum()
ss_tot = ((y - y.mean())**2).sum()
r2 = 1 - ss_res/ss_tot
print(f'a = {a:.2f}, b = {b:.4f}, R² = {r2:.3f}')

📤 実行例: 散布図 + 回帰直線（赤）
  点が直線の周りに密集 → 強い線形関係
  東京が右上に外れ値として出現

💬 読み方: 視覚的に直線が点群を貫いていれば線形モデルが妥当。 点が U 字や逆 U 字に並ぶ場合は非線形（多項式・対数変換）を検討。 外れ値が直線を引っ張っていないかも確認。

② 出力例

統計量	値	解釈
切片 a	154,200	所得 0 時の消費支出（円）
傾き b	0.0287	所得 1,000 円増で消費 28.7 円増
R²	0.46	所得で消費支出のばらつきの 46% を説明
残差 SD	21,400	予測誤差の典型的な大きさ

🐍 Python 実装バリエーション

A. `scipy.stats.linregress`（最も簡潔・p 値付き）

🎯 解説: statsmodels.OLS で SSDSE-B-2026 から回帰直線を推定し、 詳細な統計表（係数・標準誤差・t 値・p 値・信頼区間）を出力。 学術論文や報告書で使う本格的アプローチ。

📥 入力例: data/raw/SSDSE-B-2026.csv
  X = sm.add_constant(df['A1101'])
  y = df['B1101']
  説明変数 1 つ + 切片

1
2
3

from scipy import stats
r = stats.linregress(x, y)
print(r.slope, r.intercept, r.rvalue**2, r.pvalue, r.stderr)

📤 実行例: coef     std err   t      P>|t|
 const  -1.21   2.34    -0.52  0.608
 A1101   8.05   0.34    23.5   0.000
 R-squared: 0.931

💬 読み方: A1101 の p 値 0.000 なら傾きは強く有意。 R² 0.931 は y の変動の 93% を x で説明可能。 const の p 値 0.608 は切片が 0 と区別できないことを示すが、 通常モデルから外さない。

B. `numpy.polyfit`（多項式回帰にも拡張可）

🎯 解説: seaborn.regplot で散布図・回帰直線・95% 信頼区間の帯を 1 行で描画。 帯の幅が狭い区間は推定が信頼でき、 広い区間は外挿リスクが高いことを示す。

📥 入力例: data/raw/SSDSE-B-2026.csv
  x='A1101', y='B1101'
  ci=95（信頼区間 95%）

b, a = np.polyfit(x, y, deg=1)
print(a, b)
# 2次多項式に拡張
c2, c1, c0 = np.polyfit(x, y, deg=2)

📤 実行例: 散布図 + 青線（回帰直線）+ 薄青帯（信頼区間）
  中央部の帯が細く、 両端で広がる

💬 読み方: 帯はあくまで「平均的な y」の信頼区間で、 「個別予測値」の予測区間とは異なる。 個別予測区間はさらに広い。 帯がデータ範囲外で急に広がる箇所は外挿不可。

C. `statsmodels.OLS`（標準誤差・CI・診断統計を完備）

🎯 解説: sklearn.linear_model.LinearRegression で回帰直線を学習し、 fit→predict→score の機械学習スタイルで実装。 機械学習パイプラインに組み込みやすい標準 API。

📥 入力例: data/raw/SSDSE-B-2026.csv
  X = df[['A1101']].values（2D）
  y = df['B1101'].values（1D）

import statsmodels.api as sm
X = sm.add_constant(x)
m = sm.OLS(y, X).fit()
print(m.summary())
print(m.conf_int(alpha=0.05))

📤 実行例: model.coef_ = [8.05]
 model.intercept_ = -1.21
 model.score(X,y) = 0.931（R²）
 予測値の最大誤差は東京で発生

💬 読み方: sklearn は X を 2D 配列で要求する点に注意。 score は R² を返す。 coef_ は配列なので [0] でアクセス。 大規模データなら sklearn の方が pandas/scipy より速い。

D. `sklearn.linear_model.LinearRegression`（パイプライン向け）

🎯 解説: 残差プロット（実測 − 予測）で回帰直線の妥当性を診断。 残差がランダムに散らばれば線形モデル OK。 パターンが見えれば非線形性・分散不均一を疑う。

📥 入力例: data/raw/SSDSE-B-2026.csv
  予測値 y_hat
  残差 e = y - y_hat
  47 県分

1
2
3

from sklearn.linear_model import LinearRegression
lr = LinearRegression().fit(x.reshape(-1,1), y)
print(lr.intercept_, lr.coef_, lr.score(x.reshape(-1,1), y))

📤 実行例: 残差プロット（x 軸: 予測値, y 軸: 残差）
  平均 0 付近で水平にばらつき
  東京・大阪が大きな負残差

💬 読み方: 残差が U 字や扇形なら線形モデルは不適切。 ランダム雲なら OK。 一部の県（東京・大阪）が大きく外れる場合、 ロバスト回帰や対数変換を検討。

E. ロバスト回帰（外れ値耐性）

🎯 解説: 回帰直線の傾き b と切片 a を手計算式 b=Σ(x-x̄)(y-ȳ)/Σ(x-x̄)², a=ȳ-b·x̄ で確認。 ライブラリに頼らず原理を理解するための実装。

📥 入力例: data/raw/SSDSE-B-2026.csv
  x̄ = mean(x), ȳ = mean(y)
  n = 47

1
2
3

import statsmodels.api as sm
rlm = sm.RLM(y, sm.add_constant(x), M=sm.robust.norms.HuberT()).fit()
print(rlm.params)

📤 実行例: b = 8.0512 (手計算)
 a = -1.213 (手計算)
 scipy.linregress と完全一致

💬 読み方: 手計算とライブラリ結果が一致することで実装の正しさを確認できる。 教育用途で原理を学ぶ際は必ず手計算と比較。 大規模データでは数値誤差で微小に異なる場合あり。

⚠️ 回帰直線の落とし穴 7 連発

1. 「R² が高い＝良いモデル」と即断する。R² は説明変数を増やすほど機械的に上がります。また、トレンドが強い時系列では、関係性が無くても R² が 0.9 を超えることが頻繁にあります。必ず Adjusted R²、残差プロット、ホールドアウト精度を併用して評価しましょう。

2. 外挿（外れた範囲の予測）を信じる。回帰直線は訓練データの x 範囲内でのみ妥当です。都道府県データで「人口 5,000 万人の県」を予測しても、そんなサンプルは存在しないため精度保証は無く、関係性自体が非線形に折れ曲がる可能性も高いです。予測区間（PI）を必ず表示しましょう。

3. 外れ値・てこ比の高い点を見逃す。1 点の極端な観測値（例：東京都の人口密度）が傾き b を大きく支配することがあります。 Cook 距離・DFBETAS・leverage（h_ii）をチェックし、該当点を除いた感度分析を必ず併記しましょう。

4. 残差の独立性・等分散性を確認しない。残差プロットでファネル状（分散が右に行くほど広がる）になっていれば不均一分散です。 Heteroskedasticity-robust SE（HC0〜HC3）を使うか、重み付き最小二乗（WLS）に切り替えましょう。時系列残差は Durbin-Watson で自己相関を確認します。

5. 「相関 = 因果」の誤読。回帰直線の傾きが有意でも、それは「予測関係」であって介入効果ではありません。第三因子（交絡）の影響を除外したいなら、重回帰での共変量調整、 DID、 IV 法、 RCT などの因果デザインが必要です。

6. 単位を考慮しないで係数を比較する。「所得」が千円単位、「人口」が万人単位だと、 b の絶対値の意味が変わります。変数間で寄与の大小を比較するなら、標準化（z スコア化）してから回帰し、標準化係数 β を使いましょう。

7. 非線形関係を直線で押さえつける。消費と所得は累進的（高所得層では限界消費性向が下がる）など、多くの社会データは非線形です。残差を x に対してプロットしてパターンを目視し、 log 変換・二次項・スプライン回帰の導入を検討しましょう。

🗺️ 概念マップ — 3つの視点で体系を理解する

回帰直線 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「回帰直線」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「回帰直線」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

📌 補足セクション — 回帰直線を SSDSE-B-2026 で確かめる

本セクションは「回帰直線」を 47都道府県データ（SSDSE-B-2026）で具体的に確認するための追加教材です。例として総人口を説明変数、課税対象所得を目的変数とした直線を扱います。

🎨 直感で掴む — 回帰直線

回帰直線を 47都道府県データで直感的に捉えるには、まず「総人口を説明変数、課税対象所得を目的変数とした直線」を思い浮かべます。東京都・大阪府・神奈川県のように総人口が大きい都道府県ほど、課税対象所得や就業者数も大きくなる傾向があり、こうしたデータの「形」を回帰直線は要約します。

たとえば 47都道府県を散布図にすると、右肩上がりの帯状にデータが並びます。この「帯の傾き」「帯のばらつき」「帯から外れる外れ値」を表現する道具が、ここで扱う回帰直線だとイメージしてください。

比喩：47枚のレシート（各都道府県）を 1 本のメジャー（回帰直線）で測る。
具体例：東京（人口 1396万）と鳥取（人口 55万）の差を、 1 つの指標で要約。
図解：横軸総人口、縦軸課税対象所得の散布図を頭に描く。

📐 数式または定義

回帰直線の中心的な数式は次のとおりです（ SSDSE-B-2026 の 47 都道府県 $n=47$ を想定）：

$$ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i, \quad i = 1, 2, \dots, 47 $$ $$ \hat{\beta}_1 = \frac{\sum_{i=1}^{47} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{47} (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$

ここで $x_i$ は総人口、 $y_i$ は課税対象所得、 $\bar{x}, \bar{y}$ はそれぞれの標本平均を表します。回帰直線の解釈は、上式で得られる係数や残差から導かれます。

🧮 実値で計算してみる — 回帰直線

SSDSE-B-2026 の 47都道府県データから、「総人口を説明変数、課税対象所得を目的変数とした直線」を Python で再現します。まず一行で読み込めるよう、引数を直書きしたシンプル版を示します：

# 最小コード（直書き）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv')

続いて、列名はリポジトリ準拠（A1101 総人口、 A1102 男性人口、 D3201 課税対象所得、等）の本番コードです。

import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=[0,1,2])
# 列名を 3 段ヘッダの最下段だけ採用（コード列： A1101, D3201 等）
df.columns = [c[-1] for c in df.columns]

# 2022 年の 47都道府県スナップショット
sub = df[df['年度コード'] == 2022].copy()
x = sub['A1101'].astype(float)   # 総人口
y = sub['D3201'].astype(float)   # 課税対象所得

# 回帰直線の基礎統計
x_mean, y_mean = x.mean(), y.mean()
beta1 = ((x - x_mean) * (y - y_mean)).sum() / ((x - x_mean) ** 2).sum()
beta0 = y_mean - beta1 * x_mean

print(f'n = {len(x)}')             # 47
print(f'beta1 = {beta1:,.4f}')     # 傾き
print(f'beta0 = {beta0:,.4f}')     # 切片
print(f'相関係数 = {x.corr(y):.4f}')  # 0.95+ になる

# 残差・決定係数も計算
y_hat = beta0 + beta1 * x
resid = y - y_hat
ss_res = (resid ** 2).sum()
ss_tot = ((y - y_mean) ** 2).sum()
r2 = 1 - ss_res / ss_tot
print(f'R^2 = {r2:.4f}')

このコードを実行すると、 47都道府県データから回帰直線に関連する係数・指標が直接得られます。 SSDSE-B-2026 が手元にない場合は、統計データ活用コンペティション公式ページからダウンロードしてください。

⚠️ 補足の落とし穴

都道府県データはサンプルサイズ 47 が固定：標本数を増やせないため、統計的検定の検出力は中程度に留まります。解釈時にこの限界を意識してください。
スケールの違い：総人口（百万単位）と課税対象所得（百億単位）など、桁が大きく異なる変数は標準化して扱うのが安全です。
東京・大阪等の影響点：少数の大都市が回帰や相関の結果を大きく動かすことがあります。影響統計量（てこ比、クックの距離）の確認を推奨します。

🔗 関連用語（補足リンク）

相関係数最小二乗法残差決定係数共分散 p 値標準誤差多重共線性

🔬 数式を言葉で読み解く — 回帰直線の中身を完全分解

回帰直線 $\hat y = a + b x$ の数式は短いが、各記号には5 つの言葉が同時に詰まっています。計算で機械的に出るのは a と b だけですが、それを支える $\bar x$ ・ $\bar y$ ・ $S_{xx}$ ・ $S_{xy}$ それぞれが「どんな質問に答えているか」を見ていきます。

記号 → 言葉 → 役割

記号	言葉	役割
$x_i$	i 番目の説明変数の値	原因として位置付けた量（例: 一人当たり県民所得）
$y_i$	i 番目の被説明変数の値	結果として説明したい量（例: 一世帯当たり消費支出）
$\bar x$	x の標本平均	直線が必ず通る基準点の x 座標
$\bar y$	y の標本平均	直線が必ず通る基準点の y 座標
$S_{xx}$	x の偏差平方和 $\sum (x_i-\bar x)^2$	x がどれだけ広がっているかの「足場の広さ」
$S_{xy}$	偏差積和 $\sum (x_i-\bar x)(y_i-\bar y)$	x と y の連動の符号と強さ
$b = S_{xy}/S_{xx}$	傾き	x が 1 単位増えたとき y が平均的にどれだけ変わるか
$a = \bar y - b\bar x$	切片	$\bar x$, $\bar y$ を必ず通すための調整
$\hat y_i$	i 番目の予測値	直線が i 番目の x に対して予測する y
$e_i = y_i-\hat y_i$	残差	直線では説明できなかった量。評価と診断の中心。

「直線が必ず $(\bar x, \bar y)$ を通る」の意味

最小二乗法の正規方程式の第一式は、残差の和が 0 になることを保証します。残差の和が 0 ということは、平均で見ると過大予測も過小予測も打ち消し合うということです。これが「直線が必ず $(\bar x, \bar y)$ を通る」という性質に直結します。 SSDSE-B-2026 で 47 都道府県の点を眺めながらこの一点を強調すると、「外れ値が偏る方向に直線が引っ張られる」イメージが直感で掴めます。

$b$ の符号と相関係数の符号は必ず一致する

$b = S_{xy}/S_{xx}$、 $r = S_{xy}/\sqrt{S_{xx} S_{yy}}$。分母は常に正なので、 $b$ と $r$ の符号は $S_{xy}$ の符号で同じになります。したがって「相関が正なら傾きも正、相関が負なら傾きも負」 — 別々の概念に見えて、符号の情報源は同一です。

📚 関連グループ教材 — 回帰直線を体系で理解する

回帰直線は単一の式ですが、「単回帰 → 多重回帰 → 一般化線形モデル → 機械学習回帰」という階段の最初の段です。 SSDSE-B-2026 を題材にこの階段を上ると、「線が動く理由」を 4 つの段階で体得できます。

このページから飛べる主要グループ教材

処置群・対照群グループ教材 — 回帰直線の傾きを「因果効果」として読むときの落とし穴を扱います。
時系列グループ教材 — 時系列回帰における自己相関と通常の OLS の違いを整理します。
クラスタリング・グループ教材 — 「直線では説明できない構造」をクラスタで掴むための入り口。

SSDSE-B-2026 における回帰直線学習の流れ（推奨）

散布図で 2 変数の関係を眺める。
相関係数で線形連動の強さを確認する。
単回帰で傾きと切片を計算する。
多重回帰に進み、他要因をコントロールした上での傾きを得る。
ロバスト統計で外れ値に強い回帰へ移行する。

到達目標

「単回帰の傾き」と「多重回帰の偏回帰係数」の意味の違いを言語化できる。
SSDSE-B-2026 で東京都・沖縄県のような点が直線の傾きをどれだけ動かすか実験できる。
回帰直線 → GLM → 機械学習という抽象化の階段を上れる。

❓ よくある質問 — 回帰直線の実務 12 問

Q1. 回帰直線と相関係数はどう違うか

相関係数は強さと方向を 1 つの数字で要約、回帰直線は予測の関係式。相関 0.7 でも傾きが大きいか小さいかは別問題。

Q2. 切片に意味はあるか

x=0 が実データの範囲外なら、切片自体は解釈不要。 SSDSE-B-2026 で「県民所得 0 円の県」は存在しないので、切片は「直線が $(\bar x, \bar y)$ を通すための調整」に過ぎない。

Q3. 単回帰と多重回帰のどちらを使うべきか

説明変数候補が複数あり、それらが互いに相関しているなら多重回帰。単回帰の傾きは「他要因をコントロールしていない」ことを忘れない。

Q4. 外れ値が傾きに与える影響

右端や左端の単一外れ値は傾きを大きく動かす。 SSDSE-B-2026 で東京都を含む/除外する分析を必ず両方行うこと。

Q5. ロバスト回帰はいつ使うか

残差プロットで明らかな外れ値が見えるとき、または分布が重い裾を持つとき。 Huber 損失や Theil-Sen 推定量が選択肢。

Q6. 信頼区間と予測区間の違い

信頼区間は回帰直線の位置の不確実性、予測区間は個別観測値の不確実性。予測区間の方が常に広い。

Q7. 残差プロットで何を確認するか

(1) ランダムに散らばっているか（線形性）、 (2) 一定の幅を保つか（等分散性）、 (3) 正規分布に近いか（正規性）、 (4) 個別に大きな点はないか（外れ値・てこ）。

Q8. 多重共線性は回帰直線に影響するか

単回帰では関係ない。多重回帰では係数の標準誤差が爆発し、解釈不能になる。 VIF が 10 を超えると要警戒。

Q9. 「相関は因果でない」を超えるには

無作為化、自然実験、操作変数、 DID、 RDD のいずれかが必要。通常の回帰直線では因果は語れない。

Q10. 多項式回帰と線形回帰

$y = a + b x + c x^2$ はパラメータについては線形なので OLS で推定可能。形状を変えてフィットさせたいときに使う。

Q11. 回帰直線と機械学習回帰の違い

線形回帰は「解釈可能・漸近性質が確立・推論可能」、 ML 回帰（XGBoost ・ NN）は「予測性能・ブラックボックス」。用途で使い分ける。

Q12. 標準誤差・p 値の解釈

p 値は「真の傾きが 0 だったとして、この大きさの傾きが偶然出る確率」。効果量も併せて報告する。 p < 0.05 だけで議論しない。

📋 ケーススタディ — SSDSE-B-2026 で回帰直線が変わる 4 シナリオ

シナリオ A: 全 47 県でフィット

一人当たり県民所得と消費支出で単回帰。傾きは正で、「所得 1 万円増で消費 0.7 万円増」程度の関係が読める。ただし東京都が右上に大きく離れている。

シナリオ B: 東京都を除外

東京都を除外すると、残り 46 県では傾きがやや小さくなる可能性が高い。これは「東京都が傾きを引っ張っていた」ことの証拠。

シナリオ C: ログ変換

所得・消費の両方を log 化してから回帰すると、傾きは「弾力性」になる。つまり「所得 1% 増で消費 0.X% 増」と読み替えられる。

シナリオ D: 高齢化率で層別

高齢化率の中央値で県を 2 群に分け、群別に回帰すると傾きが異なる。これは「異質処置効果」の入り口で、相互作用項を入れる動機になる。

📖 回帰直線関連用語ミニ辞典 — 12 語

回帰直線: y = a + bx の関係式。 OLS で a, b を決定。
傾き (slope): x が 1 単位増えたときの y の平均変化量。
切片 (intercept): x=0 のときの y の予測値。解釈は文脈依存。
残差 (residual): 観測値 - 予測値。直線で説明できなかった部分。
決定係数 R^2: y の分散のうち回帰直線で説明される割合。
標準誤差: 傾き・切片の推定値のばらつき。
OLS (Ordinary Least Squares): 残差二乗和最小化による直線フィッティング。
等分散性 (homoscedasticity): 残差の分散が x に依存しない性質。
異分散性 (heteroscedasticity): 残差の分散が x で変わる性質。 White SE で対処。
外れ値の影響: てこ比 (leverage) と Cook 距離で評価。
ロバスト回帰: Huber ・ Theil-Sen など外れ値に強い回帰族。
予測区間: 個別観測値の不確実性。信頼区間より広い。

✨ ベストプラクティス集 — 回帰直線を引く作法 12 箇条

必ず散布図を先に描く。数値だけで回帰係数を信じない。
残差プロットを 4 種類描く（vs x, vs ŷ, Q-Q, レバレッジ）。
外れ値の影響を Cook 距離・ DFFITS で評価する。
信頼区間と予測区間を区別して報告する。
変換（log ・ Box-Cox）を躊躇わない。
OLS の仮定（線形・独立・等分散・正規）を必ず確認。
異分散があれば White SE で標準誤差を補正。
外れ値があればロバスト回帰を併用。
切片の解釈は文脈に合わせて控えめに。
多項式・相互作用は VIF をチェック。
多重共線性が強ければ Ridge ・ Lasso へ。
因果を語るなら回帰直線では足りない。設計を強化。

📝 練習問題 — SSDSE-B-2026 で回帰直線分析 4 タスク

練習 1: 単回帰

「一人当たり県民所得 → 消費支出」の単回帰を全 47 県で実施し、傾き・切片・ R^2 を報告せよ。

練習 2: 外れ値の影響

東京都を除外して再フィットし、傾きがどれだけ変わるかを定量化せよ。

練習 3: ログ変換

両変数を log 化して再フィットし、傾きの解釈が「弾力性」になることを確認せよ。

練習 4: 残差診断

残差 vs 予測値、 Q-Q プロット、 Cook 距離プロットを描き、 OLS の仮定がどこで崩れるかを特定せよ。

📜 歴史的文脈 — 回帰直線の発展

「回帰」という用語は Galton (1886) の身長研究に由来します。親の身長と子の身長の関係を調べた Galton は、親の身長が平均から離れているほど、子の身長は平均に「回帰」する傾向を見出し、これを regression toward the mean と名付けました。

歴史的マイルストーン

1805: Legendre が最小二乗法を発表。
1809: Gauss が正規分布と最小二乗法の関係を示す。
1886: Galton が「回帰」の概念を導入。
1896: Pearson が相関係数を体系化。
1922: Fisher が最尤推定法を提唱。
1959: Gauss-Markov 定理が現代的に再定式化。
1970-80 年代: ロバスト回帰の発展（Huber, Tukey, Rousseeuw）。
2000 年代: スパース回帰 (Lasso, Elastic Net) の隆盛。

✅ 回帰直線フィッティングの最終チェックリスト 12 項目

散布図を回帰前に必ず描いたか。
残差 vs x、残差 vs ŷ、 Q-Q プロット、レバレッジプロットの 4 種類を確認したか。
Cook 距離・ DFFITS で外れ値の影響を評価したか。
信頼区間と予測区間を区別して報告したか。
変換（log ・ Box-Cox）の選択肢を検討したか。
OLS の 4 仮定（線形性・独立性・等分散性・正規性）を確認したか。
異分散があれば White SE で標準誤差を補正したか。
外れ値があればロバスト回帰を併用したか。
切片の解釈を文脈に合わせて控えめに行ったか。
多重共線性が強ければ Ridge ・ Lasso を検討したか。
因果を語る場合、設計（無作為化・ IV ・ DID ・ RDD）を強化したか。
SSDSE-B-2026 で東京都を含む/除外する 2 通りの分析を行ったか。

📝 まとめノート — 回帰直線

このページは「回帰直線」を SSDSE-B-2026 (47 都道府県 × 多変量) を題材に体系的に学ぶための一気通貫の教材です。単なる用語定義集ではなく、「直感 → 数式 → 実装 → 落とし穴 → 関連手法」という流れで一周することで、業務での意思決定にそのまま使える知識に組み上げます。

本ページで取り上げた手法・記号・コード例は、すべて実データの 47 都道府県を入力として動作する形にしてあります。合成データに依存しないため、 SSDSE-B-2026 を data/raw/SSDSE-B-2026.csv として配置するだけでコード片を再現できます。

関連グループ教材へのリンクを使い、「この用語が属する大きな分野」を俯瞰してから戻ってくると、知識が一段抽象化された形で定着します。用語ページは点、グループ教材は線、概念マップは面 — 三層を往復しながら学習を進めてください。

本ページの内容に不足を感じたら、相関ページ（correlation.html）を参照基準として、ご自身の解釈を加筆していくことを推奨します。教材の完成形ではなく、学習者自身の理解の出発点として位置付けてください。

最後に、 SSDSE-B-2026 の 47 都道府県データは「N=47 と少ない」という構造的制約があります。統計検定の漸近近似が崩れる場面、単一の県（東京都・沖縄県）が全体傾向を支配する場面、標準誤差が過小評価される場面 — これらは本ページの随所で繰り返し注意喚起しました。「実データの小ささを軽視しない」という姿勢が、実務でのデータサイエンティストの基本姿勢です。