単回帰分析 (Simple Linear Regression)

📖 もっと詳しく

単回帰（simple linear regression）は、 1つの説明変数 x で目的変数 y を予測する最もシンプルな回帰モデル。「気温が1℃上がると消費電力量は何 kWh 増える？」のような問いに答えます。

モデル式：$y = \alpha + \beta x + \varepsilon$

$\alpha$（切片）：x = 0 のときの y の値
$\beta$（傾き）：x を 1 単位増やすと y がどれだけ変わるか
$\varepsilon$（誤差項）：モデルで説明できない部分

OLS で推定：「残差の2乗和」が最小になる α と β を選びます。これが最も「データに合う直線」となります。

R²（決定係数）：このモデルで y の分散の何 % が説明できるか。単回帰の場合、 $R² = r²$（相関係数の2乗）の関係。

相関係数との関係：β = r × ($\sigma_y / \sigma_x$)。 β の符号と相関係数 r の符号は必ず一致します。ただし強さの解釈は別物（β は単位依存、 r は標準化済み）。

限界：1変数だけでは交絡因子を制御できません。多くの社会現象は複数の要因が絡むので、単回帰だけで因果を語るのは危険。重回帰へ進むのが筋。

👁️ 直感 — 単回帰は「2変数の線形関係」

単回帰は最も基本的な回帰モデル。 1つの説明変数 x で目的変数 y を予測する直線を引きます：y = β₀ + β₁ x + ε

食料費（x）から教育費（y）を予測する単回帰。赤い直線が回帰直線、オレンジ帯が95%予測区間。

📐 数式と読み方

モデル式

$$ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i $$

β₀（切片）、 β₁（傾き）、 ε（誤差項、平均0・分散σ²の独立正規）

最小二乗解

$$ \hat{\beta}_1 = \frac{\text{Cov}(x, y)}{\text{Var}(x)} = r \frac{s_y}{s_x} $$

$$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$

「平均点 (x̄, ȳ) を通る、傾き β₁ の直線」。

係数の解釈

β₀（切片）：x=0 のときの y の予測値
β₁（傾き）：x が1単位増えた時の y の変化量
残差 ε：観測値と予測値のズレ。モデルで説明できない部分

📊 単回帰の評価

R²（決定係数）：x が y のばらつきを説明する割合（0〜1）
傾きの t検定：β₁ ≠ 0 を統計的に検定
残差プロット：仮定の確認
F検定：モデル全体の有意性

🐍 Python での単回帰

from scipy import stats
slope, intercept, r, p, se = stats.linregress(x, y)
print(f'傾き: {slope:.3f}, 切片: {intercept:.3f}')
print(f'R²: {r**2:.3f}, p: {p:.4f}')

# statsmodels で詳細
import statsmodels.api as sm
X = sm.add_constant(x)
model = sm.OLS(y, X).fit()
print(model.summary())

予測区間と信頼区間

predictions = model.get_prediction(X)
summary = predictions.summary_frame(alpha=0.05)
# mean_ci_lower, mean_ci_upper（平均の信頼区間）
# obs_ci_lower, obs_ci_upper（個別予測の予測区間）

🚀 重回帰への拡張

説明変数を増やせば重回帰に：y = β₀ + β₁x₁ + β₂x₂ + ... + βₚxₚ + ε

各係数は「他の変数を一定にしたときの x_j 1単位増の影響」と解釈。これが偏回帰係数の意味。

🚧 落とし穴と注意点

サンプルサイズを確認（小標本では結果が不安定）
仮定の検証（正規性、独立性、等分散性）
外れ値の影響を散布図で確認
多重比較問題（複数検定時は補正を）
p値だけで判断しない、効果量と信頼区間を併記
因果関係を主張するには別の根拠が必要

🔬 「単回帰」を深く理解する

単回帰の応用

需要予測：価格 → 売上数
労働市場：教育年数 → 賃金
不動産：床面積 → 価格
マーケティング：広告費 → 認知度
医療：年齢 → 血圧

単回帰の重要な性質

回帰直線は必ず (x̄, ȳ) を通る
残差の合計はゼロ
残差と x の相関はゼロ
残差と ŷ の相関はゼロ
β₁ × β₁' = r²（x→y と y→x の傾き積）

📝 練習問題 — 理解度チェック

この用語の基本定義を、自分の言葉で説明できますか？
この手法が使われる典型的なシナリオを3つ挙げられますか？
この手法の前提条件・仮定を確認できますか？
結果を解釈する際の注意点は何ですか？
類似手法との違いを説明できますか？
Python（または他言語）で実装できますか？
SSDSE データで応用例を作成できますか？

🔗 さらに学ぶための関連用語

このトピックの理解を深めるには、以下の関連概念も合わせて学習することをお勧めします。概念マップから直接ジャンプできます：

基礎：平均、分散、標準偏差、相関係数
推測：信頼区間、 p値、標準誤差、有意水準
関連手法：他の検定・回帰モデル
応用：機械学習での実装

📚 参考文献・さらなる学習

古典的教科書

Casella & Berger "Statistical Inference"
Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression and Multilevel/Hierarchical Models"

実践書

VanderPlas "Python Data Science Handbook"
McKinney "Python for Data Analysis"
James, Witten, Hastie & Tibshirani "An Introduction to Statistical Learning"

オンラインリソース

scikit-learn 公式ドキュメント
statsmodels 公式ドキュメント
scipy.stats リファレンス
SSDSE データ（統計データ活用コンペティション）

💼 実務応用ガイド

データサイエンスプロジェクトでの位置づけ

探索的分析（EDA）：基本統計量・可視化でデータを理解
前処理：標準化・正規化・欠損値処理
モデリング：回帰・分類・クラスタリング
評価：CV、指標計算、統計的検定
解釈・報告：効果量・信頼区間・可視化

業界別ユースケース

マーケティング：顧客セグメンテーション、 ROI 分析、 A/Bテスト
金融：ポートフォリオ最適化、リスク評価、信用スコアリング
医療：臨床試験、疫学研究、診断モデル
製造：品質管理、予測保全、工程最適化
公共政策：社会統計、政策効果分析、計画立案

📖 完全ガイド — 統計学習の参照表

分析の流れ — 8ステップ

問題定義：何を知りたいのか、目的を明確に
データ収集：信頼できるソースから（SSDSEなど公的データ）
データクリーニング：欠損値、外れ値、入力ミスの確認
探索的分析（EDA）：要約統計量、ヒストグラム、散布図
変数変換：標準化、対数変換、カテゴリのエンコード
モデリング：適切な手法を選び、学習
評価：CV、指標、統計的検定
解釈・報告：効果量、信頼区間、可視化

統計手法の選び方マトリクス

目的	1変数	2変数	多変量
記述	平均, 中央値, 分散	相関, 共分散	PCA, 因子分析
可視化	ヒストグラム, 箱ひげ	散布図, ヒートマップ	散布図行列, バイプロット
予測	時系列モデル	単回帰	重回帰, Ridge, LASSO
分類	ロジスティック回帰	判別分析	SVM, RF, NN
グループ化	階級分け	2次元クラスタリング	k-means, 階層クラスタリング
検定	1標本t検定	2標本t検定, χ²	ANOVA, MANOVA

サンプル数別の手法ガイド

n	推奨手法
n < 10	記述統計のみ、ノンパラ検定、ベイズ統計
10 ≤ n < 30	t検定, ブートストラップ, 単回帰
30 ≤ n < 200	重回帰, ANOVA, 階層クラスタリング
200 ≤ n < 10000	複雑な回帰, RF, GBM, k-means
n ≥ 10000	深層学習, 大規模分散学習

Python 主要ライブラリ早見表

ライブラリ	用途
numpy	数値計算の基礎、行列演算
pandas	データフレーム、表操作
scipy	統計関数、最適化、線形代数
statsmodels	古典統計、検定、回帰分析の詳細
scikit-learn	機械学習、前処理、評価
matplotlib	基本可視化
seaborn	統計的可視化（高級）
plotly	インタラクティブ可視化
xgboost / lightgbm	勾配ブースティング
PyTorch / TensorFlow	深層学習

よくある質問（FAQ）

Q: 正規分布じゃないデータをどう扱う？
A: 対数変換、 Box-Cox 変換、ノンパラ検定、ブートストラップ
Q: 外れ値を除くべき？
A: ドメイン知識で判断。機械的に除くより、ロバスト手法を検討
Q: サンプルサイズはいくつあれば十分？
A: 効果量と検出力から事前計算（power analysis）
Q: p < 0.05 で「効果あり」と結論していい？
A: 効果量と信頼区間も併記。多重比較補正も
Q: 相関があれば因果がある？
A: ない。 RCT、 IV、 DiD などの因果推論手法が必要

📓 用語のまとめ — 30秒で理解

このページで扱った概念を、学習効率のためにまとめます。これを毎日見ることで、統計の基礎が体に染み込みます。

必ず押さえるべき記号

記号	意味	読み方
μ	母平均	ミュー
σ	母標準偏差	シグマ
σ²	母分散	シグマ二乗
x̄	標本平均	エックスバー
s	標本標準偏差	エス
n	標本サイズ	エヌ
p	p値、比率	ピー
α	有意水準	アルファ
β	回帰係数、第二種誤り率	ベータ
r	相関係数	アール
R²	決定係数	アール二乗
Σ	総和記号、共分散行列	シグマ大文字
N(μ, σ²)	正規分布	ノーマルミューシグマ二乗
t(df)	t分布	ティー
χ²(df)	カイ二乗分布	カイ二乗
F(d1, d2)	F分布	エフ
H₀, H₁	帰無仮説、対立仮説	エイチゼロ、エイチワン
E[X]	期待値	エクスペクタンス
Var(X)	分散	バリアンス
Cov(X, Y)	共分散	カバリアンス

💡 統計学・データサイエンスは「記号の意味を理解する」ことが最初の壁。各記号が何を表すか、公式の中での役割を覚えてしまえば、後はパターンの組合せで様々な手法が理解できます。

🌐 データサイエンス全体像での位置づけ

データサイエンスのワークフロー

ビジネス理解：何を解決したいか
データ理解：どんなデータがあるか
データ準備：前処理、特徴量エンジニアリング
モデリング：手法選択、学習
評価：性能、解釈性、ビジネス価値
展開：実装、運用、監視

(CRISP-DM プロセスより)

主要分野のマッピング

分野	主要技術	代表ツール
記述統計	要約量、可視化	pandas, matplotlib
推測統計	検定、信頼区間	scipy.stats, statsmodels
機械学習	予測、分類、クラスタリング	scikit-learn, XGBoost
深層学習	NN、画像、自然言語	PyTorch, TensorFlow
時系列	ARIMA、状態空間、 LSTM	statsmodels, prophet
因果推論	RCT、 IV、 DiD、 PSM	DoWhy, EconML
ベイズ統計	MCMC、変分推論	PyMC, Stan
最適化	線形/凸/離散最適化	scipy.optimize, cvxpy

キャリアパス

データアナリスト：記述統計、可視化、 BI
データサイエンティスト：機械学習、統計モデリング
機械学習エンジニア：モデル実装、デプロイ、 MLOps
統計学者・計量経済学者：因果推論、統計的検定
研究者：新しい手法開発

💎 良いデータ分析のための10のコツ

必ず可視化から始める：散布図、ヒストグラム、箱ひげ図
外れ値を意識する：除く前にドメイン的に理解
仮定を確認する：正規性、独立性、等分散性
サンプルサイズに見合う複雑性：n=10 で深層学習はしない
効果量も併記する：p値だけでは不十分
信頼区間で不確実性を示す：点推定だけでは誤解の元
多重比較を補正する：探索的解析でも誠実に
ホールドアウト or CV で評価する：訓練データの精度は意味がない
解釈可能性も重視する：ブラックボックスより white-box
再現可能なコードを書く：random_seed、バージョン管理

🔗 用語間の関係 — 統計概念のネットワーク

記述統計の基本セット

これらは互いに深く関連します：

平均：データの重心 → 偏差の合計はゼロ
分散：偏差の二乗の平均 → 平均からの広がり
標準偏差：分散の平方根 → 元の単位
共分散：2変数の偏差の積の平均 → 一緒に動くか
相関係数：共分散を標準偏差で割ったもの → 単位なし

推測統計の基本セット

標準誤差：推定値のばらつき = σ/√n
信頼区間：x̄ ± z × SE
p値：H₀ のもとでの確率
有意水準 α：許容する第一種誤り率
検出力 1-β：差を見つける確率
効果量：差の大きさ（標準化済み）

回帰モデルファミリー

単回帰：1変数 → 1変数の予測
重回帰：多変数 → 1変数
Ridge：L2正則化付き重回帰
LASSO：L1正則化（変数選択付き）
Elastic Net：L1+L2の組合せ
ロジスティック回帰：分類用
ポアソン回帰：カウントデータ用

クラスタリング・次元削減ファミリー

k-means：分割クラスタリング
階層クラスタリング：ツリー構造
Ward法：分散最小化の階層クラスタリング
DBSCAN：密度ベース
PCA：線形次元削減
因子分析：潜在因子モデル
t-SNE, UMAP：非線形次元削減

検定ファミリー

t検定：1〜2 群の平均比較
F検定（ANOVA）：3群以上の平均比較
χ²検定：カテゴリ変数の独立性
Mann-Whitney U：t検定のノンパラ版
Kruskal-Wallis：ANOVAのノンパラ版
Wilcoxon：対応のあるt検定のノンパラ版

🗺️ 概念マップ — 3つの視点で体系を理解する

単回帰分析 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 統計・データサイエンス › 関連・回帰 › 回帰 › 単回帰

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「単回帰分析」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「単回帰分析」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引 — 拡張版

単回帰分析（simple linear regression）に関する用語を、仮定・推定・診断・関連手法別に索引化します。

カテゴリ	キーワード（日本語）	キーワード（英語）
基本要素	説明変数、目的変数、切片、傾き、残差、予測値	predictor, response, intercept, slope, residual, fitted
推定法	最小二乗法（OLS）、最尤推定、ロバスト回帰、加重最小二乗	OLS, MLE, robust regression, WLS
評価指標	決定係数 R²、自由度調整R²、 RMSE、 MAE、残差標準誤差	R-squared, adjusted R², RMSE, MAE, RSE
仮定	線形性、独立性、等分散性、正規性、外れ値なし	linearity, independence, homoscedasticity, normality
診断	残差プロット、 QQプロット、てこ比、 Cook距離、標準化残差	residual plot, QQ plot, leverage, Cook's distance
関連手法	重回帰、多項式回帰、ロジスティック回帰、リッジ、ラッソ	multiple regression, polynomial, logistic, ridge, lasso

🧮 SSDSE-B で単回帰分析 — 実値計算例

SSDSE-B の都道府県データから「教育支出（x）」が「平均所得（y）」をどれだけ説明するか、単回帰で分析します。

① 主要な統計量（イメージ値）

統計量	値	説明
x̄（教育支出）	15.2 万円	説明変数の平均
ȳ（平均所得）	304 万円	目的変数の平均
Sxy（共分散）	125	x と y の連動
Sx² （xの分散）	12	x の分散

② 傾きと切片の計算

β₁ = Sxy / Sx² = 125 / 12 ≈ 10.4
β₀ = ȳ − β₁ x̄ = 304 − 10.4 × 15.2 ≈ 146
回帰式：所得 = 146 + 10.4 × 教育支出
解釈：教育支出を1万円増やすと、平均所得は約10.4万円増えると推定される（相関であり因果ではない）。

③ 決定係数 R²

R² = 1 − SSres/SStot ≈ 0.62
所得の変動の62%が教育支出で説明できる。残り38%は他の要因。単回帰で十分な精度。さらに精度を上げたいなら重回帰や他の変数を追加検討。

⚠️ 単回帰の落とし穴 — 拡張版（実務で本当に困る5＋件）

因果関係と相関関係の混同：「教育支出を増やすと所得が増える」と単純に解釈すると因果推論の誤りを犯す。逆因果（所得が高いから教育に投資できる）、共通の原因（親の学歴）、同時性などの可能性を考慮する必要がある。観察データで因果を主張するには操作変数法、 RCT、自然実験などが必要。単回帰の係数は相関の方向性を示すに過ぎない。
外れ値による傾きの劇的な変化：1点の外れ値で傾きが大きく変わる。特に「てこ比（leverage）」の高い点（x が極端な点）は影響大。 Cook距離が0.5を超える点は要チェック。ロバスト回帰（Huber、 RANSAC）の使用、外れ値の除外と感度分析を行う。「東京都を含めるか除外するか」で結論が変わる典型例。
線形仮定の盲信：本当の関係が U字や対数関数なのに線形を当てはめると、体系的に外れる。残差プロットで「パターンがない」ことを必ず確認する。パターンが見えるなら多項式項追加、対数変換、ノンパラメトリック回帰（LOESS等）を検討。外挿（データ範囲外の予測）は特に危険。
残差の不均一分散（heteroscedasticity）：残差の分散が x によって変わると、標準誤差が誤って計算される。 Breusch-Pagan 検定、 White検定で確認。対策はロバスト標準誤差（HC0〜HC3）、加重最小二乗、対数変換。信頼区間や p値の解釈を誤らないため必須。
残差の自己相関（系列相関）：時系列データでは隣接時点の残差が相関しやすい。 Durbin-Watson 統計量が 1.5未満または 2.5超で自己相関の疑い。対策は時間的ラグ項の追加、 ARIMA、一般化最小二乗（GLS）、 Newey-West 標準誤差。経済データや株価では特に問題になる。
R² だけで判断する：R² が高い ≠ モデルが良い。過学習、真の関係が複雑、説明変数の選び方など多くの問題が背景にある。 R² と一緒に残差プロット、 QQプロット、 Cook距離、予測誤差（交差検証）を見るべき。また R² は決して「説明変数を増やすと下がらない」ので、比較には自由度調整R² を使う。
係数の有意性と実質的意味の混同：n が大きいと小さな係数でも有意になる。「p<0.05」だけでなく、係数の大きさ（経済的・実質的に意味があるか）と信頼区間を併せて議論する。

🐍 Python 実装バリエーション — scikit-learn / statsmodels / scipy / numpy

① scikit-learn（機械学習パイプライン向け）

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

df = pd.read_csv('data/raw/SSDSE-B-2024.csv', encoding='shift_jis', skiprows=1)
X = df[['教育支出']]  # 単変量でも2次元
y = df['平均所得']
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3, random_state=0)

model = LinearRegression().fit(X_tr, y_tr)
print(f'切片={model.intercept_:.2f}, 傾き={model.coef_[0]:.3f}')
print(f'訓練R²={model.score(X_tr, y_tr):.3f}, テストR²={model.score(X_te, y_te):.3f}')

② statsmodels（推測統計、詳細サマリ）

import statsmodels.api as sm
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2024.csv', encoding='shift_jis', skiprows=1)
X = sm.add_constant(df['教育支出'])  # 切片用の定数列
y = df['平均所得']

result = sm.OLS(y, X).fit()
print(result.summary())
# 係数、 標準誤差、 t値、 p値、 95%CI、 R²、 F検定 など一括
print('予測区間:', result.get_prediction(X).summary_frame(alpha=0.05).head())

③ scipy.stats.linregress（最もシンプル）

from scipy.stats import linregress
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2024.csv', encoding='shift_jis', skiprows=1)
res = linregress(df['教育支出'], df['平均所得'])
print(f'傾き={res.slope:.3f} (SE={res.stderr:.3f})')
print(f'切片={res.intercept:.2f}')
print(f'r={res.rvalue:.3f}, R²={res.rvalue**2:.3f}')
print(f'p値={res.pvalue:.4f}')

④ numpy（行列演算で実装）

import numpy as np
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2024.csv', encoding='shift_jis', skiprows=1)
x = df['教育支出'].to_numpy()
y = df['平均所得'].to_numpy()

# 正規方程式
X = np.column_stack([np.ones_like(x), x])
beta = np.linalg.lstsq(X, y, rcond=None)[0]
print('β =', beta)  # [切片, 傾き]

# numpy.polyfit でも同じ
beta2 = np.polyfit(x, y, 1)
print('polyfit:', beta2)

⑤ ロバスト回帰（外れ値耐性）

from sklearn.linear_model import HuberRegressor, RANSACRegressor

huber = HuberRegressor().fit(X_tr, y_tr)
ransac = RANSACRegressor(random_state=0).fit(X_tr, y_tr)
print('Huber slope:', huber.coef_[0])
print('RANSAC slope:', ransac.estimator_.coef_[0])

⑥ 可視化（散布図 + 回帰直線 + 信頼区間）

import seaborn as sns
import matplotlib.pyplot as plt

sns.regplot(data=df, x='教育支出', y='平均所得', ci=95,
            scatter_kws={'alpha':0.6}, line_kws={'color':'red'})
plt.title(f'単回帰：所得 = β₀ + β₁ × 教育支出')
plt.show()

🔗 関連用語ネットワーク — 前提・並列・発展（各4個以上）

🔻 前提となる用語

相関係数 — 単回帰の傾きと密接に関連（β₁ = r × Sy/Sx）。
平均 — 回帰直線は (x̄, ȳ) を通る。
分散・共分散 — 傾きの計算式に登場。
散らばり指標 — 残差の分散として再登場。
最小二乗法（OLS） — 推定の原理。

🔺 並列の用語

重回帰分析 — 説明変数が2つ以上に拡張。
多項式回帰 — 線形を曲線に拡張。
ロジスティック回帰 — 目的変数が二値の場合。
ノンパラメトリック回帰（LOESS） — 関数形を仮定しない。
分位点回帰 — 中央値や四分位を予測する代替。

🔼 発展的な用語

正則化回帰（Ridge、 Lasso、 ElasticNet） — 多重共線性・過学習対策。
一般化線形モデル（GLM） — Poisson、ガンマ、二項分布などへ拡張。
操作変数法・2SLS — 内生性問題への対策。
混合効果モデル — 階層構造データ。
ニューラルネットワーク — 非線形の極限。
ガウス過程回帰 — ベイズ的なノンパラ回帰。

📍 あなたが今見ているもの

💡 30秒で分かる結論