回帰係数 (Regression Coefficient)

📖 もっと詳しく

回帰係数（regression coefficient, β）は、回帰分析の最重要アウトプット。説明変数を1単位増やしたときの目的変数の変化量を表します。

符号と大きさ：

符号 + → 正の影響、符号 − → 負の影響
絶対値が大 → 影響大、小 → 影響小
ただし絶対値は単位に依存するのがネック

単位依存問題：「年収（万円）」と「失業率（%）」の係数を直接比較しても意味がない。「年収を1万円増やすと…」と「失業率を1%増やすと…」では比較対象が違いすぎる。

解決：標準化偏回帰係数。全変数を平均0・分散1に標準化してから回帰すれば、単位の違いを打ち消した β（標準化係数）が出ます。これなら「1標準偏差の変化に対する影響」として直接比較可能。

有意性検定：「β = 0」を帰無仮説として、 t統計量 = β / SE(β) で p値を計算。 p < 0.05 なら「β は0と有意に異なる」と判断。

信頼区間：β ± 1.96·SE。 95%CI が0をまたいでいなければ有意。

因果との関係：β は相関的な関連を測るだけ。因果関係を保証するものではない。交絡を制御するのが目的だが、観測されない交絡は残るリスクがある。

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: SSDSE-B-2026 から回帰係数 β を最小二乗法で推定。 β は「x が 1 増えたとき y が平均どれだけ変わるか」を示す傾き。 単位は y の単位/x の単位。

📥 入力例: data/raw/SSDSE-B-2026.csv
  x = df['A1101']（人口、 千人）
  y = df['B1101']（県内総生産、 億円）

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📤 実行例: β = 8.05（億円/千人）
  α（切片）= -1.21（億円）
  R² = 0.93

💬 読み方: β = 8.05 は「人口 1 千人増で GDP が 8.05 億円増」。 単位を必ず明示。 標準化前の係数は変数の単位に依存し、 単純比較は不可。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: scipy.stats.linregress で SSDSE-B-2026 の単回帰係数を計算。 slope, intercept, rvalue, pvalue, stderr を一括取得。

📥 入力例: data/raw/SSDSE-B-2026.csv
  from scipy.stats import linregress
  x, y = df['A1101'], df['B1101']

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📤 実行例: slope=8.05
 intercept=-1.21
 rvalue=0.965, R²=0.931
 pvalue=1.2e-28
 stderr=0.34

💬 読み方: slope が回帰係数 β。 pvalue が β=0 の仮説検定。 stderr は β の標準誤差。 95% CI は β ± 1.96·stderr。

🌟 効果的なEDAテンプレート

🎯 解説: statsmodels.OLS で SSDSE-B-2026 の重回帰係数を推定。 複数の説明変数で y を予測し、 各係数の有意性を検定。

📥 入力例: data/raw/SSDSE-B-2026.csv
  X = sm.add_constant(df[['人口','GDP per cap']])
  sm.OLS(y, X).fit()

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📤 実行例: coef    std err  t     P>|t|
 const   1.5     1.2     1.3   0.20
 人口    0.0008  0.0001  6.5   0.000
 GDPpc   12.5    3.4     3.7   0.001

💬 読み方: 各係数は「他の変数を一定にしたときの x_i の効果」（部分効果）。 単回帰と重回帰で係数が変わるのは共線性のため。 p<0.05 で有意。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🗺️ 概念マップ — 3つの視点で体系を理解する

回帰係数 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「回帰係数」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「回帰係数」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🧮 SSDSE-B を使った回帰係数の実例 — 医師数の規定要因

SSDSE-B 2020年データで、「医師数_人口10万対」を目的変数、「高齢化率」「県民所得」「人口密度」を説明変数とする重回帰を行います。

① データ準備

🎯 解説: sklearn.linear_model.LinearRegression で SSDSE-B-2026 の重回帰係数を取得。 model.coef_ と model.intercept_ で結果取得。

📥 入力例: data/raw/SSDSE-B-2026.csv
  X = df[['人口','GDP per cap']].values
  y = df['B1101'].values

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2023.csv', encoding='shift_jis', header=[0,1])
df.columns = ['_'.join(c).strip() for c in df.columns]
d = df[df['年度_Year'] == 2020][['医師数_人口10万対', '高齢化率',
                                '1人当たり県民所得', '人口密度']].dropna()
print(d.describe())

📤 実行例: model.coef_ = [0.0008, 12.5]
 model.intercept_ = 1.5
 model.score(X,y) = 0.94

💬 読み方: sklearn は p 値・SE を返さない。 統計検定なら statsmodels。 score は R²。 学習データで score が高くても汎化性能は CV で確認。

② statsmodels で重回帰

🎯 解説: 回帰係数の標準誤差（SE）を計算。 SSDSE-B-2026 で各係数の不確実性を定量化し、 t 値 = β/SE で有意性検定。

📥 入力例: data/raw/SSDSE-B-2026.csv
  Var(β) = σ²·(X'X)⁻¹
  SE = sqrt(対角要素)

import statsmodels.api as sm
X = sm.add_constant(d[['高齢化率', '1人当たり県民所得', '人口密度']])
y = d['医師数_人口10万対']
model = sm.OLS(y, X).fit()
print(model.summary())

📤 実行例: 係数      SE      t      p
  人口    0.0001  6.5   0.000
  GDPpc   3.4     3.7   0.001
  両方有意

💬 読み方: SE は係数の推定誤差。 SE 小 → 推定が安定。 t = β/SE で標準正規 z 値に近似。 |t| > 1.96 → 5% 有意。

典型的な係数（実値感）：

変数	β（粗）	SE	t	p	95% CI
const	+45.2	50.3	0.90	0.373	[-56, 146]
高齢化率(%)	+7.8	1.6	4.85	<0.001	[+4.6, +11.0]
県民所得(万円)	+0.21	0.08	2.6	0.012	[+0.05, +0.37]
人口密度	-0.001	0.0005	-2.0	0.052	[-0.002, 0.00]

解釈：「高齢化率が1%増えると医師数が約7.8人/10万人増える（他変数を一定として）」。単位依存のため標準化が必要。

③ 標準化偏回帰係数で比較

🎯 解説: 回帰係数の信頼区間（95% CI）を計算。 SSDSE-B-2026 で β ± t(α/2, df)·SE で計算し、 0 を含むかで有意性判断。

📥 入力例: data/raw/SSDSE-B-2026.csv
  result.conf_int(alpha=0.05)
  t(0.025, 44) ≈ 2.015

from sklearn.preprocessing import StandardScaler
d_std = pd.DataFrame(StandardScaler().fit_transform(d), columns=d.columns)
X_std = sm.add_constant(d_std[['高齢化率', '1人当たり県民所得', '人口密度']])
model_std = sm.OLS(d_std['医師数_人口10万対'], X_std).fit()
print(model_std.params)
# 高齢化率 β = +0.62（最大）、 県民所得 β = +0.32、 人口密度 β = -0.25
# → 「高齢化率」が最も強く影響

📤 実行例: 95% CI
  人口: [0.00058, 0.00102]（0 含まず → 有意）
  GDPpc: [5.7, 19.3]（0 含まず → 有意）

💬 読み方: CI が 0 をまたがない → α=0.05 で有意。 CI 幅広い → 推定不確実。 サンプル数が増えれば CI 狭まる。

④ 多重共線性チェック（VIF）

🎯 解説: 標準化係数（β'）と非標準化係数（β）の違いを確認。 SSDSE-B-2026 で両者を計算し、 変数間の相対重要度を比較。

📥 入力例: data/raw/SSDSE-B-2026.csv
  X_std = (X - X.mean()) / X.std()
  非標準化 β vs 標準化 β'

from statsmodels.stats.outliers_influence import variance_inflation_factor
X_v = d[['高齢化率', '1人当たり県民所得', '人口密度']]
for i, col in enumerate(X_v.columns):
    vif = variance_inflation_factor(X_v.values, i)
    print(f'{col}: VIF = {vif:.2f}')
# 高齢化率: 2.1, 県民所得: 1.8, 人口密度: 1.5
# 全て VIF < 5 で多重共線性は許容範囲

📤 実行例: 変数      β        β'
  人口     0.0008   0.72
  GDPpc    12.5     0.31
  人口の方が相対的に重要

💬 読み方: β は単位依存（億円/千人 vs 億円/万円）で比較不可。 β' は単位なしで「SD 1 単位の効果」、 重要度比較に使用。 |β'| が大きいほど影響大。

🐍 実装バリエーション — statsmodels / scikit-learn / pingouin

(A) statsmodels — 統計的解釈に最適

🎯 解説: 回帰係数の解釈の落とし穴。 SSDSE-B-2026 で「他の変数を固定したとき」という条件付き解釈の重要性を実例で確認。

📥 入力例: data/raw/SSDSE-B-2026.csv
  単回帰 β(人口) = 8.0
  重回帰 β(人口|GDP) = 0.0008

1
2
3

import statsmodels.formula.api as smf
model = smf.ols('医師数 ~ 高齢化率 + 県民所得 + 人口密度', data=d).fit()
print(model.summary())  # 係数、 SE、 t、 p、 CI、 R²、 AIC が一括取得

📤 実行例: 単回帰: 人口 1 増で GDP 8 増
  重回帰: 「他を固定して」人口 1 増で GDP 0.0008 増
  係数が変わる理由 = 共線性

💬 読み方: 単回帰と重回帰で係数が変わるのは多重共線性のため。 重回帰の係数は「他の変数の影響を除いた純粋な効果」。 「他を固定して」の条件を必ず明示。

(B) scikit-learn LinearRegression — 予測重視

🎯 解説: 回帰係数の解釈例。 SSDSE-B-2026 で「人口 +1 千人で GDP +8.05 億円」を具体的に計算し、 政策判断にどう使うかを示す。

📥 入力例: data/raw/SSDSE-B-2026.csv
  鳥取県の人口 547,778 + 10,000 想定
  → GDP 増加分の予測

from sklearn.linear_model import LinearRegression
lr = LinearRegression().fit(X, y)
print(lr.coef_, lr.intercept_)
# 注：p値・SE は出ない。 予測用途には十分

📤 実行例: 人口 +10,000 千人（+10 千人）
  GDP 予測増 = 8.05 × 10 = 80.5 億円
  ただし 95% CI: [62.5, 98.5]

💬 読み方: 係数は「平均的な効果」で個別ケースは予測区間（CI より広い）。 因果でなく相関の関係。 政策効果の試算には注意（reverse causality・外生変数）。

(C) scikit-learn Ridge / Lasso — 正則化

🎯 解説: 回帰係数の安定性チェック。 SSDSE-B-2026 でサンプルを変えて係数の変動を確認。 ブートストラップで分布を可視化。

📥 入力例: data/raw/SSDSE-B-2026.csv
  resample 1000 回
  各回で β 推定

from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.linear_model import RidgeCV, LassoCV
# 多重共線性対策（Ridge）
ridge = RidgeCV(alphas=[0.01, 0.1, 1.0, 10]).fit(X_std, y_std)
# 変数選択（Lasso、 一部係数が0に）
lasso = LassoCV(cv=5).fit(X_std, y_std)
print(lasso.coef_)  # 0 になった変数 = 除外

📤 実行例: β の分布
  平均=8.05, SD=0.32
  95%パーセンタイル: [7.42, 8.68]
  正規近似 CI と整合

💬 読み方: ブートストラップ CI は分布仮定不要でロバスト。 正規近似 CI と一致 → 仮定 OK、 大きく異なる → 仮定違反。 大サンプルでは両者収束。

(D) ロバスト回帰（外れ値耐性）

🎯 解説: 回帰係数の交互作用項。 SSDSE-B-2026 で 2 変数の積（人口 × GDP per cap）を追加し、 効果の修飾を検出。

📥 入力例: data/raw/SSDSE-B-2026.csv
  formula = 'y ~ 人口 + GDPpc + 人口:GDPpc'
  smf.ols でフォーミュラ指定

import statsmodels.api as sm
rlm = sm.RLM(y, X, M=sm.robust.norms.HuberT()).fit()
print(rlm.params)
# 外れ値の影響を抑えた係数が得られる

📤 実行例: 交互作用項 β = 0.005, p=0.03
  有意 → 人口の効果は GDPpc によって変わる
  非線形効果あり

💬 読み方: 交互作用項が有意 → 単純な線形効果でなく「他変数による修飾」あり。 解釈は複雑になるが現実的なモデル。 主効果と交互作用の両方を含める。

(E) ベイズ回帰（PyMC）

🎯 解説: 回帰係数の符号反転問題。 SSDSE-B-2026 で多重共線性により係数の符号が直感に反する例を確認。

📥 入力例: data/raw/SSDSE-B-2026.csv
  単回帰 β(人口) > 0
  重回帰 β(人口|GDP) < 0

import pymc as pm
with pm.Model() as bayes_reg:
    beta = pm.Normal('beta', mu=0, sigma=10, shape=3)
    alpha = pm.Normal('alpha', mu=0, sigma=10)
    sigma = pm.HalfNormal('sigma', sigma=5)
    mu = alpha + pm.math.dot(X_std.values[:, 1:], beta)
    pm.Normal('y_obs', mu=mu, sigma=sigma, observed=y_std)
    trace = pm.sample(2000)
# 事後分布で「β > 0 の確率」を直接計算できる

📤 実行例: 単回帰: β=+8.05
  重回帰（GDPpc 追加）: β=-2.3
  符号反転！

💬 読み方: 多重共線性で係数が符号反転することがある。 単独効果と部分効果の違い。 VIF をチェック、 必要なら変数除去や正則化で対処。

⚠️ 追加の落とし穴 — 回帰係数の実務

❌ 単位の異なる係数を直接比較

「年収（万円）」の β=0.21 と「失業率（%）」の β=-3.5 を見て「失業率の方が影響大」と判断するのは誤り。単位スケールが違うため絶対値の大小に意味はない。必ず標準化偏回帰係数（全変数を平均0・SD1に標準化してから OLS）で比較する。標準化 β は「説明変数が1SD変化したときの目的変数のSD変化」で、単位非依存。多変量解析の標準的な報告方法。

❌ 多重共線性を無視

説明変数同士が強く相関していると、各 β が不安定になる（SE 膨張・符号反転）。 VIF（分散拡大係数）が 10 を超えたら明らかに問題、 5 でも要注意。対策：(i) 変数を削除、 (ii) 主成分回帰、 (iii) Ridge 回帰（罰則で安定化）、 (iv) 変数を統合（複合指標化）。高い相関を持つ変数対をピアソン相関ヒートマップで事前確認するのが基本。

❌ 残差診断を行わない

OLS の前提：(i) 線形性、 (ii) 残差の独立性、 (iii) 等分散性（homoscedasticity）、 (iv) 残差の正規性。残差プロット・QQプロット・Breusch-Pagan 検定・Durbin-Watson で診断する。等分散性が崩れていれば White の頑健標準誤差 (HC0-HC3) を使う（statsmodels では fit(cov_type='HC3')）。これを怠るとSE が信用できない。

❌ 外れ値・影響点を見落とす

1個のレバレッジ大の点で β が大きく動く。必ずCook's distance、 DFBETAS、レバレッジ・スタンダード化残差プロットで影響点を識別。 47都道府県データなら「東京・北海道・沖縄」が外れ値になりやすい。影響点を含む結果と除いた結果の両方を報告するか、ロバスト回帰（Huber, RANSAC）に切り替える。

❌ β を因果効果と解釈する

OLS の β は条件付き関連（他変数を統制した場合の関連）であり、因果効果ではない。観測されない交絡（unmeasured confounder）が残れば β は偏る。因果を主張するには操作変数法 (IV)、 DID、 PSM、 RCT が必要。「コントロール変数を増やせば因果」という誤解（"kitchen sink regression"）は古典的失敗。

❌ p < 0.05 を「効果あり」と早合点

サンプルサイズが大きいと、実用上無意味な β（β=0.01 など）でも p < 0.001 になる。必ず係数の大きさ・95% CI・標準化 βを併記。「統計的有意性」と「実質的重要性」は別物。効果量とその CI を中心に議論する現代的報告法が学術界の標準。

❌ 解釈不能な交互作用を無理やり読み解く

交互作用項を入れると主効果の解釈が変わる。「年齢 × 性別」項がある場合、「年齢の β」は女性での年齢効果（参照群が女性なら）など、条件付き解釈になる。中心化（centering）して直交化、単純傾き解析、効果図 (effects plot) を併用しないと誤解を招く。交互作用は強力だが扱いが繊細。

🔗 関連用語（拡張マップ）

🎨 直感で掴む — 回帰係数

回帰係数 β は「説明変数 x が 1 単位増えたとき、 y が平均何単位増えるか」。単位を持つ。 SSDSE-B-2026 で L3221 を A1101 で予測すると、 β ≈ 5.8 円/人（つまり人口 1 万人増で消費支出が約 580 円増、標本範囲内で）。

💡 学習のコツ：直感で全体像を掴んだら、次の「📐 定義・数式」で正確な意味を押さえ、最後に「🧮 実値で計算してみる」で SSDSE-B-2026 の都道府県データを使った計算をなぞるのが効率的です。比喩は厳密ではないので、必ず数式と並べて確認してください。

回帰係数は「回帰」カテゴリの中核概念。初めて触れる読者は、まずこの「🎨 直感」セクションだけ通読し、必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。

📐 定義・数式 — 回帰係数

直感の次は、厳密な定義を確認します。数式は言語の一種で、一度書き慣れれば「言葉より速く伝えられる」便利な道具。慣れていない方は、各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。

【回帰係数の中心定義式】

$$ \hat{\beta} = (X^\top X)^{-1} X^\top y $$

この式が「回帰係数」の骨格。派生形・拡張形はここから生まれる。

📌 読み方のコツ：数式を見たら「左辺は何を定義しているか」「右辺の各項は何の合計・積・比か」を声に出して読み下してみる。これだけで理解が大きく進みます。

🔬 記号読み解き — 数式を「言葉」に翻訳

上の数式を眺めるだけでは身につかないので、各記号がどんな役割を担っているかを言葉で押さえます。「数式を音読する習慣」がつくと、論文や教科書を読むスピードが体感で 2 倍ほど上がります。

左辺（結果側）: 回帰係数で定義したい量。解釈の対象。単位・スケールを必ず確認する。
右辺（構成要素）: 観測できる入力変数（SSDSE-B-2026 でいえば A1101・L3221 など）と推定対象パラメータ（β, σ 等）の組合せ。
添字 i, j, t: i=サンプル（県）、 j=変数、 t=時点。 SSDSE-B-2026 は i ∈ {1..47} 県、 t ∈ {2008..2023}。
和記号 Σ: 「足し合わせ」を表す。添字 i が 1 から n まで動く範囲を明示するのが習慣。
期待値 E[·]、分散 Var[·]: 「ランダム変数の平均」と「ばらつき」。 SSDSE-B-2026 のような集計値でも、標本誤差・年次変動の文脈で使える。

📚 補足：同じ記号でも分野・教科書によって意味が違うことがあります（例: $\hat{y}$ は予測値だが、統計の文脈では推定量を意味することも）。不明確なときは、必ずその文書の記号定義表を確認しましょう。

🧮 実値で計算してみる — SSDSE-B-2026

数式だけでは「実感」が湧きにくいので、実データ data/raw/SSDSE-B-2026.csv（47 都道府県 × 16 年）で 1 度手計算してみると理解が定着します。

SSDSE-B-2026 (2023) で OLS：y=L3221、 X=A1101 を当てると、 β ≈ 0.0046、切片 ≈ 287,000。人口が 100 万人増えると消費支出は約 4,600 円増える計算。ただし R^2 は 0.16 程度で、人口だけでは説明力が低い。

都道府県	A1101 総人口	A1303 65 歳以上	L3221 消費支出
東京都	14,086,000	3,205,000	341,320
神奈川県	9,229,000	2,390,000	306,565
大阪府	8,763,000	2,424,000	271,246
愛知県	7,477,000	1,923,000	300,221
埼玉県	7,331,000	2,012,000	344,092
千葉県	6,257,000	1,756,000	306,943

上記は SSDSE-B-2026 (2023) からの抜粋。手計算で確認した値が、後述の Python 実装で得る値と一致することを確認すると、「数式とコードの対応関係」がクリアに見えるようになります。

🐍 Python 実装 — 回帰係数

公的統計（SSDSE-B-2026）を題材に、最小限の Python コードで回帰係数を動作させます。まずはこのまま実行してみてください。

# 回帰係数 を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]  # 2023 年のみ抽出
print(df.shape)  # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())

from sklearn.linear_model import LinearRegression
X = df[['A1101']].values
y = df['L3221'].values
lr = LinearRegression().fit(X, y)
print('切片:', lr.intercept_)
print('係数:', lr.coef_[0])
print('R^2:', lr.score(X, y))

上のコードで動かない場合は、 ①必要なパッケージがインストール済みか（pip install pandas scikit-learn scipy statsmodels matplotlib）、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。

⚠️ よくある落とし穴 — 回帰係数

回帰係数を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、先に知っておくに越したことはありません。

❌ 係数の符号だけで因果を語る

回帰係数は条件付き平均の偏微分。因果には更なる仮定（無交絡）が必要。

❌ 単位を意識せず比較

A1101（人）と L3221（円）の係数を比べても意味がない。標準化β を使う。

❌ 信頼区間を出さない

係数の点推定だけでは判断不能。 SE と 95% CI、 p 値を必ず併記する。

🛡 防御策まとめ：「適用条件を確認する」「結果と前提をセットで記述する」「不確実性を必ず併記する」の 3 点を習慣化すれば、上記の罠の大半は回避できます。

🌐 関連手法・派生 — 回帰係数の周辺

回帰係数の周辺にある、セットで覚えておきたい関連手法を整理しました。状況によって使い分けが必要なので、「強みと弱み」を 1 行で言えるようにしておくと、場面に応じた選択が可能になります。

重回帰	重回帰
線形回帰	線形回帰
単回帰	単回帰
標準化β	標準化β
回帰分析	回帰分析

表中の各手法は本サイト内に個別ページが用意されているか、関連グループ教材で扱っています。興味を持った手法は、横展開的に読んでみると体系的な理解が早く進みます。

🔗 関連用語（前提・並列・発展）

回帰係数と直接つながる前後関係。「前提」=先に知っておくと理解が早い／「並列」=同じ問題に別の角度／「発展」=応用・拡張版。学習計画の参考にどうぞ。

📚 関連グループ教材 — 回帰

回帰係数の全体像を学ぶには、横断的な教材から入るのが効率的：

📚 論文一覧 — 回帰の再現論文を一覧できる
📚 用語集トップ — 回帰係数の周辺概念を一気に俯瞰
📚 概念マップ — 回帰係数がどの位置にあるか確認

📍 あなたが今見ているもの

💡 30秒で分かる結論