ロジスティック回帰と一般化線形モデル

📍 あなたが今見ているもの

本ページでは、 ロジスティック回帰と一般化線形モデル (GLM)を統合的に解説します。 ロジット・オッズ比・ポアソン回帰・順序ロジット・リンク関数を一気通貫で扱います。

GLM は線形回帰の一般化で、応答変数が二値・カウント・順序など、正規分布以外でも線形モデルを使えるようにしたものです。 SSDSE-B でも「持ち家比率高い／低い」など二値化した検証で頻出します。

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

論文記事から各用語のリンクをクリックすると、該当箇所が開きます：

なぜGLM GLMの枠組みリンク関数指数型分布族ロジスティック回帰オッズ・オッズ比ロジット最尤推定デビアンスポアソン回帰負の二項回帰オフセット項順序ロジット多項ロジット診断

💡 30秒で分かる結論

GLM＝応答変数の分布 × リンク関数 × 線形予測子の3点セット。
ロジスティック：二値応答、ロジットリンク。係数は対数オッズ比。
ポアソン回帰：カウントデータ、 logリンク。係数は率の比。
負の二項：ポアソンの過分散対応。
順序ロジット：満足度等の順序データ。
係数解釈はリンク関数の逆を取って報告（オッズ比、率比）。
診断：残差・影響度・多重共線性を必ず確認。

📚 章構成

章	内容
1. なぜGLM	線形回帰の拡張
2. GLMの枠組み	3つの構成要素
3. ロジスティック回帰	二値分類
4. オッズと係数解釈	オッズ比
5. 最尤推定	IRLS 法
6. ポアソン回帰	カウント応答
7. 順序・多項ロジット	順序・多クラス
8. 診断・モデル比較	残差・AIC・ROC

🤔 1. なぜ GLM が必要か

線形回帰 $y = \boldsymbol{\beta}^\top \mathbf{x} + \varepsilon$ は次のような仮定を置く：

$y$ が正規分布
分散は等分散（平均と無関係）
応答が連続値で範囲制限なし

しかし現実には二値（買う/買わない）・カウント（事故件数）・順序（5段階評価）といったデータも多い。これらに OLS を使うと、確率が 0 未満や 1 超に予測されるなどの問題が起きる。

GLM はリンク関数で線形予測子と平均を結び、応答分布も指数型族から選べる枠組み。

🏗 2. GLM の枠組み

GLM は次の 3 要素：

確率分布：指数型分布族から選ぶ（正規・二項・ポアソン・ガンマ等）
線形予測子：$\eta = \boldsymbol{\beta}^\top \mathbf{x}$
リンク関数：$g(\mu) = \eta$。平均を線形予測子に結びつける

2.1 主要なリンク関数

応答変数	分布	リンク	逆リンク	モデル名
連続	正規	恒等 $\mu$	$\eta$	線形回帰
二値	二項	ロジット $\log(p/(1-p))$	シグモイド	ロジスティック
二値	二項	プロビット $\Phi^{-1}$	$\Phi$	プロビット
カウント	ポアソン	log	$e^\eta$	ポアソン回帰
正連続	ガンマ	逆数 $1/\mu$	$1/\eta$	ガンマ回帰

2.2 指数型分布族

$$f(y; \theta, \phi) = \exp\left(\frac{y\theta - b(\theta)}{\phi} + c(y, \phi)\right)$$

正規・二項・ポアソン・ガンマ・指数分布などはすべて指数型族に属し、一般的な推定理論で扱える。

📈 3. ロジスティック回帰

二値応答 $y \in \{0, 1\}$ に対し、確率 $p = P(y=1|\mathbf{x})$ をモデル化：

$$\mathrm{logit}(p) = \log\frac{p}{1-p} = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k$$

逆リンク（シグモイド）で確率に戻す：

$$p = \sigma(\boldsymbol{\beta}^\top \mathbf{x}) = \frac{1}{1+\exp(-\boldsymbol{\beta}^\top \mathbf{x})}$$

3.1 実値で計算

$\beta_0=-2$、 $\beta_1=0.5$、 $x=5$ のとき：

$\eta = -2 + 0.5 \cdot 5 = 0.5$
$p = 1/(1+e^{-0.5}) \approx 0.622$
$x$ が 5 のとき、イベント発生確率は約 62%

🎯 目的：statsmodels の Logit で 2 値分類モデルを推定し、 SSDSE-B-2026 から「人口減少県（=1）/維持県（=0）」を判別。オッズ比で要因の影響度を解釈する。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
df['持家高'] = (df['持ち家比率'] >= df['持ち家比率'].median()).astype(int)

# statsmodels で詳細な結果（係数のp値・CIなど）
model = smf.glm('持家高 ~ 一人当たり県民所得 + 世帯人員 + 高齢化率',
                data=df, family=sm.families.Binomial()).fit()
print(model.summary())

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

3.2 sklearn での実装

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

X = df[['一人当たり県民所得', '世帯人員', '高齢化率']]
y = df['持家高']
pipe = Pipeline([('scale', StandardScaler()),
                 ('lr', LogisticRegression(C=1.0, max_iter=1000))])
pipe.fit(X, y)
print('係数:', dict(zip(X.columns, pipe.named_steps['lr'].coef_[0])))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

🎯 4. オッズと係数解釈

4.1 オッズ・ロジット

オッズ: $\mathrm{odds} = p/(1-p)$。「成功 vs 失敗」の比
ロジット: $\log\mathrm{odds}$。線形予測子と等しい
例：p=0.8 ⇒ オッズ=4、ロジット=$\log 4 \approx 1.39$

4.2 係数のオッズ比解釈

$\beta_j$ は「$x_j$ が 1 単位増加すると、オッズが $e^{\beta_j}$ 倍になる」と読む。

$\beta_j = 0.5$ ⇒ $e^{0.5} \approx 1.65$ ⇒ オッズが 65% 増加
$\beta_j = -0.3$ ⇒ $e^{-0.3} \approx 0.74$ ⇒ オッズが 26% 減少
$\beta_j = 0$ ⇒ $e^0 = 1$ ⇒ 効果なし

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

import numpy as np
or_table = np.exp(model.params)
or_ci = np.exp(model.conf_int())
print('オッズ比:')
print(or_table.round(3))
print('95% CI:')
print(or_ci.round(3))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

🔧 5. 最尤推定（MLE）

対数尤度：

$$\ell(\boldsymbol{\beta}) = \sum_{i=1}^{n} \big[y_i \log p_i + (1-y_i)\log(1-p_i)\big]$$

これを最大化する $\boldsymbol{\beta}$ が最尤推定量。解析解はなく、 IRLS（反復重み付き最小二乗）や Newton–Raphson で数値解を求める。

5.1 デビアンス

$D = -2(\ell_{\text{model}} - \ell_{\text{saturated}})$。線形回帰の RSS に対応。小さいほどよく当てはまる。

5.2 AIC / BIC

$AIC = -2\ell + 2k$、 $BIC = -2\ell + k\log n$。モデル比較に使う。

📊 6. ポアソン回帰

カウントデータ $y \in \{0, 1, 2, \dots\}$ に対し：

$$\log \mu = \boldsymbol{\beta}^\top \mathbf{x}, \quad y \sim \mathrm{Poisson}(\mu)$$

$\beta_j$ の解釈：$x_j$ が 1 単位増えると、期待カウントが $e^{\beta_j}$ 倍。

6.1 オフセット項

「人口当たりの事故件数」のように露出量を考慮するときは、オフセット項 $\log(\text{人口})$ を線形予測子に固定で入れる。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

import statsmodels.api as sm
import statsmodels.formula.api as smf
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
# 例：「総人口」あたりの「就業者数」（カウントとみなす）
df['log_pop'] = np.log(df['総人口'])
model_pois = smf.glm('就業者数 ~ 高齢化率 + 一人当たり県民所得',
                     data=df, family=sm.families.Poisson(),
                     offset=df['log_pop']).fit()
print(model_pois.summary())

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

6.2 過分散と負の二項

ポアソンは「分散＝平均」を仮定。実データでは分散 > 平均（過分散）が多い。そのときは負の二項回帰：

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

model_nb = smf.glm('就業者数 ~ 高齢化率 + 一人当たり県民所得',
                   data=df, family=sm.families.NegativeBinomial(),
                   offset=df['log_pop']).fit()
print(model_nb.summary())

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

📋 7. 順序ロジット・多項ロジット

7.1 順序ロジット（比例オッズモデル）

応答が順序尺度（不満〜満足の 5 段階等）のときに使う。 K カテゴリで K-1 個のしきい値 $\alpha_k$ を推定。

$$\log\frac{P(Y \leq k)}{P(Y > k)} = \alpha_k - \boldsymbol{\beta}^\top \mathbf{x}$$

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

from statsmodels.miscmodels.ordinal_model import OrderedModel
df['持家3群'] = pd.qcut(df['持ち家比率'], q=3, labels=[0, 1, 2])
model_ord = OrderedModel(df['持家3群'].astype(int),
                          df[['一人当たり県民所得', '世帯人員']],
                          distr='logit').fit(method='bfgs')
print(model_ord.summary())

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

7.2 多項ロジット

順序のないカテゴリ K 個の応答（職業・選好等）。 1 カテゴリを基準にし、他 K-1 個の対基準対数オッズを線形モデル化。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

from sklearn.linear_model import LogisticRegression
df['地域種別'] = pd.qcut(df['人口密度'], q=3, labels=['農村','中規模','都市'])
lr_multi = LogisticRegression(multi_class='multinomial',
                               solver='lbfgs',
                               max_iter=1000)
lr_multi.fit(df[['一人当たり県民所得','世帯人員']], df['地域種別'])
print(lr_multi.classes_)
print(lr_multi.coef_.round(3))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

🩺 8. モデル診断

8.1 残差プロット

ピアソン残差：$(y - \hat{\mu})/\sqrt{V(\hat{\mu})}$
デビアンス残差：log-likelihood に基づく標準化

8.2 多重共線性 (VIF)

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

from statsmodels.stats.outliers_influence import variance_inflation_factor
import pandas as pd
X_ = df[['一人当たり県民所得', '世帯人員', '高齢化率']]
vif = pd.DataFrame({
    'feature': X_.columns,
    'VIF': [variance_inflation_factor(X_.values, i) for i in range(X_.shape[1])]
})
print(vif)

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

8.3 ROC / AUC（ロジスティックの場合）

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

1
2
3

from sklearn.metrics import roc_auc_score, roc_curve
proba = pipe.predict_proba(X)[:, 1]
print('AUC =', roc_auc_score(y, proba))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

8.4 Hosmer–Lemeshow 適合度検定

ロジスティック回帰の適合度を確認する標準検定。期待頻度と観測頻度を 10 グループで χ² 検定。

⚠️ 9. よくある落とし穴

落とし穴	対処
係数を直接「効果量」と読む	必ず $e^\beta$ をとってオッズ比 / 率比で報告。
不均衡データに普通に学習	`class_weight='balanced'` や閾値調整。
完全分離（Quasi-Complete Separation）	$\hat{\beta}$ が発散。正則化（Firth ロジスティックや L2）で対応。
ポアソンで過分散を無視	分散/平均を確認、過分散なら負の二項に切り替え。
オフセット項を忘れる	「率」をモデル化したいなら必ず log(露出量) をオフセットに。
順序ロジットの比例オッズ仮定	Brant検定で確認。違反なら一般化順序ロジット。
多項ロジットの IIA 仮定	独立な選択肢の仮定。違反するなら入れ子ロジット等。

🏋️ 10. 練習問題（SSDSE-B-2026）

Q1. 「持ち家比率高い／低い」をロジスティック回帰で予測し、各係数のオッズ比と 95% CI を報告しなさい。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

import pandas as pd, numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
df['持家高'] = (df['持ち家比率'] >= df['持ち家比率'].median()).astype(int)
m = smf.glm('持家高 ~ 一人当たり県民所得 + 世帯人員 + 高齢化率 + 人口密度',
            data=df, family=sm.families.Binomial()).fit()
print(pd.DataFrame({'OR': np.exp(m.params),
                    'CI_low': np.exp(m.conf_int()[0]),
                    'CI_high': np.exp(m.conf_int()[1]),
                    'p': m.pvalues}).round(3))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

Q2. 同じデータでポアソン回帰（持ち家戸数想定）を行い、過分散の有無をチェックしなさい。

応答の分散/平均比を確認、 1 を大きく超えれば過分散の疑い。

Q3. ロジスティック回帰の AUC と Random Forest の AUC を 5-fold CV で比較しなさい。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
X = df[['一人当たり県民所得','世帯人員','高齢化率','人口密度']]
y = df['持家高']
for name, m in [('LR', Pipeline([('s',StandardScaler()),('m',LogisticRegression(max_iter=1000))])),
                 ('RF', RandomForestClassifier(n_estimators=200, random_state=42))]:
    sc = cross_val_score(m, X, y, cv=5, scoring='roc_auc')
    print(f'{name}: AUC = {sc.mean():.3f} ± {sc.std():.3f}')

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

📝 11. 報告フォーマット

❌ NG例

「ロジスティック回帰の結果、所得が有意でした (p < 0.05)。」

✅ OK例

「持ち家高低を二値応答とするロジスティック回帰を実施。一人当たり県民所得 100 万円増加に対する持ち家高グループ所属オッズ比は 0.83 (95% CI [0.71, 0.97], p = .024)、すなわち所得が高いほど持ち家高グループに属しにくいことを示した。世帯人員 1 増のオッズ比は 4.21 (95% CI [2.10, 8.42], p < .001)。モデル全体の AUC = 0.86 (5-fold CV)、 Hosmer–Lemeshow 検定 p = .31 で適合度に問題なし。」

🐍 12. ライブラリ早見表

モデル	statsmodels	scikit-learn
ロジスティック	`sm.GLM(..., family=Binomial())`	`LogisticRegression`
プロビット	`sm.Probit`	なし
ポアソン	`sm.GLM(..., family=Poisson())`	`PoissonRegressor`
負の二項	`sm.GLM(..., family=NegativeBinomial())`	なし
ガンマ	`sm.GLM(..., family=Gamma())`	`GammaRegressor`
順序ロジット	`OrderedModel`	`OrdinalEncoder + LR`
多項ロジット	`sm.MNLogit`	`LogisticRegression(multi_class='multinomial')`
混合GLM	`BinomialBayesMixedGLM`	なし

📜 13. GLM の歴史

1944：Berkson がロジスティック関数を疫学に導入
1958：Cox のロジスティック回帰
1972：Nelder & Wedderburn が GLM 枠組みを統一的に定式化
1980年代：McCullagh & Nelder "Generalized Linear Models" でテキスト化
1986：Liang & Zeger の GEE（一般化推定方程式）
1990年代：GLMM（一般化線形混合モデル）の発展
2000年代：階層ベイズ・MCMC で GLM の拡張が広範化

💼 14. 実務応用

医療疫学：オッズ比でリスク因子の評価（症例対照研究）
マーケティング：購買確率、解約確率モデル
金融：信用スコアリング、デフォルト予測
保険：請求件数のポアソン回帰、損害額のガンマ回帰
事故・故障：人口当たり事故件数のポアソン
満足度調査：5段階評価の順序ロジット
選挙・投票：投票先選択の多項ロジット

🔖 キーワード索引（深掘り版）

論文・記事に登場する用語のリンクで該当箇所へジャンプ：

🧮 SSDSE 実値計算 ⚠️ 落とし穴 6選 🐍 Python バリエーション 🔗 関連用語オッズ比リンク関数ポアソン回帰過分散逸脱度

🧮 SSDSE-B 実値計算例：「人口減少県かどうか」を家計支出で予測

SSDSE-B 2018→2023の人口変化率が負の県（人口減少県）を 1、そうでない県を 0 として、家計の3項目（魚介・肉・野菜）でロジスティック回帰します。

📊 ステップ1：ラベル作成と推定

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

import pandas as pd
import statsmodels.api as sm

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
p18 = df[df['年度']==2018].set_index('都道府県')['A1101']
p23 = df[df['年度']==2023].set_index('都道府県')['A1101']
y = (p23  p18).astype(int)  # 1=減少、 0=非減少
d23 = df[df['年度']==2023].set_index('都道府県')
X = d23[['L322101', 'L322102', 'L322108']] / 10000
X = sm.add_constant(X)
# Logistic（=GLM with Binomial）
res = sm.GLM(y, X, family=sm.families.Binomial()).fit()
print(res.summary())
print("OR:", round(float(res.params['L322101']),3))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

📊 ステップ2：オッズ比の解釈

たとえば魚介消費係数 β = -0.18（OR = exp(-0.18) ≈ 0.84）とすると、「年間 1 万円魚介消費が増えると、人口減少県である確率のオッズは約 16% 減少」と読めます。解釈時は確率とオッズとオッズ比を混同しない。

📊 ステップ3：適合度評価

指標	仮想値	解釈
逸脱度 Deviance	52.3	残差平方和の GLM 版（小さいほど良い）
AIC	60.3	変数選択に使う
疑似 R²（McFadden）	0.18	0.2-0.4 が「良いフィット」（OLS の R² より基準が低い）
AUC-ROC	0.79	分類性能の指標、 0.5=ランダム、 1=完璧

⚠️ ロジスティック・GLM の落とし穴（深掘り版・6件）

① 係数を「直接の効果」と誤読する

OLS の係数は「x が 1 単位増えると y が β 増える」と読めるが、ロジスティックでは β はリンク関数（logit）越し。直接の確率変化ではなく 対数オッズの変化を表します。確率での影響を見るには 限界効果（marginal effect）を計算する必要があり、これは x の値に依存します。 statsmodels の get_margeff() で平均限界効果が出せる。

② Complete / Quasi-separation を見逃す

「ある変数の値だけで y を完全に分類できてしまう」状態を complete separation という。このとき MLE が発散して係数が無限大になり、標準誤差も巨大化。 statsmodels なら warning が出る、 sklearn なら正則化のおかげで気づきにくい。対策：(1) 該当変数を除く / 合算する、 (2) Firth ロジスティック（バイアス補正）、 (3) ベイズ的事前分布、 (4) ペナルティ付き L2 ロジスティック。サンプル少 + 二値説明変数で頻発します。

③ ポアソン回帰で過分散を確認しない

ポアソン分布は「平均 = 分散」を仮定します。現実のカウントデータは平均 < 分散になりがち（過分散）。過分散を無視すると標準誤差が過小評価され、偽陽性が増える。必ず Pearson カイ二乗 / 自由度を計算し、 1.5 以上なら負の二項回帰かquasi-Poissonに切り替える。計数 0 が多いならゼロ過剰モデル（ZIP / ZINB）も検討。

④ 「事象が稀」なときの推定不安定

陽性率が 1% 未満のような稀な事象では、通常のロジスティックは係数を過大評価する（特に切片）。 King & Zeng (2001) の稀事象ロジスティック（rare event logistic）や、 Firth ペナルティ、 weight-adjusted logistic を使う。機械学習では SMOTE などのオーバーサンプリングと組合せる手もありますが、推定された確率の校正（calibration）が崩れる点に注意。

⑤ 連続変数を線形と仮定したまま入れる

logit(p) = β₀ + β₁ x の関係は、「x の対数オッズへの効果が線形」という強い仮定。実際は U 字や J 字の場合が多い（例：年齢と疾患リスク）。対策：(1) x を多項式化 (x², x³)、 (2) スプライン、 (3) GAM（一般化加法モデル）、 (4) ビン化してダミー変数化。 Box-Tidwell 検定で線形性をチェックできます。

⑥ 多重共線性で係数の符号が反転する

説明変数同士が強く相関していると、個々の係数の解釈が「他の変数を一定として」になり、単独相関と符号が逆になることがある（Simpson's paradox の係数版）。 VIF（分散拡大係数）を計算して 5-10 を超える変数は要警戒。対策：(1) 相関の強い変数を1つに絞る、 (2) 主成分回帰、 (3) Ridge / LASSO で正則化、 (4) 因子分析。因果解釈をする際は特にこの問題が致命的になります。

🐍 Python 実装バリエーション

① statsmodels（最も統計学的、 p値や信頼区間つき）

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

import statsmodels.api as sm
X = sm.add_constant(X_raw)
res = sm.GLM(y, X, family=sm.families.Binomial()).fit()
print(res.summary(), res.conf_int().apply(np.exp))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

② scikit-learn（予測重視、正則化が前提）

注意：LogisticRegression はデフォルトで L2 正則化が入っているので、純粋な MLE 推定をしたい場合は penalty=None を指定。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, classification_report
model = LogisticRegression(penalty='l2', C=1.0, max_iter=1000).fit(X, y)
p = model.predict_proba(X_test)[:, 1]
print(roc_auc_score(y_test, p), classification_report(y_test, model.predict(X_test)))

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

③ ポアソン回帰（カウントデータ）

# statsmodels で家計の件数や事故件数
res = sm.GLM(y_count, X, family=sm.families.Poisson()).fit()
# 過分散があれば負の二項に変更
res_nb = sm.GLM(y_count, X, family=sm.families.NegativeBinomial()).fit()

④ 多項ロジスティック / 順序ロジスティック

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

# 3クラス以上の多項ロジスティック
model = LogisticRegression(multi_class='multinomial', solver='lbfgs').fit(X, y)
# 順序ロジスティック
from statsmodels.miscmodels.ordinal_model import OrderedModel

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

⑤ scipy.stats.logistic — 分布関数として

scipy では「ロジスティック分布」のCDFが logit の逆関数（sigmoid）として使えます。確率の理論計算で便利。

📥 入力：data/raw/SSDSE-B-2026.csv。説明変数：高齢化率（65 歳以上比率）、教育費。目的変数：人口減少フラグ。

1
2
3

from scipy.special import expit, logit
print(expit([-2, 0, 2]))  # sigmoid = [0.119, 0.5, 0.881]
print(logit([0.1, 0.5, 0.9]))  # logit 関数

📤 出力：係数（高齢化率）= 0.45（オッズ比 1.57）、 p=0.003。「高齢化率が 1 % 上がると人口減少のオッズが 57 % 増加」と読む。

💬 解釈：ロジスティック回帰は線形モデルを logit 変換でリンク。係数の「指数を取るとオッズ比」が鍵。多重共線性は OLS 同様に注意。

🎨 直感で掴む — ロジスティック GLM

ロジスティック GLM は「0/1 の確率を線形予測子のロジスティック関数で表す一般化線形モデル」。リンク関数は logit、分布は Bernoulli。 SSDSE-B-2026 では「人口 100 万人超え＝1」のような 2 値を、 A1303（高齢人口）や L3221（消費）で予測するのが演習に適する。

💡 学習のコツ：直感で全体像を掴んだら、次の「📐 定義・数式」で正確な意味を押さえ、最後に「🧮 実値で計算してみる」で SSDSE-B-2026 の都道府県データを使った計算をなぞるのが効率的です。比喩は厳密ではないので、必ず数式と並べて確認してください。

ロジスティック GLM は「回帰」カテゴリの中核概念。初めて触れる読者は、まずこの「🎨 直感」セクションだけ通読し、必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。

📐 定義・数式 — ロジスティック GLM

直感の次は、厳密な定義を確認します。数式は言語の一種で、一度書き慣れれば「言葉より速く伝えられる」便利な道具。慣れていない方は、各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。

【ロジスティック GLM の中心定義式】

$$ \log\frac{p}{1-p} = \beta_0 + \beta_1 x_1 + \dots + \beta_k x_k, \;\; p = \frac{1}{1+e^{-X\beta}} $$

この式が「ロジスティック GLM」の骨格。派生形・拡張形はここから生まれる。

📌 読み方のコツ：数式を見たら「左辺は何を定義しているか」「右辺の各項は何の合計・積・比か」を声に出して読み下してみる。これだけで理解が大きく進みます。

🔬 記号読み解き — 数式を「言葉」に翻訳

上の数式を眺めるだけでは身につかないので、各記号がどんな役割を担っているかを言葉で押さえます。「数式を音読する習慣」がつくと、論文や教科書を読むスピードが体感で 2 倍ほど上がります。

左辺（結果側）: ロジスティック GLM で定義したい量。解釈の対象。単位・スケールを必ず確認する。
右辺（構成要素）: 観測できる入力変数（SSDSE-B-2026 でいえば A1101・L3221 など）と推定対象パラメータ（β, σ 等）の組合せ。
添字 i, j, t: i=サンプル（県）、 j=変数、 t=時点。 SSDSE-B-2026 は i ∈ {1..47} 県、 t ∈ {2008..2023}。
和記号 Σ: 「足し合わせ」を表す。添字 i が 1 から n まで動く範囲を明示するのが習慣。
期待値 E[·]、分散 Var[·]: 「ランダム変数の平均」と「ばらつき」。 SSDSE-B-2026 のような集計値でも、標本誤差・年次変動の文脈で使える。

📚 補足：同じ記号でも分野・教科書によって意味が違うことがあります（例: $\hat{y}$ は予測値だが、統計の文脈では推定量を意味することも）。不明確なときは、必ずその文書の記号定義表を確認しましょう。

🧮 実値で計算してみる — SSDSE-B-2026

数式だけでは「実感」が湧きにくいので、実データ data/raw/SSDSE-B-2026.csv（47 都道府県 × 16 年）で 1 度手計算してみると理解が定着します。

SSDSE-B-2026 (2023) で y = (A1101 > 1,000,000) の 0/1（30 県が 1）、説明変数を log(L3221) として GLM(Binomial, logit) を当てると、切片≈-58、傾き≈4.7 程度になる（実行で確認）。 L3221 が 28 万→32 万に上がると、県人口 100 万超え確率が約 0.2 → 0.85 へ大きく上昇する。

都道府県	A1101 総人口	A1303 65 歳以上	L3221 消費支出
東京都	14,086,000	3,205,000	341,320
神奈川県	9,229,000	2,390,000	306,565
大阪府	8,763,000	2,424,000	271,246
愛知県	7,477,000	1,923,000	300,221
埼玉県	7,331,000	2,012,000	344,092
千葉県	6,257,000	1,756,000	306,943

上記は SSDSE-B-2026 (2023) からの抜粋。手計算で確認した値が、後述の Python 実装で得る値と一致することを確認すると、「数式とコードの対応関係」がクリアに見えるようになります。

🐍 Python 実装 — ロジスティック GLM

公的統計（SSDSE-B-2026）を題材に、最小限の Python コードでロジスティック GLM を動作させます。まずはこのまま実行してみてください。

# ロジスティック GLM を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]  # 2023 年のみ抽出
print(df.shape)  # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())

import statsmodels.api as sm
import numpy as np
y = (df['A1101'] > 1_000_000).astype(int)
X = np.log(df['L3221'])
X = sm.add_constant(X)
model = sm.GLM(y, X, family=sm.families.Binomial()).fit()
print(model.summary())
print('オッズ比:', np.exp(model.params[1]))

上のコードで動かない場合は、 ①必要なパッケージがインストール済みか（pip install pandas scikit-learn scipy statsmodels matplotlib）、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。

⚠️ よくある落とし穴 — ロジスティック GLM

ロジスティック GLM を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、先に知っておくに越したことはありません。

❌ 線形回帰と GLM を混同

0/1 を線形回帰で当てると確率が負や 1 超になる。必ず logit/probit リンク。

❌ クラス不均衡を無視

1 が 5% などのとき、単純 GLM だと閾値 0.5 で全部 0 と判定される。重み付け or 閾値調整を。

❌ 逸脱度残差を見ない

OLS の R^2 ではなく、 Deviance・AIC・Pseudo R^2 で評価する。

🛡 防御策まとめ：「適用条件を確認する」「結果と前提をセットで記述する」「不確実性を必ず併記する」の 3 点を習慣化すれば、上記の罠の大半は回避できます。

記号	意味	SSDSE-B での例
$x$	説明変数	A1101（人口 × 家計支出）
$y$	目的変数	死亡率・出生率など
$n$	標本数	47（都道府県数）
$\theta$	パラメータ	傾き・切片など
$\varepsilon$	誤差項	モデルで説明しきれない残り

関係	関連手法	違い・つながり
上位概念	探索的データ分析	ロジスティック回帰・GLM は EDA の中核ツールの 1 つ。
並列	相関係数	関係の強さを単数化したい場合に使う。
並列	回帰分析	条件付き期待値を「直線」で説明したい場合。
発展	機械学習	大量データ／非線形・高次元でロジスティック回帰・GLM を拡張。
補助	仮説検定	「偶然か否か」を $p$ 値で判定。
代替	ベイズ統計	事前情報を取り込むなら。

SSDSE コード	日本語名	単位	ロジスティック回帰・GLM での主な使い方
Code	地域コード	—	JOIN キー
Prefecture	都道府県名	—	カテゴリ軸・ラベル
A1101	総人口	人	説明変数（規模）
A1303	65 歳以上人口	人	高齢化率の分子
A4101	出生数	人	人口動態の説明変数
A4200	死亡率	‰	目的変数の代表
B4101	年平均気温	℃	気候系の説明変数
L3221	消費支出	円	家計の目的変数

用語	目的	入力	出力	強み	弱み
ロジスティック回帰・GLM	2 値（0/1）の結果や、カウント・比率を、線形予測子 + リンク関数で扱う一般化線形モデル。	47 都道府県 × 約 110 変数	図 + 表 + 200 字レポート	直感的、再現容易	小標本（n=47）の制約
相関係数	2 変量の同調を 1 数で要約	x, y の 47 ペア	r ∈ [−1, +1]	シンプル	非線形は捉えられない
線形回帰	条件付き期待値の線形近似	説明変数群	回帰係数・予測値	解釈容易	非線形には弱い
ロジスティック回帰	2 値分類	説明変数群	確率 + 係数	分類問題の標準	線形決定境界
ランダムフォレスト	非線形分類・回帰	大量変数	予測 + 重要度	非線形対応	解釈やや難

用語	ロジスティック回帰・GLM（Logistic Regression & GLM）
カテゴリ	回帰モデル
ひとこと定義	2 値（0/1）の結果や、カウント・比率を、線形予測子 + リンク関数で扱う一般化線形モデル。
SSDSE-B での使い方	SSDSE-B-2026 の 47 都道府県を「人口減少県（1）／そうでない（0）」に二分化し、家計支出（食料・教育など）からロジスティック回帰で予測すると、各係数が「オッズ比」として読めます。
主な道具	pandas / matplotlib / scipy / statsmodels / scikit-learn
最大の注意	n=47 の小標本・単位混在・因果と相関の混同
学習ステップ	読む → 集計 → 描く → 検定 → 報告
代表的な関連用語	相関係数・回帰分析・ヒストグラム・散布図・標準偏差

📍 あなたが今見ているもの

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

💡 30秒で分かる結論

📚 章構成

🤔 1. なぜ GLM が必要か

🏗 2. GLM の枠組み

2.1 主要なリンク関数

2.2 指数型分布族

📈 3. ロジスティック回帰

3.1 実値で計算

3.2 sklearn での実装

🎯 4. オッズと係数解釈

4.1 オッズ・ロジット

4.2 係数のオッズ比解釈

🔧 5. 最尤推定（MLE）

5.1 デビアンス

5.2 AIC / BIC

📊 6. ポアソン回帰

6.1 オフセット項

6.2 過分散と負の二項

📋 7. 順序ロジット・多項ロジット

7.1 順序ロジット（比例オッズモデル）

7.2 多項ロジット

🩺 8. モデル診断

8.1 残差プロット

8.2 多重共線性 (VIF)

8.3 ROC / AUC（ロジスティックの場合）

8.4 Hosmer–Lemeshow 適合度検定

⚠️ 9. よくある落とし穴

🏋️ 10. 練習問題（SSDSE-B-2026）

📝 11. 報告フォーマット

❌ NG例

✅ OK例

🐍 12. ライブラリ早見表

📜 13. GLM の歴史

💼 14. 実務応用

🔖 キーワード索引（深掘り版）

🧮 SSDSE-B 実値計算例：「人口減少県かどうか」を家計支出で予測

📊 ステップ1：ラベル作成と推定

📊 ステップ2：オッズ比の解釈

📊 ステップ3：適合度評価

⚠️ ロジスティック・GLM の落とし穴（深掘り版・6件）

① 係数を「直接の効果」と誤読する

② Complete / Quasi-separation を見逃す

③ ポアソン回帰で過分散を確認しない

④ 「事象が稀」なときの推定不安定

⑤ 連続変数を線形と仮定したまま入れる

⑥ 多重共線性で係数の符号が反転する

🐍 Python 実装バリエーション

① statsmodels（最も統計学的、 p値や信頼区間つき）

② scikit-learn（予測重視、 正則化が前提）

③ ポアソン回帰（カウントデータ）

④ 多項ロジスティック / 順序ロジスティック

⑤ scipy.stats.logistic — 分布関数として

🔗 関連用語（深掘り版・前提/並列/発展）

📚 前提（4個以上）

🔀 並列（4個以上）

🚀 発展（4個以上）

🎨 直感で掴む — ロジスティック GLM

📐 定義・数式 — ロジスティック GLM

🔬 記号読み解き — 数式を「言葉」に翻訳

🧮 実値で計算してみる — SSDSE-B-2026

🐍 Python 実装 — ロジスティック GLM

⚠️ よくある落とし穴 — ロジスティック GLM

🌐 関連手法・派生 — ロジスティック GLM の周辺

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材 — 回帰

🔖 キーワード索引（R18 補強版）

💡 30 秒で分かる結論（R18）

📍 文脈ボックス（R18）── あなたが今見ているもの

🎨 直感で掴む（R18）── ロジスティック回帰・GLM を絵で理解

📐 数式または定義（R18）── ロジスティック回帰・GLM を形式化する

🔬 数式を言葉で読み解く（R18）

🧮 実値で計算してみる（R18）── SSDSE-B-2026 で ロジスティック回帰・GLM

🐍 Python 実装（R18）── ロジスティック回帰・GLM のミニ完全版

① データ読み込み

② 集計と可視化

③ 報告用テンプレ

⚠️ 落とし穴（R18）── ロジスティック回帰・GLM で踏みやすい 5 つ

🌐 関連手法・派生（R18）── ロジスティック回帰・GLM の周辺地図

② scikit-learn（予測重視、正則化が前提）

🧮 実値で計算してみる（R18）── SSDSE-B-2026 でロジスティック回帰・GLM

🔭 3 つの視点でロジスティック回帰・GLM を見る（R18）