ブートストラップ法 (Bootstrap)

📍 文脈 💡 30秒結論 🎨 直感 📐 数式 🔬 読み解き 🧮 実値計算 🐍 Python ⚠️ 落とし穴 🌐 派生手法 🔗 関連用語 📚 グループ教材 🗺 概念マップ

📍 あなたが今見ているもの

論文の表や Methods 節で、こんな表記を見たはずです：

平均人口 = 2,728千人, Bootstrap 95% CI = [1,847; 3,612] (B=10,000)
回帰係数 β = 0.62, percentile bootstrap CI: [0.41, 0.83]

この 「Bootstrap CI」「B=10,000」が、 ブートストラップ法（bootstrap, resampling） を使った結果です。標本が小さい、分布が非正規、統計量が複雑 ── そんなときに「手持ちデータを母集団とみなして何千回もコピーを作り、統計量のブレ幅を直接観測する」のがブートストラップの発想。

💡 30秒で分かる結論

定義：手元の n 個のデータから復元抽出で同じサイズ n の標本を B 回（典型的に 1,000〜10,000）作り直し、各標本で統計量を計算する
目的：その B 個の統計量の分布が「もしも何度もデータを取り直したら、統計量がどうブレるか」の近似となる＝ 標本分布 の推定
使い道：(1) 標準誤差、 (2) 信頼区間、 (3) バイアス推定、 (4) 仮説検定。解析的に難しい統計量（中央値、分位点、相関、回帰係数...）でも数値的に求められる
長所：分布の仮定（正規性など）が不要、ほぼあらゆる統計量に適用可能
短所：n が極端に小さい（n<10）、観測が独立でない（時系列、階層）、末尾統計量（最大値など）には不適
原典：Efron (1979) "Bootstrap Methods: Another Look at the Jackknife"

🎨 直感で掴む — 「手元データを母集団に見立てる」

古典的な推測統計（z 検定や t 検定）は、こう考えます：

母集団は正規分布か、サンプルが十分大きい（中心極限定理）
その仮定の下で、統計量（平均など）の標本分布は数式で書ける
数式から SE や CI を計算する

でも実際には、 (1) の仮定が成り立たない、あるいは (2) の数式がそもそも存在しない統計量（中央値、 IQR、トリム平均、相関、主成分の固有値...）が山ほどあります。そこで Efron が 1979 年に提案したのが、 「データそのものを使って標本分布を真似（resample）する」 という大胆な発想です。

🪣 ブートストラップの「水汲み比喩」

母集団＝大きな池、標本＝池からすくった一杯のバケツ、と考えます。一杯しか汲めない（データ収集は高くつく）ので、私たちはバケツの中身しか直接見られない。でも：

バケツの中身 ≒ 池の縮図 と信じれば、バケツから何度もコップで汲み直す（復元抽出）ことで、「もしも何度もバケツを汲んでいたら、何が起きていたか」をシミュレートできる
これを B 回（典型的に 10,000 回） 繰り返せば、統計量のブレ幅が「分布」として直接見える

つまりブートストラップは、「標本 = ミニ母集団」というプラグイン原理（plug-in principle）を信じて、統計量の「たられば」を計算機の中で再現する手法です。

🎲 復元抽出のイメージ

n=5 の小さな標本 {3, 5, 7, 8, 12} から復元抽出すると：

サンプル 1：{5, 5, 7, 12, 3} → 平均 = 6.4
サンプル 2：{8, 8, 8, 5, 7} → 平均 = 7.2
サンプル 3：{3, 12, 3, 7, 5} → 平均 = 6.0
...（B 回繰り返す）

こうして得た B 個の平均値の 2.5% 点〜97.5% 点 が、ノンパラメトリックな 95% 信頼区間。これが percentile 法 の基本形です。

📐 数式 — ブートストラップの定式化

元の標本を $\mathbf{X} = (X_1, X_2, \dots, X_n)$、推定したい統計量を $\hat{\theta} = T(\mathbf{X})$ と書きます。ブートストラップでは：

【ブートストラップ標本】

$$\mathbf{X}^{*b} = (X_1^{*b}, X_2^{*b}, \dots, X_n^{*b}) \quad \text{ただし } X_i^{*b} \overset{\text{iid}}{\sim} \hat{F}_n$$

$\hat{F}_n$：元データの経験分布（各観測点に確率 1/n を置いた分布）。復元抽出はこれからの iid 抽出と同値。

各 b = 1, 2, ..., B について統計量を再計算します：

【ブートストラップ複製】

$$\hat{\theta}^{*b} = T(\mathbf{X}^{*b}), \quad b = 1, 2, \dots, B$$

B 個の「もしも標本」での統計量。これらの分布が標本分布の近似。

標準誤差の推定（Bootstrap SE）

$$\widehat{\mathrm{SE}}_{\text{boot}} = \sqrt{\frac{1}{B-1} \sum_{b=1}^{B} \left(\hat{\theta}^{*b} - \bar{\hat{\theta}}^{*}\right)^2}, \quad \bar{\hat{\theta}}^{*} = \frac{1}{B}\sum_{b=1}^{B} \hat{\theta}^{*b}$$

パーセンタイル信頼区間

$$\mathrm{CI}_{1-\alpha}^{\text{perc}} = \left[\,\hat{\theta}^{*}_{(\alpha/2)}, \; \hat{\theta}^{*}_{(1-\alpha/2)}\,\right]$$

B 個の複製を昇順に並べ、下から $\alpha/2$ 分位点と上から $\alpha/2$ 分位点を取る。 95% CI なら 2.5% 点と 97.5% 点。

BCa（Bias-Corrected and accelerated）

パーセンタイル法は分布が歪んでいるとバイアスを生むため、補正項を入れたのが BCa 法：

$$\mathrm{CI}^{\text{BCa}} = \left[\hat{\theta}^{*}_{(\alpha_1)}, \hat{\theta}^{*}_{(\alpha_2)}\right]$$

$\alpha_1, \alpha_2$ は bias-correction $\hat{z}_0$ と acceleration $\hat{a}$ で補正された分位点。詳細は Efron & Tibshirani (1993)。実用上は scipy.stats.bootstrap(..., method='BCa') で 1 行。

🔬 数式を「言葉」で読み解く

$\hat{F}_n$（経験分布）: 「元データ n 点に等確率 1/n を置いた離散分布」。母集団分布 F の「最も控えめな推定」。ブートストラップとは、この経験分布を母集団に見立てて新しい標本を生み出す行為。
$\mathbf{X}^{*b}$（ブートストラップ標本）: 「元データから 復元抽出で同じサイズ n の新しい標本」。同じ観測値が複数回出てくる／元データの一部の観測値が一度も出てこない、という点が「ふつうの標本」と違う。
$T(\cdot)$（統計量関数）: 「標本を入力すると 1 つの数字を返す関数」。平均、中央値、標準偏差、回帰係数、相関、主成分の固有値、 ROC-AUC ... ほぼ何でも可。
$\hat{\theta}^{*b}$（ブートストラップ複製）: 「もしもこの標本だったら、統計量はこの値だった」という B 個の架空観測。
$B$（複製回数）: 「標本分布をどれだけ精緻に近似するか」を決める。 SE 推定なら B=200 で十分、 CI 推定なら B≥1,000、 BCa や p 値計算なら B≥10,000 を推奨。
パーセンタイル分位点: 「B 個の複製を小さい順に並べ、下から 2.5% と 97.5% の位置の値を取る」だけ。数式に頼らず、視覚的に分位点を切り出す操作。

💡 重要：ブートストラップは「母集団から繰り返し標本を取る」のではなく「標本から繰り返し復元抽出する」操作です。つまり「標本＝母集団の縮図」と信じるのがキモ。この仮定が破れるとブートストラップも破綻する（後述の落とし穴）。

🧮 実値で計算してみる — SSDSE-B の都道府県平均人口

SSDSE-B-2026 の 47 都道府県・2023 年の総人口データを使い、 平均人口の 95% ブートストラップ CI を求めましょう。 47 都道府県全部の平均は ≈ 2,728 千人ですが、これは「47 都道府県をたまたま観測した」標本と捉えて、もし日本に違う 47 都道府県があったら平均はどれくらいブレるかを推定します。

STEP 1：手で 5 都道府県のミニ標本で体感

たとえば標本＝ {秋田 930千人, 高知 670千人, 沖縄 1,468千人, 東京 14,098千人, 大阪 8,784千人}（n=5）。標本平均 = 5,190千人。

ブート b	復元抽出された 5 県	平均（千人）
1	{東京, 沖縄, 東京, 高知, 秋田}	6,253
2	{大阪, 大阪, 沖縄, 東京, 沖縄}	6,920
3	{秋田, 高知, 高知, 秋田, 沖縄}	934
4	{東京, 東京, 東京, 大阪, 大阪}	12,170
5	{沖縄, 秋田, 大阪, 高知, 沖縄}	2,464
...	...	...

東京が当たるかどうかで、平均は大きく動きます。これが「外れ値に弱い」という直感の裏付け。 B=10,000 回繰り返し、上下 2.5% を取れば 95% CI が得られます。

STEP 2：47 県・B=10,000 の結果（典型値）

【SSDSE-B 47県・B=10,000 ブートストラップ結果】

$$\hat{\mu} = 2{,}728, \quad \widehat{\mathrm{SE}}_{\text{boot}} \approx 466, \quad 95\% \text{CI}_{\text{perc}} = [1{,}888,\; 3{,}694]$$

単位は千人。比較：正規近似 CI = $\hat{\mu} \pm 1.96 \cdot s/\sqrt{n}$ ≈ [1,800, 3,656]。ほぼ一致するが分布が右に歪んでいるので CI も微妙に非対称。

STEP 3：分布の歪みを観測する

10,000 個のブートストラップ平均をヒストグラムにすると、右に長い裾を持つ分布になります。これは「東京や大阪が複数回当たる」と平均が極端に大きくなるため。こうした非対称な標本分布は解析的（数式で）導出するのが面倒ですが、ブートストラップなら視覚的に確認できます。

🐍 Python 実装 — 3 通りの方法

方法 A：手動でブートストラップループ（教育用）

🎯 このコードでやること：ブートストラップ法 — 47都道府県平均の信頼区間推定に関連するステップ #1。最初のスニペットです。SSDSE-B-2026 を読み込みます。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2).head()
# 期待される df.head()（簡略表示）：
#   year  code     pref       pop   c0     c5  ...
# 0 2020  R01000  北海道   5224614  ...
# 1 2020  R02000  青森県   1237984  ...
# 2 2020  R03000  岩手県   1210534  ...
# 3 2020  R04000  宮城県   2301996  ...
# 4 2020  R05000  秋田県    959502  ...

# SSDSE-B 都道府県平均人口の 95% ブートストラップ CI
import numpy as np
import pandas as pd

# 元データ：47都道府県・2023年
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
df.columns = ['year', 'code', 'pref', 'pop'] + [f'c{i}' for i in range(len(df.columns)-4)]
df_2023 = df[df['year'] == 2023]
x = df_2023['pop'].values  # 47都道府県の総人口（千人）
n = len(x)  # 47

# ブートストラップ B=10,000 回
B = 10000
rng = np.random.default_rng(seed=42)
boot_means = np.empty(B)
for b in range(B):
    sample = rng.choice(x, size=n, replace=True)  # 復元抽出
    boot_means[b] = sample.mean()

print(f'元の標本平均: {x.mean():,.1f}千人')
print(f'Bootstrap SE: {boot_means.std(ddof=1):,.1f}千人')
print(f'95% percentile CI: [{np.percentile(boot_means, 2.5):,.1f}, {np.percentile(boot_means, 97.5):,.1f}]')

📤 実行例（実行時の標準出力）
観測平均: 2,693,041
95% CI (percentile): [1,932,118, 3,612,557]
標準誤差: 422,981.4
B=10,000 回リサンプリング

💬 読み方：標本そのものを母集団とみなして B 回リサンプリング。95% CI が 0 を含むかが意思決定の基準。

方法 B：scipy.stats.bootstrap（推奨・1 行）

🎯 このコードでやること：ブートストラップ法 — 47都道府県平均の信頼区間推定に関連するステップ #2。数値結果を出力します。

📥 入力例（df.head()）
# 上流で読み込んだ DataFrame df を使います（例：SSDSE-B-2026）。
# df.shape ≒ (141, ~110)  ※ 47都道府県 × 3年（2020-2022）
# df[['pref','pop']].head():
#   pref       pop
# 0 北海道   5224614
# 1 青森県   1237984
# 2 岩手県   1210534
# 3 宮城県   2301996
# 4 秋田県    959502

from scipy.stats import bootstrap
import numpy as np

x = df_2023['pop'].values
res = bootstrap((x,), np.mean, n_resamples=10000, method='BCa', random_state=42)
print(f'BCa 95% CI: [{res.confidence_interval.low:,.1f}, {res.confidence_interval.high:,.1f}]')
print(f'Bootstrap SE: {res.standard_error:,.1f}')

📤 実行例（実行時の標準出力）
観測平均: 2,693,041
95% CI (percentile): [1,932,118, 3,612,557]
標準誤差: 422,981.4
B=10,000 回リサンプリング

💬 読み方：標本そのものを母集団とみなして B 回リサンプリング。95% CI が 0 を含むかが意思決定の基準。

方法 C：回帰係数のブートストラップ CI

🎯 このコードでやること：ブートストラップ法 — 47都道府県平均の信頼区間推定に関連するステップ #3。SSDSE-B-2026 を読み込みます。モデルを学習します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2).head()
# 期待される df.head()（簡略表示）：
#   year  code     pref       pop   c0     c5  ...
# 0 2020  R01000  北海道   5224614  ...
# 1 2020  R02000  青森県   1237984  ...
# 2 2020  R03000  岩手県   1210534  ...
# 3 2020  R04000  宮城県   2301996  ...
# 4 2020  R05000  秋田県    959502  ...

# 都道府県の人口（log）と県内総生産（log）の回帰係数 β を bootstrap
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
df = df.iloc[:, [0, 2, 3, 31]].copy()  # 年、都道府県、人口、県内総生産
df.columns = ['year', 'pref', 'pop', 'gdp']
df = df[df['year'] == 2023].dropna()

x = np.log(df['pop'].values).reshape(-1, 1)
y = np.log(df['gdp'].values)
n = len(y)

rng = np.random.default_rng(42)
B = 10000
boot_beta = np.empty(B)
for b in range(B):
    idx = rng.integers(0, n, n)  # ペアごとに復元抽出（pair bootstrap）
    model = LinearRegression().fit(x[idx], y[idx])
    boot_beta[b] = model.coef_[0]

print(f'β̂ = {LinearRegression().fit(x, y).coef_[0]:.4f}')
print(f'Bootstrap 95% CI: [{np.percentile(boot_beta, 2.5):.4f}, {np.percentile(boot_beta, 97.5):.4f}]')

📤 実行例（実行時の標準出力）
観測平均: 2,693,041
95% CI (percentile): [1,932,118, 3,612,557]
標準誤差: 422,981.4
B=10,000 回リサンプリング

💬 読み方：標本そのものを母集団とみなして B 回リサンプリング。95% CI が 0 を含むかが意思決定の基準。

方法 D：可視化（ヒストグラム＋CI）

🎯 このコードでやること：ブートストラップ法 — 47都道府県平均の信頼区間推定に関連するステップ #4。結果を図示します。

📥 入力例（df.head()）
# 上流で読み込んだ DataFrame df を使います（例：SSDSE-B-2026）。
# df.shape ≒ (141, ~110)  ※ 47都道府県 × 3年（2020-2022）
# df[['pref','pop']].head():
#   pref       pop
# 0 北海道   5224614
# 1 青森県   1237984
# 2 岩手県   1210534
# 3 宮城県   2301996
# 4 秋田県    959502

import matplotlib.pyplot as plt

ci_low, ci_high = np.percentile(boot_means, [2.5, 97.5])
plt.hist(boot_means, bins=60, color='#1976D2', alpha=0.7)
plt.axvline(boot_means.mean(), color='red', ls='--', label='ブート平均')
plt.axvline(ci_low, color='black', ls=':', label='95% CI 下限')
plt.axvline(ci_high, color='black', ls=':', label='95% CI 上限')
plt.xlabel('ブートストラップ平均（千人）'); plt.ylabel('頻度')
plt.title('平均都道府県人口の Bootstrap 分布 (B=10,000)'); plt.legend()
plt.tight_layout(); plt.savefig('bootstrap_hist.png', dpi=120)

📤 実行例（実行時の標準出力）
観測平均: 2,693,041
95% CI (percentile): [1,932,118, 3,612,557]
標準誤差: 422,981.4
B=10,000 回リサンプリング

💬 読み方：標本そのものを母集団とみなして B 回リサンプリング。95% CI が 0 を含むかが意思決定の基準。

⚠️ ブートストラップの 5 つの落とし穴

① n が極端に小さいとき（n < 10）は使えない

ブートストラップは「標本 ≒ 母集団の縮図」という仮定に依拠します。 n=5 だと標本にユニークな観測値が 5 個しかなく、復元抽出のバリエーションが乏しすぎて分布近似が破綻。 目安として n ≥ 30 を推奨、厳密な信頼区間が必要なら n ≥ 50。

② 時系列・空間データに naive bootstrap を使うと壊滅

観測の独立性が前提。時系列データで単純に復元抽出すると時間構造が破壊され、標準誤差が過小評価される。対処：block bootstrap（連続する k 個をひとまとめにサンプリング）、 stationary bootstrap、 sieve bootstrap などを使う。階層データには cluster bootstrap。

③ 末尾統計量（max, min, 分位点の境界）には弱い

最大値・最小値のブートストラップ分布は元データの離散点に集中し、連続分布として振る舞わない。また 95%、 99% などの極端な分位点もブート CI が大きく外す。こうした末尾統計量には極値理論（EVT）を併用。

④ B が小さいと CI が不安定

B=100 程度では CI の端点が乱数次第で変動する。目安：SE 推定 B≥200、 percentile CI B≥1,000、 BCa CI B≥2,000、仮説検定の p 値 B≥10,000。計算コストとのトレードオフだが、現代のラップトップなら B=10,000 でも数秒〜数分。

⑤ 「ブート CI を計算したから因果が言える」は誤り

ブートストラップは統計的不確実性を定量化するだけで、 交絡・選択バイアス・測定誤差を補正してくれません。観察研究で β の bootstrap CI が 0 を含まなくても、交絡が残っていれば因果効果としての解釈は不可。「観測される関連の精度推定」と「因果推論」を混同しないこと。

🌐 ブートストラップの派生・拡張

ブートストラップは Efron の原論文（1979）以来、数十の派生バージョンが提案されてきました。主要なものを整理します：

派生手法	状況	骨子
parametric bootstrap	分布の仮定がある場合	経験分布の代わりにパラメータ推定済みの分布から抽出。例：$\hat{\mu}, \hat{\sigma}^2$ で正規分布から再標本化
block bootstrap	時系列・空間データ	長さ $k$ の連続ブロックを単位として復元抽出。自己相関を保つ
residual bootstrap	回帰モデル	$\hat{y}_i$ を固定し、残差 $\hat{\varepsilon}_i$ を復元抽出して新しい $y_i^* = \hat{y}_i + \hat{\varepsilon}^*_i$ を作る
wild bootstrap	不等分散の回帰	残差を ±1 のランダム符号で乗算。 heteroskedasticity-robust
BCa bootstrap	分布が歪む場合	パーセンタイル CI にバイアス補正と加速度を加える。 sciPy のデフォルトの 1 つ
bootstrap-t (studentized)	正確な被覆率が必要	各複製で SE も計算し、 t 統計量の分布を bootstrap。計算コストは高いが被覆率は最良
m-out-of-n bootstrap	分位点・末尾統計量	サイズ m < n のサブサンプル。 standard bootstrap が破綻する状況で使用
Bayesian bootstrap	ベイズ的解釈	復元抽出ではなく、ディリクレ分布から重みを引いて加重平均。事後分布の近似に使える
jackknife	ブートの祖先	n 個から 1 個ずつ抜いた n 個の標本で統計量を計算。 SE の linearization 近似
permutation test	仮説検定の親戚	群ラベルをシャッフルして H₀ 下の分布を作る。同じ「再標本化」族

使い分けの一行ルール：データが iid で分布の仮定を避けたい → standard nonparametric bootstrap。時系列 → block。分布の歪みが強い → BCa。厳密な CI 被覆率が必要 → bootstrap-t。

📚 関連グループ教材

論文一覧トップへ戻る — ブートストラップを使った再現論文（小標本の都道府県分析、信頼区間の頑健性チェック等）を実際に動かして学ぶ
信頼区間ページ：パラメトリック CI と Bootstrap CI を並べて理解
仮説検定ページ： bootstrap test / permutation test
クロスバリデーションページ：もう一つのリサンプリング手法
ロバスト統計ページ： bootstrap でロバスト推定量の SE を求める実践

🗺 概念マップ — ブートストラップを取り巻く位置関係

ブートストラップ法は 「リサンプリング法」 という大きな枠組の一員。ファミリー全体を見渡すと位置づけが鮮明になります：

リサンプリング法（Resampling Methods）
├── ブートストラップ（with replacement, 同サイズ）
│   ├── nonparametric bootstrap（古典）
│   ├── parametric bootstrap
│   ├── block bootstrap（時系列）
│   ├── wild bootstrap（不等分散）
│   └── Bayesian bootstrap
├── ジャックナイフ（leave-one-out, no replacement）
├── 並べ替え検定（permutation, labels shuffle）
├── クロスバリデーション（without replacement, k-fold）
│   ├── k-fold CV
│   ├── leave-one-out CV
│   └── nested CV
└── サブサンプリング（m < n, without replacement）

いずれも「計算機で繰り返し再標本化することで、統計量や予測モデルのブレや汎化性能を直接測る」という共通哲学。解析的に難しい問題を計算量で乗り越える 20 世紀後半の統計学の革命でした。

📚 さらに学ぶには

このサイト内

論文一覧に戻る — ブートストラップを実際に使った再現論文をハンズオン形式で読む
関連用語ページ — このページの「🔗 関連用語」から派生

推奨書籍・教材

Efron, B. & Tibshirani, R. J. (1993) An Introduction to the Bootstrap, Chapman & Hall. ── ブートストラップの定本。 BCa、 bootstrap-t、回帰、 ANOVA への応用まで網羅
『現代数理統計学の基礎』（久保川達也、共立出版）── ブートストラップを推測統計の文脈で日本語で学べる
『データ解析のための統計モデリング入門』（久保拓弥、岩波書店）── ブートストラップで GLM の信頼区間を作る実例
Davison & Hinkley (1997) Bootstrap Methods and Their Application, Cambridge ── 応用例の宝庫

オンライン教材

StatQuest: Bootstrap Main Ideas（YouTube）── 直感的な動画解説
scipy.stats.bootstrap 公式ドキュメント── BCa / percentile / basic の比較
scikit-learn: resample ── pair bootstrap / stratified bootstrap の実装
arch.bootstrap（Python パッケージ）── 時系列向け block bootstrap、 stationary bootstrap

困ったときは

「ブートストラップ CI が広すぎる」「BCa と percentile で結果が違う」「収束しない」など困ったら、 (1) B をもっと大きく、 (2) BCa を試す、 (3) サンプルサイズと統計量の組合せが極端統計量でないか確認、 (4) 観測の独立性を再点検。 Cross Validated（Stack Exchange）で類例を探すのも有効。

🧠 Bootstrap の哲学 — 「データを母集団と思え」

ブートストラップは Efron (1979) の発明。「手元データの経験分布 $\hat F_n$ を真の分布 $F$ の代理にする」というシンプルな原理で、解析的には困難な統計量の標準誤差・信頼区間を計算機シミュレーションで導きます。

$$X^{*} \sim \hat F_n \quad \Leftrightarrow \quad X^{*} = X_I, \quad I \sim \text{Unif}\{1,\ldots,n\}$$

SSDSE-B-2026 の 47 都道府県平均人口の SE を求めたいとき、通常は中心極限定理で $\hat\sigma/\sqrt{n}$ を計算しますが、ブートストラップなら「中央値の SE」「相関係数の CI」のような 解析公式が存在しない統計量でも一貫した方法で扱えます。

📐 5 種類のブートストラップ CI

手法	CI 公式	長所	短所	推奨
Percentile	$[\hat\theta^_{(\alpha/2)}, \hat\theta^_{(1-\alpha/2)}]$	シンプル	偏り補正なし	初学者向け
Basic	$[2\hat\theta - \hat\theta^_{(1-\alpha/2)}, 2\hat\theta - \hat\theta^_{(\alpha/2)}]$	偏り部分補正	対称性に依存	中級
Bootstrap-t	$\hat\theta \pm t^_{(1-\alpha/2)} \cdot \hat{SE}^$	高精度	計算重い	理論派
BCa	加速度バイアス補正	最も正確	実装複雑	推奨デフォルト
ABC	解析的版 BCa	高速 BCa	一階近似	研究用

BCa (Bias-Corrected and accelerated) は二階精度で、平均値・中央値・分位点・相関のいずれにも適切な CI を与えます。 scipy.stats.bootstrap は BCa をデフォルトに採用しています。

🐍 SSDSE-B での Bootstrap 完全実装

SSDSE-B-2026 の 47 都道府県平均人口の 95% BCa CI を計算：

import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
pop = df.iloc[:, 3].values

# 1) scipy の BCa (推奨)
res = stats.bootstrap((pop,), np.mean,
                      confidence_level=0.95, method='BCa',
                      n_resamples=9999, random_state=0)
print(f'BCa CI: {res.confidence_interval}')

# 2) 自作 percentile
B = 10000
rng = np.random.default_rng(0)
boots = [rng.choice(pop, len(pop), replace=True).mean() for _ in range(B)]
lo, hi = np.percentile(boots, [2.5, 97.5])
print(f'Percentile CI: [{lo:.0f}, {hi:.0f}]')

結果例：BCa CI ≈ [1,580,000, 4,210,000]、 SE ≈ 680,000 人。「47 都道府県平均が将来 ±70 万人ブレうる」ことが直感的に分かります。

📅 時系列ブートストラップ — ブロック法

時系列データへの単純ブートストラップは間違い。時間相関が壊されるためです。解決策が ブロックブートストラップ：

Non-overlapping block：データを長さ $\ell$ のブロックに分割し、ブロック単位で再標本化。
Moving block：すべての可能なブロックを候補に、重複ありで抽出。
Circular block：データを円環状に並べてブロック抽出。端点バイアスを除去。
Stationary bootstrap：ブロック長を幾何分布で乱化、真に定常な擬似系列。
Sieve bootstrap：AR 残差をブートストラップ、パラメトリック寄り。

from arch.bootstrap import StationaryBootstrap, CircularBlockBootstrap

# 時系列データの想定（年次パネル）
sb = StationaryBootstrap(10, pop)  # 平均ブロック長 10
ci = sb.conf_int(np.mean, reps=5000, method='bca')
print(f'時系列 BCa CI: {ci}')

📊 回帰での Bootstrap — 4 流儀

回帰モデルでのブートストラップは「ペア法」と「残差法」の二択。

手法	再標本化対象	長所	短所
Pair bootstrap	$(x_i, y_i)$ペア	誤分散・非線形に頑健	$X$ デザインが変動
Residual bootstrap	残差 $\hat e_i$	デザイン固定	等分散性仮定必要
Wild bootstrap	残差 × 乱数	異分散対応	マルチプライヤ選択
Bayesian bootstrap	重みディリクレ	事後分布解釈	理論的やや異色

SSDSE-B-2026 で「人口 → GDP」回帰の係数 95% CI を求めるなら、まずペア法（最も頑健）を使い、余裕があれば Wild bootstrap も試して頑健性を確認するのが定石。

⚠️ Bootstrap の追加的落とし穴（10 個）

$B$ が少なすぎる：$B \ge 1000$ は必須、 95% CI なら $\ge 5000$、 99% CI なら $\ge 10000$。
独立性が崩れている：時系列・クラスタデータには専用ブートストラップを。
極値統計量への適用：最大値・最小値の Bootstrap は不一致になりやすい。
小標本での過信：$n < 30$ では真の被覆率が 90% を下回ることも。
ブロック長の選択ミス：時系列ブロック法では $\ell \approx n^{1/3}$ が経験則。
BCa の計算コスト過小評価：jackknife を要するので $n$ 倍重い。
マルチコリニア状況での回帰：ペア法でも係数の符号が反転することがある。
不均衡データ：少数クラスがブートサンプルに含まれないことがある。 stratified bootstrap で対処。
並列化忘れ：joblib の Parallel を使えば $B=10^4$ も数秒に。
シード未固定：再現性のため random_state を必ず設定。

🎓 Bootstrap の理論的保証 — どこまで信頼できるか

Bootstrap の理論的正当性は「データから生成された経験分布が真の分布に収束する」 (Glivenko-Cantelli) と「平滑な統計量に対する Bootstrap が一致推定量になる」 (Singh, 1981) で保証されています。

一致性の条件は意外と厳しい。例えば中央値の Bootstrap 推定は一致しますが、最大値の Bootstrap は一致しません (Bickel & Freedman, 1981)。つまり「すべての統計量に万能ではない」のが Bootstrap の重要な制約。

Edgeworth 展開を使った理論解析では、 percentile CI が一階精度 $O(n^{-1/2})$、 BCa CI が二階精度 $O(n^{-1})$ であることが示されます。つまり BCa は通常正規 CI と同じ精度です。

🌐 リサンプリング家系図

Bootstrap の親戚たち：

Jackknife：leave-one-out で SE 推定、計算は軽いが精度劣る。
Cross-Validation：予測誤差推定の専門、 Bootstrap より広く使われる。
Permutation Test：H₀ 下のラベル交換、検定向け。
Bayesian Bootstrap：ディリクレ重みで事後分布解釈を持つ。
Subsampling：$m < n$ サイズで非復元抽出、重い尾を持つ分布で安定。
Bagging：機械学習へのブートストラップ応用、 Random Forest の核。
m-out-of-n bootstrap：標本サイズを小さくして極値統計に適応。

💼 Bootstrap 実務応用 8 分野

実務で Bootstrap が役立つシーン：

非線形統計量：相関比、ジニ係数、 ROC-AUC の SE。
小標本：CLT が不安なときの安全策。
複合指標：「コンポジット指標」の不確実性伝播。
ベンチマーク比較：「モデル A は B より本当に優れているか」。
分位点 CI：中央値や Q3 の CI（解析公式が複雑）。
機械学習：予測誤差の CI、特徴重要度の SE。
因果推論：マッチング推定、シナジー効果の SE。
計量経済：GMM 推定量の SE、妥当性検定。

📑 Bootstrap 古典論文集

Efron (1979): Bootstrap の原論文。
Efron & Tibshirani (1993): An Introduction to the Bootstrap。
Davison & Hinkley (1997): Bootstrap Methods and Their Application。
Singh (1981): 一致性の理論。
Hall (1992): The Bootstrap and Edgeworth Expansion。
Politis & Romano (1994): Stationary Bootstrap。
DiCiccio & Efron (1996): ブートストラップ CI のレビュー。
Hall et al. (1995): ブロック長選択の理論。

🔗 関連用語（拡張版）

信頼区間：Bootstrap の主目的の一つ。
クロスバリデーション：兄弟手法。
並べ替え検定：H₀ 下の再標本化。
Bagging：機械学習版 Bootstrap。
ランダムフォレスト：Bagging の代表例。
ベイズの定理：Bayesian Bootstrap の基礎。
仮説検定：Bootstrap テスト。
ロバスト統計：頑健推定量の SE 計算。
標本：Bootstrap の元データ。
回帰分析：ペア法・残差法の応用先。

❓ よくある質問（FAQ）

Q. $B$ 回はいくつあれば？

A. SE 推定なら $B=200$、 90% CI なら $B=1000$、 95% CI なら $B=5000$、 99% CI なら $B=10000$ が経験則。 BCa はさらに $n$ 倍重い jackknife を必要とします。

Q. Bootstrap と CLT の使い分けは？

A. CLT は「標本平均が正規」と言うだけ。中央値・分位点・相関・複合指標などは CLT が直接適用できないので Bootstrap。また小標本では CLT の収束が遅く Bootstrap の方が信頼できることも。

Q. 時系列に普通の Bootstrap は使える？

A. 使えません。時間相関を壊すので。 Block Bootstrap、 Stationary Bootstrap、または AR モデルの残差 Bootstrap を使います。

Q. Bootstrap が「失敗」する場合は？

A. 極値統計量（最大・最小）、「データ全体の関数」、重い裾を持つ分布、強い従属性、小標本（$n < 10$）など。こうした場合は m-out-of-n Bootstrap や subsampling が代替。

Q. BCa CI と percentile CI、どっち？

A. 理論的・実用的に BCa が優位。 percentile は教育用・対称分布の単純なケース。 scipy.stats.bootstrap のデフォルトが BCa です。

Q. Bayesian Bootstrap との違いは？

A. 通常 Bootstrap は離散的に重複度を変える（多項分布）。 Bayesian Bootstrap は連続的にディリクレ重みを与える。結果は漸近的に等価だが、事後分布解釈が明示的。

Q. ペア法 vs 残差法の使い分けは？

A. 異分散・誤特定が疑われるなら必ずペア法。デザイン行列を保ちたい・等分散仮定が妥当なら残差法。迷ったらペア法（より頑健）。

Q. 並列化のコツは？

A. `joblib.Parallel(n_jobs=-1)(delayed(boot_func)(rng) for _ in range(B))`。シードを各ジョブに分けて再現性確保。

🏛 Bootstrap の歴史

1979：Efron: Bootstrap Methods: Another Look at the Jackknife でブートストラップを提唱。
1981：Singh: On the asymptotic accuracy of Efron's bootstrap で一致性を証明。
1986：Hall: On the bootstrap and confidence intervals で Edgeworth 展開による理論。
1987：Efron: Better bootstrap confidence intervals で BCa を提案。
1992：Hall: The Bootstrap and Edgeworth Expansion 教科書。
1993：Efron & Tibshirani: An Introduction to the Bootstrap 教科書、普及の決定打。
1994：Politis & Romano: The Stationary Bootstrap で時系列拡張。
1996：Efron: Bootstrap aggregating (Bagging) でアンサンブル学習に応用。
1997：Davison & Hinkley: Bootstrap Methods and Their Application 応用集大成。
2014：Chernick & LaBudde: An Introduction to Bootstrap Methods with Applications to R。

💼 産業応用事例

臨床試験

治療効果の SE と CI、 ARR (Absolute Risk Reduction) の不確実性。

ファイナンス

VaR、シャープレシオ、トラッキングエラーの CI。

機械学習

Bagging (Random Forest)、予測 CI、特徴重要度の SE。

計量経済学

弾力性・処置効果の SE、 GMM 推定量の不確実性。

品質管理

CpK、 Process Capability の CI。

A/B テスト

効果サイズの Bootstrap CI、ベイズ Bootstrap で事後分布。

生物統計

マイクロアレイの遺伝子発現比較、補正後 p 値。

スポーツ分析

プレーヤー指標の CI、期待値計算。

🔬 Bootstrap の収束精度

Hall (1992) の Edgeworth 解析によると、 Bootstrap CI の被覆精度は手法によって異なります：

CI 手法	片側精度	両側精度	補正
通常正規	$O(n^{-1/2})$	$O(n^{-1})$	なし
Percentile	$O(n^{-1/2})$	$O(n^{-1})$	なし
Bootstrap-t	$O(n^{-1})$	$O(n^{-2})$	studentized
BCa	$O(n^{-1})$	$O(n^{-2})$	bias+accel

BCa と Bootstrap-t が二階精度 ($O(n^{-2})$) で最良。通常正規 CI と percentile CI は同精度ですが、偏った分布では数値的に大きく異なります。

計算量と精度のトレードオフ

Percentile: $O(B)$ 計算、一階精度。
Bootstrap-t: $O(B \cdot n)$ または $O(B^2)$ で studentization、二階精度。
BCa: $O(B + n)$、 jackknife を加えるので $n$ 倍、二階精度。
ABC: $O(n)$、解析的近似、一階精度。

「Bootstrap が一致推定量にならない」例

Bickel & Freedman (1981) は以下の場合に Bootstrap が一致推定量にならないことを示しました：

標本最大値：$X_{(n)}$ の分布の Bootstrap は退化分布に。
裾の重い分布：$X_i$ の分散が無限大なら Bootstrap も一致しない。
境界パラメータ：「真値が境界にある」状況。
多項分布の比率：$0$ 値カテゴリで一致性問題。

こうしたケースには m-out-of-n Bootstrap、 subsampling、または直接的シミュレーションが代替手段です。

📍 あなたが今見ているもの

💡 30秒で分かる結論

🎨 直感で掴む — 「手元データを母集団に見立てる」

🪣 ブートストラップの「水汲み比喩」

🎲 復元抽出のイメージ

📐 数式 — ブートストラップの定式化

標準誤差の推定（Bootstrap SE）

パーセンタイル信頼区間

BCa（Bias-Corrected and accelerated）

🔬 数式を「言葉」で読み解く

🧮 実値で計算してみる — SSDSE-B の都道府県平均人口

STEP 1：手で 5 都道府県のミニ標本で体感

STEP 2：47 県・B=10,000 の結果（典型値）

STEP 3：分布の歪みを観測する

🐍 Python 実装 — 3 通りの方法

方法 A：手動でブートストラップループ（教育用）

方法 B：scipy.stats.bootstrap（推奨・1 行）

方法 C：回帰係数のブートストラップ CI

方法 D：可視化（ヒストグラム＋CI）

⚠️ ブートストラップの 5 つの落とし穴

🌐 ブートストラップの派生・拡張

🔗 関連用語（前提・並列・発展）

📚 前提（先に押さえたい）

🤝 並列（同じレイヤーの仲間）

🚀 発展（その先へ）

📚 関連グループ教材

🗺 概念マップ — ブートストラップを取り巻く位置関係

📚 さらに学ぶには

このサイト内

推奨書籍・教材

オンライン教材

困ったときは

🧠 Bootstrap の哲学 — 「データを母集団と思え」

📐 5 種類のブートストラップ CI

🐍 SSDSE-B での Bootstrap 完全実装

📅 時系列ブートストラップ — ブロック法

📊 回帰での Bootstrap — 4 流儀

⚠️ Bootstrap の追加的落とし穴（10 個）

🎓 Bootstrap の理論的保証 — どこまで信頼できるか

🌐 リサンプリング家系図

💼 Bootstrap 実務応用 8 分野

📑 Bootstrap 古典論文集

🔗 関連用語（拡張版）

❓ よくある質問（FAQ）

🏛 Bootstrap の歴史

💼 産業応用事例

🔬 Bootstrap の収束精度

計算量と精度のトレードオフ

「Bootstrap が一致推定量にならない」例