仮説検定（p値・有意水準・検出力・効果量）

📍 あなたが今見ているもの

論文・記事に 「p値」「有意水準」「帰無仮説」「対立仮説」「検出力」「効果量」「第I種誤り」「第II種誤り」「多重比較」 として登場する用語群。推測統計の中核ですが、 21世紀になって多くの誤解と再現性危機が指摘されています。古典的体系 + 現代的批判 + ベイズの代替を含めて学びます。

🔖 キーワード索引

論文記事から各用語のリンクをクリックすると、該当箇所が開きます：

🎯 H₀ / H₁（仮説） 📊 p値 📏 有意水準 α 💪 検出力 📐 効果量 ⚠️ 第I種・第II種誤り ↔️ 片側 / 両側 🔢 多重比較 🎲 ベイズファクター 🌳 検定の選び方 🚧 よくある誤解 📝 練習問題 🗺️ 概念マップ

💡 30秒で分かる結論

仮説検定：標本データから「母集団についての主張」を判断する枠組み
H₀ vs H₁：H₀ を立てて、標本データがそれを支持しないかを判定
p値：H₀ が真と仮定したとき、観測データ以上に極端な値が出る確率
有意水準 α：通常 0.05（医療は0.01、物理は5σ）
検出力 1-β：H₁ が真のときに正しく棄却する確率（通常 0.80 目標）
効果量：差の大きさ（p値だけでは不十分）
前提：代表値、確率分布、標本・CLT
次に学ぶ：t検定、 ANOVA、 χ²検定

🗂️ 章俯瞰 — 仮説検定の全体像

「標本データから母集団についての主張を判断する」枠組み。 Fisher（1925）と Neyman-Pearson（1933）が体系化。統計推論の中核ですが、 21世紀に入って多くの誤解と再現性危機が指摘されています。本ページでは古典的体系を押さえつつ、現代的な批判と改善も含めて解説します。

仮説検定の5ステップ

仮説を立てる：H₀（帰無）と H₁（対立）を明確に
有意水準を決める：α（通常 0.05）— 事前に決める
検定統計量を計算：データから t値 / z値 / χ²値 / F値を算出
p値を出す：「H₀ が真の時、これ以上極端な統計量が出る確率」
判断：p < α なら H₀ を棄却、結果を効果量・信頼区間と併記

🎯 H₀（帰無仮説）と H₁（対立仮説）

仮説検定は「背理法に似た論理」で進めます。まず「差はない」「効果はない」という消極的な仮説 H₀を立て、データがそれを否定するほど極端かを問います。

例：

新薬の効果検証：H₀「薬とプラセボに差はない」 vs H₁「薬の方が効果あり」
A/B テスト：H₀「新UI のCVR は旧と同じ」 vs H₁「新UI の方が高い」
47都道府県：H₀「東日本と西日本の食料費平均は等しい」 vs H₁「異なる」

💡 重要：「H₀ を棄却できなかった」≠「H₀ が真である」。「証拠不十分」というだけ。「効果がない」を主張するには別の枠組み（同等性検定など）が必要。

📊 p値（p-value）

「H₀ が真と仮定したとき、観測されたデータ（の検定統計量）と同じかそれ以上に極端な結果が偶然出る確率」。

$$ p = P(|T| \ge |t_\text{obs}| \mid H_0) $$

記号：$T$ は検定統計量（確率変数）、 $t_\text{obs}$ は観測された値、 $|\cdot|$ は両側検定の場合。

解釈：

p が小さい → H₀ のもとでは「ありえない」結果が観測された → H₀ を疑う
p が大きい → H₀ で説明可能 → H₀ を棄却できない
通常 p < 0.05 を「統計的に有意」とする（慣習）

p値の重大な誤解

❌ 誤った解釈	✅ 正しい解釈
p = 0.03 → H₀ が真である確率は 3%	H₀ が真と仮定したときの確率（条件付き）
p < 0.05 → 効果が大きい	「偶然じゃない」だけで効果量とは別
p > 0.05 → 効果がない	「証拠不十分」、効果はあるかもしれない
p値が小さいほど信頼できる	サンプルサイズが大きいだけかもしれない

2016 年の 米統計学会 (ASA) 声明は、 p値だけで結論を出さないことを強調。効果量・信頼区間・複数アプローチを併用すべき。

📏 有意水準 α

「H₀ が真なのに棄却してしまう」誤り（第I種誤り、 false positive）を許容する確率。事前に決めるべき。

分野	慣習的 α	理由
心理学・社会学	0.05	Fisher 由来の慣習
医療試験（FDA 承認）	0.05（両側）	承認基準
物理学（粒子発見）	5σ ≈ 3×10⁻⁷	「発見」を主張する厳しさ
GWAS（遺伝子）	5×10⁻⁸	100万 SNP の多重比較
経済学	0.05〜0.10	サンプル取得困難

近年は「p < 0.05 という基準そのものを見直すべき」という議論も。 Benjamin et al.（2018）は「α = 0.005 を新標準に」と提案。

⚠️ 第I種誤り・第II種誤り

	H₀ が真	H₁ が真
H₀ を棄却	第I種誤り（α, false positive）	正しい判定（検出力 1-β）
H₀ を棄却せず	正しい判定	第II種誤り（β, false negative）

$\alpha$ を厳しくすると（小さくすると）第I種誤りは減るが、第II種誤りは増える（トレードオフ）。両方を同時に下げるにはサンプルサイズ $n$ を増やすしかない。

💪 検出力（Statistical Power, 1-β）

「H₁ が真のときに、正しく H₀ を棄却する確率」。通常 $1-\beta = 0.80$ を目標。

検出力は 4 要素で決まる：

α：大きくすれば検出力↑（ただし false positive ↑）
効果量 $d$：大きいほど検出しやすい
サンプルサイズ $n$：大きいほど検出力↑
ばらつき $\sigma$：小さいほど検出力↑

検出力解析の Python

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

from statsmodels.stats.power import TTestIndPower

analysis = TTestIndPower()

# n を逆算（効果量 d=0.5、 α=0.05、 検出力 0.80）
n = analysis.solve_power(effect_size=0.5, alpha=0.05, power=0.80)
print(f'必要 n = {int(n)}')   # 各群 ≈ 64

# 与えられた n での検出力
power = analysis.solve_power(effect_size=0.3, nobs1=50, alpha=0.05)
print(f'検出力 = {power:.3f}')

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

📐 効果量（Effect Size）

「p値が小さい」だけでは「効果が大きい」とは限らない。効果の実質的な大きさを表すのが効果量。

場面	効果量	公式	小 / 中 / 大
2 群平均差	Cohen's d	$(\mu_1 - \mu_2)/\sigma$	0.2 / 0.5 / 0.8
相関	r	Pearson 相関係数	0.1 / 0.3 / 0.5
回帰	R²	決定係数	0.02 / 0.13 / 0.26
ANOVA	η² (eta²)	説明される分散	0.01 / 0.06 / 0.14
χ²	Cramér's V	$\sqrt{\chi^2/(n(k-1))}$	0.1 / 0.3 / 0.5
ロジスティック	Odds Ratio	オッズ比	1.5 / 2.5 / 4.0

Cohen の基準は慣習であって絶対ではない。分野によって「中程度」の感覚は異なる。医療では小さな効果量でも臨床的に重要、心理学では中効果が標準など。

↔️ 片側検定と両側検定

事前に「方向」が決まっているなら片側、そうでなければ両側：

タイプ	H₁	使い時
両側	$\mu \ne \mu_0$	通常はこちら
右片側	$\mu > \mu_0$	「増加」だけ検出したい時
左片側	$\mu < \mu_0$	「減少」だけ検出したい時

⚠️ データを見てから片側にするのは禁忌（p-hacking）。必ず事前に決めること。

🔢 多重比較問題

10 個の検定を $\alpha=0.05$ で行うと、すべて H₀ が真でも偶然に有意になる確率は $1-0.95^{10} \approx 40\%$。何も補正しないと「探索的に有意なペアを選んだ」状態になり、再現性危機の温床になります。

補正法	概要	特徴
Bonferroni	$\alpha / m$ で判定	最も保守的・厳しい
Holm	段階的 Bonferroni	Bonf より検出力↑
Benjamini-Hochberg (BH)	FDR（偽発見率）制御	現代の主流
Tukey HSD	ANOVA 後の全ペア比較	事後検定用

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

from statsmodels.stats.multitest import multipletests

p_values = [0.001, 0.01, 0.03, 0.04, 0.10, 0.20]

# Benjamini-Hochberg (FDR)
rej, p_adj, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh')

# Bonferroni
rej, p_adj, _, _ = multipletests(p_values, alpha=0.05, method='bonferroni')

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

🌳 検定の選び方フロー

目的	データ型	パラメトリック	ノンパラメトリック
1群の平均を仮説値と比較	連続	1標本 t検定	Wilcoxon 符号付順位
対応のある 2群比較	連続	対応のある t検定	Wilcoxon 符号付順位
独立 2群比較	連続	2標本 t検定 / Welch	Mann-Whitney U
3群以上の平均	連続	ANOVA	Kruskal-Wallis
分散の同等性	連続	F検定 / Levene	Bartlett
カテゴリ × カテゴリ	離散	χ²検定	Fisher の正確検定（小サンプル）
相関の有意性	連続 × 連続	Pearson の t検定	Spearman / Kendall

🎲 ベイズファクター（Bayes Factor）— p値の代替

頻度主義の p値の問題点を克服する、ベイズ統計の対案。「H₁ が H₀ より何倍ありそうか」を直接示す。

$$ BF_{10} = \frac{P(\text{data} \mid H_1)}{P(\text{data} \mid H_0)} $$

BF₁₀	証拠の強さ（Kass-Raftery）
1 〜 3	弱い・「言うほどでもない」
3 〜 20	中程度（positive）
20 〜 150	強い
> 150	非常に強い

近年の論文では p値とベイズファクターを併記するケースが増加。ベイズ流の利点：「H₀ も支持できる」（p値では不可能）。

🚧 よくある誤解 — チェックリスト

❌ 誤解	✅ 正しい理解
p値が小さい = 効果が大きい	サンプルサイズが大きいだけかもしれない。効果量で評価
p > 0.05 = 差はない	「証拠不十分」。検出力不足の可能性
p値だけ報告すれば十分	点推定 + CI + 効果量 + p値 + n を全部
データを見てから片側検定にする	p-hacking。事前登録が必要
複数検定を補正なしで実施	Bonferroni / BH-FDR で補正
有意になるまでサンプルを増やす	事前にサンプルサイズを決める
p値が再現性を保証する	「再現性危機」の問題。複数研究の蓄積が必要

⚠️ ASA 声明（2016）の 6原則：(1) p値は仮説と観測データの不一致を測る、 (2) 「H₀ が真である確率」ではない、 (3) p < 0.05 だけで結論を出さない、 (4) 完全な報告と透明性が必要、 (5) p値は効果の大きさを測らない、 (6) p値だけでモデルの良さは分からない。

📝 練習問題

問1：p = 0.03 が出た時、「H₀ が真である確率は 3%」は正しいか？

誤り。 p値は「H₀ を所与とした上で、観測データ以上に極端なデータが出る条件付き確率」。ベイズの定理を使わなければ「H₀ が真である確率」は計算できない。

問2：効果量 d=0.5、 α=0.05、検出力 0.8 を達成するに必要な各群 n は？

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

1
2
3

from statsmodels.stats.power import TTestIndPower
n = TTestIndPower().solve_power(effect_size=0.5, alpha=0.05, power=0.8)
print(int(n))   # 約 64

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

問3：n=10,000 で「平均の差が 1cm」を t検定したら p < 0.001 だった。これは実用上意味があるか？

サンプルサイズが大きすぎると、ほぼゼロの差でも p値は小さくなる（CLT のため）。効果量（Cohen's d）を見て、 1cm の差が実用上意味を持つか判断する。 p値の罠の典型例。

問4：20 個の変数の相関を全部検定したら 1 個だけ有意（p < 0.05）だった。これは発見か？

多重比較問題。 20 × 19 / 2 = 190 ペアの検定。偶然 1 個有意になるのは予想範囲（190 × 0.05 ≈ 9.5 個の偽発見が期待される）。 Bonferroni / BH-FDR で補正、または事前登録した仮説のみ検定する。

問5：SSDSE 47都道府県で「東日本と西日本の食料費平均の差」を t検定する Python コードを書け。

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

import pandas as pd
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
data = df.iloc[1:].copy()
data['年度'] = data['SSDSE-B-2026']
d23 = data[data['年度']=='2023']
food = pd.to_numeric(d23['L322101'], errors='coerce') / 1000

east_pref = ['北海道','青森県','岩手県','宮城県','秋田県','山形県','福島県',
             '茨城県','栃木県','群馬県','埼玉県','千葉県','東京都','神奈川県',
             '新潟県','富山県','石川県','福井県','山梨県','長野県','岐阜県','静岡県','愛知県','三重県']
east = food[d23['Prefecture'].isin(east_pref)]
west = food[~d23['Prefecture'].isin(east_pref)]

t, p = stats.ttest_ind(east.dropna(), west.dropna(), equal_var=False)  # Welch
print(f't = {t:.3f}, p = {p:.4f}')
# 効果量も
d = (east.mean() - west.mean()) / pd.concat([east, west]).std()
print(f"Cohen's d = {d:.3f}")

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

📋 報告フォーマット

「東日本と西日本の食料費平均の差を Welch の t 検定で検証した。結果は東日本の平均（80.8 千円, $s$=2.8）、西日本の平均（80.5 千円, $s$=3.4）で、統計的有意差は認められなかった（$t(45)=0.32, p=.75$, Cohen's $d$=0.10）。効果量も小さく、サンプルサイズ（$n=47$）から検出力解析を行うと、 d=0.5 を 95% 検出するには各群 64 必要であり、本研究では検出力不足の可能性がある。」

必須要素：(1) 使用した検定名、 (2) 検定統計量と自由度、 (3) p値、 (4) 効果量、 (5) 信頼区間、 (6) 検出力、 (7) サンプルサイズ。

📜 仮説検定の歴史

Karl Pearson (1900)：χ² 検定の体系化、統計学の数理的基礎
R.A. Fisher (1925)：「Statistical Methods for Research Workers」で p値・有意水準の概念を体系化、 α=0.05 の慣習はここから
Neyman-Pearson (1933)：第I種誤り α / 第II種誤り β / 検出力の枠組み
Fisher と Neyman-Pearson の論争：「証拠の強さ」vs「意思決定」という哲学的相違。現代の仮説検定はこの 2 派の折衷
Cohen (1988)：「Statistical Power Analysis」で効果量と検出力解析を一般化
Ioannidis (2005)：「Why Most Published Research Findings Are False」— 再現性危機の予告
ASA Statement (2016)：p値の誤用に対する米統計学会の公式声明
Amrhein et al. (Nature, 2019)：「統計的有意性」という用語の使用停止を 800人以上の研究者が支持

📚 参考文献

Fisher, R.A. (1925) "Statistical Methods for Research Workers"
Neyman & Pearson (1933) "On the Problem of the Most Efficient Tests of Statistical Hypotheses"
Cohen, J. (1988) "Statistical Power Analysis for the Behavioral Sciences"
ASA (2016) "The ASA Statement on p-Values: Context, Process, and Purpose"
Wasserman "All of Statistics" (Springer)
Casella & Berger "Statistical Inference"
東京大学教養学部統計学教室『統計学入門』

🔖 キーワード索引 — 仮説検定を多角的に理解する

仮説検定（hypothesis testing）を確実に理解するための関連キーワードを難易度別に整理しました。

🟢 基礎キーワード（まず押さえる）

帰無仮説（H₀, null hypothesis）：「効果がない」「差がない」とする仮説。検定では棄却を目指す。
対立仮説（H₁, alternative）：H₀ が棄却された場合に採択される仮説。片側・両側がある。
p 値：H₀ が真のとき、観測されたデータ以上に極端な結果が得られる確率。
有意水準 α：p 値の閾値。慣例的に 0.05、厳しい場合 0.01 や 0.001。
第一種の過誤（Type I error, α）：H₀ が真なのに棄却してしまう（偽陽性）。
第二種の過誤（Type II error, β）：H₀ が偽なのに棄却できない（偽陰性）。
検出力（power, 1 − β）：H₁ が真のときに H₀ を棄却できる確率。

🟡 中級キーワード

片側検定 vs 両側検定：方向を事前に仮定するかしないか。通常は両側、方向性が確定している場合のみ片側。
効果量（effect size）：差の大きさを標準化した指標。 Cohen's d、 r、 η² など。
標本サイズ設計（power analysis）：α、 1−β、効果量から必要 N を逆算する。
パラメトリック検定 vs ノンパラメトリック検定：分布の仮定の有無。 t 検定 vs Wilcoxon、 ANOVA vs Kruskal–Wallis。
多重比較問題（multiple comparisons）：複数の検定で α が累積する問題。 Bonferroni、 Holm、 BH 法で補正。
信頼区間（confidence interval）：p 値と表裏一体の情報。効果量の不確実性を区間で表現。

🔴 上級キーワード

p-hacking と再現性危機：閾値を超えるまで検定を繰り返す p 値ハッキング。心理学・医学で深刻。
事前登録（preregistration）：研究計画を事前に公開し、 p-hacking を防ぐ。
ベイズ因子（Bayes factor）：頻度論の p 値に対するベイズ的代替指標。
同等性検定（equivalence testing, TOST）：「差がないこと」を統計的に支持する検定。
偽発見率（FDR, false discovery rate）：多重検定での偽陽性割合の制御。 Benjamini–Hochberg 法。
順列検定（permutation test）：分布の仮定なしに p 値を経験的に算出する。

🧮 SSDSE-B-2026 実値計算例 — 47 都道府県データで仮説検定

合成データではなく、公的統計を念頭に仮説検定の具体的手順を数値で示します。

① 「東日本と西日本で平均寿命に差はあるか」（2 群 t 検定）

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

# データ：47 都道府県の平均寿命（仮想値、 実際は男女別や年により異なる）
東日本（北海道〜静岡 24 県）：平均 = 84.3、 標準偏差 = 0.7、 N = 24
西日本（愛知〜沖縄 23 県）：平均 = 84.8、 標準偏差 = 0.6、 N = 23

# 仮説
H₀: μ_東 = μ_西
H₁: μ_東 ≠ μ_西（両側）

# t 統計量（Welch）
標準誤差 SE = sqrt(0.7²/24 + 0.6²/23) = sqrt(0.0204 + 0.0157) = sqrt(0.0361) ≈ 0.190
t = (84.3 - 84.8) / 0.190 ≈ -2.63
df ≈ 44.8（Welch 補正）

# p 値（両側）
p = 2 · P(T < -2.63) ≈ 0.012

# 結論：α = 0.05 で H₀ を棄却
# 「西日本の方が東日本より平均寿命が長い」と統計的に有意

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

② 効果量 Cohen's d の計算

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

# プールされた標準偏差
s_pool = sqrt(((24-1)·0.7² + (23-1)·0.6²) / (24+23-2))
       = sqrt((23·0.49 + 22·0.36) / 45)
       = sqrt((11.27 + 7.92) / 45)
       = sqrt(0.426) ≈ 0.653

# Cohen's d
d = |84.3 - 84.8| / 0.653 ≈ 0.766

# Cohen の基準：
# 0.2 → 小、 0.5 → 中、 0.8 → 大
→ 効果量は「中〜大」、 実質的にも意味のある差

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

③ 信頼区間とのリンク

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

# 平均差の 95% 信頼区間
平均差 = 84.3 - 84.8 = -0.50
t(0.025, 44.8) ≈ 2.014
95% CI = -0.50 ± 2.014·0.190 = [-0.883, -0.117]

# 0 を含まないので p < 0.05 と整合
# 「西日本の平均寿命は東日本より 0.12〜0.88 年長い（95% 信頼）」

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

④ 標本サイズ設計

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

# 目標：効果量 d = 0.5、 α = 0.05（両側）、 検出力 1−β = 0.80
# 公式：n = 2·(z_{α/2} + z_β)²/d²
n = 2·(1.96 + 0.84)²/0.5²
  = 2·7.84/0.25
  ≈ 63

→ 各群 63 件、 計 126 件のサンプルが必要

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

⑤ 多重比較補正（47 都道府県の全ペア検定）

# 47 都道府県の総当たり t 検定
ペア数 = 47·46/2 = 1081

# 単純に α = 0.05 のままだと
偽陽性の期待数 = 1081 × 0.05 ≈ 54 件

# Bonferroni 補正
α_補正 = 0.05/1081 ≈ 4.6×10⁻⁵
→ p < 4.6×10⁻⁵ のペアだけ有意

# Holm-Bonferroni / BH 法ならもう少し緩やか

⚠️ 仮説検定の落とし穴 — 実務で必ず引っかかるポイント 7 選

① p 値を「効果の大きさ」と誤解する

p 値は効果の大きさではなく、「H₀ の下でデータが出現する稀少さ」を表す指標です。サンプルサイズが大きければ、ごくわずかな差でも p < 0.001 になります。例：N=10000 で平均差 0.01 でも有意になりますが、実務的に意味があるかは別問題。必ず効果量（Cohen's d、 r、 η²）と信頼区間を併報してください。 ASA（米国統計学会）も 2016 年に同様の声明を発表しています。

② 「p > 0.05 = 差がない」と結論する

p > 0.05 は「H₀ を棄却できない」という意味で、 「H₀ が正しい」ことを示すわけではない。サンプルサイズが小さく検出力が不足している可能性、効果量が小さくても実在する可能性が残ります。「差がない」と主張したいなら、同等性検定（TOST: Two One-Sided Tests）や事前のサンプルサイズ設計が必要です。

③ p-hacking：閾値を超えるまで検定を繰り返す

変数を変える、サブグループを変える、サンプルを足す、外れ値を除外する……を有意になるまで繰り返すのは p-hacking の典型。こうした「研究者の自由度」の悪用は再現性危機の主因とされます。対策は事前登録（preregistration）、分析計画の文書化、多重比較補正の徹底。 Bayes factor のように証拠の強さを連続的に評価する手法も有効です。

④ 多重検定で α が累積する

20 個の独立な検定を α = 0.05 で行うと、 少なくとも 1 つが偽陽性になる確率は 1 − (1−0.05)²⁰ ≈ 64%。 47 都道府県の全ペア比較なら 1081 検定で偽陽性 54 件が期待される。 family-wise error rate を抑える Bonferroni 法、 Holm 法、 FDR を抑える Benjamini–Hochberg 法を、状況に応じて使い分けてください。

⑤ 片側検定を恣意的に選ぶ

同じデータで両側検定が p = 0.08、片側にすると p = 0.04 で「有意！」と書くのは不当な操作です。片側検定はデータを見る前に「方向性が確定している」場合のみ許されます。「効果はあるはずだ」と思って片側にしたら、仮説検定の枠組みが壊れます。事前登録で方向性を明示することが必須です。

⑥ 検定の前提（正規性、等分散性）を確認しない

t 検定、 ANOVA、 F 検定など多くのパラメトリック検定は正規性・等分散性を前提とします。中心極限定理で N が大きければ正規性は緩和されますが、 N が小さく分布が歪んでいると Type I エラーが狂います。 QQ プロット、 Shapiro–Wilk、 Levene 検定で確認し、必要なら Wilcoxon、 Kruskal–Wallis、順列検定などノンパラ手法に切り替えましょう。

⑦ 「有意 = 重要」と短絡する報告

論文・レポートで「p < 0.05 なので有意」とだけ書くのは不十分。効果量、信頼区間、サンプルサイズ、検出力、検定の前提、多重比較補正の有無を併報する必要があります。 ASA は「具体的に何が分かったか」を述べることを推奨。「中程度の効果（d=0.5, 95% CI: 0.3-0.7、 N=100、 power 0.80）」のように書きましょう。

🐍 Python 実装のバリエーション — scipy / statsmodels / pingouin

① scipy.stats による各種検定

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

import pandas as pd
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8-sig')

east = df[df['region']=='east']['平均寿命']
west = df[df['region']=='west']['平均寿命']

# 1 標本 t 検定
t1, p1 = stats.ttest_1samp(east, popmean=84.0)
print(f'1 標本 t: t={t1:.3f}, p={p1:.4f}')

# 2 標本 t 検定（Welch、 等分散非仮定）
t2, p2 = stats.ttest_ind(east, west, equal_var=False)
print(f'Welch t: t={t2:.3f}, p={p2:.4f}')

# 対応のある t 検定
# t3, p3 = stats.ttest_rel(before, after)

# Mann–Whitney U（ノンパラ 2 群）
u, pu = stats.mannwhitneyu(east, west, alternative='two-sided')
print(f'MWU: u={u:.1f}, p={pu:.4f}')

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

② statsmodels で本格的な検定

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

import statsmodels.stats.api as sms
from statsmodels.stats.weightstats import ttest_ind

# Welch t 検定（自由度・p 値・統計量を取得）
t, p, df_ = ttest_ind(east, west, usevar='unequal')
print(f't={t:.3f}, p={p:.4f}, df={df_:.2f}')

# 平均差の信頼区間
cm = sms.CompareMeans.from_data(east, west)
print(cm.tconfint_diff(usevar='unequal'))

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

③ pingouin で効果量・前提チェック込みの 1 行 t 検定

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

import pingouin as pg

result = pg.ttest(east, west, paired=False, correction='auto')
print(result)
# T, dof, alternative, p-val, CI95%, cohen-d, BF10, power まで一括出力

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

④ サンプルサイズ・検出力の計算

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

from statsmodels.stats.power import TTestIndPower

analysis = TTestIndPower()

# 効果量 d=0.5、 α=0.05、 power=0.8 で必要 N
n = analysis.solve_power(effect_size=0.5, alpha=0.05, power=0.80)
print(f'各群必要 N = {n:.1f}')

# 既知の N で検出力
power = analysis.solve_power(effect_size=0.3, alpha=0.05, nobs1=50, ratio=1)
print(f'検出力 = {power:.3f}')

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

⑤ 多重比較補正

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

from statsmodels.stats.multitest import multipletests

p_values = [0.001, 0.012, 0.034, 0.048, 0.06, 0.10, 0.20]
# Bonferroni
rej, p_adj, _, _ = multipletests(p_values, method='bonferroni')
print('Bonferroni 補正後 p:', p_adj)

# Benjamini–Hochberg
rej_bh, p_bh, _, _ = multipletests(p_values, method='fdr_bh')
print('BH 補正後 p:', p_bh)

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

⑥ 同等性検定（TOST）

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

from statsmodels.stats.weightstats import ttost_ind

# 同等性の閾値 ±0.5
p_lower, p_upper, _ = ttost_ind(east, west, low=-0.5, upp=0.5)
print(f'TOST p（下限）= {p_lower:.4f}')
print(f'TOST p（上限）= {p_upper:.4f}')
# 両方 < 0.05 なら「同等」と結論

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

⑦ 順列検定（分布の仮定なし）

🎯 解説: SSDSE-B-2026 を読み込み、 仮説検定の対象となる統計量を計算する。 帰無仮説（H₀: 差はない／関連はない）と対立仮説（H₁）を明確化し、 P 値や信頼区間から有意性を判定する手順を確認する。

from scipy.stats import permutation_test

def diff_means(x, y):
    return x.mean() - y.mean()

res = permutation_test((east, west), diff_means, n_resamples=10000, alternative='two-sided')
print(f'順列検定 p={res.pvalue:.4f}')

📥 入力例: data/raw/SSDSE-B-2026.csv
  対象変数: A1101（総人口）、 A1301（65 歳以上人口）、 高齢化率
  検定対象: 都道府県群別平均の差、 相関係数、 比率の違いなど

📤 実行例:
  検定統計量 t = 2.34
  自由度 df = 45
  両側 P 値 = 0.024
  95% 信頼区間 = [0.15, 1.82]
  判定: P < 0.05 → H₀ を棄却

💬 読み方: P 値 0.024 は「H₀ が真ならこれより極端な結果が観測される確率が 2.4%」を意味する。 慣習的な α=0.05 を下回るので H₀ を棄却する。 ただし P 値は効果量ではないので、 信頼区間と併せて実質的有意性を評価することが必須。

列コード	意味	本ページでの用途
`A1101`	総人口	県別人口の差の検定
`A1303`	65 歳以上人口	高齢化率の地域差検定
`E1101`	小学校数	教育リソースの差検定
`F3101`	新規求人数	雇用機会の差検定

関係	概念	仮説検定との接続
上位（一般化）	統計推論一般	仮説検定は推論の構成要素
下位（特殊化）	特定の検定・推定	仮説検定の応用
並列（兄弟）	関連手法	同じ問題への別アプローチ
前提	確率分布・標本	仮説検定の数学的基礎
応用	政策評価・施策効果測定	SSDSE-B-2026 のような公的統計での実務

📍 あなたが今見ているもの

🔖 キーワード索引

💡 30秒で分かる結論

🗂️ 章俯瞰 — 仮説検定の全体像

仮説検定の5ステップ

🎯 H₀（帰無仮説）と H₁（対立仮説）

📊 p値（p-value）

p値の重大な誤解

📏 有意水準 α

⚠️ 第I種誤り・第II種誤り

💪 検出力（Statistical Power, 1-β）

検出力解析の Python

📐 効果量（Effect Size）

↔️ 片側検定と両側検定

🔢 多重比較問題

🌳 検定の選び方フロー

🎲 ベイズファクター（Bayes Factor）— p値の代替

🚧 よくある誤解 — チェックリスト

📝 練習問題

📋 報告フォーマット

📜 仮説検定の歴史

📚 参考文献

🔗 関連用語

📚 前提

🔀 並列（検定の種類）

🚀 発展

🔖 キーワード索引 — 仮説検定を多角的に理解する

🟢 基礎キーワード（まず押さえる）

🟡 中級キーワード

🔴 上級キーワード

🧮 SSDSE-B-2026 実値計算例 — 47 都道府県データで仮説検定

① 「東日本と西日本で平均寿命に差はあるか」（2 群 t 検定）

② 効果量 Cohen's d の計算

③ 信頼区間とのリンク

④ 標本サイズ設計

⑤ 多重比較補正（47 都道府県の全ペア検定）

⚠️ 仮説検定の落とし穴 — 実務で必ず引っかかるポイント 7 選

① p 値を「効果の大きさ」と誤解する

② 「p > 0.05 = 差がない」と結論する

③ p-hacking：閾値を超えるまで検定を繰り返す

④ 多重検定で α が累積する

⑤ 片側検定を恣意的に選ぶ

⑥ 検定の前提（正規性、 等分散性）を確認しない

⑦ 「有意 = 重要」と短絡する報告

🐍 Python 実装のバリエーション — scipy / statsmodels / pingouin

① scipy.stats による各種検定

② statsmodels で本格的な検定

③ pingouin で効果量・前提チェック込みの 1 行 t 検定

④ サンプルサイズ・検出力の計算

⑤ 多重比較補正

⑥ 同等性検定（TOST）

⑦ 順列検定（分布の仮定なし）

🔗 関連用語ネットワーク — 前提・並列・発展で 12 項目

📚 前提となる用語

🤝 並列に学ぶ用語

🚀 発展先

🔖 キーワード索引 — 完全強化版

💡 30 秒で分かる結論 — 完全強化版

📍 文脈ボックス — あなたが今見ているもの（完全強化版）

🎨 直感で掴む — 完全強化版

📐 数式または定義 — 完全強化版

🔬 数式を言葉で読み解く — 完全強化版

🧮 実値で計算してみる — SSDSE-B-2026 で 仮説検定（完全強化版）

🐍 Python 実装 — 完全強化版

⚠️ 落とし穴 — 完全強化版

🌐 関連手法・派生 — 完全強化版

🔗 関連用語（前提・並列・発展） — 完全強化版

📥 前提となる用語

↔️ 並列・関連の用語

🚀 発展・応用の用語

🗺 概念マップ — 完全強化版

📚 関連グループ教材

🎯 まとめ — 完全強化版

🔬 理論深掘り：仮説検定の本質

形式的定義の再確認

SSDSE-B-2026 における具体例

使用する主要な SSDSE-B-2026 列

🐍 拡張 Python 実装例

🎓 上級者向け議論：仮説検定の使い分けと注意点

1. データの性質と適用範囲

⑥ 検定の前提（正規性、等分散性）を確認しない

🧮 実値で計算してみる — SSDSE-B-2026 で仮説検定（完全強化版）