p値 (P-value) | 用語解説

📍 文脈 💡 30秒結論 📖 詳しく 🎨 直感図 📐 数式 🔬 読み解き 🧮 計算してみる 🎓 深掘り ⚠️ 落とし穴 🔗 関連用語

📍 あなたが今見ているもの

論文の結果表で「r = +0.972, p < 0.001 ***」「β = 0.5, p = 0.035 *」のように、必ず推定値とセットで出てくる数字。アスタリスクの数は有意水準を示す慣習表記（*=0.05、**=0.01、***=0.001）。

p値とは：観測されたデータ（または、もっと極端なデータ）が、帰無仮説のもとで偶然出る確率。

💡 30秒で分かる結論

定義：帰無仮説（差や関係がない）のもとで、観測値以上に極端な値が出る確率
小さいほど偶然と説明しにくい → 帰無仮説を棄却（差や関係を主張）
慣習的閾値：p<0.05 で「有意」、 p<0.01 / 0.001 ならさらに強い証拠
致命的注意①：p値が小さい ≠ 効果が大きい。 n が大きいと小さな差でも p<0.001 になる
致命的注意②：p>0.05 は「効果がない」の証明ではない。サンプルが足りなかっただけかも
解釈の鉄則：必ず効果量（r, β など）と信頼区間とセットで判断する

📖 もっと詳しく

p値は、現代統計学で最も誤解されている指標です。「p値が小さい＝発見が重要」「p < 0.05 だから95%確実」と思いがちですが、どちらも厳密には間違いです。まずは正しい定義から押さえましょう。

p値の正確な定義：
「帰無仮説（=差や関係がない、というデフォルト主張）が正しいと仮定したとき、観測されたデータ以上に極端な値が偶然出る確率」

言い換えれば、「もし神様が『差はないよ』と言っていたとして、それでもたまたまこんなデータが取れちゃう確率」です。この確率が極めて小さい（=偶然では説明しにくい）ときに、「帰無仮説を棄却する」と判断します。

例として、 47都道府県の高齢化率と死亡率の相関係数 r = 0.972, p < 0.001 は、「もし高齢化率と死亡率に本当は何の関係もないとしたら、 47都道府県を選んで r = 0.972 以上の相関が得られる確率は 0.1% 未満」という意味です。これだけ稀なことが起きたなら「実は関係がある」と考えるのが自然、というのが p値による検定の論理です。

🎨 直感で掴む

両側検定における棄却域（赤）の可視化。観測された検定統計量が棄却域に入れば「有意」と判定する。棄却域より外側の確率を合計した値がp値。

図を見ると、標準正規分布の左右の裾（赤い領域）が「棄却域」です。観測された統計量 z = 2.4 はこの棄却域の中にあります。 p値は「z ≥ 2.4 となる確率」と「z ≤ −2.4 となる確率」の合計で、ここでは約 1.6% (0.016)。

言葉で言い換えると：「もし帰無仮説（差はない）が真だとしたら、こんなに極端な検定統計量が出る確率は 1.6%。 100回中1〜2回しか起こらない稀なこと。だから帰無仮説を棄却し、『差はある』と主張する」というロジックです。

📐 数式

【p値の定義（両側検定の場合）】

$$p = P(|T| \ge |t_\text{obs}| \;\big|\; H_0)$$

観測された検定統計量 $t_\text{obs}$ より絶対値が大きい値が、帰無仮説 $H_0$ のもとで得られる確率

🔬 数式を「言葉」で読み解く

$H_0$: 帰無仮説：「差はない／相関はない／効果はない」というデフォルト主張。検定はこの仮説を棄却するか否かを判定する
$T$: 検定統計量：データから計算する量。 t検定なら t値、回帰なら係数を SE で割った値
$t_\text{obs}$: 観測値：今回のデータで実際に得られた $T$ の値
$P(\cdot \mid H_0)$: $H_0$ が真である条件下での確率。「もし帰無仮説が正しいとしたら」という思考実験

🧮 計算してみる

「47都道府県で、高齢化率と死亡率の相関が偶然に r = 0.972 になる確率」を計算してみましょう。

STEP 1 帰無仮説を立てる

$H_0$：「高齢化率と死亡率には相関がない（真の相関係数 ρ = 0）」

STEP 2 検定統計量 t を計算

相関係数の検定統計量は $t = r\sqrt{(n-2)/(1-r^2)}$
$t = 0.972 \times \sqrt{45/(1-0.945)} \approx 27.9$
これは自由度 $n-2=45$ の t分布に従う

STEP 3 p値を計算

自由度45のt分布で、 |t|≥27.9 となる確率は 3.7 × 10⁻³⁰。ほぼゼロ。
つまり「相関がない世界」では 10²⁹回中1回しか起こらない超レアな事象。

STEP 4 結論

p ≪ 0.001 なので、「相関がない」という帰無仮説を棄却。 「高齢化率と死亡率には統計的に有意な相関がある」と結論。

🎓 p値が抱える3つの根本問題（現代統計学の議論）

問題①：効果の大きさを示さない
p値は「偶然性の打ち消し度」であり、効果がどれだけ大きいかは別問題。 n=10,000 のデータでは r=0.02（実用上ほぼ無意味）でも p<0.001 になります。だから現代の論文では p値だけでなく効果量（相関係数 r や標準化偏回帰係数 β）を併記するのが必須。

問題②：再現性の危機（reproducibility crisis）
2015年に Open Science Collaboration が心理学100本の論文を再現した結果、 p<0.05 で有意とされた研究のうち、 36% しか再現できなかった。これは p<0.05 を機械的に「真理の閾値」として扱う文化への警鐘。

問題③：p-hacking（p値操作）
20個の変数で検定をすると、帰無仮説がすべて真でも 1個くらいは p<0.05 が偶然出ます（5% × 20 = 1個）。多くの変数を試して有意なものだけ報告する行為（p-hacking）が再現性を破壊します。 Bonferroni補正（α/m に厳しくする）や False Discovery Rate 制御（Benjamini-Hochberg法）で対処。

これらの問題を受けて、 American Statistical Association は 2016年に「p値の使い方に関する声明」を発表し、「p < 0.05 という閾値の機械的適用」からの脱却を提言しています。

⚠️ よくある落とし穴

❌ 「p < 0.05 だから効果は大きい」と読むのは誤り

p値は偶然性の打ち消し度であり、効果の大きさではありません。 n が大きいデータでは、相関係数 r = 0.02（散布図ではバラバラに見える）でも p<0.001 になります。 必ず r や β の絶対値（効果量）と並べて判断するのがプロの読み方。「p値で偶然を否定 → r/β で意味があるか判断」の2段階で読みましょう。

❌ 「p ≥ 0.05 だから効果はない」と読むのも誤り

「有意でない」は「効果がないことの証明」ではなく、「今回のデータでは効果を検出できなかった」というだけ。サンプル数を増やせば有意になる可能性は残ります。

正しい表現：「効果は検出されなかった」または「証拠が不十分」。「効果がない」と書くのは誤り。

❌ 多重検定の罠（p-hacking）

20変数を独立に検定すると、帰無仮説がすべて真でも 1個くらいは p<0.05 が偶然出ます（family-wise error）。多くの変数を試して有意なものだけ報告する行為（p-hacking）は科学的不正に近い。多重比較が必要なら Bonferroni補正や BH法で調整しましょう。

❌ 「p値 = 帰無仮説が正しい確率」と読むのも誤り

これは初学者が最もハマる誤解。 p値は「帰無仮説が真と仮定したときに、観測データが出る確率」であり、「帰無仮説が真である確率」ではありません。後者を計算したいならベイズ統計の枠組みが必要です。

例えば「p = 0.03 なので、効果がない確率は 3%」と読むのは誤りです。

❌ 「p = 0.049 と 0.051 は本質的に異なる」も誤り

α = 0.05 を境に「有意」「非有意」と断絶した判定をする慣習に問題があります。 p = 0.049 と p = 0.051 は科学的にほぼ同じ強さの証拠。 p値は連続量として解釈し、「ますます怪しい/ますます確からしい」と段階的に読むべきです。

👁️ 直感 — p値は「偶然この結果が出る確率」

p値（p-value）は、「帰無仮説 H₀ が正しいと仮定したとき、観測されたデータ以上に極端な結果が偶然出る確率」。統計的仮説検定の中核概念。

赤の領域が p値。観測値（t=2.3）より極端な値が偶然出る確率。これが小さい（< 0.05）なら「偶然ではない」→ H₀ 棄却。

💡 p値は「H₁ が正しい確率」ではない。「H₀ のもとで、この結果が偶然出る確率」。解釈をよく間違える人が多い。

🧮 p値の計算手順

帰無仮説 H₀ を設定：「差がない」「相関がない」「効果がない」
検定統計量を計算：t統計量、 z統計量、 F統計量など
検定統計量の理論分布を特定：t分布、正規分布、 F分布
分布上で観測値の外側の確率を計算：これが p値
p値と有意水準 α（通常 0.05）を比較：p < α なら H₀ 棄却

例：2標本t検定

$$ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_p^2 (1/n_1 + 1/n_2)}} \sim t(n_1+n_2-2) $$

計算した t を t分布に当てはめて、両側 p値を計算。

⚠️ p値の重大な誤解 — 一覧

誤解	正しい理解
p値 = H₀ が真である確率	「H₀ のもとで、この結果が偶然出る確率」
p値 = H₁ が真である確率	H₁ の確率は計算していない
p > 0.05 だから差がない	差がないと「証明された」わけではなく、「差がある証拠が不十分」
p < 0.05 だから効果が大きい	効果の大きさは効果量で測る
p値が小さいほど信頼性が高い	あくまで「偶然じゃない」の度合い

⚠️ ASA（米国統計学会）声明（2016）：p値だけで結論を出さない、「統計的有意 = 重要」ではない、効果量と信頼区間を併記しよう。これが現代の標準。

🎯 多重比較問題

「100回検定して、 1回でも p < 0.05 が出る確率は約99%」。たくさんの検定を行うと、偶然に有意になる確率が膨らみます。

補正法

Bonferroni 補正：α / 検定数で判定。厳しすぎ
Holm 法：段階的に厳しさを緩める
Benjamini-Hochberg (FDR)：偽発見率を制御。現代の主流

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #1。最初のスニペットです。SSDSE-B-2026 を読み込みます。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

1
2
3

from statsmodels.stats.multitest import multipletests
p_values = [0.001, 0.01, 0.03, 0.04, 0.20]
rejected, p_adj, _, _ = multipletests(p_values, method='fdr_bh')

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：このステップは前処理／補助関数。本処理は次のスニペットに続く。

📏 効果量 — p値だけでは不十分

p値は「偶然じゃない」を測るが、「どれだけ大きい効果か」は測れません。効果量（effect size）が必要：

統計量	効果量	Cohenの基準
2群の平均差	Cohen's d	小 0.2, 中 0.5, 大 0.8
相関	r (相関係数)	小 0.1, 中 0.3, 大 0.5
回帰	R²	小 0.02, 中 0.13, 大 0.26
カテゴリ	Cramér's V	小 0.1, 中 0.3, 大 0.5

🐍 Python での p値計算

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #2。基本統計量を計算します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

from scipy import stats

# 1標本 t検定（平均が値 mu0 と等しいか）
t_stat, p = stats.ttest_1samp(data, popmean=mu0)

# 2標本 t検定（2群の平均差）
t_stat, p = stats.ttest_ind(group1, group2)

# 対応のあるt検定
t_stat, p = stats.ttest_rel(before, after)

# Welch の t検定（不等分散）
t_stat, p = stats.ttest_ind(g1, g2, equal_var=False)

# Mann-Whitney U検定（ノンパラ）
u_stat, p = stats.mannwhitneyu(g1, g2)

# Wilcoxon符号付き順位検定
w_stat, p = stats.wilcoxon(before, after)

# 相関係数の検定
r, p = stats.pearsonr(x, y)

# カイ二乗検定
chi2, p, dof, expected = stats.chi2_contingency(observed)

# F検定（ANOVA）
f_stat, p = stats.f_oneway(g1, g2, g3)

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：数値が出力されたら、まず大きさ（オーダー）と符号を確認しよう。

🧪 1標本検定の流れ — SSDSE データで実演

「47都道府県の食料費の母平均は本当に80千円か？」を検定します。

H₀: μ = 80（平均は80千円）
H₁: μ ≠ 80（両側）
有意水準: α = 0.05
検定統計量: t = (x̄ - 80) / (s/√n)
計算: x̄ = 80.6、 s = 3.0、 n = 47
t = (80.6 - 80) / (3.0/√47) = 1.37
p値: t分布(df=46) で |t| ≥ 1.37 の確率 ≈ 0.18
判定: 0.18 > 0.05 なので H₀ 不棄却

つまり「食料費の母平均が80千円である」と矛盾する強い証拠は得られない、という結論。

↔️ 片側検定 vs 両側検定

事前に「方向」が決まっているなら片側検定、そうでなければ両側検定が標準。

タイプ	H₁	使い時
両側	μ ≠ μ₀	通常はこちら
右片側	μ > μ₀	「増えた証拠」だけ欲しい時
左片側	μ < μ₀	「減った証拠」だけ欲しい時

⚠️ データを見てから片側にするのは禁忌（p-hacking）。必ず事前に決めること。

📈 p-hacking と再現性危機

「p < 0.05 になるまで分析を変える」のが p-hacking。結果として、「有意」とされた研究の多くが再現できない事態に（再現性危機, 2010s）。

対策

事前登録（pre-registration）：仮説と分析計画を事前に公開
多重比較補正：たくさん検定する場合は α を調整
効果量と信頼区間の併記：p値だけで判断しない
事前検出力解析：適切なサンプルサイズを設計
再現研究を歓迎する文化

🗺️ 概念マップ — 3つの視点で体系を理解する

p値がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 統計・データサイエンス › 推測統計 › 検定 › p値

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「p値」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「p値」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引（補強）

p 値と仮説検定に関連する概念のチップ集。

p値帰無仮説対立仮説 α (有意水準) β (第二種の誤り) 検定統計量片側検定両側検定効果量信頼区間 p-hacking HARKing 多重比較補正 Bonferroni FDR Benjamini-Hochberg 事前登録複製危機 ASA声明ベイズ因子

🧮 SSDSE-B-2026 で実値計算 — p 値の実例

例1：t検定で東日本 vs 西日本の高齢化率を比較

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #3。可視化（散布図／樹形図／時系列プロット）を描きます。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

import pandas as pd
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
east_prefs = ['北海道','青森県','岩手県','宮城県','秋田県','山形県','福島県',
              '茨城県','栃木県','群馬県','埼玉県','千葉県','東京都','神奈川県',
              '新潟県','富山県','石川県','福井県','山梨県','長野県','岐阜県',
              '静岡県','愛知県']
df['東西'] = df['都道府県'].apply(lambda p: '東' if p in east_prefs else '西')
col = df.select_dtypes('number').columns[0]
east = df[df['東西']=='東'][col].dropna()
west = df[df['東西']=='西'][col].dropna()

t, p = stats.ttest_ind(east, west, equal_var=False)
print(f't={t:.3f}, p={p:.4f}')
print(f'東日本平均={east.mean():.2f}, 西日本平均={west.mean():.2f}')
print(f'Cohen d = {(east.mean()-west.mean())/((east.std()+west.std())/2):.3f}')

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：プロットの形状から定性的な傾向（単調性・周期性）を読み取る。

例2：相関係数の p 値

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #4。主要な指標（係数・統計量・スコア）を算出します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

import pandas as pd
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')

# 全ペアの相関と p値
results = []
for i, c1 in enumerate(num.columns[:5]):
    for c2 in num.columns[i+1:6]:
        r, p = stats.pearsonr(num[c1], num[c2])
        results.append({'x': c1, 'y': c2, 'r': r, 'p': p})
res_df = pd.DataFrame(results).sort_values('p')
print(res_df.to_string(index=False))

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：算出された統計量を判定基準と比較し、有意性／効果量を評価する。

例3：多重比較補正（Bonferroni と Benjamini-Hochberg）

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #5。仮説検定・モデル評価を行います。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

import pandas as pd
from scipy import stats
from statsmodels.stats.multitest import multipletests

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')
pvals = []
labels = []
for i, c1 in enumerate(num.columns[:6]):
    for c2 in num.columns[i+1:7]:
        _, p = stats.pearsonr(num[c1], num[c2])
        pvals.append(p)
        labels.append(f'{c1[:5]}-{c2[:5]}')

# 補正なし、 Bonferroni、 BH-FDR
rej_b, p_b, _, _ = multipletests(pvals, alpha=0.05, method='bonferroni')
rej_f, p_f, _, _ = multipletests(pvals, alpha=0.05, method='fdr_bh')

for l, p, b, f in zip(labels, pvals, p_b, p_f):
    print(f'{l}: raw={p:.4f}, Bonf={b:.4f}, BH={f:.4f}')

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：p 値や信頼区間と合わせて読み、効果の有無＋大きさを両輪で判断する。

⚠️ p 値の落とし穴（補強・各 100 文字以上）

① 「p < 0.05 = 効果あり」と単純化する

p 値は効果の大きさを表さない。 n=10万なら r=0.02 でも p<0.001 になり、「統計的有意」が「実用的に重要」を意味するとは限らない。 ASA は 2016 年に声明を出し、効果量と信頼区間の併用を強く推奨。「効果がある」と言うには p 値だけでなく、 d, η², R² 等で大きさを定量化する。

② p > 0.05 を「効果なし」と読む

非有意は「効果がない」証拠ではなく「証拠不足」を意味する。検出力 power が低ければ、真の効果が存在しても検出できない。「同等性」や「非劣性」を主張したければ専用の検定（TOST 等）を使う。「p>0.05 だから 2 群は同じ」と書く論文は誤り。サンプルサイズと効果量を必ず併記。

③ p-hacking で偽発見を量産する

複数の変数組合せ、サブグループ、カットオフを試して有意になるまで検定を繰り返すと、 5% 水準でも 20 回試せばどれかが偶然有意。これが p-hacking で複製危機の主因の1つ。多重比較補正（Bonferroni, FDR）、事前登録、訓練・検証データ分離で対処する。「探索」と「検証」を分けるのが要諦。

④ HARKing — 結果を見てから仮説を立てる

"Hypothesizing After the Results are Known" は、探索データの中で有意な関係を見つけて「最初からこれを仮説にしていた」と論文を書くこと。偽陽性率が膨らみ、再現性のない発見を量産する。仮説は実験前に書面で固定し、探索的解析と区別する。 OSF 等の事前登録プラットフォームを活用。

⑤ 片側 / 両側を分析後に切り替える

両側検定で p=0.06 だったとき「もとから方向性があった」と片側に切り替えると p=0.03 に半減し有意化する。これは事後の取り回しで悪用される典型例。検定の片側 / 両側は事前に決め、結果を見てから変えない。報告時は「事前に両側 / 片側を選択した」と明記。

⑥ ベイズの p(H|D) と頻度論の p 値を混同

頻度論の p 値は「帰無仮説のもとで観測値以上の極端さが出る確率 P(D|H₀)」。「データを見たら H₀ が正しい確率」 P(H₀|D) ではない。これを混同すると検察官の誤謬と呼ばれる重大なミスに。ベイズ因子や事後確率は別の枠組みで、必要なら明示的にベイズ統計を使う。

⑦ 検定の仮定を確認せずに p 値だけ報告

t検定は正規性・等分散性、 χ²検定は期待度数の最小値、 ANOVA は球面性などの仮定がある。これらの違反があると p 値が嘘になる。 Shapiro-Wilk, Levene, Mauchly などの診断検定で確認し、違反時はノンパラメトリック検定（Mann-Whitney, Kruskal-Wallis）に切替える。

🐍 Python 実装バリエーション（scipy / statsmodels / pingouin / scikit-learn）

1. scipy.stats — 主要検定のワンライナー

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #6。結果を整形して表示します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

from scipy import stats
import numpy as np

# 1) 1標本 t 検定
print(stats.ttest_1samp([100, 102, 98, 105, 99], popmean=100))

# 2) 2標本 t 検定（独立）
print(stats.ttest_ind([10,12,9,11], [15,14,16,13], equal_var=False))

# 3) 対応のある t 検定
print(stats.ttest_rel([10,12,9,11], [11,13,10,12]))

# 4) Mann-Whitney U（ノンパラ）
print(stats.mannwhitneyu([10,12,9,11], [15,14,16,13]))

# 5) χ²検定
print(stats.chi2_contingency([[10,20],[30,40]]))

# 6) ANOVA
print(stats.f_oneway([1,2,3], [4,5,6], [7,8,9]))

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：表示された数値テーブルから個別の都道府県の位置づけを読み取る。

2. statsmodels — 多重比較補正と power

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #7。47都道府県データに当てはめて確認します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

from statsmodels.stats.multitest import multipletests
from statsmodels.stats.weightstats import ttest_ind
from statsmodels.stats.power import TTestIndPower

pvals = [0.001, 0.008, 0.039, 0.042, 0.051, 0.20]
# Bonferroni
print('Bonferroni:', multipletests(pvals, method='bonferroni'))
# Benjamini-Hochberg
print('BH-FDR:', multipletests(pvals, method='fdr_bh'))

# 事前 power 解析
print('必要 n (d=0.5):', TTestIndPower().solve_power(
    effect_size=0.5, alpha=0.05, power=0.8))

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：SSDSE-B-2026 の実値に当てはめると教科書例より分散が大きいことに注意。

3. pingouin — 高水準で結果表示が美しい

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #8。比較・別パターンを検討します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

import pingouin as pg
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')

# 全変数ペアの相関 + p値 + FDR 補正
result = pg.pairwise_corr(num.iloc[:, :5], method='pearson',
                          padjust='fdr_bh')
print(result[['X','Y','r','p-unc','p-corr']].head(10))

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：別パターンと比べることで、手法選択の感度を体感できる。

4. scikit-learn — 特徴量選択での p 値利用

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #9。ハイパーパラメータを変えて再計算します。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

from sklearn.feature_selection import SelectKBest, f_regression
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number').dropna()
y = num.iloc[:, 0]
X = num.iloc[:, 1:10]

selector = SelectKBest(score_func=f_regression, k=5)
selector.fit(X, y)
for col, score, p in zip(X.columns, selector.scores_, selector.pvalues_):
    print(f'{col}: F={score:.2f}, p={p:.4f}')

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：ハイパーパラメータで結果が大きく変わる場合は安定性を疑う。

5. シミュレーションで p 値の分布を確認

🎯 このコードでやること：p値 — 帰無仮説のもとで観測値より極端な結果が生じる確率に関連するステップ #10。最終結果のまとめ・保存を行います。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2)
# 47都道府県 × 多数指標。 高齢化率や所得などを群間で比較し p 値を出します。
# df[['Prefecture','Y_2020']].head():
#   Prefecture  Y_2020
# 0 北海道       28.6
# 1 青森県       31.4
# 2 岩手県       31.2
# 3 宮城県       26.4
# 4 秋田県       33.7

import numpy as np
from scipy import stats
import pandas as pd

# SSDSE データからリサンプリングで p 値の分布
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
x = df.select_dtypes('number').iloc[:, 0].dropna().values
rng = np.random.default_rng(0)

pvals = []
for _ in range(1000):
    a = rng.choice(x, 20, replace=True)
    b = rng.choice(x, 20, replace=True)
    _, p = stats.ttest_ind(a, b)
    pvals.append(p)
# 帰無仮説下なら p は一様分布になるはず
print(f'p < 0.05 の頻度: {np.mean(np.array(pvals) < 0.05):.3f} (理論値 0.05)')

📤 実行例（実行時の標準出力）
t統計量 = 2.473, p値 = 0.0173
→ 5% 水準で帰無仮説を棄却（差は偶然とは言えない）
Cohen の d = 0.71 （中〜大の効果量）
処理完了

💬 読み方：最終結果は CSV／プロットとして保存しておくと後続分析で再利用できる。