カイ二乗検定 (Chi-square Test)

👁️ 直感 — χ²検定は「カテゴリデータの独立性検定」

カイ二乗検定はカテゴリ変数の関係を調べる主要な検定：

適合度検定：観測度数と期待度数の一致
独立性検定：2つのカテゴリ変数の独立性
同質性検定：複数集団の分布が同じか

📐 χ²統計量

$$ \chi^2 = \sum_{i, j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$

O_ij：観測度数
E_ij：帰無仮説の元での期待度数
差が大きいほど χ² が大きい → H₀ 棄却

独立性検定の期待度数

$$ E_{ij} = \frac{\text{行}_i\text{の合計} \times \text{列}_j\text{の合計}}{\text{総合計}} $$

📊 適合度検定の例

「サイコロは公平か？」を 60 回投げて検定：

観測：1=8, 2=12, 3=11, 4=9, 5=13, 6=7
期待（公平なら）：各10
χ² = Σ(O-E)²/E = (4+4+1+1+9+9)/10 = 2.8
df = 5、 p > 0.05 → サイコロは公平と矛盾しない

📋 χ²検定の仮定

観測値が独立
各セルの期待度数が5以上が望ましい（少ない場合は Fisher の正確検定）
大標本（n > 30）

🐍 Python での χ²検定

▼ コード解説（クロス集計表の作成（pd.crosstab））

🎯 解説: pd.crosstab で 2 変数の度数表を作成。 χ² 検定の入力。 行と列の独立性を検定する基本表。

📥 入力例: df['人口規模区分'] × df['高齢化区分']
  47 県 × 2 カテゴリ × 2 カテゴリ

📤 実行例: 都市 × 若い: 15 県
  都市 × 高齢: 5 県
  地方 × 若い: 7 県
  地方 × 高齢: 20 県

💬 読み方: クロス集計は「2 変数の同時分布」を可視化。 期待度数とのズレを χ² で測ると独立性が検定できる。

from scipy import stats
import pandas as pd

# 適合度検定
observed = [8, 12, 11, 9, 13, 7]
expected = [10] * 6
chi2, p = stats.chisquare(observed, expected)

# 独立性検定（クロス集計）
contingency = pd.crosstab(df['性別'], df['購入'])
chi2, p, dof, expected = stats.chi2_contingency(contingency)
print(f'χ² = {chi2:.3f}, df = {dof}, p = {p:.4f}')

# Fisher の正確検定（小サンプル）
oddsratio, p = stats.fisher_exact(contingency)

# Cramér's V（効果量）
n = contingency.sum().sum()
v = np.sqrt(chi2 / (n * (min(contingency.shape) - 1)))

🚧 落とし穴と注意点

サンプルサイズを確認（小標本では結果が不安定）
仮定の検証（正規性、独立性、等分散性）
外れ値の影響を散布図で確認
多重比較問題（複数検定時は補正を）
p値だけで判断しない、効果量と信頼区間を併記
因果関係を主張するには別の根拠が必要

🔬 「カイ二乗検定」を深く理解する

χ²分布の性質

独立な標準正規分布の二乗和 → df = 個数
常に非負（χ² ≥ 0）
右に裾を引いた非対称分布
df → ∞ で正規分布に近づく

効果量 Cramér's V

$$ V = \sqrt{\frac{\chi^2}{n \cdot \min(r-1, c-1)}} $$

0〜1の値、大きいほど強い関連。 Cohen の基準：0.1 小、 0.3 中、 0.5 大。

応用

マーケット調査（性別 × 購入意向）
遺伝学（メンデルの法則の検定）
ABテスト（コンバージョン比較）
適合度検定（実データと理論分布の一致）

📝 練習問題 — 理解度チェック

この用語の基本定義を、自分の言葉で説明できますか？
この手法が使われる典型的なシナリオを3つ挙げられますか？
この手法の前提条件・仮定を確認できますか？
結果を解釈する際の注意点は何ですか？
類似手法との違いを説明できますか？
Python（または他言語）で実装できますか？
SSDSE データで応用例を作成できますか？

🔗 さらに学ぶための関連用語

このトピックの理解を深めるには、以下の関連概念も合わせて学習することをお勧めします。概念マップから直接ジャンプできます：

基礎：平均、分散、標準偏差、相関係数
推測：信頼区間、 p値、標準誤差、有意水準
関連手法：他の検定・回帰モデル
応用：機械学習での実装

📚 参考文献・さらなる学習

古典的教科書

Casella & Berger "Statistical Inference"
Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression and Multilevel/Hierarchical Models"

実践書

VanderPlas "Python Data Science Handbook"
McKinney "Python for Data Analysis"
James, Witten, Hastie & Tibshirani "An Introduction to Statistical Learning"

オンラインリソース

scikit-learn 公式ドキュメント
statsmodels 公式ドキュメント
scipy.stats リファレンス
SSDSE データ（統計データ活用コンペティション）

💼 実務応用ガイド

データサイエンスプロジェクトでの位置づけ

探索的分析（EDA）：基本統計量・可視化でデータを理解
前処理：標準化・正規化・欠損値処理
モデリング：回帰・分類・クラスタリング
評価：CV、指標計算、統計的検定
解釈・報告：効果量・信頼区間・可視化

業界別ユースケース

マーケティング：顧客セグメンテーション、 ROI 分析、 A/Bテスト
金融：ポートフォリオ最適化、リスク評価、信用スコアリング
医療：臨床試験、疫学研究、診断モデル
製造：品質管理、予測保全、工程最適化
公共政策：社会統計、政策効果分析、計画立案

📖 完全ガイド — 統計学習の参照表

分析の流れ — 8ステップ

問題定義：何を知りたいのか、目的を明確に
データ収集：信頼できるソースから（SSDSEなど公的データ）
データクリーニング：欠損値、外れ値、入力ミスの確認
探索的分析（EDA）：要約統計量、ヒストグラム、散布図
変数変換：標準化、対数変換、カテゴリのエンコード
モデリング：適切な手法を選び、学習
評価：CV、指標、統計的検定
解釈・報告：効果量、信頼区間、可視化

統計手法の選び方マトリクス

目的	1変数	2変数	多変量
記述	平均, 中央値, 分散	相関, 共分散	PCA, 因子分析
可視化	ヒストグラム, 箱ひげ	散布図, ヒートマップ	散布図行列, バイプロット
予測	時系列モデル	単回帰	重回帰, Ridge, LASSO
分類	ロジスティック回帰	判別分析	SVM, RF, NN
グループ化	階級分け	2次元クラスタリング	k-means, 階層クラスタリング
検定	1標本t検定	2標本t検定, χ²	ANOVA, MANOVA

サンプル数別の手法ガイド

n	推奨手法
n < 10	記述統計のみ、ノンパラ検定、ベイズ統計
10 ≤ n < 30	t検定, ブートストラップ, 単回帰
30 ≤ n < 200	重回帰, ANOVA, 階層クラスタリング
200 ≤ n < 10000	複雑な回帰, RF, GBM, k-means
n ≥ 10000	深層学習, 大規模分散学習

Python 主要ライブラリ早見表

ライブラリ	用途
numpy	数値計算の基礎、行列演算
pandas	データフレーム、表操作
scipy	統計関数、最適化、線形代数
statsmodels	古典統計、検定、回帰分析の詳細
scikit-learn	機械学習、前処理、評価
matplotlib	基本可視化
seaborn	統計的可視化（高級）
plotly	インタラクティブ可視化
xgboost / lightgbm	勾配ブースティング
PyTorch / TensorFlow	深層学習

よくある質問（FAQ）

Q: 正規分布じゃないデータをどう扱う？
A: 対数変換、 Box-Cox 変換、ノンパラ検定、ブートストラップ
Q: 外れ値を除くべき？
A: ドメイン知識で判断。機械的に除くより、ロバスト手法を検討
Q: サンプルサイズはいくつあれば十分？
A: 効果量と検出力から事前計算（power analysis）
Q: p < 0.05 で「効果あり」と結論していい？
A: 効果量と信頼区間も併記。多重比較補正も
Q: 相関があれば因果がある？
A: ない。 RCT、 IV、 DiD などの因果推論手法が必要

📓 用語のまとめ — 30秒で理解

このページで扱った概念を、学習効率のためにまとめます。これを毎日見ることで、統計の基礎が体に染み込みます。

必ず押さえるべき記号

記号	意味	読み方
μ	母平均	ミュー
σ	母標準偏差	シグマ
σ²	母分散	シグマ二乗
x̄	標本平均	エックスバー
s	標本標準偏差	エス
n	標本サイズ	エヌ
p	p値、比率	ピー
α	有意水準	アルファ
β	回帰係数、第二種誤り率	ベータ
r	相関係数	アール
R²	決定係数	アール二乗
Σ	総和記号、共分散行列	シグマ大文字
N(μ, σ²)	正規分布	ノーマルミューシグマ二乗
t(df)	t分布	ティー
χ²(df)	カイ二乗分布	カイ二乗
F(d1, d2)	F分布	エフ
H₀, H₁	帰無仮説、対立仮説	エイチゼロ、エイチワン
E[X]	期待値	エクスペクタンス
Var(X)	分散	バリアンス
Cov(X, Y)	共分散	カバリアンス

💡 統計学・データサイエンスは「記号の意味を理解する」ことが最初の壁。各記号が何を表すか、公式の中での役割を覚えてしまえば、後はパターンの組合せで様々な手法が理解できます。

🌐 データサイエンス全体像での位置づけ

データサイエンスのワークフロー

ビジネス理解：何を解決したいか
データ理解：どんなデータがあるか
データ準備：前処理、特徴量エンジニアリング
モデリング：手法選択、学習
評価：性能、解釈性、ビジネス価値
展開：実装、運用、監視

(CRISP-DM プロセスより)

主要分野のマッピング

分野	主要技術	代表ツール
記述統計	要約量、可視化	pandas, matplotlib
推測統計	検定、信頼区間	scipy.stats, statsmodels
機械学習	予測、分類、クラスタリング	scikit-learn, XGBoost
深層学習	NN、画像、自然言語	PyTorch, TensorFlow
時系列	ARIMA、状態空間、 LSTM	statsmodels, prophet
因果推論	RCT、 IV、 DiD、 PSM	DoWhy, EconML
ベイズ統計	MCMC、変分推論	PyMC, Stan
最適化	線形/凸/離散最適化	scipy.optimize, cvxpy

キャリアパス

データアナリスト：記述統計、可視化、 BI
データサイエンティスト：機械学習、統計モデリング
機械学習エンジニア：モデル実装、デプロイ、 MLOps
統計学者・計量経済学者：因果推論、統計的検定
研究者：新しい手法開発

💎 良いデータ分析のための10のコツ

必ず可視化から始める：散布図、ヒストグラム、箱ひげ図
外れ値を意識する：除く前にドメイン的に理解
仮定を確認する：正規性、独立性、等分散性
サンプルサイズに見合う複雑性：n=10 で深層学習はしない
効果量も併記する：p値だけでは不十分
信頼区間で不確実性を示す：点推定だけでは誤解の元
多重比較を補正する：探索的解析でも誠実に
ホールドアウト or CV で評価する：訓練データの精度は意味がない
解釈可能性も重視する：ブラックボックスより white-box
再現可能なコードを書く：random_seed、バージョン管理

🔗 用語間の関係 — 統計概念のネットワーク

記述統計の基本セット

これらは互いに深く関連します：

平均：データの重心 → 偏差の合計はゼロ
分散：偏差の二乗の平均 → 平均からの広がり
標準偏差：分散の平方根 → 元の単位
共分散：2変数の偏差の積の平均 → 一緒に動くか
相関係数：共分散を標準偏差で割ったもの → 単位なし

推測統計の基本セット

標準誤差：推定値のばらつき = σ/√n
信頼区間：x̄ ± z × SE
p値：H₀ のもとでの確率
有意水準 α：許容する第一種誤り率
検出力 1-β：差を見つける確率
効果量：差の大きさ（標準化済み）

回帰モデルファミリー

単回帰：1変数 → 1変数の予測
重回帰：多変数 → 1変数
Ridge：L2正則化付き重回帰
LASSO：L1正則化（変数選択付き）
Elastic Net：L1+L2の組合せ
ロジスティック回帰：分類用
ポアソン回帰：カウントデータ用

クラスタリング・次元削減ファミリー

k-means：分割クラスタリング
階層クラスタリング：ツリー構造
Ward法：分散最小化の階層クラスタリング
DBSCAN：密度ベース
PCA：線形次元削減
因子分析：潜在因子モデル
t-SNE, UMAP：非線形次元削減

検定ファミリー

t検定：1〜2 群の平均比較
F検定（ANOVA）：3群以上の平均比較
χ²検定：カテゴリ変数の独立性
Mann-Whitney U：t検定のノンパラ版
Kruskal-Wallis：ANOVAのノンパラ版
Wilcoxon：対応のあるt検定のノンパラ版

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

▼ コード解説（χ² 検定（scipy.stats.chi2_contingency））

🎯 解説: scipy.stats.chi2_contingency で 2 行 2 列以上の独立性検定。 期待度数・統計量・p 値を一括取得。

📥 入力例: クロス集計表（観測度数）

📤 実行例: χ² = 15.3
  df = 1, p = 0.00009
  → 都市性と高齢化は独立でない

💬 読み方: p<0.05 で独立性帰無仮説を棄却。 都市部と地方部で高齢化分布が異なることが統計的に裏付けられる。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

🗺️ 概念マップ — 3つの視点で体系を理解する

カイ二乗検定 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「カイ二乗検定」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「カイ二乗検定」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引（補強・追加分）

カイ二乗検定関連の補強キーワード。クリックで該当箇所へ：

適合度検定独立性検定 Yates補正 Fisher正確検定 Cramér's V クロス集計表期待度数自由度対数尤度比検定 McNemar検定

🧮 SSDSE-B 実値計算例（47都道府県データ）

47 都道府県を「高所得」「低所得」「持ち家高」「持ち家低」でクロス集計し、独立性のカイ二乗検定を行う完全再現例。

① 計算コード

▼ コード解説（期待度数の計算）

🎯 解説: 期待度数 E_ij = (行合計 × 列合計) / 総合計。 観測度数との差で χ² を計算。

📥 入力例: 観測度数 O_ij と期待度数 E_ij

📤 実行例: 観測: 都市×若い 15、 期待: 11
  観測: 地方×高齢 20、 期待: 16
  ズレが大きい

💬 読み方: 期待度数を見ると「独立だったらこうなるはず」が分かる。 大きくズレた cell が χ² の主要寄与。

▼ コード解説（Cramer's V（効果量））

🎯 解説: Cramer's V = sqrt(χ² / (n × min(r-1, c-1)))。 χ² は標本サイズに依存するため、 効果量で標準化。

📥 入力例: 2×2 表の場合は phi 係数と等価

📤 実行例: Cramer's V = 0.57
  → 中〜大の効果量

💬 読み方: 0.1=小、 0.3=中、 0.5=大が目安。 χ² が有意でも V が小さければ実質的な関連は弱い。

import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
# 連続値を2カテゴリに離散化
df['所得カテゴリ'] = pd.qcut(df['一人当たり県民所得'], q=2, labels=['低所得', '高所得'])
df['持ち家カテゴリ'] = pd.qcut(df['持ち家比率'], q=2, labels=['持ち家低', '持ち家高'])

# クロス集計表
ct = pd.crosstab(df['所得カテゴリ'], df['持ち家カテゴリ'])
print(ct)

# カイ二乗検定
chi2, p, dof, expected = stats.chi2_contingency(ct)
print(f'χ² = {chi2:.3f}, df = {dof}, p = {p:.4f}')
print(f'期待度数:\n{pd.DataFrame(expected, index=ct.index, columns=ct.columns)}')

# Cramér's V（効果量）
n = ct.values.sum()
v = np.sqrt(chi2 / (n * (min(ct.shape) - 1)))
print(f"Cramér's V = {v:.3f} （0.1=小、 0.3=中、 0.5=大）")

② 期待出力

項目	値	参考	解釈
観測度数	高所得×持ち家高	5	東京等の大都市は持ち家低なので少ない
観測度数	高所得×持ち家低	18	大都市は所得高・持ち家低の傾向
観測度数	低所得×持ち家高	18	地方は所得低・持ち家高
観測度数	低所得×持ち家低	6
検定	χ²	12.85	df=1, p ≈ 0.0003
効果量	Cramér's V	0.52	強い関連（地方／都市の構造）

👉 値は SSDSE-B-2026 の典型値。同じ手順で他都道府県・他変数にも適用可能。

⚠️ 落とし穴（拡張版・各 100 文字以上）

① 期待度数が小さい（< 5）セルが多いと近似が破綻

カイ二乗分布は連続分布だが、検定統計量は離散的な度数から計算する。期待度数が小さいセルでは近似が悪化し、 p 値が信頼できない。セルの 20% 以上が期待度数 5 未満ならFisher の正確検定に切り替える。 SSDSE のような n=47 の小サンプルでは特に注意が必要で、全カテゴリで期待度数を必ず確認する。

② 連続値の離散化の恣意性

「高所得／低所得」の切り方を四分位・三分位・任意境界のどれにするかで p 値が変わる。探索的に複数の切り方を試して「有意になるもの」を選ぶのは p-hacking。事前に分析計画を決め、切り方を固定する。連続変数のままなら相関分析やロジスティック回帰で扱うべき。

③ 独立性検定 ≠ 因果関係

χ² で「独立でない」と分かっても因果ではなく単なる関連。「所得と持ち家が独立でない」は事実だが、「高所得が持ち家を引き下げる」とは限らない（都市部効果が交絡）。第3変数の影響を考えるなら層別分析・ロジスティック回帰へ。

④ 多重比較を無視

複数のクロス集計表を次々に検定すると、偽陽性が積み上がる（α=0.05 で 20 回検定すれば期待 1 つは「有意」）。 Bonferroni 補正・Holm 法・FDR で調整。探索的なら p 値より効果量（Cramér's V）を重視。

⑤ Yates 補正の使いどころを誤解

2×2 表で n が小さい場合、連続性補正（Yates）を使うと χ² が小さくなり保守的。ただし現代では Yates 補正は過保守との批判があり、むしろ Fisher 正確検定が推奨される。 R のデフォルトは Yates 補正あり、 Python の scipy はなし、と挙動が異なる点に注意。

⑥ 効果量を報告しない

p 値だけ報告は古典的。サンプルサイズが大きいと「実用的に無視できる関連」でも有意になる。必ず Cramér's V や odds ratio など効果量を併記。 0.1=小、 0.3=中、 0.5=大が目安（Cohen）。信頼区間も付ければなお良い。

⑦ McNemar 検定との混同

「対応のある」2×2 表（例：同じ被験者の前後比較）には独立性検定でなく McNemar 検定を使う。 χ² 独立性を誤用すると検定の前提（独立観測）が崩れ、結論が信頼できない。デザインに応じた検定選択が必須。

⑧ 期待度数の式を勘違い

期待度数 E = (行合計 × 列合計) / 全体. これは「独立を仮定した場合の理論度数」。観測度数との乖離が χ² の正体。行・列合計を入れ替えると違う値になるので、セルの位置と添字を確認する習慣をつける。

🐍 Python 実装バリエーション（scikit-learn / scipy / Optuna）

A. scikit-learn による実装

▼ コード解説（適合度検定（観測 vs 理論分布））

🎯 解説: scipy.stats.chisquare で「観測度数が特定の分布に従うか」を検定。 一様性・正規性などの検査。

📥 入力例: 観測度数 vs 期待度数（一様分布等）

📤 実行例: χ² = 8.2, df=5, p=0.14
  → 一様性を棄却できない

💬 読み方: 適合度検定は分布仮定の検査。 χ² 検定の独立性検定との違いに注意。

▼ コード解説（Yates' continuity correction）

🎯 解説: 2×2 表で標本が小さいとき、 Yates 連続性補正を適用。 χ² 値を下げて第一種誤り率を抑える。

📥 入力例: correction=True を指定

📤 実行例: 補正なし: χ² = 15.3
  補正あり: χ² = 13.8
  p 値も若干大きく

💬 読み方: n が小さい（特に各 cell の期待度数<10）ときは補正推奨。 ただし保守的すぎる批判もあり、 Fisher 検定の方が安全な場合も。

from sklearn.feature_selection import chi2, SelectKBest
# 機械学習で「カテゴリ目的変数 vs カテゴリ説明変数」のスクリーニング
# 例：所得カテゴリを目的変数として、 各都道府県特徴の χ² を取得
X_cat = pd.get_dummies(df[['持ち家カテゴリ', '世帯人員']], drop_first=True).astype(int)
y_cat = df['所得カテゴリ']

chi2_scores, p_vals = chi2(X_cat, y_cat)
for col, chi2_v, p_v in zip(X_cat.columns, chi2_scores, p_vals):
    print(f'{col:25} χ²={chi2_v:6.2f}, p={p_v:.4f}')

B. scipy / statsmodels による実装

▼ コード解説（Fisher の正確検定）

🎯 解説: scipy.stats.fisher_exact で小標本の 2×2 表を厳密に検定。 χ² の代替（漸近性が崩れる場合）。

📥 入力例: 小標本（n<20 または期待度数<5）

📤 実行例: オッズ比 = 5.7, p = 0.0001
  → 関連あり

💬 読み方: 期待度数が 5 未満の cell があるとき、 χ² 近似は不正確。 Fisher 正確検定が標準的な代替。

▼ コード解説（ロジスティック回帰との関係）

🎯 解説: 2×2 表の χ² 検定はロジスティック回帰の Wald 検定と漸近的に等価。

📥 入力例: y = 高齢区分（0/1）, x = 都市区分（0/1）

📤 実行例: ロジスティック係数 ≈ log(オッズ比)
  Wald χ² ≈ Pearson χ²

💬 読み方: クロス集計の χ² とロジスティック回帰は同じ情報を別表現。 多変量に拡張するならロジスティック回帰。

from scipy import stats
# Fisher の正確検定（小サンプル）
ct = pd.crosstab(df['所得カテゴリ'], df['持ち家カテゴリ'])
odds, p_fisher = stats.fisher_exact(ct)
print(f'odds ratio = {odds:.3f}, p = {p_fisher:.4f}')

# 対数尤度比検定（G 検定）
g_stat, p_g, dof, exp = stats.chi2_contingency(ct, lambda_='log-likelihood')
print(f'G統計量 = {g_stat:.3f}, p = {p_g:.4f}')

# χ² 適合度検定（一様分布との比較）
freq = df.groupby('所得カテゴリ').size().values
chi2_g, p_g = stats.chisquare(freq, f_exp=[len(df)/2]*2)
print(f'適合度 χ² = {chi2_g:.3f}, p = {p_g:.4f}')

C. Optuna でハイパラ・選択最適化

▼ コード解説（3 変数以上の高次集計）

🎯 解説: pd.crosstab で 3 変数以上の集計表を作成。 条件付き独立性検査（Mantel-Haenszel）に使う。

📥 入力例: 都市性 × 高齢化 × 地域ブロック

📤 実行例: ブロックごとの 2×2 表
  ブロック別 χ² と統合 χ²

💬 読み方: 高次集計は Simpson のパラドックスを検出。 全体では関連あり、 ブロック内では関連なし、 等のケース。

▼ コード解説（Mantel-Haenszel 検定）

🎯 解説: 層別 2×2 表の共通オッズ比を計算。 交絡因子で層別したときに使う。

📥 入力例: ブロック別 2×2 表

📤 実行例: 共通 OR = 4.2, χ²_MH = 18.5
  各層と整合

💬 読み方: MH 検定は「複数の 2×2 を同時に検定」する古典的手法。 ロジスティック回帰の前身。

# χ² 検定で離散化の最適な閾値を探索（注意：p-hacking 回避のため探索的のみ）
import optuna

def objective(trial):
    q = trial.suggest_int('quantiles', 2, 5)
    inc = pd.qcut(df['一人当たり県民所得'], q=q, labels=False, duplicates='drop')
    own = pd.qcut(df['持ち家比率'], q=q, labels=False, duplicates='drop')
    ct = pd.crosstab(inc, own)
    if (ct.values < 5).mean() > 0.2:
        return 0  # 期待度数小すぎは無効
    chi2, p, dof, _ = stats.chi2_contingency(ct)
    v = np.sqrt(chi2 / (ct.values.sum() * (min(ct.shape) - 1)))
    return v  # Cramér's V を最大化

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=20)
print('Best quantiles:', study.best_params, 'V:', study.best_value)
# 注意：これは探索のみ。 仮説検定として報告するなら事前登録が必要

D. ライブラリ早見表

ライブラリ / 関数	用途
`scipy.stats.chi2_contingency`	独立性検定（汎用）
`scipy.stats.chisquare`	適合度検定
`scipy.stats.fisher_exact`	2×2 の Fisher 正確検定
`statsmodels.stats.contingency_tables.Table`	詳細な分析（残差・効果量等）
`statsmodels.stats.contingency_tables.mcnemar`	対応のある 2×2 検定

🔗 関連用語（前提・並列・発展）

📚 前提（前提関係）

⚖️ 並列（並列関係）

Fisher 正確検定
McNemar 検定
G 検定（対数尤度比）
Cochran Q 検定
分散分析

場面	使い方
探索的データ分析	分布や関係性の最初の確認
モデル比較	仮定の妥当性を裏付ける指標として
レポート作成	標準的な要約統計量・指標として明記

項目	値・指標
データ件数	47 都道府県
対象指標	人口・世帯数・就業者数など
計算結果	上記説明参照

📍 あなたが今見ているもの

💡 30秒で分かる結論