本ページは 統計的差別(Statistical Discrimination)を多角的に解説します。 上のチップは、 検索・関連語の手がかりです。
統計的差別(Statistical Discrimination)は、 ケネス・アローらが 1970 年代に経済学で論じた概念。 当時は労働市場での雇用差別が焦点でしたが、 21 世紀の AI 時代に新しい意味を持つようになりました。 機械学習モデルが過去の偏ったデータから学び、 偏見を再生産・増幅する問題です。
有名な統計的差別ケース:
| 事例 | 差別の構造 |
|---|---|
| Amazon 採用 AI(2018) | 過去 10 年の男性中心採用データで学習 → 女性の履歴書を低評価 |
| COMPAS(米犯罪予測) | 黒人を白人より高リスクと判定(ProPublica 2016) |
| Apple Card(2019) | 同等所得でも女性の与信枠が低い |
| 住宅ローン審査 | 郵便番号(地域)から人種を推定し差別 |
| 顔認識(暗い肌で誤認率高) | 学習データの偏りが直接出る |
共通構造:過去データの偏見 → モデルが学習 → 自動化された差別。 「アルゴリズムは公平」という幻想を打ち砕く事例群。
公平性の定量指標例:
COMPAS の指標例:
| 指標 | 白人 | 黒人 | 判定 |
|---|---|---|---|
| 偽陽性率(再犯しないのに高リスク予測) | 23% | 45% | ❌ 不公平 |
| 偽陰性率(再犯するのに低リスク予測) | 48% | 28% | ❌ 不公平 |
| 精度(予測スコアの校正) | 0.67 | 0.63 | ○ ほぼ同等 |
精度(calibration)は公平だが、 誤分類のタイプがグループで違う。 これは 不可能性定理の現れ。
最小コードで動かしてみる例:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | from fairlearn.metrics import ( demographic_parity_difference, equalized_odds_difference, ) # モデル予測の公平性チェック y_pred = model.predict(X_test) sensitive = X_test['性別'] # 保護属性 dpd = demographic_parity_difference( y_true=y_test, y_pred=y_pred, sensitive_features=sensitive ) eod = equalized_odds_difference( y_true=y_test, y_pred=y_pred, sensitive_features=sensitive ) print(f'人口統計学的均等: {dpd:.3f}, 機会均等: {eod:.3f}') |