AI倫理・公平性・プライバシー

📍 あなたが今見ているもの

本ページでは、 AI 倫理を統合的に解説します。 公平性・説明可能性 (XAI)・プライバシー保護・透明性・規制（GDPR・EU AI Act・個人情報保護法）を一気通貫で扱います。

「AI モデルが高精度であること」と「社会で受け入れられること」は別です。倫理は後付けではなく、設計段階から組み込む必要があります。

🔖 🔖 キーワード索引（チップから該当箇所へジャンプ）

論文記事から各用語のリンクをクリックすると、該当箇所が開きます：

なぜAI倫理 AI原則公平性公平性指標統計的差別潜むバイアス説明可能性 (XAI) SHAP / LIME プライバシー匿名化差分プライバシー連合学習同意とオプトイン AIガバナンス規制 GDPR EU AI Act Deepfake・誤情報

💡 30秒で分かる結論

AI 倫理＝技術が社会に与える影響を制御する原則と実践。
公平性：センシティブ属性で結果が不当に変わらないこと。複数指標があり同時には満たせない。
XAI：SHAP・LIME 等でモデルの判断根拠を説明。 EU AI Act でハイリスク AI に義務化。
プライバシー：匿名化・差分プライバシー・連合学習で個人情報を守る。
規制：GDPR、 EU AI Act、改正個人情報保護法、米国NIST AI RMF。
Deepfake・偽情報は社会的リスク。検出技術と運用面の対策が必要。
AI を作る人だけでなく使う人・評価する人にも倫理リテラシーが必要。

🤔 1. なぜ AI 倫理が必要か

AI システムは「自動化されたスケール」で意思決定を下す → 過去の不公平が拡大再生産される危険。

有名な事例

COMPAS（米司法）：再犯予測ツールが黒人に不利な判定を出していた
Amazon の採用 AI：女性の履歴書を不利に評価し利用中止
Apple Card：同一世帯で夫より妻の与信枠が小さい
Microsoft Tay：Twitter の悪意ある入力で差別的発言を学習
顔認証の精度差：肌の色・性別で誤認識率が大きく異なる

📋 2. 主要な AI 原則

共通する 5 原則（OECD・G7・EU・日本ガイドライン）

人間中心・人権尊重
公平性・無差別
透明性・説明可能性
頑健性・安全性
責任・説明責任 (Accountability)

日本の「AI 利用ガイドライン」（2024）

総務省・経産省が共同で策定。提供者・利用者・公開者の責務を整理。

⚖️ 3. 公平性 (Fairness)

センシティブ属性 $A$（性別・人種・年齢等）に対し、予測 $\hat{Y}$ が不当に依存しないこと。

3.1 主な公平性指標

指標	定義	何を保証
統計的均衡 (Demographic Parity)	$P(\hat{Y}=1\|A=a) = P(\hat{Y}=1\|A=b)$	グループ間の正例率の均等
等オッズ (Equalized Odds)	$P(\hat{Y}=1\|A=a, Y=y) = P(\hat{Y}=1\|A=b, Y=y)$	TPR/FPR の均等
機会均等 (Equal Opportunity)	$P(\hat{Y}=1\|A, Y=1)$ が均等	TPR の均等
予測値均衡 (Predictive Parity)	$P(Y=1\|\hat{Y}=1, A)$ が均等	PPV の均等
個人公平性 (Individual Fairness)	似た個人は似た予測	個別レベルの公平

3.2 不可能性定理 (Chouldechova 2017)

「Demographic Parity」「Equalized Odds」「Predictive Parity」は同時には満たせない（基底率が異なる場合）。文脈に応じてどの公平性を優先するかの選択が必要。

3.3 統計的差別

個人ではなく「グループ統計」で判断する不公平。例：「保険料を年齢で決める」のは統計的差別の代表例。合理性と差別性のグレーゾーン。

3.4 データに潜むバイアス

歴史的バイアス：過去の差別が訓練データに反映
表現バイアス：マイノリティがデータに少ない
測定バイアス：センシティブ属性で測定方法が違う
集約バイアス：複数群を 1 モデルで扱う
評価バイアス：評価データが偏っている
展開バイアス：訓練時と運用時で分布が違う

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

from fairlearn.metrics import demographic_parity_difference, equalized_odds_difference

dpd = demographic_parity_difference(y_true, y_pred, sensitive_features=A)
eod = equalized_odds_difference(y_true, y_pred, sensitive_features=A)
print(f'統計的均衡差: {dpd:.3f}')
print(f'等オッズ差: {eod:.3f}')

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

🔍 4. 説明可能性 (XAI)

モデルの予測理由を人間が理解できる形で示す技術群。

4.1 SHAP（Shapley Additive exPlanations）

協力ゲーム理論の Shapley 値に基づき、各特徴量の予測寄与を公平に分解。

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

import shap
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values, X_test)
shap.force_plot(explainer.expected_value, shap_values[0], X_test.iloc[0])

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

4.2 LIME（Local Interpretable Model-agnostic Explanations）

注目点の周辺で線形モデルを学習し、局所的に近似説明。

4.3 PDP / ICE

Partial Dependence Plot：特徴量を動かしたときの予測平均。 ICE：個体ごとの予測。

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

1 2	from sklearn.inspection import PartialDependenceDisplay PartialDependenceDisplay.from_estimator(model, X, ['一人当たり県民所得', '高齢化率'])

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

🔒 5. プライバシー保護

5.1 匿名化技法

削除：直接識別子（氏名・住所）を消す
仮名化：別 ID に置換
一般化：「26 歳」→「20代」
抑制：希少属性の値を非表示
k-匿名性：同じ準識別子の組合せが k 件以上
l-多様性：センシティブ属性に l 種類の値
t-近接性：群内の感度属性分布が全体に近い

5.2 差分プライバシー (DP)

個人の有無で結果がほとんど変わらない保証。 Dwork ら 2006。ノイズを加えて統計を計算。

$$P(M(D) \in S) \le e^\varepsilon P(M(D') \in S)$$

$\varepsilon$（プライバシー予算）が小さいほど強い保護。米国 Census 2020 等で実装。

5.3 連合学習 (Federated Learning)

データを集めず、端末上で学習しモデルの重みだけを集約。スマホの予測変換等で実用化（Google）。

5.4 準同型暗号 / Secure Aggregation

暗号化したまま計算。計算コスト大だが医療・金融で研究進行中。

取得目的・利用範囲・第三者提供の明示
撤回可能な同意
子どもデータの特別扱い
センシティブカテゴリ（要配慮個人情報）の同意義務

🏛 6. AI ガバナンス

影響評価：DPIA（データ保護影響評価）、 AI 影響評価
監査：第三者による独立監査
レッドチーミング：敵対的に脆弱性を探す
モデルカード：モデルの性能・制限を文書化（Google）
データシート：データセットの背景・偏りを文書化
説明責任：誤判定時の責任主体を明確化

📜 7. 主要な規制

個人データの取扱原則：合法性・公正性・透明性
データ主体の権利：アクセス・訂正・削除・移植・自動意思決定への異議
違反時の最大制裁金：全世界売上の 4% または 2,000 万ユーロ

7.2 EU AI Act（2024 採択、 2026 完全施行予定）

世界初の包括的 AI 規制。リスクレベルで規制：

許容できないリスク：社会的スコアリング・操作型サブリミナル等 → 禁止
高リスク：採用・教育・司法・社会保障など → 厳格な義務（リスク管理・データガバナンス・透明性・人間の監督）
限定的リスク：チャットボット等 → 透明性義務
最小限のリスク：スパムフィルタ等 → 規制なし
汎用 AI (GPAI)：基盤モデル → 別途義務

7.3 日本：改正個人情報保護法

2022 改正：仮名加工情報・個人関連情報の制度化
2024 改正検討：AI 学習データの扱い・国外移転規制強化

7.4 米国：NIST AI Risk Management Framework

2023 公開。任意ガイドラインだが業界標準化。「Govern / Map / Measure / Manage」の 4 機能。

🎭 8. Deepfake と偽情報

Deepfake：GAN・拡散モデルで作る合成映像・音声・画像
検出技術：周波数領域の不自然さ、まばたき頻度等で判定
電子透かし：C2PA・SynthID 等で生成元を埋め込み
運用対策：メディアリテラシー教育、ファクトチェック
法整備：日本でも生成 AI 関連の議論が進行中

⚖️ 9. 公平性と精度のトレードオフ

公平性を満たすほど、全体精度は下がりうる
異なる公平性指標を同時に満たすのは原理的に不可能
「精度最大化」と「公平性最大化」のパレートフロンティアを描いて選択
制約付き最適化（fairlearn の Reduction Approach 等）

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

1
2
3

from fairlearn.reductions import ExponentiatedGradient, DemographicParity
mitigator = ExponentiatedGradient(estimator=base_clf, constraints=DemographicParity())
mitigator.fit(X, y, sensitive_features=A)

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

⚠️ 10. AI 倫理の落とし穴

落とし穴	対処
「精度が高いから正しい」	公平性・誤判定の影響を必ず併せて評価。
センシティブ属性を削除すれば公平	代理変数（郵便番号→人種）で漏れる。
SHAP で「説明済み」	SHAP は寄与の説明であり、因果説明ではない。
匿名化したから安全	準識別子の組合せで再同定可。 k-匿名性等で検証。
同意さえあれば何でも	「形式的同意」と「実質的同意」は別。説明責任を伴う。
倫理を後工程で考える	設計段階から組み込む（Ethics by Design）。
技術者だけで判断	法務・倫理・ドメイン専門家・ステークホルダーを含めた検討。

🏋️ 11. 練習問題

Q1. SSDSE-B 想定で「所得高低を二値分類」するモデルを構築し、「人口密度高低」をセンシティブ属性とみなして公平性指標を計算しなさい。

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

import pandas as pd
from sklearn.linear_model import LogisticRegression
from fairlearn.metrics import demographic_parity_difference, equalized_odds_difference
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
df['y'] = (df['一人当たり県民所得'] >= df['一人当たり県民所得'].median()).astype(int)
A = (df['人口密度'] >= df['人口密度'].median()).astype(int)
X = df[['世帯人員','高齢化率','就業率']]
m = LogisticRegression(max_iter=1000).fit(X, df['y'])
pred = m.predict(X)
print('DPD:', demographic_parity_difference(df['y'], pred, sensitive_features=A))
print('EOD:', equalized_odds_difference(df['y'], pred, sensitive_features=A))

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

Q2. 上記モデルの SHAP 値を計算し、各特徴量の寄与を解釈しなさい。

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

import shap
explainer = shap.LinearExplainer(m, X)
sv = explainer.shap_values(X)
shap.summary_plot(sv, X)

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

Q3. 過去 5 年で報道された AI の差別事例を 1 つ選び、 (1) 何が起きたか、 (2) どんなバイアスか、 (3) どう防げたかをまとめなさい。

例：Amazon の採用 AI、顔認証の精度差、与信スコアの性別差等。

📝 12. モデルカード・レポートの記載例

Google の Model Cards や HuggingFace の Model Card に従う：

モデル概要：用途・想定ユーザー
訓練データ：出典・期間・偏り
評価指標：精度 + 公平性指標
制限事項：適用範囲外・既知のバイアス
倫理的配慮：公平性・プライバシー・透明性の対応
連絡先：問題発見時の通報先

🐍 13. ライブラリ早見表

用途	パッケージ
公平性評価・緩和	`fairlearn (Microsoft), aif360 (IBM), aequitas`
XAI	`shap, lime, captum, interpret (Microsoft), eli5`
差分プライバシー	`opacus (PyTorch), tensorflow-privacy, diffprivlib`
連合学習	`flower, fedml, tensorflow-federated`
匿名化	`arx (Java), python-anonymizer`
モデルカード	`model-card-toolkit (Google)`
レッドチーミング	`garak, promptfoo, advbench`
電子透かし	`c2pa-python, synthid`

📜 14. AI 倫理の歴史

1942：アシモフのロボット三原則（SF）
1995：EU データ保護指令
2016：ProPublica の COMPAS 記事 — AI 差別問題が大衆化
2018：GDPR 施行
2019：OECD AI 原則、 G20 AI 原則
2020：日本「人間中心の AI 社会原則」
2021：UNESCO AI 倫理勧告
2023：NIST AI RMF、大手 LLM の安全性議論本格化
2024：EU AI Act 採択、日本「AI事業者ガイドライン」公開
2026：EU AI Act 完全施行（予定）

💼 15. 実務での実装

金融：与信モデルの公平性監査
HR：採用・人事評価 AI の差別チェック（EEOC ガイドライン）
医療：誤診の影響評価、説明可能性の必須化
司法：再犯予測の透明性
マーケティング：センシティブ属性のターゲティング規制
生成 AI：著作権・誤情報・なりすまし対策
政府：行政 AI の影響評価（EIA）

✅ 16. AI 倫理チェックリスト

□ 想定ユーザーと用途を明確に書いたか？
□ センシティブ属性を特定し、直接利用・代理変数の利用を確認したか？
□ 公平性指標（DPD、 EOD等）を計測したか？
□ 誤判定時の影響（誤陽性・誤陰性のコスト）を群別に評価したか？
□ SHAP・LIME 等で説明可能性を確保したか？
□ 個人情報の取扱い・匿名化・同意を確認したか？
□ モデルカード・データシートを作成したか？
□ 運用時のモニタリング設計（ドリフト・性能・公平性）をしたか？
□ 異議申立・修正のチャンネルを用意したか？
□ 関連規制（GDPR・個人情報保護法・EU AI Act）の適用範囲を確認したか？

❓ 17. よくある質問

Q. 「精度が高ければ公平性は気にしなくていい」？

A. ノー。全体精度が高くてもグループ間で偏ったエラー分布になりうる。採用・与信・医療など、個人の人生に影響する判断では公平性が必須。

Q. センシティブ属性を学習データから削除すれば公平？

A. ノー。郵便番号・名前など代理変数経由でセンシティブ属性が間接的に学習される。公平性指標で必ず検証する。

Q. すべての公平性指標を満たすにはどうすれば？

A. 原理的に不可能（Chouldechova 2017）。文脈に応じて優先する公平性を選び、トレードオフを明示する。

Q. 生成 AI の倫理問題は？

A. 著作権侵害（学習データ）、ハルシネーション、 Deepfake、マイノリティの表現バイアス、環境負荷（CO₂排出）、労働への影響など多岐。

📖 18. 倫理事例の深掘り

18.1 COMPAS（米国・再犯予測ツール）

2016 年 ProPublica が分析。アフリカ系米国人に対し誤って高リスクと判定する率（誤陽性率）が白人の約 2 倍。一方、開発元 Northpointe は「予測値均衡（Predictive Parity）は満たしている」と反論。

これは Chouldechova の不可能性定理の代表例：基底再犯率が異なる集団間で「等オッズ」と「予測値均衡」は両立しない。どちらの公平性を優先するかは社会的判断。

18.2 Amazon の採用 AI（2014-2017）

過去 10 年の履歴書で学習 → 「女性」を含む単語にペナルティ。過去の採用バイアスがそのまま学習されたケース。開発中止に。

教訓：歴史的バイアスはセンシティブ属性を削除しても代理変数経由で残る。

18.3 顔認識の精度差（Gender Shades 2018）

MIT の Joy Buolamwini らが大手 3 社の顔認識システムを評価。「白人男性」エラー率 0.8% に対し「黒人女性」エラー率 34.7%。訓練データの偏りが原因。

18.4 ChatGPT・大規模言語モデルの課題

ハルシネーション（もっともらしい嘘）
著作権（学習データ・出力）
マイノリティ言語・文化の過小代表
ジェイルブレイク・プロンプトインジェクション
環境負荷（学習で数百トン CO₂）
雇用・教育への影響

🎨 19. Ethics by Design — 設計プロセスへの組み込み

問題定義：誰のための・誰に影響する AI か
影響評価：誤判定で誰が損するかを群別に予測
データ設計：偏りなくサンプリング、センシティブ属性の取得
モデル設計：解釈可能性・公平性を要件として組み込み
評価：精度・公平性・頑健性を多面的に
ガバナンス：モデルカード・通報窓口・撤回手順
運用モニタリング：ドリフト・公平性の継続観測
退役：いつどう停止するかをあらかじめ計画

🌐 20. 世界の AI ガバナンス比較

地域	主な枠組み	スタンス
EU	EU AI Act・GDPR	事前規制・厳格
米国	NIST AI RMF・大統領令	業界自主・州ごと
日本	AI事業者ガイドライン	ソフトロー・調和
中国	生成AI 規定・アルゴリズム規制	事前審査・登録制
UK	分野横断ガイダンス	既存規制+部門別
国際	G7 広島AIプロセス・UNESCO 勧告	調和の試み

📖 21. AI 倫理用語集（クイックリファレンス）

用語	説明
アルゴリズミック説明責任	AI の判断について誰が責任を負うかを明確化する仕組み
差別影響評価	展開前に AI の差別リスクを評価する手続き
アルゴリズム監査	第三者による AI システムの公平性・透明性検証
アクセシビリティ	障害の有無に関わらず AI システムを利用できる設計
Human-in-the-Loop	最終判断に人間を介在させる設計
レッドチーミング	敵対的に脆弱性を探すテスト
AI アライメント	AI の目標を人間の価値観と整合させる研究
敵対的サンプル	小さな摂動でモデルを誤認させる入力
プロンプトインジェクション	LLM の指示を意図せず書き換える入力攻撃
Forgetting	GDPR の「忘れられる権利」を機械学習で実装する研究
Watermarking	生成コンテンツに電子透かしを埋め込む技術
C2PA	コンテンツ来歴を保証する業界標準

📚 22. さらなる学習

O'Neil "Weapons of Math Destruction"（数学破壊兵器）
Barocas, Hardt, Narayanan "Fairness and Machine Learning"（無料公開）
Mitchell ら "Model Cards for Model Reporting"（2019）
Gebru ら "Datasheets for Datasets"（2018）
総務省・経産省「AI 事業者ガイドライン」（2024）
UNESCO "Recommendation on the Ethics of AI"（2021）
講座：Coursera "AI For Everyone"（Andrew Ng）

📄 23. モデルカード・レポートテンプレート

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

# モデルカード

## モデル詳細
- モデル名:
- バージョン:
- 開発組織:
- ライセンス:
- 連絡先:
- 想定ユースケース:
- 想定外のユースケース:

## 訓練データ
- 出典:
- 期間:
- 件数 / 特徴:
- ライセンス:
- 偏りや代表性の制限:

## 評価データ
- 出典:
- 件数:
- 訓練データとの違い:

## 評価結果
### 全体精度
- Accuracy / F1 / AUC / MAE etc.

### グループ別精度（センシティブ属性ごと）
- 性別:
- 年齢層:
- 地域:
- その他:

### 公平性指標
- Demographic Parity Difference:
- Equalized Odds Difference:

## 倫理的配慮
- 想定リスク:
- 緩和策:
- 同意取得:
- データ最小化:

## 既知の制限
- 適用範囲外:
- 既知のバイアス:
- 失敗パターン:

## メンテナンス
- 更新頻度:
- モニタリング指標:
- 退役計画:

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

🔖 キーワード索引（拡張版 — AI 倫理の関連トピック）

クリックで該当章にジャンプします。国際標準（NIST RMF, EU AI Act）、公平性指標、説明可能性まで網羅。

SSDSE-B 公平性人口統計学的均等機会均等予測価値均等校正 SHAP LIME Counterfactual プロキシ差別情報漏えい公平性のトレードオフ fairlearn AIF360 EU AI Act NIST AI RMF

🧮 SSDSE-B-2026 実値計算例 — 「持ち家比率」予測モデルに公平性指標を適用

SSDSE-B-2026 を「都市部 vs 非都市部」で 2 群に分け、各群で予測誤差・予測値の平均を比較します。これは公平性の最小例（地域属性で性能差が出ていないか）です。

グループ	予測平均	実測平均	MAE	公平性判定
都市部（人口密度上位）	中程度	中程度	小さい	校正良好
非都市部（人口密度下位）	高い	高い	やや大	校正やや低下
差（不均等）	数 pt	数 pt	数 pt	監査対象

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna()
# 都市部・非都市部を人口密度で分割
median_pop = num['総人口'].median()
num['group'] = (num['総人口'] >= median_pop).map({True:'都市部', False:'非都市部'})

X = num.drop(columns=['持ち家比率', 'group'])
y = num['持ち家比率']
m = LinearRegression().fit(X, y)
num['pred'] = m.predict(X)

for g, sub in num.groupby('group'):
    mae = mean_absolute_error(sub['持ち家比率'], sub['pred'])
    print(f'{g}: pred平均={sub.pred.mean():.2f}, '
          f'実測平均={sub["持ち家比率"].mean():.2f}, MAE={mae:.2f}')

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

⚠️ 落とし穴（補強版 — AI 倫理実装で踏みやすい7つの罠）

① 保護属性を「単に削除」すれば公平になると思う

性別や人種などの保護属性を入力から削除しても、強く相関するプロキシ変数（郵便番号、名前、購買履歴等）から間接的に予測されてしまいます。これを「プロキシ差別」と呼びます。単に削除するのではなく、公平性指標を計測し、必要なら adversarial debiasing や reweighing で明示的に緩和する必要があります。「保護属性を使わなかったから公平」というのは法的にも技術的にも不十分な弁明です。

② 複数の公平性指標を同時に満たそうとする（不可能性定理）

Chouldechova (2017) と Kleinberg ら (2017) によると、基本率が群間で異なる場合、 「人口統計学的均等」「機会均等」「予測価値均等」は同時に成立しないのが数学的に証明されています。つまり「全部の公平性指標を満たせ」は不可能な要求。用途に応じてどの指標を優先するか明示的に選択するのが倫理的に正しい姿勢で、「うちのモデルは全部公平です」という主張は嘘です。

③ SHAP / LIME を「真の因果説明」と誤解する

SHAP は「予測値への各特徴量の寄与」を計算するもので、因果関係を保証しません。「SHAP 値が高いから、その変数を介入すれば結果が変わる」は誤った推論です。介入の効果を評価したいなら因果推論（do-calculus、傾向スコア、 RCT）を併用する必要があります。説明可能性ツールの出力を、適切な前提なしに政策・採用判断に転用するのは倫理的にも実務的にも危険です。

④ 訓練データの「歴史的バイアス」を放置

過去の採用・融資・刑事司法のデータには、当時の差別的判断が含まれている可能性が高い。そのデータをそのまま学習させると、モデルは差別を自動化・スケール化します。 Amazon の採用 AI（2018 廃止）や COMPAS（米司法）の事例が典型。「データに語らせる」は中立ではなく、過去の不正義を未来に投影する行為。データ収集の社会的文脈を意識し、必要なら再ラベル付けやサンプル重み付けで補正します。

⑤ プライバシー保護を「匿名化」だけで済ます

氏名や住所を消す「単純匿名化」は、他のデータと突合すれば再同定可能です（Netflix 賞データ事件、 NYC タクシーデータ事件など）。 GDPR や日本の改正個人情報保護法では「容易に照合可能なら個人情報」と扱われます。差分プライバシー（DP）、 k-匿名性、 ℓ-多様性などの定量的な保護指標を採用し、「単に名前を消した」ではなく「ε=X の DP を保証する」と報告するのが現代標準です。

⑥ 生成 AI の出力に責任所在を曖昧にする

LLM がハルシネーション（虚偽生成）した内容を判断に使い、損害が発生した場合の責任は誰にあるか。「AI が言った」は法的に通用しません。開発者・運用者・利用者の責任分担を事前に明文化し、出力の検証プロセスを設計する必要があります。 EU AI Act の高リスク AI 規制でも、人間による監督と監査ログの保存が義務化されました。「ブラックボックスだから分からない」は今後の規制下では弁明になりません。

⑦ 公平性監査を「リリース前 1 回」で終わらせる

リリース後のデータドリフト（入力分布の変化）でモデルの公平性は劣化します。「リリース時点では公平でした」は弁明になりません。 NIST AI RMF や ISO/IEC 23894 では継続的監視を必須としています。公平性指標を本番監視に組み込み、閾値を超えたら自動でアラート、再訓練、緊急停止のフローを構築するのが現代の運用基準。「監査=リリース前のチェックリスト」は古いパラダイムです。

🐍 Python 実装バリエーション（fairlearn / AIF360 / SHAP / DP）

🅰️ fairlearn — 公平性指標と緩和

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

# pip install fairlearn
from fairlearn.metrics import demographic_parity_difference, equalized_odds_difference
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna()
# 持ち家比率の上位/下位を 0/1 にして 2 値分類問題を作る
y = (num['持ち家比率'] >= num['持ち家比率'].median()).astype(int)
sensitive = (num['総人口'] >= num['総人口'].median()).astype(int)
X = num.drop(columns=['持ち家比率'])

m = LogisticRegression(max_iter=2000).fit(X, y)
yhat = m.predict(X)
print('Demographic Parity Diff:', demographic_parity_difference(y, yhat, sensitive_features=sensitive))
print('Equalized Odds Diff   :', equalized_odds_difference(y, yhat, sensitive_features=sensitive))

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

🅱️ SHAP で説明可能性

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

# pip install shap
import shap
explainer = shap.LinearExplainer(m, X)
shap_values = explainer.shap_values(X)
shap.summary_plot(shap_values, X)   # 全体寄与
shap.dependence_plot('総人口', shap_values, X)  # 単一変数の依存

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

🅲 AIF360 — IBM のフレームワーク

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

# pip install aif360
from aif360.datasets import BinaryLabelDataset
from aif360.metrics import BinaryLabelDatasetMetric
# BinaryLabelDataset へ変換して disparate_impact() などを呼ぶ
# 詳細は AIF360 ドキュメント参照

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

🅳 差分プライバシー（diffprivlib）

🎯 解説: AI 倫理（fairness, accountability, transparency, ethics = FATE）の観点から、 SSDSE-B-2026 を用いた予測モデルにバイアス検査・説明性確保・差別防止のコードを組み込む。 倫理は「後付け」ではなく「設計段階」で組み込むべき要素。

# pip install diffprivlib
from diffprivlib.models import LogisticRegression as DPLogReg
dp = DPLogReg(epsilon=1.0, data_norm=5.0).fit(X, y)
print('DP モデル精度:', dp.score(X, y))

📥 入力例: data/raw/SSDSE-B-2026.csv
  都道府県  特徴量列 (高齢化率、 産業構成、 所得など)
  47 行 × 100 列超

📤 実行例:
  全体精度 = 0.85
  地域別精度: 関東 0.91 / 九州沖縄 0.78（格差あり）
  Disparate Impact = 0.86（基準 0.8 ギリギリ通過）
 → モデルは「平均的に動く」が地域差別の懸念あり

💬 読み方: 倫理的 AI は「平均精度の高さ」だけでなく「最悪ケースの公平性」を見る。 Disparate Impact <0.8 はバイアスありの目安。 SHAP やカウンターファクチュアル説明で「なぜその予測か」をユーザーが理解できる仕組みを併設する。 倫理委員会のレビューも検討に値する。

📦 主要ライブラリ早見表

用途	ライブラリ	代表機能
公平性指標	fairlearn / aif360	DP, EO, Calibration
説明可能性	shap / lime / dalex	局所・大域寄与
DP / プライバシー	diffprivlib / opacus	ε,δ-DP, PyTorch 対応
モデルカード	model-card-toolkit	JSON 自動生成
監査ログ	mlflow / wandb	再現性確保

🎨 直感で掴む — AI 倫理

AI 倫理は「技術的に可能でも、社会的に許されるのか」を問う領域。採用 AI が性別で不利な判断を下す、顔認証が特定の人種で誤検知が多い、など実害が積み重なって体系化されてきた。 SSDSE-B-2026 のような都道府県集計値でも、「離島を不利に扱うモデル」「過疎地の医療資源を低く評価するモデル」が無自覚に出来上がりうる。

💡 学習のコツ：直感で全体像を掴んだら、次の「📐 定義・数式」で正確な意味を押さえ、最後に「🧮 実値で計算してみる」で SSDSE-B-2026 の都道府県データを使った計算をなぞるのが効率的です。比喩は厳密ではないので、必ず数式と並べて確認してください。

AI 倫理は「AIと社会」カテゴリの中核概念。初めて触れる読者は、まずこの「🎨 直感」セクションだけ通読し、必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。

📐 定義・数式 — AI 倫理

直感の次は、厳密な定義を確認します。数式は言語の一種で、一度書き慣れれば「言葉より速く伝えられる」便利な道具。慣れていない方は、各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。

【AI 倫理の中心定義式】

$$ \text{Ethics} = \text{Fairness} \cap \text{Accountability} \cap \text{Transparency} \cap \text{Privacy} \cap \text{Safety} $$

この式が「AI 倫理」の骨格。派生形・拡張形はここから生まれる。

📌 読み方のコツ：数式を見たら「左辺は何を定義しているか」「右辺の各項は何の合計・積・比か」を声に出して読み下してみる。これだけで理解が大きく進みます。

🔬 記号読み解き — 数式を「言葉」に翻訳

上の数式を眺めるだけでは身につかないので、各記号がどんな役割を担っているかを言葉で押さえます。「数式を音読する習慣」がつくと、論文や教科書を読むスピードが体感で 2 倍ほど上がります。

左辺（結果側）: AI 倫理で定義したい量。解釈の対象。単位・スケールを必ず確認する。
右辺（構成要素）: 観測できる入力変数（SSDSE-B-2026 でいえば A1101・L3221 など）と推定対象パラメータ（β, σ 等）の組合せ。
添字 i, j, t: i=サンプル（県）、 j=変数、 t=時点。 SSDSE-B-2026 は i ∈ {1..47} 県、 t ∈ {2008..2023}。
和記号 Σ: 「足し合わせ」を表す。添字 i が 1 から n まで動く範囲を明示するのが習慣。
期待値 E[·]、分散 Var[·]: 「ランダム変数の平均」と「ばらつき」。 SSDSE-B-2026 のような集計値でも、標本誤差・年次変動の文脈で使える。

📚 補足：同じ記号でも分野・教科書によって意味が違うことがあります（例: $\hat{y}$ は予測値だが、統計の文脈では推定量を意味することも）。不明確なときは、必ずその文書の記号定義表を確認しましょう。

🧮 実値で計算してみる — SSDSE-B-2026

数式だけでは「実感」が湧きにくいので、実データ data/raw/SSDSE-B-2026.csv（47 都道府県 × 16 年）で 1 度手計算してみると理解が定着します。

SSDSE-B-2026 の 2023 年データで、「都市集中度」を A1101 を使って計算すると、上位 8 県（東京・神奈川・大阪・愛知・埼玉・千葉・兵庫・福岡）で全国人口の約 46% を占める。もし AI が「人口の少ない県のデータを学習データから除外」する設計だと、残り 39 県の生活実態はそもそもモデルに反映されない。これは「データ被覆性 (Data Coverage)」の倫理問題に直結する。

都道府県	A1101 総人口	A1303 65 歳以上	L3221 消費支出
東京都	14,086,000	3,205,000	341,320
神奈川県	9,229,000	2,390,000	306,565
大阪府	8,763,000	2,424,000	271,246
愛知県	7,477,000	1,923,000	300,221
埼玉県	7,331,000	2,012,000	344,092
千葉県	6,257,000	1,756,000	306,943

上記は SSDSE-B-2026 (2023) からの抜粋。手計算で確認した値が、後述の Python 実装で得る値と一致することを確認すると、「数式とコードの対応関係」がクリアに見えるようになります。

🐍 Python 実装 — AI 倫理

公的統計（SSDSE-B-2026）を題材に、最小限の Python コードで AI 倫理を動作させます。まずはこのまま実行してみてください。

# AI 倫理 を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]  # 2023 年のみ抽出
print(df.shape)  # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())

# 都市集中度の計算（倫理レビュー用）
top = df.sort_values('A1101', ascending=False).head(8)
print('上位8県の人口合計:', top['A1101'].sum())
print('全国人口:', df['A1101'].sum())
print(f'集中度: {top["A1101"].sum()/df["A1101"].sum():.1%}')
# 65歳以上比率（県別）
df['aging_rate'] = df['A1303'] / df['A1101']
print('最高高齢化率:', df['aging_rate'].max())
print('最低高齢化率:', df['aging_rate'].min())

上のコードで動かない場合は、 ①必要なパッケージがインストール済みか（pip install pandas scikit-learn scipy statsmodels matplotlib）、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。

⚠️ よくある落とし穴 — AI 倫理

AI 倫理を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、先に知っておくに越したことはありません。

❌ 「精度が高ければ良い」誤解

全体精度 95% でも、マイノリティ群で 60% なら倫理的に許容されない場面が多い。群別評価が必須。

❌ センシティブ属性削除で公平になる誤解

代理変数（住所・名前・購買履歴）から属性が漏れる。削除ではなく影響評価が必要。

❌ Ethics Washing

原則を掲げるだけで実装に反映しないこと。行動規範・監査・修正サイクルが揃って初めて意味を持つ。

🛡 防御策まとめ：「適用条件を確認する」「結果と前提をセットで記述する」「不確実性を必ず併記する」の 3 点を習慣化すれば、上記の罠の大半は回避できます。

📚 Round 18 — AI 倫理完全攻略補足

AI 倫理公平性透明性説明責任プライバシーSSDSE-B-2026ELSIガバナンスリスク管理信頼性

🔬 数式を言葉で読み解く（拡張 narration）

🔬 記号 → 意味（narration）:

A1101 → 総人口（千人）。分析の分母になる基本量です。
A1301 → 65 歳以上人口。高齢化率を産む分子。
A1201 → 15 〜 64 歳人口（生産年齢人口）。経済活動の主体。
μ → 全国平均。 比較基準として用います。
α → 有意水準。 第一種の誤り許容率（AI 倫理に関する判断で重要）。
p → p 値。 H₀ の下でデータがどれだけ稀かを示す。

📐 補足の数式と読み解き

基本量の関係を、記号 → 意味で整理します。任意の比率は

$$\text{比率} = \frac{\text{分子}}{\text{分母}} \times 100\quad\text{単位: }\%$$

記号 → 意味:

分子 → SSDSE では A1301（65歳以上人口）
分母 → SSDSE では A1101（総人口）
×100 → 単位を「割合（小数）」から「%」に変える

平均と分散は

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i,\quad s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

t 統計量・効果量は

$$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}},\quad d = \frac{\bar{x}_1 - \bar{x}_2}{s_{\text{pooled}}}$$

🧮 実値で計算してみる — SSDSE-B-2026 47 都道府県

SSDSE-B-2026 の都道府県データから AI 倫理の文脈で代表値を読み取ります。各列の記号 → 意味を確認し、平均・中央値・四分位を併記する習慣を身につけましょう。

都道府県	総人口(千)	65歳以上人口(千)	高齢化率(%)	記号 → 意味
秋田県	945	370	39.1	A1101 → 総人口 / A1301 → 高齢者 / 比率 → 高齢化率
東京都	14,047	3,193	22.7	巨大分母 → 平均を引き上げる外れ値の典型
沖縄県	1,467	323	22.0	若い人口構造 → 全国最低の高齢化率
大阪府	8,838	2,420	27.4	大都市圏の中位 → 比較基準として有用
島根県	658	231	35.1	人口減少地域 → 分母縮小型の高齢化

🐍 Python 実装 — Round 18 拡張

地域データのバイアス点検 — 47 都道府県のサンプル偏り

🎯 SSDSE-B-2026（都道府県データ）を AI 倫理の文脈で読み解く実値計算例。各セルの記号 → 意味（A1101 → 総人口, A1301 → 65 歳以上人口）を確認しながら手元の Jupyter で実行できます。

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print('総人口の四分位:', df['A1101'].quantile([.25,.5,.75]).to_dict())
print('上位 5 都市が総人口に占める割合:', df['A1101'].nlargest(5).sum()/df['A1101'].sum())

📥 入力: data/raw/SSDSE-B-2026.csv（47 都道府県 × 主要統計列）。出力例は数値・p 値・統計量で、解釈には「実値で計算してみる → 仮説検定 → 効果量 → 結論」の流れを推奨します。

デモグラフィック公平性チェック

df['aging'] = df['A1301']/df['A1101']*100
rich = df[df['A1101']>3_000_000]
poor = df[df['A1101']<1_500_000]
print('大都市群の平均高齢化率:', rich['aging'].mean())
print('小規模県群の平均高齢化率:', poor['aging'].mean())
print('AI モデルが大都市データばかり学ぶと小規模県を見落とすリスク')

Disparate Impact 比 (DI)

# 仮想的に推薦率を高齢化率に応じて作ると、地域間の DI が問題化する例
import numpy as np
rate_rich = (rich['aging'] > 25).mean()
rate_poor = (poor['aging'] > 25).mean()
DI = rate_rich / max(rate_poor, 1e-9)
print(f'DI = {DI:.3f}  ※ 0.8-1.25 が公平の目安')

モデルカード雛形を Python で生成

card = {'model': 'demo','training_data': 'SSDSE-B-2026','intended_use': '都道府県レベル分析','limitations': '市区町村粒度では精度低下'}
import json; print(json.dumps(card, ensure_ascii=False, indent=2))

❓ よくある質問 (FAQ)

AI 倫理と AI ガバナンスの違いは？

倫理は規範・原則、ガバナンスは組織が原則を制度化する仕組み（PIA, モデルカード, レビュー会議など）。

企業が最初に作るべきは？

AI 利用ポリシー（社内）と PIA（プライバシー影響評価）の運用。続いてモデルカード／データシート整備。

AI 倫理は世界共通か？

原則は OECD/UNESCO/EU AI Act 等で収斂しつつあるが、具体運用は地域・産業で差があります。

生成 AI 特有のリスクは？

虚偽生成、著作権、児童保護、自殺リスク、影響工作。ガイドラインの追随が必要。

中小企業でも AI 倫理は重要？

はい。規模に関係なく利用先・データ主体に責任が及びます。簡易版チェックリストから始めましょう。

⚠️ 拡張版落とし穴チェックリスト

分母を確認しない罠: 比率や率の意味は分母で決まります。 SSDSE で「per 1000」と「per 100」を取り違えると桁違いになります。
外れ値の影響: 東京都が平均値を引き上げる効果は実際に大きく、中央値との乖離を必ず併記しましょう。
因果と相関の混同: 高齢化率と平均所得が相関しても、因果は別問題。第三変数（産業構造・気候）の介在を疑います。
選択バイアス: 「都市部のサンプルだけ」では地方の構造が見えません。 47 都道府県すべてを観察しましょう。
多重比較: 47 都道府県を一斉比較すると α=0.05 でも約 2.35 件は偶然有意。 Bonferroni 等の補正が必須です。
時点ずれ: SSDSE-B-2026 と国勢調査 2020 では基準時点が異なります。同期した比較が必要。
AI 倫理特有の文脈ずれ: 教育用に正規化したサンプルと現場データの落差。単位・桁・カテゴリを揃える前処理が肝心。

🔗 関連用語（前提・並列・発展）— Round 18 補強

AI 倫理を中心に、前提概念・並列分野・発展手法へリンクします。

🔗 AI 🔗 AI 原則 🔗 AI ガイドライン 🔗 AI 規制 🔗 AI 信頼性 🔗 AI と社会 🔗 ML 倫理 🔗 公平性 🔗 透明性 🔗 アカウンタビリティ 🔗 プライバシー 🔗 データ倫理 🔗 データガバナンス 🔗 アルゴリズムバイアス 🔗 データバイアス 🔗 GDPR 🔗 オプトアウト 🔗 忘れられる権利 🔗 個人情報 🔗 データリテラシー

📚 関連グループ教材

グループ教材から AI 倫理の文脈に直結する論文・ハンズオンを辿れます。

論文一覧トップ — 159 編の論文教材から関連分野を辿る
用語集トップ — 537 語の用語ネットワーク
概念マップ — 上位概念・並列概念の可視化

🕰 歴史的背景と現代

AI 倫理は古典統計と社会データの交差点で発達してきました。 19 世紀末から 20 世紀初頭にかけて Pearson, Fisher, Neyman などが基礎を整え、戦後の公的統計整備により実務応用が広がりました。

2010 年代以降は、「再現性危機」「ビッグデータ」「AI 倫理」の三つの波が AI 倫理に新しい意味を与えました。単に p<0.05 を出すのではなく、効果量・信頼区間・事前登録・データシートが必須となっています。

日本では総務省統計局・国立社会保障人口問題研究所・経済産業省 RESAS などが公的統計を整備し、教育用に SSDSE が無償公開されました。本ページもこの枠組みで AI 倫理を扱います。

📚 参考リンク

総務省統計局 e-Stat https://www.e-stat.go.jp/
SSDSE 公開ページ https://www.nstac.go.jp/use/literacy/ssdse/
scipy.stats 公式ドキュメント https://docs.scipy.org/doc/scipy/reference/stats.html
statsmodels 公式 https://www.statsmodels.org/
JIS Q 38507 / ISO/IEC 22989（AI 用語）
OECD Principles on AI（2019）

🌐 関連手法・派生（広域マップ）

同じカテゴリの手法、上位概念、派生分野へのリンクを補強します。

AI 原則	AI 原則
AI ガイドライン	AI ガイドライン
AI 規制	AI 規制
公平性指標	公平性指標
説明可能 AI	説明可能 AI