データ倫理 | 用語解説

🔖 キーワード索引

データ倫理Data Ethics倫理

本ページは データ倫理（Data Ethics）を多角的に解説します。上のチップは、検索・関連語の手がかりです。

💡 30秒で分かる結論

データの収集・利用・公開に関する倫理を扱う応用倫理学の領域
5 原則：同意、透明性、最小化、セキュリティ、公正利用
個人情報保護法 / GDPR は法的最低基準 ─ 倫理はそれ以上を求める
「合法だが非倫理的」な事例：Cambridge Analytica、 Target の妊婦予測
データサイエンティストの必修科目

📍 文脈 — どこで使う概念か

データ倫理（Data Ethics）は、ビッグデータと AI の時代に 法律だけでは追いつかない領域を扱う学問・実務です。アルゴリズムバイアス、監視資本主義、同意なきデータ売買など、社会全体の議論が必要なテーマが山積み。データを扱う以上、すべてのデータサイエンティストが理解すべき基礎。

🎨 直感で掴む — 具体例で理解する

有名な倫理的問題ケース：

事例	問題
Cambridge Analytica（2018）	Facebook の 8700 万人データを政治広告に流用
Target 妊婦予測（2012）	購買履歴から父親より先に娘の妊娠を察知
Apple Card ジェンダー差別（2019）	同等条件でも女性の与信枠が低かった
COMPAS（米犯罪予測）	黒人を白人より高リスクと判定する傾向
Clearview AI	SNS から無断で顔写真 30 億枚を収集

これらは合法かもしれないが、倫理的には大きな問題。「できる」と「すべき」を区別する力が必要です。

📐 定義

データの収集・利用に関する倫理的指針

英語名 Data Ethics、カテゴリ：倫理。

🔬 記号・要素の読み解き

同意（Consent）: データ提供者がリスクを理解した上で同意
目的限定: 収集目的以外には使わない（目的外利用の禁止）
データ最小化: 必要最低限のデータだけ収集
正確性: 誤データは訂正・削除する義務
保存期間の制限: 不要になったら削除
説明責任: 使い方について説明できる体制

🧮 数値例・実値計算

データ倫理の判断フレームワーク（FAT 原則 + α）：

原則	問い
Fairness	すべての集団に公平か？
Accountability	誰が責任を取るか？
Transparency	仕組みを説明できるか？
Privacy	個人情報を最小限に？
Beneficence	本当に社会に利益があるか？
Non-maleficence	害を生まないか？

🐍 Python 実装例

最小コードで動かしてみる例：

# データセットの倫理的チェック例
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 1. 個人特定可能な列があるか
sensitive_cols = ['氏名', 'メール', '電話', 'マイナンバー']
risky = [c for c in sensitive_cols if c in df.columns]
print(f'要マスキング列: {risky}')

# 2. 保護属性の分布
if '性別' in df.columns:
    print(df['性別'].value_counts(normalize=True))

⚠️ よくある落とし穴

❌ 「公開データだから OK」

Web 上にあっても、まとめると個人特定可能になる（モザイク効果）。 Clearview AI が好例。

❌ 同意の擬装

長い利用規約に同意ボタン 1 個では実質的な同意とは言えない（GDPR では明示的同意が必要）。

❌ ダークパターン

「同意しない」を分かりにくくする UI は倫理的に問題。

❌ Re-identification

「匿名化」しても、複数データを組み合わせて再特定されることがある（k-匿名化、 l-多様性で対処）。

❌ デュアルユース

善意で作った技術が悪用される（顔認識 → 監視）。用途制限の検討が必要。