ジニ係数 (Gini Coefficient)

📍 文脈 💡 30秒結論 📖 詳しく

📍 あなたが今見ているもの

論文中に 「ジニ係数」として登場する用語。

ジニ係数 とは：所得・資源の不平等度を 0（完全平等）〜1（完全独占）で表す指標。Lorenz曲線と完全平等線の間の面積。

💡 30秒で分かる結論

定義：所得・資源の不平等度を 0（完全平等）〜1（完全独占）で表す指標。Lorenz曲線と完全平等線の間の面積。
カテゴリ：格差・分布

📖 もっと詳しく

ジニ係数（Gini coefficient, G）は、 所得・資源の不平等度を 0（完全平等）〜 1（完全独占）で測る代表的指標。もともとイタリアの統計学者 Corrado Gini（1912）が考案。

幾何的意味：ローレンツ曲線（下位X%の人が全体の何%を保有するかの曲線）と完全平等線（45度線）の間の面積 ÷ 三角形の面積。ローレンツ曲線が45度線から下に凹むほど、ジニは大きくなります。

世界の目安（OECD等のデータ）：

0.20 - 0.30：高度に平等（北欧諸国）
0.30 - 0.40：中程度（日本、ドイツ、フランス）
0.40 - 0.50：かなり不平等（アメリカ、中国）
0.50 以上：深刻な不平等（南米諸国の一部、南アフリカ）

所得以外への応用：

医療資源の地域格差（人口あたり病院数）
教育機会の格差（学校数、教員数）
環境負荷の不平等（排出量、暴露量）
市場集中度（企業の市場シェアのジニ）

SSDSE 都道府県データでの例：

保健医療費のジニ：約 0.08（県間の格差は比較的小さい）
病院数（人口10万対）のジニ：約 0.21（県間で病院密度に偏りあり）
医療施設のジニ > 医療費のジニ → 「施設格差 > 費用格差」

限界：(i) 同じジニでも分布の形は違いうる（中央値が低くて格差が大きい vs 中央値が高くて少数の超富裕層）、 (ii) ジニ単独では「どの層に集中しているか」分からない。 → 上位10%シェア、中央値、ヒストグラムと併用が望ましい。

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

🌟 効果的なEDAテンプレート

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🔖 キーワード索引（深掘り版）

論文・記事に登場する用語のリンクで該当箇所へジャンプ：

🧮 SSDSE 実値計算 ⚠️ 落とし穴 6選 🐍 Python バリエーション 🔗 関連用語ローレンツ曲線 Theil指数 Palma比 Gini不純度（決定木）

🧮 SSDSE-B 実値計算例：47都道府県の経済格差をジニ係数で測る

SSDSE-B-2026 2023年データで、都道府県別の「県民所得」「医療費」「教育費」「住宅資産」の不平等度を比較します。

📊 ステップ1：各指標のジニ係数（仮想実値）

指標	ジニ係数 G	最大県	最小県	解釈
県民所得（一人あたり）	0.13	東京	沖縄	県間格差は中程度
医療費（一人あたり）	0.08	高知	埼玉	県間格差は小
教育費（世帯あたり）	0.18	東京	沖縄	所得より格差大
住宅資産	0.32	東京	秋田	資産格差は所得格差より大

💡 洞察：所得格差より資産格差のほうがジニが大きく、「フロー（所得）よりストック（資産）の方が不平等」という Piketty 的観察が日本でも当てはまる。教育費の格差（0.18）が所得格差（0.13）より大きい点は、「教育投資の地域差 → 次世代の所得格差を再生産」という不平等の世代間移転を示唆。

📊 ステップ2：他の格差指標との比較

指標	所得データでの値	感度
Gini 係数	0.13	分布の中央付近に敏感
Theil T 指数	0.029	上位層に敏感
Theil L 指数	0.028	下位層に敏感
Palma 比 (上位10% / 下位40%)	1.4	両極比較
変動係数 CV	0.21	全体ばらつき

同じ「格差」でも指標で値が違う。政策レポートでは複数指標を併記するのが透明性の高い手法。

⚠️ ジニ係数の落とし穴（深掘り版・6件）

① 異なる分布形でも同じ G になる

「中央値が低くて格差が大きい分布」と「中央値が高くて少数の超富裕層がいる分布」で、 G が同じ値になり得ます。つまり G だけでは「不平等の形」が分からない。必ずローレンツ曲線、上位10%シェア、中央値、箱ひげ図と組み合わせて解釈する。政策議論では「G = 0.4」だけで結論を出すのは危険。

② 部分集団のGiniを足しても全体のGiniにならない

G は分解可能ではない。「東日本のG」と「西日本のG」を加重平均しても「全国のG」にはなりません。群間格差を加味した分解が必要ならTheil 指数（T = T_within + T_between と分解可能）を使う。政策効果の評価で「ある政策が群内格差を減らしたか、群間格差を減らしたか」を見たい場合は Theil の方が便利。

③ サンプルサイズ・離散化バイアスを無視

標本Gは小サンプルだと真のGより小さく出る系統バイアスがあり、 nが100以下では特に注意。補正式（Deltas 補正）か、ブートストラップで信頼区間を出す。また所得を「100万円刻みでのビン」にすると、ビン内格差がゼロとして扱われるので G が過小評価される。 micro データの活用が望ましい。

④ 負の値を含むデータに使う

標準的なジニの定義は非負値を前提。借金や赤字所得を含むと G が 1 を超えたり、解釈不能な値になります。対策：(1) 負値を 0 に置き換える、 (2) 一定値を全体に加えてシフトする、 (3) 純資産の場合は特殊な「拡張ジニ」を使う。金融データや純利益の分析では要注意。

⑤ 国際比較で定義の違いを無視

各国の公式統計のジニ係数は、「市場所得（税引前）」「可処分所得（税引後）」「消費」など基準が違う。同じ「日本のジニ」でも厚労省（再分配前）と OECD（再分配後）で 0.05 以上違うことがある。比較するときは必ず同じ定義を確認。また「個人単位」か「世帯単位」かでも値が変わる。

⑥ 「Gini 不純度（決定木）」と混同する

scikit-learn の DecisionTreeClassifier(criterion='gini') の Gini は不純度指標で、所得不平等のジニ係数とは別物（同じ Corrado Gini 発祥だが用途が違う）。分類問題で「Gini = 0.1」と聞いたら、それは決定木の不純度（クラス混合度）であって、所得分布の不平等ではない。文脈で区別が必要です。

🐍 Python 実装バリエーション

① numpy で自前実装（最も透明）

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

import numpy as np
def gini(x):
    x = np.sort(np.asarray(x))
    n = len(x)
    return (2 * np.arange(1, n+1) @ x - (n+1) * x.sum()) / (n * x.sum())
print(gini(df['income']))

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

② scipy.stats — 経済学パッケージ inequality / pyinequality

専用ライブラリ inequality なら関数1発で計算 + 信頼区間まで出る。

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

1
2
3

from inequality.gini import Gini
g = Gini(df['income'])
print(g.g)  # ジニ係数

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

③ pandas で Lorenz 曲線 + Gini

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

import numpy as np
x = np.sort(df['income'].values)
cum_pop = np.arange(1, len(x)+1) / len(x)
cum_inc = np.cumsum(x) / x.sum()
# cum_pop と cum_inc をプロット → ローレンツ曲線

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

④ scikit-learn の Gini 不純度（決定木）

意味は違いますが、名前が同じなので念のため。

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

1
2
3

from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(criterion='gini').fit(X, y)
# 「ジニ不純度」は 1 - Σpᵢ²

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

⑤ Theil 指数（Gini の代替）

🎯 解説: ジニ係数（Gini coefficient）はローレンツ曲線と均等分配線の間の面積比から計算される不平等度の指標。 0（完全平等）〜1（完全不平等）。 SSDSE-B-2026 の都道府県別所得データで地域間格差を測る。

import numpy as np
def theil_t(x):
    x = np.asarray(x)
    m = x.mean()
    return np.mean((x/m) * np.log(x/m))
print(theil_t(df['income']))

📥 入力例: data/raw/SSDSE-B-2026.csv
  X: A1101（総人口）
  Y: C120120（県内総生産）

📤 実行例: ジニ係数 G = 0.247
  ローレンツ曲線の最大乖離 = 0.18
  → 中程度の地域格差

💬 読み方: 読み方: G < 0.3 は比較的均等、 0.3-0.4 は中程度、 0.4+ は強い不平等。 日本の所得分布は OECD 内では中程度。 時系列で G の変動を見ることで、 格差が拡大／縮小しているかを判断できる。

🗺️ 概念マップ — 3つの視点で体系を理解する

ジニ係数 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「ジニ係数」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「ジニ係数」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

記号	意味（言葉での説明）
$y_i$	個体 $i$（都道府県など）の所得・支出
$\bar y$	全個体の平均
$n$	サンプル数（SSDSE-B では 47）
$\|y_i - y_j\|$	すべてのペアの差の絶対値
$G$	ジニ係数（0〜1）