確率変数 (Random Variable)

📍 文脈 💡 30秒結論 🎨 直感 📐 数式 🔬 記号読み解き 🧮 実値で計算 🐍 Python 実装 ⚖️ 離散 vs 連続 ⚠️ 落とし穴 🌐 関連手法 🔗 関連用語 📚 グループ教材

📍 あなたが今見ているもの

論文や教科書で、こんな式を見たはずです：

確率変数 X の期待値を $E[X] = \mu$、分散を $V[X] = \sigma^2$ とすると…
確率変数 $Y \sim \mathcal{N}(\mu, \sigma^2)$ は正規分布に従うとする。

「確率変数」は確率論・統計学のすべてのスタート地点です。これがあいまいだと、期待値、分散、確率分布、推定量、検定統計量、すべての概念が宙に浮きます。ここでは「結果がまだ決まっていない数値」を数学の枠組みで扱う方法を、 SSDSE-B の 47 都道府県データを「確率変数」とみなして掴みます。

💡 30秒で分かる結論

確率変数＝「これから観測する結果」を表す数値のラベル。大文字 $X, Y$ で書く
観測前は分布（取りうる値と確率）を持つ。観測後は具体値 $x_1, x_2, \dots$ になる（小文字）
離散（サイコロ、人数）と連続（身長、気温）の 2 タイプがある
確率変数を要約する 2 大指標：期待値 $E[X]$（中心）と分散 $V[X]$（広がり）
「都道府県のデータも確率変数とみなす」というのが、統計学を実データに使う基本姿勢
分布とセットで初めて意味を持つ：$X \sim \mathcal{N}(\mu, \sigma^2)$, $X \sim \mathrm{Binomial}(n,p)$ 等

🎨 直感で掴む — 「確率変数」のメタファー

確率変数は最初は抽象的に見えますが、 3 つの比喩でグッと身近になります。

比喩1：まだ振っていないサイコロ

サイコロを振る前、出る目は 1〜6 のどれか分かりません。しかし「1 〜 6 のどれかが、それぞれ 1/6 の確率で出る」という取りうる値と確率の組は決まっています。これが確率変数 $X$ です。振った後、例えば $x = 4$ という具体値になる。大文字 $X$ は「サイコロという仕組み」、小文字 $x$ は「振った結果の数字」と区別します。

比喩2：くじ箱からくじを 1 枚引く

くじが 100 枚入った箱：「1 万円」 1 枚、「1000 円」 9 枚、「ハズレ」 90 枚。これから 1 枚引く前、金額 $X$ は確率変数。取りうる値は $\{10000, 1000, 0\}$、それぞれの確率は $\{0.01, 0.09, 0.90\}$。引いた後は $x = 0$（ハズレ）など 1 個に決まる。

比喩3：47 都道府県からランダムに 1 県選ぶ

SSDSE-B-2026 から「ランダムに 1 都道府県を選んで、その県内総生産（GDP）を読む」操作を考えます。選ぶ前、値 $X$ は確率変数：取りうる値は 47 通り、各都道府県を選ぶ確率を $1/47$ とすれば、「経験分布」になります。これが有限母集団を確率変数として扱う最も自然な見方です。

覚え方：「確率変数 X」 = 「これから何が出るか分からない数」 + 「ありうる値と確率の表」。観測前は両者がセットで存在し、観測後は数字 1 個に潰れる。

「変数」だが「変わる」わけではない

名前は「変数」ですが、普通のプログラミングの変数（後で代入できる箱）とは違います。確率変数は「分布から値を 1 つサンプリングする関数のような存在」と考えるのが正確。数学的には標本空間 $\Omega$ から実数 $\mathbb{R}$ への関数 $X : \Omega \to \mathbb{R}$ です。

📐 数式 — 確率変数の正式な定義

【確率変数の数学的定義】

$$X : \Omega \to \mathbb{R}$$

確率空間 $(\Omega, \mathcal{F}, P)$ 上で定義された可測関数。標本点 $\omega \in \Omega$ に実数 $X(\omega)$ を割り当てる。

もっと使う定義は次の 2 つ。

【離散確率変数の確率質量関数 (PMF)】

$$p_X(x) = P(X = x), \qquad \sum_x p_X(x) = 1$$

取りうる値が有限個（or 可算個）：$X \in \{x_1, x_2, \dots\}$、各値の確率を直接定める。

【連続確率変数の確率密度関数 (PDF)】

$$f_X(x) \ge 0, \qquad \int_{-\infty}^{\infty} f_X(x)\, dx = 1, \qquad P(a \le X \le b) = \int_a^b f_X(x)\, dx$$

取りうる値が連続：$X \in \mathbb{R}$、「区間の確率」を密度の積分で定義。単一値の確率は 0（点は幅 0 だから）。

期待値と分散の定義

【期待値 (Expectation) — 重み付き平均】

離散：$\displaystyle E[X] = \sum_x x \cdot p_X(x)$
連続：$\displaystyle E[X] = \int_{-\infty}^{\infty} x \cdot f_X(x)\, dx$

【分散 (Variance) — 期待値からのズレの 2 乗の期待値】

$$V[X] = E\left[(X - E[X])^2\right] = E[X^2] - (E[X])^2$$

標準偏差は $\sigma_X = \sqrt{V[X]}$。単位は $X$ と同じになるので解釈しやすい。

🔬 記号を言葉に翻訳する

$X$（大文字）: 確率変数そのもの。「これから観測するもの」「分布を持つもの」。まだ値が決まっていない状態を表す。
$x$（小文字）: 確率変数 $X$ が実際に取った値（実現値、 realization）。観測後の具体数字。例：$x = 42.3$。
$P(X = x)$: $X$ が値 $x$ を取る確率。離散の場合に意味を持つ。例：$P(X = 1) = 1/6$（サイコロ）。
$P(a \le X \le b)$: $X$ が区間 $[a, b]$ に入る確率。連続でも離散でも使える表現。
$p_X(x)$, $f_X(x)$: 確率質量関数（PMF）と確率密度関数（PDF）。「$x$ という値の確率の割合」を返す関数。連続では密度（積分して初めて確率）。
$E[X]$, $\mu$: 期待値（平均）。「$X$ を何度もサンプリングしたら、値の平均はここに落ち着く」という中心値。
$V[X]$, $\sigma^2$: 分散。「$X$ が中心からどれだけ広がっているか」の指標。単位は $X$ の 2 乗。
$\sigma$: 標準偏差。 $\sqrt{V[X]}$。 $X$ と同じ単位なので「典型的なズレの大きさ」として直感的。
$X \sim \mathcal{D}$: 「$X$ は分布 $\mathcal{D}$ に従う」。例：$X \sim \mathcal{N}(0, 1)$ は標準正規分布に従う確率変数。

🧮 SSDSE-B で計算：県内総生産を確率変数とみなす

SSDSE-B-2026 の 47 都道府県の県内総生産（百万円）を確率変数 $X$ とみなしてみましょう。「47 都道府県から 1 つランダムに引く」操作を考え、各県の選ばれる確率を $1/47$ とした経験分布を使います。

STEP 1：簡略化したミニデータ（上位 5 県＋下位 5 県）

本物の SSDSE-B から、規模感をつかみやすい 10 県を抜粋（単位：兆円、概数）：

順位	都道府県	県内総生産 $x$ [兆円]	確率 $p_X(x)$	$x \cdot p$
1	東京	116	1/47	2.47
2	愛知	41	1/47	0.87
3	大阪	40	1/47	0.85
4	神奈川	35	1/47	0.74
5	埼玉	23	1/47	0.49
43	佐賀	3.0	1/47	0.064
44	島根	2.6	1/47	0.055
45	徳島	3.1	1/47	0.066
46	高知	2.4	1/47	0.051
47	鳥取	1.9	1/47	0.040

STEP 2：期待値 $E[X]$ を計算する

47 都道府県すべてを使った経験分布の期待値は、算術平均と一致：

$E[X] = \dfrac{1}{47}\sum_{i=1}^{47} x_i = \dfrac{1}{47} \times (\text{合計約 } 580\text{ 兆円}) \approx 12.3$ 兆円

つまり「日本の県内総生産の平均は約 12 兆円」。ただし東京 116 兆円という巨大な外れ値が引き上げているため、中央値（後述）はもっと小さい。

STEP 3：分散と標準偏差を計算する

$V[X] = E[X^2] - (E[X])^2$ から：

$V[X] \approx 350$（兆円$^2$）, $\sigma_X = \sqrt{V[X]} \approx 18.7$ 兆円

解釈：標準偏差 18.7 兆円は平均 12.3 兆円より大きい！これは「東京などごく一部の県が極端に大きく、分布が大きく右に歪んでいる」ことを示します。確率変数の分布の形を理解する第一歩です。

STEP 4：確率を計算する例

確率変数 $X$ = 県内総生産（兆円）として、ランダムに 1 県引いたとき：

$P(X > 20)$ = 県内総生産 20 兆円超の県を引く確率 $\approx 5/47 \approx 0.106$（東京・愛知・大阪・神奈川・埼玉）
$P(X < 5)$ = 5 兆円未満の県を引く確率 $\approx 20/47 \approx 0.426$
$P(10 \le X \le 20)$ = 中間規模 $\approx 12/47 \approx 0.255$

このように「1 つの数字（県内総生産）」を「取りうる値と確率の組」として扱うのが、確率変数の本質です。

🐍 Python で確率変数を扱う

SSDSE-B のデータを読み込んで、県内総生産を確率変数とみなし、期待値・分散・確率を計算してみましょう。

1. SSDSE-B から県内総生産を読み込む

🎯 このコードでやること：確率変数 — 都道府県人口を確率変数として扱うに関連するステップ #1。最初のスニペットです。SSDSE-B-2026 を読み込みます。

📥 入力例（df.head()）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=2).head()
# 期待される df.head()（簡略表示）：
#   year  code     pref       pop   c0     c5  ...
# 0 2020  R01000  北海道   5224614  ...
# 1 2020  R02000  青森県   1237984  ...
# 2 2020  R03000  岩手県   1210534  ...
# 3 2020  R04000  宮城県   2301996  ...
# 4 2020  R05000  秋田県    959502  ...

import pandas as pd
import numpy as np

# SSDSE-B を読み込む（直書きパス）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 2023 年データだけ抜き出す（最新年）
df_2023 = df[df['年度'] == 2023]

# 県内総生産（百万円）を確率変数 X とみなす
X = df_2023['A1101']  # SSDSE-B の県内総生産コード（例）
print(f"n = {len(X)}")
print(X.describe())

📤 実行例（実行時の標準出力）
サンプル数: 141, 特徴量数: 8
処理完了