比例尺度（比尺度）

🔖 キーワード索引

このページで扱う主要キーワード（クリックで該当セクションへ）：

絶対原点尺度水準間隔尺度との違い名義尺度順序尺度間隔尺度対数変換変動係数ゼロの意味負値の禁止人口・面積・所得幾何平均

💡 30秒で分かる結論

比例尺度はゼロが「無」を意味し、比 (a/b) に意味がある最強の尺度水準
分野：測定理論 — 名義 → 順序 → 間隔 → 比と進むほど許容される演算が増える
具体例：身長・体重・人口・所得・面積・距離・時間（持続）・絶対温度（K）
許容演算：加減・乗除・比・幾何平均・変動係数すべて OK。対数変換も意味を持つ
注意：摂氏温度（℃）は間隔尺度であって比尺度ではない（0℃は無ではない）

📍 あなたが今見ているもの

「比例尺度（比尺度）」 (Ratio Scale) は、 SSDSE-B-2026 などの公的統計データを使った教材・分析で頻出するキーワードです。本ページでは、まず直感、次に数式、そして 47 都道府県の実値で確かめる、という流れで体系的に整理します。加えて、ケーススタディ・FAQ・歴史的経緯・参考文献までを 1 ページに集約し、用語の「地図」として使えるようにしました。

関連用語（前提・並列・発展）と関連グループ教材も末尾にまとめてあるので、用語の地図として活用してください。

🎨 直感で掴む

比例尺度（比尺度、 ratio scale）は Stevens の尺度水準分類における最も情報量の多い水準で、「ゼロが無を意味し、比 (a/b) に意味がある」尺度です。

たとえば総人口は比尺度です。「東京の人口 (14,086,000) は鳥取の人口 (537,000) の 26.2 倍」と言えますし、「人口がゼロ」は文字通り「住民が誰もいない」を意味します。一方、摂氏温度 (℃) は比尺度ではありません。「20℃ は 10℃ の 2 倍暑い」とは言えませんし、 0℃ も「熱が無い」状態ではないからです。

尺度	等しい/異なる	順序	等距離	絶対零点・比	例
名義尺度	○	×	×	×	性別、都道府県名
順序尺度	○	○	×	×	満足度 1-5
間隔尺度	○	○	○	×	摂氏温度、西暦年
比例尺度	○	○	○	○	人口、身長、所得、距離、絶対温度 (K)

📐 数式・定義

比例尺度は、 線形変換 $y=\alpha x$（$\alpha>0$）に対してのみ不変な尺度です。つまり単位の取り換えはできますが、原点を動かす平行移動はできません。

【許容変換】

$$y = \alpha x,\quad \alpha > 0$$

例：km と m の換算（×1000）。 0 km が 0 m に対応する。

比例尺度では 幾何平均と 変動係数（CV）に意味があります。

【幾何平均】

$$\bar{x}_{\text{GM}} = \left(\prod_{i=1}^{n} x_i\right)^{1/n}=\exp\!\left(\frac{1}{n}\sum_{i=1}^{n}\ln x_i\right)$$

【変動係数】

$$\mathrm{CV}=\frac{\sigma}{\bar{x}}$$

単位を持たない無次元量。比尺度でないと意味を持たない。

🔬 数式・概念を言葉で読み解く

性質	意味	例
絶対零点	0 は「無」を表す	所得 0 円＝収入なし
比の意味	$a/b$ が「何倍」を表す	東京は沖縄の約 9.6 倍人口
正値性	多くの場合、 $x>0$	身長・体重・距離は負を取らない
対数変換可	$\ln x$ が有意	所得・人口は対数で見るのが自然
無次元化	CV、比、シェア	東京シェア＝11.3%
幾何平均	「増加率の平均」に意味	10 年平均成長率

🧮 実値で計算してみる（SSDSE-B-2026）

実値計算：SSDSE-B-2026 の総人口で比尺度の演算を確認

2023 年 47 都道府県の総人口（A1101）で計算してみます。

合計：1 億 2436 万人
算術平均：264.6 万人
幾何平均：$\exp(\frac{1}{47}\sum \ln x_i) \approx 183.5$ 万人（算術平均より小さい — 大規模県の影響を抑える）
変動係数：$279.8/264.6 \approx 1.057$ — 全国でも県間で 100% 以上ばらつく
東京/鳥取の比：14,086,000 / 537,000 ≈ 26.2 倍（比尺度なので意味を持つ）
東京シェア：14,086,000 / 124,360,000 ≈ 11.33 %

もし「都道府県コード」を平均しても意味はありません — それは名義尺度です。同様に「満足度の平均」も、厳密には順序尺度なので議論の余地があります。一方、人口・所得・距離・面積などは比尺度なので、平均・幾何平均・比・シェア・CV すべて使えます。

🐍 Python 実装

例 1：比尺度の確認と幾何平均

import pandas as pd, numpy as np
from scipy.stats.mstats import gmean

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)

pop = df['総人口'].astype(int).to_numpy()
print('算術平均:', pop.mean())
print('幾何平均:', gmean(pop))
print('変動係数:', pop.std(ddof=1) / pop.mean())

例 2：シェアと比（比尺度ならではの統計）

share = pop / pop.sum() * 100
tokyo = df.loc[df['都道府県']=='東京都', '総人口'].astype(int).iloc[0]
tottori = df.loc[df['都道府県']=='鳥取県', '総人口'].astype(int).iloc[0]
print('東京シェア (%):', share.max())
print('東京/鳥取:', tokyo / tottori, '倍')

例 3：対数変換でスケーリング

df['log_pop'] = np.log(df['総人口'].astype(int))
print(df[['都道府県','総人口','log_pop']].head())
# 対数を取ると分布が正規に近くなり、 散布図が見やすくなる

例 4：成長率 → 幾何平均で 10 年平均成長率

years = df['年度'].astype(int)
tokyo_ts = df[df['都道府県']=='東京都'].sort_values('年度')
ratios = tokyo_ts['総人口'].astype(int).pct_change().dropna() + 1
geo_growth = gmean(ratios) - 1
print('東京の年平均人口成長率:', geo_growth*100, '%')

📂 ケーススタディ・追加実装例

ケース 1：尺度別に許される統計量チェック

統計量	名義	順序	間隔	比例
最頻値	○	○	○	○
中央値	×	○	○	○
算術平均	×	△	○	○
標準偏差	×	×	○	○
Pearson 相関	×	×	○	○
幾何平均	×	×	×	○
変動係数 CV	×	×	×	○
比 (a/b)	×	×	×	○

ケース 2：絶対零点の確認方法

「0 のとき、その量は 本当に「無い」 と言えるか？」を自問。身長 0cm = 身長なし → 比尺度。 IQ = 0 = 知能なし、ではない → 間隔尺度。

ケース 3：対数変換の正当性

$\ln x$ は $x > 0$ で定義されるので、比尺度のデータ（正値）に対してのみ意味があります。 SSDSE の人口や所得は対数変換しても比尺度の性質を引き継ぎ、「対数差 = 比率の差」という解釈ができます。

ケース 4：47 都道府県人口の対数正規化

import pandas as pd, numpy as np
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
pop = df['総人口'].astype(int)
print('生:', pop.describe())
print('対数:', np.log(pop).describe())
# 歪度が大きく改善するはず

ケース 5：間隔／比尺度の取り違いトラブル例

「西暦 2024 と 1012 の比は 2 倍」 — 西暦は間隔。比は無意味
「気温が 30℃ から 60℃ になったら 2 倍暑い」 — 摂氏は間隔。「2 倍」は誤り
「IQ 120 は 60 の 2 倍賢い」 — IQ は構成概念で、厳密には間隔尺度（あるいは順序尺度）

ケース 6：尺度の組合せで生じる手法選択

X 尺度	Y 尺度	適切な分析
名義	比例	群間比較（t 検定、 ANOVA）
順序	順序	Spearman / Kendall
比例	比例	Pearson 相関、線形回帰、弾性（対数-対数回帰）
順序	比例	順位回帰、 Kruskal-Wallis

🪜 ステップバイステップチュートリアル

チュートリアル：尺度水準のチェックと適切な統計量選び

ステップ 1：データの尺度を判定

都道府県コード → 名義（数値は ID）
地方区分 → 名義
都道府県の人口順位 → 順序
年度 → 間隔（0 が「無」を意味しない）
総人口 → 比例（0 は「住民なし」を意味する）
高齢化率 → 比例（0%＝高齢者なし）
県内総生産 → 比例

ステップ 2：許可される統計量

名義 → 最頻値・度数。順序 → 中央値・四分位範囲・順位相関。間隔 → 平均・分散・Pearson。比例 → 加えて幾何平均・CV・比。

ステップ 3：SSDSE で計算

import pandas as pd, numpy as np
from scipy.stats.mstats import gmean

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
pop = df['総人口'].astype(int).to_numpy()

print('算術平均:', pop.mean())
print('幾何平均:', gmean(pop))     # 比尺度なら意味あり
print('中央値:', np.median(pop))   # 順序以上で OK
print('CV:', pop.std()/pop.mean()) # 比尺度なら意味あり

ステップ 4：尺度の取り違い検出

# 都道府県コード（名義）を回帰の説明変数に直接入れるのは NG
# → ダミー変数化が必要
codes = df['地域コード'].str.replace('R','').astype(int)
print('コードの平均:', codes.mean())   # 計算は可能だが意味なし
import pandas as pd
dummies = pd.get_dummies(df['都道府県'])
print(dummies.shape)   # 47 ダミー列

ステップ 5：尺度に応じた相関

from scipy.stats import pearsonr, spearmanr
df['高齢化率'] = df['65歳以上人口'].astype(int) / pop
print('Pearson:', pearsonr(pop, df['高齢化率'])[0])    # 比例×比例
print('Spearman:', spearmanr(pop, df['高齢化率'])[0])  # 順序×順序

🚀 現場での応用シナリオ（8 例）

応用 1：経済指標

GDP・所得・売上はすべて比尺度。「成長率」「シェア」「対前年比」は比尺度ならではの統計。

応用 2：人口統計

SSDSE-B-2026 の総人口、出生数、死亡数。比例計算（高齢化率＝65歳以上÷総人口）が自然。

応用 3：物理量

身長、体重、距離、速度、質量、力、エネルギー。単位換算（cm→m）は許容変換。

応用 4：時間（持続）

「実行時間 2 秒は 1 秒の 2 倍」は比尺度。一方、西暦年は間隔尺度（2024 ÷ 1012 は無意味）。

応用 5：化学濃度

モル濃度、 pH（実質対数尺度）、 pH は注意。 100 ppm は 50 ppm の 2 倍、は比尺度。

応用 6：機械学習の前処理

標準化（z-score）は間隔尺度に保つ、 Min-Max は範囲を [0,1] に変換するが比は保たない。対数変換は比尺度を保つ（厳密には正値前提）。

応用 7：信頼区間とブートストラップ

比尺度では「中央値の bootstrap CI」「幾何平均の CI」が意味を持つ。

応用 8：尺度の取り違いトラブル

「都道府県コード（01-47）」を回帰の説明変数に直接入れる → ダミー変数化が必要。名義尺度を比尺度として扱うミスは初学者の典型。

🏋️ 演習問題（8 題）

SSDSE-B-2026 の各列を、名義／順序／間隔／比例尺度に分類せよ。
総人口・所得・面積・距離それぞれで「2 倍」という表現が許されるか確認せよ。
総人口を対数変換し、算術平均と幾何平均を比較せよ。
47 県の総人口の変動係数 (CV) を計算し、経済規模指標と比較せよ。
「都道府県コード（01-47）」を回帰に直接入れた場合と、ダミー変数化した場合の結果を比較せよ。
摂氏温度を絶対温度 (K) に変換し、比尺度として扱える形にせよ。
アンケート 5 段階尺度を平均しても良いか、自分の意見を 200 字で書け。
比尺度の正値性が破られる例（負を含むデータ）を 3 つ挙げよ。

🗺 学習ロードマップ

レベル 1 — 4 つの尺度水準を例で覚える（名義・順序・間隔・比例）。
レベル 2 — 各尺度で許容される統計量を区別。平均が使える場合・使えない場合。
レベル 3 — 対数変換、幾何平均、変動係数の使いどころ。
レベル 4 — 尺度の取り違いを検知（コードを平均、摂氏温度を比例扱い等）。
レベル 5 — Stevens 批判（Velleman & Wilkinson 1993）、構成概念 (IQ など) の議論。
レベル 6 — 測定理論全般（信頼性・妥当性・因子分析・項目反応理論）。

📊 比較表（兄弟手法・選択肢）

尺度水準の許容変換と統計量

尺度	許容変換	意味のある演算	典型統計
名義	1 対 1 置換 $\phi$	=, ≠	最頻値、度数
順序	単調変換	+ 大小比較	中央値、順位相関
間隔	$y=ax+b$ ($a>0$)	+ 差・距離	平均、 SD、 Pearson
比例	$y=ax$ ($a>0$)	+ 比・倍率	幾何平均、 CV
絶対	恒等変換	無次元数	確率、個数

📖 用語ミニ辞典

用語	意味
名義尺度	区別のみ。性別、都道府県名
順序尺度	順序のみ。 5 段階評価
間隔尺度	等間隔。摂氏温度、西暦
比例尺度	絶対零点。人口、身長、所得
絶対尺度	無次元数。確率、個数
絶対零点	0 が「無」を意味する点
幾何平均	$\sqrt[n]{\prod x_i}$
変動係数 (CV)	$\sigma/\mu$
対数変換	比尺度をそのまま保つ非線形変換
単位換算	比尺度の許容変換 $y=\alpha x$
Stevens	尺度水準理論を提唱した心理学者
PICO	医学リサーチ設計の枠組み

🍳 コードレシピ（コピペ用 15 連発）

レシピ	コード
尺度別チェック	pop.dtype, pop.min(), (pop>=0).all() # 比尺度なら 0 以上
対数変換	np.log(pop)
幾何平均	from scipy.stats.mstats import gmean; gmean(pop)
変動係数	pop.std() / pop.mean()
Min-Max スケーリング (比は崩れる)	(pop - pop.min()) / (pop.max() - pop.min())
z-score (間隔は保つ)	(pop - pop.mean()) / pop.std()
シェア	pop / pop.sum() * 100
対数差 = 比率の対数	np.log(pop[1:]) - np.log(pop[:-1])
ピアソン相関 (比×比)	np.corrcoef(pop, gdp)[0,1]
スピアマン (順序×順序)	from scipy.stats import spearmanr; spearmanr(pop, gdp)
尺度判定関数	def is_ratio(x): return (x >= 0).all() and np.issubdtype(x.dtype, np.number)
ダミー変数化	pd.get_dummies(df['都道府県'])
年齢ビン化	pd.cut(df['年齢'], bins=[0,18,40,65,100])
ヒストグラム	import matplotlib.pyplot as plt; plt.hist(np.log(pop))
尺度サマリ	df.describe(include='all')

⚠️ よくある落とし穴

❌ 負値を含むデータに比尺度を当てる

「気温変化（℃）」「収益変化」のような負値を含む量は比尺度ではない。「○倍」と言える形に変換するには元の量（絶対温度・売上高）に戻す必要がある。

❌ ゼロ近傍での比の不安定

$a/b$ は $b$ が 0 近傍だと数値が爆発する。 0 を含む可能性のあるデータでは比の代わりに対数差や差分を使う。

❌ 摂氏温度を比尺度と誤認

20℃ ÷ 10℃ ＝ 2 は数値上計算できるが 物理的意味はない。「2 倍暑い」は誤り。

❌ 年度・西暦を比尺度と誤認

西暦 2024 ÷ 1012 ＝ 2 だが「2024 年は 1012 年の 2 倍古い」は無意味。西暦は間隔尺度。

❌ ID コードを比尺度と誤認

「都道府県コード」「学籍番号」を平均する／回帰の説明変数に直接入れる、のは典型的ミス。比尺度どころか名義尺度。ダミー変数化が必要。

❓ よくある質問（FAQ）

Q: 摂氏温度が比尺度でない決定的な理由は？

A: 0℃ は「熱が無い」状態ではない（−273.15℃ が絶対零度）。だから「20℃ は 10℃ の 2 倍暑い」と言えない。絶対温度 (K) は比尺度。

Q: 西暦 2024 と 2020 を引き算するのは OK？

A: OK（「4 年差」と言える）。これは間隔尺度の演算。ただし「2024 ÷ 2020」は意味なし（比尺度の演算）。

Q: アンケートの 5 段階尺度を平均してもよい？

A: 形式的には順序尺度なので NG。ただし社会調査の慣行では「等間隔と仮定して平均」することは多い。結果を主張するときは「順位中央値も併記」が安全。

Q: 比尺度なら何でも対数を取って OK？

A: 0 が含まれる場合は対数取れない。また「対数を取って意味があるか」は別問題（人口・所得は OK、距離は文脈次第）。

Q: 性別はどの尺度？

A: 名義尺度。数字を割り当てても「順序」「等間隔」「比」は意味を持たない。ダミー変数化が必要。

📜 歴史と背景

歴史と位置づけ：尺度水準の体系化は 1946 年、心理学者 Stanley Smith Stevens による論文「On the Theory of Scales of Measurement」（Science 誌）に始まります。 Stevens は 名義 → 順序 → 間隔 → 比 の 4 階層を提案し、各水準で「許容される変換」と「意味を持つ統計量」を整理しました。

尺度	許容変換	典型統計
名義	1 対 1 置換	最頻値・度数
順序	単調変換	中央値・順位相関
間隔	$y=ax+b$（$a>0$）	平均・分散・Pearson
比例	$y=ax$（$a>0$）	幾何平均・CV・比

この分類は強い批判もあります（Velleman & Wilkinson, 1993 は「現実のデータは混合的」と指摘）。しかし、「どんな統計量を計算してよいか」の判断には今も最初のチェックリストとして有効です。

🌐 関連手法・派生・対概念

方向	関連	関係
同階層	名義尺度 / 順序尺度 / 間隔尺度	Stevens の 4 階層
上位概念	尺度水準 / 測定理論	「どの統計量を許すか」のルール
派生	対数変換 / 変動係数 / 幾何平均	比尺度でのみ意味を持つ統計量
応用	線形回帰 / 経済指標 / 物理量	比尺度を前提とする数理モデル
注意	絶対温度 (K) / pH	K は比尺度、 pH は対数尺度（実質間隔尺度）

🗺 概念マップ

Stevens の尺度水準ピラミッド：

            ▲ 情報量
            │       ┌──────────┐
            │       │  比尺度  │ ← 人口、 所得、 距離（絶対零点 + 比）
            │       └────┬─────┘
            │       ┌────┴─────┐
            │       │ 間隔尺度 │ ← 摂氏温度、 西暦年（等間隔のみ）
            │       └────┬─────┘
            │       ┌────┴─────┐
            │       │ 順序尺度 │ ← 満足度ランク（順序のみ）
            │       └────┬─────┘
            │       ┌────┴─────┐
            │       │ 名義尺度 │ ← 都道府県コード（区別のみ）
            │       └──────────┘
            └─────────────────────────────►
                              許される統計量

📚 参考文献・出典

Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103, 677-680.
Velleman, P. F., Wilkinson, L. (1993). Nominal, Ordinal, Interval, and Ratio Typologies are Misleading. The American Statistician, 47(1).
Bishop, Y. M. M., Fienberg, S. E., Holland, P. W. (2007). Discrete Multivariate Analysis. Springer.