論文一覧に戻る 📚 用語集トップ 🗺 概念マップ
📚 用語解説
📚 用語解説
比例尺度(比尺度)
Ratio Scale
尺度水準 / 測定理論

🔖 キーワード索引

このページで扱う主要キーワード(クリックで該当セクションへ):

絶対原点 尺度水準 間隔尺度との違い 名義尺度 順序尺度 間隔尺度 対数変換 変動係数 ゼロの意味 負値の禁止 人口・面積・所得 幾何平均

💡 30秒で分かる結論

📍 あなたが今見ているもの

比例尺度(比尺度)」 (Ratio Scale) は、 SSDSE-B-2026 などの公的統計データを使った教材・分析で頻出するキーワードです。 本ページでは、 まず直感、 次に数式、 そして 47 都道府県の実値で確かめる、 という流れで体系的に整理します。 加えて、 ケーススタディ・FAQ・歴史的経緯・参考文献までを 1 ページに集約し、 用語の「地図」として使えるようにしました。

関連用語(前提・並列・発展)と関連グループ教材も末尾にまとめてあるので、 用語の地図として活用してください。

🎨 直感で掴む

比例尺度(比尺度、 ratio scale)は Stevens の尺度水準分類における最も情報量の多い水準で、 「ゼロが を意味し、 比 (a/b) に意味がある」尺度です。

たとえば総人口は比尺度です。 「東京の人口 (14,086,000) は鳥取の人口 (537,000) の 26.2 倍」 と言えますし、 「人口がゼロ」は文字通り「住民が誰もいない」を意味します。 一方、 摂氏温度 (℃) は比尺度ではありません。 「20℃ は 10℃ の 2 倍暑い」 とは言えませんし、 0℃ も「熱が無い」状態ではないからです。

尺度等しい/異なる順序等距離絶対零点・比
名義尺度×××性別、 都道府県名
順序尺度××満足度 1-5
間隔尺度×摂氏温度、 西暦年
比例尺度人口、 身長、 所得、 距離、 絶対温度 (K)

📐 数式・定義

比例尺度は、 線形変換 $y=\alpha x$($\alpha>0$)に対してのみ不変な尺度です。 つまり単位の取り換えはできますが、 原点を動かす平行移動はできません。

【許容変換】
$$y = \alpha x,\quad \alpha > 0$$

例:km と m の換算(×1000)。 0 km が 0 m に対応する。

比例尺度では 幾何平均変動係数(CV)に意味があります。

【幾何平均】
$$\bar{x}_{\text{GM}} = \left(\prod_{i=1}^{n} x_i\right)^{1/n}=\exp\!\left(\frac{1}{n}\sum_{i=1}^{n}\ln x_i\right)$$
【変動係数】
$$\mathrm{CV}=\frac{\sigma}{\bar{x}}$$

単位を持たない無次元量。 比尺度でないと意味を持たない。

🔬 数式・概念を言葉で読み解く

性質意味
絶対零点0 は「無」を表す所得 0 円=収入なし
比の意味$a/b$ が「何倍」を表す東京は沖縄の約 9.6 倍人口
正値性多くの場合、 $x>0$身長・体重・距離は負を取らない
対数変換可$\ln x$ が有意所得・人口は対数で見るのが自然
無次元化CV、 比、 シェア東京シェア=11.3%
幾何平均「増加率の平均」に意味10 年平均成長率

🧮 実値で計算してみる(SSDSE-B-2026)

実値計算:SSDSE-B-2026 の総人口で比尺度の演算を確認

2023 年 47 都道府県の総人口(A1101)で計算してみます。

  • 合計:1 億 2436 万人
  • 算術平均:264.6 万人
  • 幾何平均:$\exp(\frac{1}{47}\sum \ln x_i) \approx 183.5$ 万人(算術平均より小さい — 大規模県の影響を抑える)
  • 変動係数:$279.8/264.6 \approx 1.057$ — 全国でも県間で 100% 以上ばらつく
  • 東京/鳥取の比:14,086,000 / 537,000 ≈ 26.2 倍(比尺度なので意味を持つ)
  • 東京シェア:14,086,000 / 124,360,000 ≈ 11.33 %

もし「都道府県コード」を平均しても意味はありません — それは名義尺度です。 同様に「満足度の平均」も、 厳密には順序尺度なので議論の余地があります。 一方、 人口・所得・距離・面積などは比尺度なので、 平均・幾何平均・比・シェア・CV すべて使えます。

🐍 Python 実装

例 1:比尺度の確認と幾何平均

import pandas as pd, numpy as np
from scipy.stats.mstats import gmean

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)

pop = df['総人口'].astype(int).to_numpy()
print('算術平均:', pop.mean())
print('幾何平均:', gmean(pop))
print('変動係数:', pop.std(ddof=1) / pop.mean())

例 2:シェアと比(比尺度ならではの統計)

share = pop / pop.sum() * 100
tokyo = df.loc[df['都道府県']=='東京都', '総人口'].astype(int).iloc[0]
tottori = df.loc[df['都道府県']=='鳥取県', '総人口'].astype(int).iloc[0]
print('東京シェア (%):', share.max())
print('東京/鳥取:', tokyo / tottori, '倍')

例 3:対数変換でスケーリング

df['log_pop'] = np.log(df['総人口'].astype(int))
print(df[['都道府県','総人口','log_pop']].head())
# 対数を取ると分布が正規に近くなり、 散布図が見やすくなる

例 4:成長率 → 幾何平均で 10 年平均成長率

years = df['年度'].astype(int)
tokyo_ts = df[df['都道府県']=='東京都'].sort_values('年度')
ratios = tokyo_ts['総人口'].astype(int).pct_change().dropna() + 1
geo_growth = gmean(ratios) - 1
print('東京の年平均人口成長率:', geo_growth*100, '%')

📂 ケーススタディ・追加実装例

ケース 1:尺度別に許される統計量チェック

統計量名義順序間隔比例
最頻値
中央値×
算術平均×
標準偏差××
Pearson 相関××
幾何平均×××
変動係数 CV×××
比 (a/b)×××

ケース 2:絶対零点の確認方法

「0 のとき、 その量は 本当に「無い」 と言えるか?」 を自問。 身長 0cm = 身長なし → 比尺度。 IQ = 0 = 知能なし、 ではない → 間隔尺度。

ケース 3:対数変換の正当性

$\ln x$ は $x > 0$ で定義されるので、 比尺度のデータ(正値)に対してのみ意味があります。 SSDSE の人口や所得は対数変換しても比尺度の性質を引き継ぎ、 「対数差 = 比率の差」 という解釈ができます。

ケース 4:47 都道府県人口の対数正規化

import pandas as pd, numpy as np
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
pop = df['総人口'].astype(int)
print('生:', pop.describe())
print('対数:', np.log(pop).describe())
# 歪度が大きく改善するはず

ケース 5:間隔/比尺度の取り違いトラブル例

ケース 6:尺度の組合せで生じる手法選択

X 尺度Y 尺度適切な分析
名義比例群間比較(t 検定、 ANOVA)
順序順序Spearman / Kendall
比例比例Pearson 相関、 線形回帰、 弾性(対数-対数回帰)
順序比例順位回帰、 Kruskal-Wallis

🪜 ステップバイステップ チュートリアル

チュートリアル:尺度水準のチェックと適切な統計量選び

ステップ 1:データの尺度を判定

ステップ 2:許可される統計量

名義 → 最頻値・度数。 順序 → 中央値・四分位範囲・順位相関。 間隔 → 平均・分散・Pearson。 比例 → 加えて幾何平均・CV・比。

ステップ 3:SSDSE で計算

import pandas as pd, numpy as np
from scipy.stats.mstats import gmean

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
pop = df['総人口'].astype(int).to_numpy()

print('算術平均:', pop.mean())
print('幾何平均:', gmean(pop))     # 比尺度なら意味あり
print('中央値:', np.median(pop))   # 順序以上で OK
print('CV:', pop.std()/pop.mean()) # 比尺度なら意味あり

ステップ 4:尺度の取り違い検出

# 都道府県コード(名義)を回帰の説明変数に直接入れるのは NG
# → ダミー変数化が必要
codes = df['地域コード'].str.replace('R','').astype(int)
print('コードの平均:', codes.mean())   # 計算は可能だが意味なし
import pandas as pd
dummies = pd.get_dummies(df['都道府県'])
print(dummies.shape)   # 47 ダミー列

ステップ 5:尺度に応じた相関

from scipy.stats import pearsonr, spearmanr
df['高齢化率'] = df['65歳以上人口'].astype(int) / pop
print('Pearson:', pearsonr(pop, df['高齢化率'])[0])    # 比例×比例
print('Spearman:', spearmanr(pop, df['高齢化率'])[0])  # 順序×順序

🚀 現場での応用シナリオ(8 例)

応用 1:経済指標

GDP・所得・売上はすべて比尺度。 「成長率」「シェア」「対前年比」は比尺度ならではの統計。

応用 2:人口統計

SSDSE-B-2026 の総人口、 出生数、 死亡数。 比例計算(高齢化率=65歳以上÷総人口)が自然。

応用 3:物理量

身長、 体重、 距離、 速度、 質量、 力、 エネルギー。 単位換算(cm→m)は許容変換。

応用 4:時間(持続)

「実行時間 2 秒は 1 秒の 2 倍」は比尺度。 一方、 西暦年は間隔尺度(2024 ÷ 1012 は無意味)。

応用 5:化学濃度

モル濃度、 pH(実質対数尺度)、 pH は注意。 100 ppm は 50 ppm の 2 倍、 は比尺度。

応用 6:機械学習の前処理

標準化(z-score)は間隔尺度に保つ、 Min-Max は範囲を [0,1] に変換するが比は保たない。 対数変換は比尺度を保つ(厳密には正値前提)。

応用 7:信頼区間とブートストラップ

比尺度では「中央値の bootstrap CI」「幾何平均の CI」 が意味を持つ。

応用 8:尺度の取り違いトラブル

「都道府県コード(01-47)」を回帰の説明変数に直接入れる → ダミー変数化が必要。 名義尺度を比尺度として扱うミスは初学者の典型。

🏋️ 演習問題(8 題)

  1. SSDSE-B-2026 の各列を、 名義/順序/間隔/比例尺度に分類せよ。
  2. 総人口・所得・面積・距離それぞれで「2 倍」 という表現が許されるか確認せよ。
  3. 総人口を対数変換し、 算術平均と幾何平均を比較せよ。
  4. 47 県の総人口の変動係数 (CV) を計算し、 経済規模指標と比較せよ。
  5. 「都道府県コード(01-47)」 を回帰に直接入れた場合と、 ダミー変数化した場合の結果を比較せよ。
  6. 摂氏温度を絶対温度 (K) に変換し、 比尺度として扱える形にせよ。
  7. アンケート 5 段階尺度を平均しても良いか、 自分の意見を 200 字で書け。
  8. 比尺度の正値性が破られる例(負を含むデータ)を 3 つ挙げよ。

🗺 学習ロードマップ

  1. レベル 1 — 4 つの尺度水準を例で覚える(名義・順序・間隔・比例)。
  2. レベル 2 — 各尺度で許容される統計量を区別。 平均が使える場合・使えない場合。
  3. レベル 3 — 対数変換、 幾何平均、 変動係数の使いどころ。
  4. レベル 4 — 尺度の取り違いを検知(コードを平均、 摂氏温度を比例扱い等)。
  5. レベル 5 — Stevens 批判(Velleman & Wilkinson 1993)、 構成概念 (IQ など) の議論。
  6. レベル 6 — 測定理論全般(信頼性・妥当性・因子分析・項目反応理論)。

📊 比較表(兄弟手法・選択肢)

尺度水準の許容変換と統計量

尺度許容変換意味のある演算典型統計
名義1 対 1 置換 $\phi$=, ≠最頻値、 度数
順序単調変換+ 大小比較中央値、 順位相関
間隔$y=ax+b$ ($a>0$)+ 差・距離平均、 SD、 Pearson
比例$y=ax$ ($a>0$)+ 比・倍率幾何平均、 CV
絶対恒等変換無次元数確率、 個数

📖 用語ミニ辞典

用語意味
名義尺度区別のみ。 性別、 都道府県名
順序尺度順序のみ。 5 段階評価
間隔尺度等間隔。 摂氏温度、 西暦
比例尺度絶対零点。 人口、 身長、 所得
絶対尺度無次元数。 確率、 個数
絶対零点0 が「無」を意味する点
幾何平均$\sqrt[n]{\prod x_i}$
変動係数 (CV)$\sigma/\mu$
対数変換比尺度をそのまま保つ非線形変換
単位換算比尺度の許容変換 $y=\alpha x$
Stevens尺度水準理論を提唱した心理学者
PICO医学リサーチ設計の枠組み

🍳 コードレシピ(コピペ用 15 連発)

レシピコード
尺度別チェック
pop.dtype, pop.min(), (pop>=0).all()   # 比尺度なら 0 以上
対数変換
np.log(pop)
幾何平均
from scipy.stats.mstats import gmean; gmean(pop)
変動係数
pop.std() / pop.mean()
Min-Max スケーリング (比は崩れる)
(pop - pop.min()) / (pop.max() - pop.min())
z-score (間隔は保つ)
(pop - pop.mean()) / pop.std()
シェア
pop / pop.sum() * 100
対数差 = 比率の対数
np.log(pop[1:]) - np.log(pop[:-1])
ピアソン相関 (比×比)
np.corrcoef(pop, gdp)[0,1]
スピアマン (順序×順序)
from scipy.stats import spearmanr; spearmanr(pop, gdp)
尺度判定関数
def is_ratio(x): return (x >= 0).all() and np.issubdtype(x.dtype, np.number)
ダミー変数化
pd.get_dummies(df['都道府県'])
年齢ビン化
pd.cut(df['年齢'], bins=[0,18,40,65,100])
ヒストグラム
import matplotlib.pyplot as plt; plt.hist(np.log(pop))
尺度サマリ
df.describe(include='all')

⚠️ よくある落とし穴

❌ 負値を含むデータに比尺度を当てる
「気温変化(℃)」「収益変化」のような負値を含む量は比尺度ではない。 「○倍」と言える形に変換するには元の量(絶対温度・売上高)に戻す必要がある。
❌ ゼロ近傍での比の不安定
$a/b$ は $b$ が 0 近傍だと数値が爆発する。 0 を含む可能性のあるデータでは比の代わりに対数差や差分を使う。
❌ 摂氏温度を比尺度と誤認
20℃ ÷ 10℃ = 2 は数値上計算できるが 物理的意味はない。 「2 倍暑い」は誤り。
❌ 年度・西暦を比尺度と誤認
西暦 2024 ÷ 1012 = 2 だが「2024 年は 1012 年の 2 倍古い」は無意味。 西暦は間隔尺度。
❌ ID コードを比尺度と誤認
「都道府県コード」「学籍番号」を平均する/回帰の説明変数に直接入れる、 のは典型的ミス。 比尺度どころか名義尺度。 ダミー変数化が必要。

❓ よくある質問(FAQ)

Q: 摂氏温度が比尺度でない決定的な理由は?
A: 0℃ は「熱が無い」状態ではない(−273.15℃ が絶対零度)。 だから「20℃ は 10℃ の 2 倍暑い」と言えない。 絶対温度 (K) は比尺度。
Q: 西暦 2024 と 2020 を引き算するのは OK?
A: OK(「4 年差」と言える)。 これは間隔尺度の演算。 ただし「2024 ÷ 2020」 は意味なし(比尺度の演算)。
Q: アンケートの 5 段階尺度を平均してもよい?
A: 形式的には順序尺度なので NG。 ただし社会調査の慣行では「等間隔と仮定して平均」することは多い。 結果を主張するときは「順位中央値も併記」が安全。
Q: 比尺度なら何でも対数を取って OK?
A: 0 が含まれる場合は対数取れない。 また「対数を取って意味があるか」は別問題(人口・所得は OK、 距離は文脈次第)。
Q: 性別はどの尺度?
A: 名義尺度。 数字を割り当てても「順序」「等間隔」「比」は意味を持たない。 ダミー変数化が必要。

📜 歴史と背景

歴史と位置づけ:尺度水準の体系化は 1946 年、 心理学者 Stanley Smith Stevens による論文「On the Theory of Scales of Measurement」(Science 誌)に始まります。 Stevens は 名義 → 順序 → 間隔 → 比 の 4 階層を提案し、 各水準で「許容される変換」と「意味を持つ統計量」を整理しました。

尺度許容変換典型統計
名義1 対 1 置換最頻値・度数
順序単調変換中央値・順位相関
間隔$y=ax+b$($a>0$)平均・分散・Pearson
比例$y=ax$($a>0$)幾何平均・CV・比

この分類は強い批判もあります(Velleman & Wilkinson, 1993 は「現実のデータは混合的」と指摘)。 しかし、 「どんな統計量を計算してよいか」の判断には今も最初のチェックリストとして有効です。

🗺 概念マップ

Stevens の尺度水準ピラミッド:

            ▲ 情報量
            │       ┌──────────┐
            │       │  比尺度  │ ← 人口、 所得、 距離(絶対零点 + 比)
            │       └────┬─────┘
            │       ┌────┴─────┐
            │       │ 間隔尺度 │ ← 摂氏温度、 西暦年(等間隔のみ)
            │       └────┬─────┘
            │       ┌────┴─────┐
            │       │ 順序尺度 │ ← 満足度ランク(順序のみ)
            │       └────┬─────┘
            │       ┌────┴─────┐
            │       │ 名義尺度 │ ← 都道府県コード(区別のみ)
            │       └──────────┘
            └─────────────────────────────►
                              許される統計量

📚 参考文献・出典