変数の尺度とデータ型

🔖 キーワード索引

変数の尺度とデータ型Variable Scales and Data Typesリテラシー

本ページは 変数の尺度とデータ型（Variable Scales and Data Types）を多角的に解説します。上のチップは、検索・関連語の手がかりです。

💡 30秒で分かる結論

変数を 4 つの尺度（名義・順序・間隔・比例）で分類する Stevens の枠組み
尺度によって 使える統計手法と計算が変わる ─ データ分析の大前提
名義：男女、順序：成績、間隔：温度、比例：身長
「比例尺度なら平均・標準偏差・倍数比較すべて OK」「名義尺度では平均は無意味」
Python 実装：categorical, ordinal, numeric として明示的に扱う

📍 文脈 — どこで使う概念か

変数の尺度（Variable Scales）は、 1946 年に心理学者 S.S. Stevens が提案した 測定理論の古典。統計学・データサイエンスのすべての手法は、「どの尺度の変数か」で適用可否が決まります。初学者が最初に学ぶべき概念であり、ベテランでも忘れがちな分析の基礎です。

🎨 直感で掴む — 具体例で理解する

4 つの尺度を具体例で：

尺度	例	順序	等間隔	絶対零点	使える演算
名義 (Nominal)	性別、都道府県、血液型	×	×	×	=, ≠、度数、モード
順序 (Ordinal)	5段階評価、順位	○	×	×	＋ <, >、中央値、順位相関
間隔 (Interval)	気温℃、西暦	○	○	×	＋加減、平均、標準偏差
比例 (Ratio)	身長、体重、売上	○	○	○	＋乗除、比率、幾何平均

例：温度 20℃ は 10℃ の「2 倍」と言えるか？ ─ 言えない（℃は間隔尺度で絶対零点なし）。一方、ケルビン 300K と 150K は「2倍」と言える（比例尺度）。

📐 定義

名義・順序・間隔・比例尺度とデータ型の対応

英語名 Variable Scales and Data Types、カテゴリ：リテラシー。

🔬 記号・要素の読み解き

名義尺度: 「区別だけ」できる。数字を割り当ててもそれは単なるラベル
順序尺度: 「大小」もできる。ただし「差の大きさ」は意味なし（1位と2位の差 ≠ 2位と3位の差）
間隔尺度: 「差」も等間隔。だが「比率」は意味なし（℃ の 0 は便宜上の基準）
比例尺度: 「比率」まで意味あり。絶対零点（0 = 無）が存在する
離散 / 連続: 別の分類軸。整数のみか、実数も取りうるか

🧮 数値例・実値計算

尺度ごとに使える代表値：

尺度	モード	中央値	算術平均	幾何平均
名義	✓	×	×	×
順序	✓	✓	△（厳密にはNG）	×
間隔	✓	✓	✓	×
比例	✓	✓	✓	✓

厳密に言えば「5段階評価の平均」は順序尺度に算術平均を適用しており、統計学的にはグレー。実務では便宜的に許されているが慎重に。

🐍 Python 実装例

最小コードで動かしてみる例：

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 尺度ごとに型を明示
df['都道府県名'] = df['都道府県名'].astype('category')  # 名義
df['評価'] = pd.Categorical(df['評価'], ordered=True,  # 順序
                          categories=['低', '中', '高'])
df['人口'] = df['人口'].astype(int)  # 比例尺度（離散）
df['高齢化率'] = df['高齢化率'].astype(float)  # 比例尺度（連続）

⚠️ よくある落とし穴

❌ ID を数値扱い

顧客 ID が 1, 2, 3 でも、平均すると無意味。必ず文字列 or category 型。

❌ リッカート尺度の平均

「5段階の平均が 3.8」は伝統的によく使うが、統計理論的には順序尺度なので議論あり。

❌ 名義尺度の OneHot 忘れ

機械学習で「都道府県」を 1〜47 のままモデルに入れると、順序があるかのように学習される。

❌ 離散・連続の混同

「年齢」は通常連続だが、「子供の数」は離散。適切な分布で扱う。

❌ 単位の見落とし

比例尺度でも、単位（cm vs m）で値が桁違いに。標準化が必要。