本ページは 変数の尺度とデータ型(Variable Scales and Data Types)を多角的に解説します。 上のチップは、 検索・関連語の手がかりです。
categorical, ordinal, numeric として明示的に扱う変数の尺度(Variable Scales)は、 1946 年に心理学者 S.S. Stevens が提案した 測定理論の古典。 統計学・データサイエンスのすべての手法は、 「どの尺度の変数か」で適用可否が決まります。 初学者が最初に学ぶべき概念であり、 ベテランでも忘れがちな 分析の基礎です。
4 つの尺度を具体例で:
| 尺度 | 例 | 順序 | 等間隔 | 絶対零点 | 使える演算 |
|---|---|---|---|---|---|
| 名義 (Nominal) | 性別、 都道府県、 血液型 | × | × | × | =, ≠、 度数、 モード |
| 順序 (Ordinal) | 5段階評価、 順位 | ○ | × | × | + <, >、 中央値、 順位相関 |
| 間隔 (Interval) | 気温℃、 西暦 | ○ | ○ | × | + 加減、 平均、 標準偏差 |
| 比例 (Ratio) | 身長、 体重、 売上 | ○ | ○ | ○ | + 乗除、 比率、 幾何平均 |
例:温度 20℃ は 10℃ の「2 倍」と言えるか? ─ 言えない(℃は間隔尺度で絶対零点なし)。 一方、 ケルビン 300K と 150K は「2倍」と言える(比例尺度)。
名義・順序・間隔・比例尺度とデータ型の対応
英語名 Variable Scales and Data Types、 カテゴリ:リテラシー。
尺度ごとに使える代表値:
| 尺度 | モード | 中央値 | 算術平均 | 幾何平均 |
|---|---|---|---|---|
| 名義 | ✓ | × | × | × |
| 順序 | ✓ | ✓ | △(厳密にはNG) | × |
| 間隔 | ✓ | ✓ | ✓ | × |
| 比例 | ✓ | ✓ | ✓ | ✓ |
厳密に言えば「5段階評価の平均」は順序尺度に算術平均を適用しており、 統計学的にはグレー。 実務では便宜的に許されているが 慎重に。
最小コードで動かしてみる例:
1 2 3 4 5 6 7 8 9 10 | import pandas as pd df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1) # 尺度ごとに型を明示 df['都道府県名'] = df['都道府県名'].astype('category') # 名義 df['評価'] = pd.Categorical(df['評価'], ordered=True, # 順序 categories=['低', '中', '高']) df['人口'] = df['人口'].astype(int) # 比例尺度(離散) df['高齢化率'] = df['高齢化率'].astype(float) # 比例尺度(連続) |