論文一覧に戻る 📚 用語集トップ 🗺 概念マップ
📚 用語解説
📚 用語解説
変数の尺度とデータ型
Variable Scales and Data Types
リテラシー

🔖 キーワード索引

変数の尺度とデータ型Variable Scales and Data Typesリテラシー

本ページは 変数の尺度とデータ型(Variable Scales and Data Types)を多角的に解説します。 上のチップは、 検索・関連語の手がかりです。

💡 30秒で分かる結論

📍 文脈 — どこで使う概念か

変数の尺度(Variable Scales)は、 1946 年に心理学者 S.S. Stevens が提案した 測定理論の古典。 統計学・データサイエンスのすべての手法は、 「どの尺度の変数か」で適用可否が決まります。 初学者が最初に学ぶべき概念であり、 ベテランでも忘れがちな 分析の基礎です。

🎨 直感で掴む — 具体例で理解する

4 つの尺度を具体例で:

尺度順序等間隔絶対零点使える演算
名義 (Nominal)性別、 都道府県、 血液型×××=, ≠、 度数、 モード
順序 (Ordinal)5段階評価、 順位××+ <, >、 中央値、 順位相関
間隔 (Interval)気温℃、 西暦×+ 加減、 平均、 標準偏差
比例 (Ratio)身長、 体重、 売上+ 乗除、 比率、 幾何平均

例:温度 20℃ は 10℃ の「2 倍」と言えるか? ─ 言えない(℃は間隔尺度で絶対零点なし)。 一方、 ケルビン 300K と 150K は「2倍」と言える(比例尺度)。

📐 定義

名義・順序・間隔・比例尺度とデータ型の対応

英語名 Variable Scales and Data Types、 カテゴリ:リテラシー。

🔬 記号・要素の読み解き

名義尺度
「区別だけ」できる。 数字を割り当ててもそれは単なるラベル
順序尺度
「大小」もできる。 ただし「差の大きさ」は意味なし(1位と2位の差 ≠ 2位と3位の差)
間隔尺度
「差」も等間隔。 だが「比率」は意味なし(℃ の 0 は便宜上の基準)
比例尺度
「比率」まで意味あり。 絶対零点(0 = 無)が存在する
離散 / 連続
別の分類軸。 整数のみか、 実数も取りうるか

🧮 数値例・実値計算

尺度ごとに使える代表値:

尺度モード中央値算術平均幾何平均
名義×××
順序△(厳密にはNG)×
間隔×
比例

厳密に言えば「5段階評価の平均」は順序尺度に算術平均を適用しており、 統計学的にはグレー。 実務では便宜的に許されているが 慎重に

🐍 Python 実装例

最小コードで動かしてみる例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 尺度ごとに型を明示
df['都道府県名'] = df['都道府県名'].astype('category')  # 名義
df['評価'] = pd.Categorical(df['評価'], ordered=True,  # 順序
                          categories=['低', '中', '高'])
df['人口'] = df['人口'].astype(int)  # 比例尺度(離散)
df['高齢化率'] = df['高齢化率'].astype(float)  # 比例尺度(連続)

⚠️ よくある落とし穴

❌ ID を数値扱い
顧客 ID が 1, 2, 3 でも、 平均すると無意味。 必ず文字列 or category 型。
❌ リッカート尺度の平均
「5段階の平均が 3.8」は伝統的によく使うが、 統計理論的には順序尺度なので議論あり。
❌ 名義尺度の OneHot 忘れ
機械学習で「都道府県」を 1〜47 のままモデルに入れると、 順序があるかのように学習される。
❌ 離散・連続の混同
「年齢」は通常連続だが、 「子供の数」は離散。 適切な分布で扱う。
❌ 単位の見落とし
比例尺度でも、 単位(cm vs m)で値が桁違いに。 標準化が必要。