「尺度水準」を取り巻く中核キーワード群です。 検索やインデックス作成で参照する際の手がかりにしてください。 各キーワードは関連する概念・手法・道具立てを含み、 文献検索や学習計画の起点になります。
最も忙しい読者のために、 まず結論だけまとめます。 詳細は以下のセクションへ:
「アンケートの 5 段階評価を平均してよいか?」 「都道府県コードを足し算してよいか?」 — 全ての統計手法は適用可能な尺度水準が決まっています。 これを無視すると無意味な結果が出ます。
このページの読み方:まず 30秒結論 と 直感 を読み、 必要に応じて 数式 や 計算例、 落とし穴 に進んでください。
4 段階を 「許される演算」 で整理:
| 尺度 | 例 | 許される演算 |
|---|---|---|
| 名義 | 性別、 血液型、 郵便番号 | =, ≠ |
| 順序 | 成績順、 5段階評価 | + <, > (差は不明) |
| 間隔 | 温度℃、 西暦、 IQ | + −(差・平均OK) |
| 比例 | 身長、 収入、 TFR | + −, ×, ÷ (比も意味) |
SSDSE-B の各列を尺度水準で分類:
| 列 | 尺度 | 理由 |
|---|---|---|
| 都道府県コード | 名義 | 数値だがラベルとしての意味のみ |
| 満足度(1-5) | 順序 | 差が等しいか不明 |
| 年(2023 等) | 間隔 | 差は意味、 0 は便宜 |
| 人口 | 比例 | 0 が「いない」、 比に意味 |
| TFR | 比例 | 0 が「全く産まない」 |
最小再現コード。 SSDSE-B のような実データを前提に、 4〜8 行で動く例です:
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=1)
# 比例尺度(数値)には平均・標準偏差が意味あり
print(df['合計特殊出生率'].describe())
# 名義尺度の都道府県には value_counts が適切
print(df['地域'].value_counts())
補足:ライブラリのバージョンや前処理状態によって出力は変わります。 自分の環境で動かすときは pip list でバージョンを確認し、 入力 CSV のパス・列名を実態に合わせてください。
尺度水準 を実務で扱うとき、 多くの分析者が同じところでつまずきます。 代表的な失敗パターンを先回りで押さえておくと、 後工程のトラブルを大幅に減らせます。
OrdinalEncoder、 なければ OneHotEncoder。 機械学習でも影響大。※ 上記は文献調査・現場経験で報告される頻度の高い注意点。 ドメインや手法のバージョンによって追加の落とし穴がある場合があります。
尺度水準 は「基礎統計」分野の中で発展してきた概念・手法です。 学術的には継続的な研究で精緻化され、 実務的にはツール・ライブラリの普及で誰でも使えるようになってきました。 用語の使い方・意味は時代と分野で少しずつ変わるため、 文脈に応じた解釈が大切です。 入門書だけでなく、 標準的な教科書(例:データサイエンス・統計学の定本)や信頼できるオンライン教材も併用すると、 ぶれない理解に近づけます。
「尺度水準」は単独で完結する概念ではなく、 より大きな分野の一部です。 上位カテゴリの教材を読むことで、 この用語の 位置づけ が立体的に見えてきます: