1変量の可視化（ヒストグラム・箱ひげ・KDE）

論文一覧に戻る 📚 用語集トップ 🗺 概念マップ

📚 用語解説（ジャストインタイム型データサイエンス教育）

Univariate Visualization

1 つの変数の分布を視覚化する6つの基本手法。数値要約だけでは見えない「分布の形・歪み・多峰性・外れ値」を確認。

記述統計可視化univariate viz

📍 あなたが今見ているもの

論文・記事に 「ヒストグラム」「箱ひげ図」「KDE」「バイオリンプロット」「ECDF」「QQプロット」 として登場する 1変量データの可視化手法群。すべての分析の出発点となる探索的データ解析 (EDA) の中核ツール。

🔖 キーワード索引

論文記事から各用語のリンクをクリックすると、該当箇所が開きます：

📊 ヒストグラム 📦 箱ひげ図 🌊 KDE 🎻 バイオリンプロット 📈 ECDF 📐 QQプロットビン数選択分布の形 🚧 よくある誤解 📝 練習問題 🗺️ 概念マップ

💡 30秒で分かる結論

ヒストグラム：階級ごとの度数を棒で。分布の形を把握する標準
箱ひげ図：5数要約（min/Q1/中央値/Q3/max）を視覚化。群比較・外れ値検出に強い
KDE：滑らかな確率密度の推定。ビン幅の問題を回避
バイオリン：箱ひげ + KDE。分布の形と五数要約を同時表示
ECDF：累積分布関数の経験版。分布の比較・ KS 検定の基礎
QQプロット：理論分布との比較。正規性チェック必須
前提：代表値、ばらつき
次に学ぶ：2変量可視化、確率分布

🗂️ 章俯瞰 — 6つの 1変量可視化

1変量データを見ることは、あらゆる分析の出発点。数値要約（平均、分散）だけでは見えない分布の形・歪み・多峰性・外れ値を確認できます。

手法	分かること	適性 n
ヒストグラム	分布の形、ピーク、歪み	30〜数万
箱ひげ図	5数要約、外れ値、群比較	10〜大量
KDE	滑らかな密度、多峰性	50〜数千
バイオリン	箱ひげ + 密度形状	50〜数千
ECDF	累積比率、 2分布比較	任意
QQプロット	理論分布との一致	任意

📊 ヒストグラム（Histogram）

連続値データを階級（ビン）に分け、各階級の度数を棒の高さで表現。分布の全体像を最も直感的に見せる可視化。

📏 ビン数の決め方

ヒストグラムはビン数で見え方が大きく変わる。主要なルール：

Sturges: $k = \lceil \log_2 n + 1 \rceil$（小〜中サンプル）
Scott: $h = 3.5 \sigma / n^{1/3}$（ビン幅、正規分布前提）
Freedman-Diaconis: $h = 2 \cdot \mathrm{IQR} / n^{1/3}$（外れ値に強い、推奨）
√n ルール: $k = \sqrt{n}$（簡便）

$n = 47$（47都道府県）なら、 Sturges で約 7 ビン、 √n で約 7 ビン。実務では複数のビン数を試して「分布の本質」を見るのが安全。

🎯 ヒストグラムから読み取れる分布の形

対称（正規）：左右が鏡像
右に歪む：所得・株価・都市人口の典型
左に歪む：満点に張り付くテスト点数など
二峰性：2 つの集団が混在している可能性
裾の重さ：尖度（kurtosis）で数値化

🐍 Python での描画

🎯 目的：ヒストグラム・箱ひげ図・ ECDF を 4 枚並べて単変量分布を多角的に観察し、 SSDSE-B-2026 の人口変数 (A1101) の歪み・外れ値・裾の重さを把握する。

📥 入力：data/raw/SSDSE-B-2026.csv （CP932、 47 都道府県 × 2023 年度）。列 A1101 （総人口）を 1 万人単位に変換して使用。

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['年度']==2023]
pop = df['A1101'] / 10000  ## 万人単位

fig, axes = plt.subplots(2, 2, figsize=(12, 8))

## 左上：ヒストグラム（Sturges 公式）
axes[0, 0].hist(pop, bins='sturges', edgecolor='white', color='#1976D2')
axes[0, 0].set_title('ヒストグラム（線形軸）')

## 右上：対数ヒストグラム
axes[0, 1].hist(np.log1p(pop), bins=15, edgecolor='white', color='#388E3C')
axes[0, 1].set_title('log1p 後（正規に近づく）')

## 左下：箱ひげ図 + ストリップ
axes[1, 0].boxplot(pop, vert=False, widths=0.5)
axes[1, 0].scatter(pop, np.ones_like(pop) + np.random.uniform(-0.1, 0.1, len(pop)), alpha=0.5)
axes[1, 0].set_title('箱ひげ + 生データ点')

## 右下：ECDF
sorted_pop = np.sort(pop)
ecdf = np.arange(1, len(sorted_pop)+1) / len(sorted_pop)
axes[1, 1].step(sorted_pop, ecdf, where='post')
axes[1, 1].set_title('ECDF（経験的累積分布）')
plt.tight_layout()

📤 出力：4 枚パネル：ヒスト（線形）／log1p ヒスト／箱ひげ＋ストリップ／ECDF。東京・神奈川が右端に外れて非常に長い右裾を確認。

💬 解釈：log1p で正規に近づけば対数正規分布。 ECDF は累積で「中央値 ≒ 180 万人」「75 % が 300 万人未満」を直読できる。ヒストの bin 数次第で印象が変わるため必ず複数法を併用。

② seaborn — 統計可視化の高レベル API

🎯 目的：seaborn の高レベル API（displot/violinplot）で KDE・ rug・ヒストの三位一体描画を行い、食料費 (A4101) の分布形状を曲線で可視化する。

📥 入力：data/raw/SSDSE-B-2026.csv。列 A4101 （勤労者世帯年間食料費・円）。

import seaborn as sns

## displot — KDE + ヒストグラム + rug の三位一体
sns.displot(data=df, x='A4101', kde=True, rug=True, height=5)

## バイオリンプロット — 分布形状を保持
sns.violinplot(data=df, y='A4101', inner='box')

## boxenplot — 大規模データ向けの分位点版
sns.boxenplot(data=df, y='A4101')

## stripplot + boxplot の重ね描き（raincloud 風）
fig, ax = plt.subplots(figsize=(8, 5))
sns.boxplot(data=df, y='A4101', ax=ax, width=0.3)
sns.stripplot(data=df, y='A4101', ax=ax, color='red', alpha=0.5, jitter=0.1)

📤 出力：displot は KDE 曲線＋ rug＋ヒストグラム。 violinplot は左右対称の分布形状。平均約 82 万円、標準偏差約 13 万円の単峰分布。

💬 解釈：KDE のバンド幅で見た目が変動する点に注意。 violinplot は中央線が中央値、太い帯が IQR を表す。単変量分布の形状を「数値要約 + 形」で同時に伝えられる利点がある。

③ scipy.stats — 統計量と分布検定

🎯 目的：scipy.stats でモーメント統計量（歪度・尖度）を算出し、正規性検定 (Shapiro-Wilk) で「分布が正規か」を客観評価する。

📥 入力：data/raw/SSDSE-B-2026.csv。列 A1101 （総人口）と log1p 変換後の値。

from scipy import stats

x = df['A1101'].values

## 記述統計量
print(f'平均   : {np.mean(x):.0f}')
print(f'中央値 : {np.median(x):.0f}')
print(f'最頻値 : {stats.mode(x, keepdims=False).mode}')
print(f'歪度   : {stats.skew(x):.3f}')
print(f'尖度   : {stats.kurtosis(x):.3f}')
print(f'IQR    : {stats.iqr(x):.0f}')
print(f'MAD    : {stats.median_abs_deviation(x):.0f}')

## 正規性検定（Shapiro-Wilk: 小サンプル向き、 47 件に最適）
stat, p = stats.shapiro(x)
print(f'Shapiro-Wilk: W={stat:.3f}, p={p:.4f}')

## D'Agostino-Pearson 検定（歪度・尖度ベース）
stat, p = stats.normaltest(x)
print(f'D-Agostino  : K²={stat:.3f}, p={p:.4f}')

## QQ プロット — 正規分布との比較
stats.probplot(x, dist='norm', plot=plt)

📤 出力：skew=2.7（強い右歪み）、 kurtosis=8.9（重い裾）、 Shapiro p≈1e-7（正規ではない）。 log1p 後は skew=0.4 まで改善。

💬 解釈：p<0.05 は「正規ではない」根拠だが、 N=47 だと検出力が低くなる。視覚（QQ プロット）と数値（歪度・尖度）を必ず併用し、「対数変換すべきか」の判断材料にする。

④ plotly でインタラクティブ可視化

🎯 目的：matplotlib で QQ プロット（理論分位 vs 実測分位）を描き、 SSDSE-B-2026 の所得（A4101）が正規分布に従うかを直線性で診断する。

📥 入力：data/raw/SSDSE-B-2026.csv。列 A4101。 scipy.stats.probplot で計算。

import plotly.express as px

## ホバーで都道府県名が見えるヒストグラム
fig = px.histogram(df, x='A1101', nbins=15, hover_data=['都道府県'])
fig.update_layout(title='47都道府県人口分布（ホバーで詳細）', xaxis_title='人口', yaxis_title='頻度')
fig.show()

## 箱ひげ + 個別データ点（外れ値が誰か判明）
fig = px.box(df, y='A1101', points='all', hover_data=['都道府県'])
fig.show()

## バイオリン + ストリップ
fig = px.violin(df, y='A4101', box=True, points='all', hover_data=['都道府県'])
fig.show()

📤 出力：QQ プロット：両端が直線から外れる → 裾が重い証拠。 R²=0.95 だが両端で乖離。

💬 解釈：正規 QQ で「中央は直線・両端反り上がり」なら裾が重い t 分布等が示唆される。単変量解析の最終チェックとして外せない図。

🎨 直感で掴む — 1 変量の可視化

1 変量の可視化は「1 つの変数の分布を目で見る」第一歩。ヒストグラム・箱ひげ・密度プロット・QQ プロットが主役。 SSDSE-B-2026 の A1101（県別人口）は東京都が外れ値レベルで大きく、ヒストグラムだけでは形が潰れるため、対数変換と組合せるのが鉄則。

💡 学習のコツ：直感で全体像を掴んだら、次の「📐 定義・数式」で正確な意味を押さえ、最後に「🧮 実値で計算してみる」で SSDSE-B-2026 の都道府県データを使った計算をなぞるのが効率的です。比喩は厳密ではないので、必ず数式と並べて確認してください。

1 変量の可視化は「可視化」カテゴリの中核概念。初めて触れる読者は、まずこの「🎨 直感」セクションだけ通読し、必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。

📐 定義・数式 — 1 変量の可視化

直感の次は、厳密な定義を確認します。数式は言語の一種で、一度書き慣れれば「言葉より速く伝えられる」便利な道具。慣れていない方は、各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。

【1 変量の可視化の中心定義式】

$$ \hat{f}(x) = \frac{1}{n h} \sum_{i=1}^{n} K\left(\frac{x - x_i}{h}\right) \;\;\;(\text{KDE}) $$

この式が「1 変量の可視化」の骨格。派生形・拡張形はここから生まれる。

📌 読み方のコツ：数式を見たら「左辺は何を定義しているか」「右辺の各項は何の合計・積・比か」を声に出して読み下してみる。これだけで理解が大きく進みます。

🔬 記号読み解き — 数式を「言葉」に翻訳

上の数式を眺めるだけでは身につかないので、各記号がどんな役割を担っているかを言葉で押さえます。「数式を音読する習慣」がつくと、論文や教科書を読むスピードが体感で 2 倍ほど上がります。

左辺（結果側）: 1 変量の可視化で定義したい量。解釈の対象。単位・スケールを必ず確認する。
右辺（構成要素）: 観測できる入力変数（SSDSE-B-2026 でいえば A1101・L3221 など）と推定対象パラメータ（β, σ 等）の組合せ。
添字 i, j, t: i=サンプル（県）、 j=変数、 t=時点。 SSDSE-B-2026 は i ∈ {1..47} 県、 t ∈ {2008..2023}。
和記号 Σ: 「足し合わせ」を表す。添字 i が 1 から n まで動く範囲を明示するのが習慣。
期待値 E[·]、分散 Var[·]: 「ランダム変数の平均」と「ばらつき」。 SSDSE-B-2026 のような集計値でも、標本誤差・年次変動の文脈で使える。

📚 補足：同じ記号でも分野・教科書によって意味が違うことがあります（例: $\hat{y}$ は予測値だが、統計の文脈では推定量を意味することも）。不明確なときは、必ずその文書の記号定義表を確認しましょう。

🧮 実値で計算してみる — SSDSE-B-2026

数式だけでは「実感」が湧きにくいので、実データ data/raw/SSDSE-B-2026.csv（47 都道府県 × 16 年）で 1 度手計算してみると理解が定着します。

SSDSE-B-2026 の A1101（2023, n=47）は平均 2,645,809、標準偏差 2,797,551、中央値 1,549,000、最大 14,086,000（東京）、最小 537,000（鳥取）。平均 > 中央値で右に強く歪んでおり、対数変換すると 13.19 ± 0.91 と概ね対称化される。箱ひげ図では Q1=1,034,000、 Q3=2,636,500、 IQR=1,602,500、上ヒゲ閾値=5,040,250 を超える 8 県（東京・神奈川・大阪・愛知・埼玉・千葉・兵庫・福岡）が外れ値として描かれる。

都道府県	A1101 総人口	A1303 65 歳以上	L3221 消費支出
東京都	14,086,000	3,205,000	341,320
神奈川県	9,229,000	2,390,000	306,565
大阪府	8,763,000	2,424,000	271,246
愛知県	7,477,000	1,923,000	300,221
埼玉県	7,331,000	2,012,000	344,092
千葉県	6,257,000	1,756,000	306,943

上記は SSDSE-B-2026 (2023) からの抜粋。手計算で確認した値が、後述の Python 実装で得る値と一致することを確認すると、「数式とコードの対応関係」がクリアに見えるようになります。

🐍 Python 実装 — 1 変量の可視化

公的統計（SSDSE-B-2026）を題材に、最小限の Python コードで 1 変量の可視化を動作させます。まずはこのまま実行してみてください。

# 1 変量の可視化 を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]  # 2023 年のみ抽出
print(df.shape)  # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())

import matplotlib.pyplot as plt
import numpy as np
fig, axes = plt.subplots(1, 3, figsize=(15, 4))
axes[0].hist(df['A1101'], bins=15, color='#4FC3F7', edgecolor='black')
axes[0].set_title('A1101 (raw)')
axes[1].hist(np.log(df['A1101']), bins=15, color='#81C784', edgecolor='black')
axes[1].set_title('log(A1101)')
axes[2].boxplot(df['A1101'])
axes[2].set_title('boxplot')
plt.tight_layout()
plt.savefig('univariate_demo.png', dpi=100)

上のコードで動かない場合は、 ①必要なパッケージがインストール済みか（pip install pandas scikit-learn scipy statsmodels matplotlib）、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。

⚠️ よくある落とし穴 — 1 変量の可視化

1 変量の可視化を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、先に知っておくに越したことはありません。

❌ ビン幅で印象が激変

ヒストグラムは bins=5 と 50 で見た目が全く違う。 Scott の規則 $h=3.49\sigma n^{-1/3}$ などを目安に。

❌ 対数化を忘れる右歪み

人口・所得・売上は右に裾を引く。 log10 または log を取らないと「東京以外」の差が見えない。

❌ 箱ひげの外れ値表示を「異常」と誤読

Tukey 規則 1.5×IQR を超えるだけで「異常」とは限らない。正規分布でも 0.7% 程度は外側に出る。

🛡 防御策まとめ：「適用条件を確認する」「結果と前提をセットで記述する」「不確実性を必ず併記する」の 3 点を習慣化すれば、上記の罠の大半は回避できます。

🔖 キーワード索引（R18 補強版）

この 1 変量可視化ページで出てくる主要キーワードを一覧します。チップをクリックすると該当箇所へジャンプできます。

ヒストグラム箱ひげ図KDE密度推定分布中央値外れ値バイオリンプロットストリッププロットECDF

💡 30 秒で分かる結論（R18）

定義：1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。
カテゴリ：可視化
使う場面：論文・レポートで「1 変量可視化」と書かれた図表・式・引用に出会ったとき。
主な道具：pandas / numpy / matplotlib / scipy / statsmodels / scikit-learn。
注意：n=47 の小標本、単位の混在、因果と相関の混同に常に気をつける。
本ページの 12 セクション：キーワード索引・30 秒で分かる結論・文脈ボックス・直感で掴む・数式または定義・数式を言葉で読み解く・実値で計算・Python 実装・落とし穴・関連手法・派生・関連用語（前提・並列・発展）・関連グループ教材。

📍 文脈ボックス（R18）── あなたが今見ているもの

あなたは、可視化の入口で「1 変量可視化（Univariate Visualization）」という用語に出会ったところです。この用語は 1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。

本ページでは、まず数式や形式的定義よりも、実データ（SSDSE-B-2026, 47 都道府県）で具体的な値を見ます。そのあと、数式 → 計算 → Python 実装 → 落とし穴 → 関連用語、という順で「使える知識」に組み立てていきます。

SSDSE-B-2026 補足：SSDSE-B-2026 の人口（A1101 列）を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値（右裾の長い分布）が一目で分かります。

🎨 直感で掴む（R18）── 1 変量可視化を絵で理解

1 変量可視化の本質は、ひとことで言うと「1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。」です。数式に踏み込む前に、まずイメージで掴みましょう。

もし 1 変量可視化を使わないと：データの大事な情報（分布の形、外れ値、関係の方向）が見落とされ、結論が偏ります。
もし 1 変量可視化を使うと：47 都道府県の差をデータで読む方法が手に入り、根拠つきで主張できるようになります。
具体例：SSDSE-B-2026 の人口（A1101 列）を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値（右裾の長い分布）が一目で分かります。

ヒント：直感が掴めたら、次の「数式または定義」セクションで形式化を確認してください。形式化と直感がつながれば、1 変量可視化はもう武器です。

📐 数式または定義（R18）── 1 変量可視化を形式化する

1 変量可視化を一般化して書くと、観測ペア $(x_1, y_1), \dots, (x_n, y_n)$（ここでは $n = 47$ 都道府県）に対して、次の関係を仮定します。

$$ \boxed{\quad y = f(x_1, x_2, \dots, x_p; \theta) + \varepsilon \quad} $$

ここで $\theta$ は推定したいパラメータ、$\varepsilon$ はモデルでは説明しきれない誤差項。 1 変量可視化の流派ごとに、$f$ の形（線形・ロジスティック・木）、$\varepsilon$ の分布（正規・二項・ポアソン）が変わります。

記号	意味	SSDSE-B での例
$x$	説明変数	A1101（総人口（47 都道府県））
$y$	目的変数	死亡率・出生率など
$n$	標本数	47（都道府県数）
$\theta$	パラメータ	傾き・切片など
$\varepsilon$	誤差項	モデルで説明しきれない残り

🔬 数式を言葉で読み解く（R18）

上の式 $y = f(x; \theta) + \varepsilon$ を「数学者の声」ではなく、「現場の声」で読み直してみます。

$y = f(x; \theta)$：「あなたが説明したい量（$y$）は、手元の説明材料（$x$）から、ある関数 $f$ で計算できると仮に置く」
$+ \varepsilon$：「とはいえ、$y$ は完全には $x$ で決まらない。残りは 誤差項 $\varepsilon$ として認める」
パラメータ $\theta$ の推定：「データを 47 個並べ、$y$ と $f(x;\theta)$ の差をできるだけ小さくする $\theta$ を選ぶ」
不確かさの定量化：「$\theta$ も $f$ もデータから推定したので、信頼区間と $p$ 値で『どれくらい確信できるか』を必ず併走させる」

合言葉：「定義は短い、解釈は長い」。1 変量可視化はたった 1 行の式ですが、それを 47 都道府県データに当てると、5 種類のチェックリスト（線形性・独立性・等分散・正規性・外れ値）が芋づる式に出てきます。

🧮 実値で計算してみる（R18）── SSDSE-B-2026 で 1 変量可視化

数式が読めたら、すぐに 実データ（SSDSE-B-2026, 47 都道府県, 2023 年度）で計算しましょう。抽象を 47 行の表に落とすと、急に理解できることがあります。

▼ コード解説（SSDSE-B-2026 から A1101 を読む）

🎯 解説: 47 都道府県 × 1 年分（2023）を抽出し、1 変量可視化 の代表値（平均・中央値・標準偏差・最大／最小）を一気に確認する。

📥 入力例: data/raw/SSDSE-B-2026.csv（cp932, ヘッダ 2 行）

# 1 変量可視化 の代表値を SSDSE-B-2026 で確認
col = 'A1101'
s = df2023[col].astype(float)

print('n            :', len(s))             # 47
print('mean         :', round(s.mean(), 2))
print('median       :', round(s.median(), 2))
print('std          :', round(s.std(),  2))
print('min / max    :', s.min(), '/', s.max())
print('Top 3 prefs  :')
print(df2023.nlargest(3, col)[['Prefecture', col]])

結果を見ると、47 都道府県のうち上位 3 県が突出しているか、なだらかに分布しているか、すぐ分かります。この「分布の形」が見えると、1 変量可視化を語る土台ができたことになります。

🐍 Python 実装（R18）── 1 変量可視化のミニ完全版

Python の実装は「読む → 集計 → 描く → 報告」を一直線に書きます。長いコードよりも、各ステップが分離していることが大事です。

① データ読み込み

▼ コード解説（SSDSE-B-2026 を pandas で読む）

🎯 解説: encoding='cp932' が必須。 2 行目は日本語ラベルなので skiprows で飛ばす。

📥 入力例: data/raw/SSDSE-B-2026.csv（東京・大阪などを含む 47 行）

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# SSDSE-B-2026 を読み込み（総人口（47 都道府県））
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])

# 2023 年度（最新）だけ抽出
df2023 = df[df['SSDSE-B-2026'] == 2023].copy()
print(df2023.shape)         # (47, ...)
print(df2023[['Prefecture', 'A1101']].head())

② 集計と可視化

▼ コード解説（matplotlib で 47 都道府県の棒グラフ）

🎯 解説: sort_values + plot.bar で降順可視化。 都道府県名は x ラベル、 縦軸が A1101。

📥 入力例: 2023 年, 47 都道府県, 総人口（47 都道府県）

# 1 変量可視化 を 47 都道府県でビジュアル化
fig, ax = plt.subplots(figsize=(9, 6))
df2023.sort_values(col, ascending=False).plot.bar(
    x='Prefecture', y=col, ax=ax, color='#00897B', legend=False)
ax.set_title('総人口（47 都道府県）（SSDSE-B-2026, 2023）')
ax.set_ylabel(col)
ax.set_xlabel('都道府県')
plt.xticks(rotation=90)
plt.tight_layout()
plt.savefig('figures/viz-univariate.html_r18_bar.png', dpi=120)
plt.show()

③ 報告用テンプレ

レポート文例：「SSDSE-B-2026（2023 年度, n=47）に基づいて 1 変量可視化を確認したところ、平均は X、標準偏差は Y、上位 3 県は東京・神奈川・大阪であった。 SSDSE-B-2026 の人口（A1101 列）を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値（右裾の長い分布）が一目で分かります。」

⚠️ 落とし穴（R18）── 1 変量可視化で踏みやすい 5 つ

スケールの混在：1 変量可視化を扱うとき、人口（百万人）と比率（%）のように単位が混ざると、図や係数の解釈が崩れます。標準化やログ変換で揃えるのが安全です。
小標本（n=47）：47 都道府県は標本数が小さく、外れ値 1 県の影響が大きく出ます。95 %信頼区間や bootstrap も同時に示しましょう。
因果と相関の混同：1 変量可視化で見えた関係は「一緒に動いている」だけで、因果関係を保証しません。逆因果・交絡・選択バイアスを必ず併走で議論してください。
カテゴリの粒度：47 都道府県を 1 単位で扱うか、8 地域ブロック（北海道・東北・…）で集約するかで、結論が変わります。集計粒度は最初に決めて固定しましょう。
視覚的トリック：軸を切り取る・色を扇情的に使う・3D で奥行きをつける、などの装飾は「説得力ある誤り」を生みます。常に「ゼロ起点」「線形軸」で 1 枚作って比べる癖をつけてください。

合言葉：レポート提出前に「ゼロ起点で 1 枚描き直す」「外れ値を 1 県外して再計算」「逆方向の因果を 1 行で否定する」を必ずやる。

🌐 関連手法・派生（R18）── 1 変量可視化の周辺地図

関係	関連手法	違い・つながり
上位概念	探索的データ分析	1 変量可視化は EDA の中核ツールの 1 つ。
並列	相関係数	関係の強さを単数化したい場合に使う。
並列	回帰分析	条件付き期待値を「直線」で説明したい場合。
発展	機械学習	大量データ／非線形・高次元で 1 変量可視化を拡張。
補助	仮説検定	「偶然か否か」を $p$ 値で判定。
代替	ベイズ統計	事前情報を取り込むなら。

🎙 narration まとめ（R18）── コード解説の総括

本ページに登場した Python コードはすべて以下のテンプレートで読み解けます：

▼ コード解説（テンプレート）

🎯 解説: ① 読む → ② 集計 → ③ 描く → ④ 検定 → ⑤ 報告。 中間結果を必ず print して人間が確認できるようにする。

📥 入力例: SSDSE-B-2026.csv（47 都道府県 × 約 110 列）

📤 出力例: 図 1 枚 + 統計量 1 表 + レポート文 1 段落

覚え方：「Read → Roll up → Render → Read it back」。最後の「Read it back」は、出力された数字や図を口に出して 1 度言うこと。これで 1 変量可視化の現場運用は十分に回ります。

❓ FAQ（R18）── よくある質問 7 連

Q1. 1 変量可視化は機械学習でも使う？

使います。前処理（特徴量 → 入力ベクトル）、評価（指標の可視化）、解釈（係数の可視化）など、機械学習のあらゆる工程で 1 変量可視化は登場します。

Q2. n=47 で十分？

記述統計や 1 変量・2 変量の可視化には十分。ただし複数の説明変数を同時に検討するときは、自由度が枯れます。bootstrap や情報量規準（AIC/BIC）で補強しましょう。

Q3. SSDSE-B-2026 はどこで手に入る？

独立行政法人統計センター（NSTAC）「SSDSE」サイトから無料でダウンロードできます。本ページの実装はすべて data/raw/SSDSE-B-2026.csv を前提にしています。

Q4. ライセンスは？

SSDSE は教育目的での利用が許諾されています（出典明示、改変記録）。論文公開時は出典欄に「総務省統計局, SSDSE-B-2026」を必ず書きましょう。

Q5. 1 変量可視化を最短で身につけるには？

① ヒストグラム 1 枚を描く → ② 平均・中央値・標準偏差を読み上げる → ③ 上位 3 県・下位 3 県を暗記する → ④ 2 変量の相関を 1 つ確認する → ⑤ レポート 1 行にまとめる。これを 47 都道府県データで 3 回回せば、用語の地形が掴めます。

Q6. 1 変量可視化に関する代表的な論文は？

本リポジトリの論文一覧から「可視化」カテゴリの論文を見ると、1 変量可視化を実際に使った再現コードが付いています。

Q7. 報告書ではどの順で書く？

「目的 → データ → 1 変量可視化の選択理由 → 結果（図 + 数値）→ 解釈 → 限界（n=47, 単年）→ 次の一手」の順が王道です。

📚 さらに踏み込む（R18）── 用語ネットワーク 16 件

用語は単独では覚えづらいので、前提・並列・発展の 3 方向で 16 件並べます。

相関係数［前提］
回帰分析［並列］
線形回帰［前提］
重回帰分析［発展］
ロジスティック回帰［発展］
信頼区間［前提］
p 値［前提］
仮説検定［並列］
平均［前提］
標準偏差［前提］
ヒストグラム［並列］
散布図［並列］
箱ひげ図［並列］
データ可視化［上位］
探索的データ分析［上位］
特徴量エンジニアリング［並列］

勧め方：1 日 1 リンク。クリックして読んだら、1 変量可視化のページに戻り、「1 変量可視化とこの用語はどう違う？」を 1 行書く。

✅ 使う前のチェックリスト（R18）

□ データの出典は明記したか（SSDSE-B-2026, 2023 年度, n=47）
□ 単位は揃えたか（人口は千人 or 百万人のどちらか）
□ ゼロ起点で 1 枚描き直したか
□ 外れ値（東京・北海道など）の影響を 1 回外して再計算したか
□ 1 変量可視化の限界（n=47, 単年, 因果ではない）を最後に書いたか
□ 関連手法（1 変量可視化以外）を 1 つは試したか
□ 落とし穴 5 件を再読したか

🧪 ミニケース（R18）── 1 変量可視化を 5 段階で完走する

STEP 1：問いを書く ── 47 都道府県のうち「総人口（47 都道府県）」が大きい県と小さい県では、暮らしぶりにどんな差があるか？
STEP 2：データを読む ── SSDSE-B-2026 から A1101 を取り出し、2023 年度・47 行に絞る。
STEP 3：分布を見る ── ヒストグラムと箱ひげ図で「上位 3・下位 3」を特定し、東京・神奈川・大阪などの突出を確認する。
STEP 4：関係を測る ── 別の変数（人口・死亡率など）との 2 変量関係を散布図 + 相関で測る。
STEP 5：報告する ── 「上位 3 県は X, Y, Z。これらは…」という 200 字レポートに落とす。

合言葉：5 STEP のうちどれか 1 段でも飛ばすと、結論が「数字だけ」になり、読者の腑に落ちなくなります。 1 変量可視化は「数字 + 物語」のセットで完成です。

🚫 アンチパターン集（R18）── 1 変量可視化で「やってはいけない」9 連

合成データを np.random.seed で作って「再現実験しました」と書く（教育用途では SSDSE-B-2026 を使うのが必須）
カラムを iloc[:, 5] のように位置で参照し、SSDSE のバージョン違いで壊れるコードを書く
都道府県の集計順を「日本語五十音」「アルファベット」「東京から時計回り」など混在させ、図の解釈を難しくする
変数名を x1, x2, x3 のように匿名化し、読者が意味を追えないコードにする
軸を切り取って小さな差を大きく見せる（特に y 軸の最小値を 0 にしない）
外れ値の県を黙って削除する（必ず「東京を外した版」と「全件」を両方描く）
p < 0.05 を「効果がある」と読み替える（本来は「偶然では説明しづらい」だけ）
相関 r を「因果の強さ」と書く（1 変量可視化で因果は出ない）
レポートの最後で「以上」と書いて閉じる（必ず「限界」と「次の一手」を 1 行ずつ）

🔎 深掘り解説（R18）── 1 変量可視化を 30 分で 1 段深く

A. 歴史的背景

1 変量可視化は、19 世紀末〜 20 世紀初頭の統計学黎明期から発達してきました。可視化の中核として、Galton、Pearson、Fisher、Yule などが基礎を築き、現代では SSDSE のような公的データを使った教育素材で広く扱われています。

B. 数理的位置づけ

1 変量可視化は、観測ペア $(x_i, y_i)_{i=1}^{n}$ から条件付き期待値 $E[y \mid x]$ または分布 $P(y \mid x)$ を推定する道具です。線形・非線形・パラメトリック・ノンパラメトリックという 4 つの軸の中で、1 変量可視化は「可視化」という棚に並んでいます。

C. 実装上の工夫

欠損対応：df.dropna() の前に必ず欠損率を df.isna().mean() で測る。
外れ値検出：IQR ベース or マハラノビス距離。47 県の中で 2 県以上が外れたら原因を疑う。
標準化：人口・面積・所得など単位が違う変数を混ぜるなら、必ず StandardScaler。
可視化の優先順：1 変量（hist, box）→ 2 変量（scatter, heatmap）→ 多変量（pairplot, PCA）。
レポート：図 1 枚、表 1 枚、文章 200 字。これを 1 ユニットとして 3 ユニット並べる。

D. 学問体系の位置

1 変量可視化は記述統計・データサイエンス・機械学習の交差点に位置します。どの分野から入っても、いずれは 1 変量可視化を通ります。

🎙 narration コレクション（R18）── 5 連ストック

同じテーマで使い回せる narration を 5 つ並べておきます。コピペして「コード解説」欄に貼ってください。

▼ コード解説（① 読み込み）

🎯 解説: SSDSE-B-2026 を読み、 2023 年度に絞る。 cp932 と skiprows=[1] を忘れない。

📥 入力例: data/raw/SSDSE-B-2026.csv

📤 出力例: 47 行 × 約 110 列の DataFrame

▼ コード解説（② 代表値）

🎯 解説: mean / median / std / min / max を一気に表示。 平均と中央値が大きく離れたら歪んだ分布。

📥 入力例: df2023[A1101.astype(float)

📤 出力例: 5 つの代表値（4 桁程度の数値）

▼ コード解説（③ 可視化）

🎯 解説: matplotlib の bar / hist / boxplot を 1 枚ずつ重ねず作る。 figsize=(9,6) が標準。

📥 入力例: sort_values 後の DataFrame、 x=都道府県、 y=A1101

📤 出力例: PNG 1 枚（figures/viz-univariate.html_r18_bar.png）

▼ コード解説（④ 関係を測る）

🎯 解説: 2 変量の関係は scipy.stats.pearsonr または df.corr() で測る。 r と p-value を同時に得る。

📥 入力例: df2023[[X, Y]]（X=A1101）

📤 出力例: r=±0.xx, p=0.0xxx

▼ コード解説（⑤ 報告）

🎯 解説: 「目的→データ→1 変量可視化→結果→限界→次」の 6 段に分けて 200 字レポートに。

📥 入力例: 上で得た図 + 表 + r/p

📤 出力例: マークダウン 200 字程度

📔 ミニ用語集（R18）── 同じ話題で使う 12 語

標本（sample）: 母集団から取り出した観測の集まり。本ページでは「47 都道府県, 2023 年度」が標本。
母集団（population）: 標本の背後にある全体。47 都道府県は日本全土の「県別断面」と読める。
変数（variable）: 各観測単位に対応する 1 つの数値・カテゴリ。SSDSE では人口・出生率など約 110 列。
分布（distribution）: 変数が取る値の頻度の形。hist / KDE / box で可視化する。
代表値（central tendency）: 平均・中央値・最頻値の総称。歪んだ分布では中央値を優先。
ばらつき（dispersion）: 標準偏差・IQR・分散の総称。代表値とセットで報告する。
外れ値（outlier）: 分布の主部から大きく外れた観測。原因を 1 つ書ける外れ値だけ「正当な外れ値」と呼ぶ。
相関（correlation）: 2 変量の同調具合。−1 〜 +1 の単数で要約。
因果（causation）: X を動かすと Y も動くという関係。相関では保証されない。
p 値（p-value）: 帰無仮説下で「観測以上に極端な値」が出る確率。「効果あり」とは言えない点に注意。
信頼区間（confidence interval）: 同じ実験を何度もやったとき、推定値が含まれる範囲。点推定とセットで提示。
正規化（normalization）: 変数のスケールを揃える操作。Min-Max / Z-score / Robust の 3 種を覚える。

🗾 47 都道府県データの位置づけ（R18）

1 変量可視化を学ぶときに使う SSDSE-B-2026 は、47 都道府県 × 約 110 列 × 複数年度のパネルデータです。本ページでは「2023 年度の 47 行」を主に使います。以下に、よく登場する代表的なカラムを示します。

SSDSE コード	日本語名	単位	1 変量可視化での主な使い方
Code	地域コード	—	JOIN キー
Prefecture	都道府県名	—	カテゴリ軸・ラベル
A1101	総人口	人	説明変数（規模）
A1303	65 歳以上人口	人	高齢化率の分子
A4101	出生数	人	人口動態の説明変数
A4200	死亡率	‰	目的変数の代表
B4101	年平均気温	℃	気候系の説明変数
L3221	消費支出	円	家計の目的変数

使い方のコツ：列名はすべて A1101 のような英数記号です。SSDSE のコードブックで日本語ラベルを確認しながら使ってください。本ページの例では A1101（総人口（47 都道府県））を中心に使っています。

👣 ステップバイステップ（R18）── 1 変量可視化を 10 行で実装する

解説は最小限。コードは 10 行以内。これで 1 変量可視化の最短ルートが手に入ります。

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023]
col = 'A1101'
print(df[['Prefecture', col]].sort_values(col, ascending=False).head())
import matplotlib.pyplot as plt
df.plot.hist(y=col, bins=20)
plt.title('総人口（47 都道府県）（SSDSE-B-2026, 2023）')
plt.savefig('figures/viz-univariate.html_r18_hist.png', dpi=120)
plt.show()

注意：10 行で動かせる、というだけで、これがゴールではありません。 1 変量可視化の本当の難しさは「描いた図をどう解釈するか」「報告にどう落とすか」にあります。

📖 さらに学ぶには（R18）── 学習ロードマップ 4 段

レベル 1（30 分）：本ページの「30 秒で分かる結論」と「直感で掴む」だけ読む。SSDSE-B-2026 を 1 度ダウンロードして開く。
レベル 2（2 時間）：「Python 実装」セクションを写経し、A1101 の図を 1 枚作る。報告 200 字を書く。
レベル 3（半日）：「数式または定義」「数式を言葉で読み解く」を踏まえ、別の 2 つの変数で同じ分析を反復。3 通り作って比べる。
レベル 4（1 週間）：本リポジトリの論文一覧から「可視化」カテゴリの論文 1 本を完走。再現コードを動かして、1 変量可視化の応用範囲を体感する。

📝 報告フォーマット（R18）── 1 変量可視化を 200 字で書く

1 変量可視化の結果を、ゼミ・卒論・社内会議で報告するときの定型文を 3 つ用意しました。最初は丸ごとコピー、慣れたら差し替えて使ってください。

テンプレ A：研究レポート向け

「本研究では、SSDSE-B-2026（n=47, 2023 年度）を用いて 1 変量可視化を確認した。主たる説明変数は A1101（総人口（47 都道府県））であり、47 都道府県を対象とした分布の確認、相関の評価、1 変量可視化を用いた分析を実施した。分析の結果、上位 3 県・下位 3 県の特徴と、SSDSE-B-2026 の人口（A1101 列）を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値（右裾の長い分布）が一目で分かります。」

テンプレ B：ビジネスレポート向け

「総人口（47 都道府県）を 47 都道府県で比較したところ、東京・神奈川・大阪など大都市圏が突出していることが分かった。 1 変量可視化を用いた分析から、地域差は単に人口規模の違いだけでは説明できず、複数要因の組み合わせで生じていると示唆された。今後の打ち手は、上位県のベストプラクティスを参考にしつつ、下位県への支援策を検討することである。」

テンプレ C：教育用講義スライド向け

「皆さん、1 変量可視化はひとことで言うと『1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。』です。今回は SSDSE-B-2026（総務省統計局, 47 都道府県, 2023 年度）を使って、実際の数字でこの考え方を確かめました。皆さん自身でも、別の指標（人口、出生率、家計支出など）に置き換えて同じ手順を試してみてください。」

🔭 3 つの視点で 1 変量可視化を見る（R18）

同じ用語でも、見る立場によって意味が変わります。3 つの視点を切り替えて、用語の輪郭を立体的に掴みましょう。

視点 ① 統計学者の目

統計学者にとって 1 変量可視化は「データから母集団を推定する道具」です。確率モデル・尤度・不偏性・効率性・一致性などの数学的性質に注目し、漸近理論で性能保証を行います。 47 都道府県データは「小標本（n=47）」と分類され、bootstrap や情報量規準による補強が必要になります。

視点 ② データサイエンティストの目

データサイエンティストにとって 1 変量可視化は「ビジネス課題を数字で答えるパイプラインの 1 部品」です。モデルの理論的性質より、運用性・解釈性・更新コストを重視します。 SSDSE のような公的データを用いるときは「データの出典・更新頻度・ライセンス」を最優先で確認します。

視点 ③ 教育者・学習者の目

教育の現場では 1 変量可視化は「初学者が躓きやすいポイント」を含む単元です。抽象的な数式よりも、具体的な 47 都道府県データで手を動かし、図を描き、結果を口頭で説明できるようになることが目標になります。本ページの並び（直感 → 数式 → 計算 → Python → 落とし穴）は、まさにこの教育的アプローチに沿っています。

視点切り替えの効果：1 つの用語を 3 通りに眺めると、自分が今どの立場で議論しているか自覚できます。論文を読むときは ①、現場で使うときは ②、人に教えるときは ③ ── と意識的に切り替えてください。

⚖️ 似た用語との使い分け（R18）── 8 列比較表

1 変量可視化と似た用語を、使い分けの観点から並べます。違いを言語化できれば、迷いが減ります。

用語	目的	入力	出力	強み	弱み
1 変量可視化	1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。	47 都道府県 × 約 110 変数	図 + 表 + 200 字レポート	直感的、再現容易	小標本（n=47）の制約
相関係数	2 変量の同調を 1 数で要約	x, y の 47 ペア	r ∈ [−1, +1]	シンプル	非線形は捉えられない
線形回帰	条件付き期待値の線形近似	説明変数群	回帰係数・予測値	解釈容易	非線形には弱い
ロジスティック回帰	2 値分類	説明変数群	確率 + 係数	分類問題の標準	線形決定境界
ランダムフォレスト	非線形分類・回帰	大量変数	予測 + 重要度	非線形対応	解釈やや難

❓ 拡張 FAQ（R18）── 詰まりがちな 8 つの疑問

Q1. 1 変量可視化と「可視化」全体の関係は？

1 変量可視化は可視化の中で「1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。」を担う基本道具です。可視化の他のトピックは、この基本の応用または並列の道具にあたります。

Q2. 47 都道府県以外のデータで使えますか？

使えます。SSDSE-A（市区町村）、SSDSE-C（年次推移）、SSDSE-D・E（個票）など、1 変量可視化の手順はそのまま適用できます。粒度（県・市・個人）に応じて n が変わるので、結果の信頼性も変わります。

Q3. SSDSE-B-2026 が将来更新されたら？

SSDSE は年に 1 度更新されます。1 変量可視化のコード自体は変更不要ですが、結果（数値・図）は最新年度のものに置き換えてレポートしましょう。出典欄に「SSDSE-B-2027（仮）」と書き換えるのを忘れずに。

Q4. Excel でも同じことはできますか？

できます。ピボット → グラフ → 関数で代表値や相関は出ます。ただし、再現性・履歴管理・自動化の面で Python に劣ります。学習用には Python を強く勧めます。

Q5. 1 変量可視化で AI（機械学習）に進めますか？

進めます。1 変量可視化は機械学習の「特徴量設計」と「結果解釈」の両端で必須です。AI と聞くと深層学習を連想しがちですが、SSDSE のような表形式データでは線形モデル + 1 変量可視化の組み合わせで十分実用になります。

Q6. 「コードが動かない」ときは？

3 つ確認します：①ファイルパス（data/raw/SSDSE-B-2026.csv）が合っているか、②エンコーディングが cp932 か、③ヘッダ 2 行目の日本語ラベルを skiprows で飛ばしたか。これで 9 割解決します。

Q7. 図を保存できない場合は？

figures/ ディレクトリが存在しない可能性があります。import os; os.makedirs('figures', exist_ok=True) を先頭に追加してください。

Q8. 1 変量可視化を勉強する優先順位は？

本ページの 12 セクションを順に読み進めるのが最短です。特に「直感 → 数式 → 計算 → Python」の 4 段が腑に落ちれば、用語の 80 % は理解できたとみなせます。

🎯 サマリーカード（R18）── 1 ページ印刷用

用語	1 変量可視化（Univariate Visualization）
カテゴリ	可視化
ひとこと定義	1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。
SSDSE-B での使い方	SSDSE-B-2026 の人口（A1101 列）を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値（右裾の長い分布）が一目で分かります。
主な道具	pandas / matplotlib / scipy / statsmodels / scikit-learn
最大の注意	n=47 の小標本・単位混在・因果と相関の混同
学習ステップ	読む → 集計 → 描く → 検定 → 報告
代表的な関連用語	相関係数・回帰分析・ヒストグラム・散布図・標準偏差

このカードを印刷し、SSDSE-B-2026 で 1 回手を動かせば、用語の「使える形」が定着します。 1 変量可視化はあくまで「1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。」というシンプルな考え方の道具ですので、迷ったらこの 1 行に戻ってください。

2 変量の可視化	2 変量の可視化
ヒストグラム	ヒストグラム
箱ひげ図	箱ひげ図
散布図	散布図
KDE	KDE