データビジュアライゼーション

🔖 キーワード索引

データビジュアライゼーションData Visualization可視化DataViz

本ページは データビジュアライゼーション（Data Visualization）を多角的に解説します。上のチップは、検索・関連語の手がかりです。

💡 30秒で分かる結論

データを 視覚的に表現し、パターン・傾向・例外を発見しやすくする技術
Tukey の EDA（探索的データ解析）以来、分析の必須プロセス
ライブラリ：matplotlib, seaborn, plotly, Tableau, Power BI
「いい可視化 = 短時間で正しい洞察」 ─ 棒・折れ線・散布・ヒートマップが基本 4
ダメな可視化（3D 円グラフ、軸を歪めるグラフ）は嘘より悪い

📍 文脈 — どこで使う概念か

データビジュアライゼーション（Data Visualization）は、統計学・デザイン・認知科学を統合した実学です。 Edward Tufte の古典「The Visual Display of Quantitative Information」（1983）以来、 「データ→図→洞察」の流れがデータサイエンスの中心になりました。報告・プレゼン・EDA のあらゆる場面で必要。

🎨 直感で掴む — 具体例で理解する

基本グラフの使い分け：

グラフ種類	適したデータ	例
棒グラフ	カテゴリ vs 数値	都道府県別人口
折れ線	時系列	月別売上推移
散布図	2 つの数値変数	身長 vs 体重
ヒストグラム	数値の分布	年齢分布
箱ひげ図	分布の比較	群別の収入分布
ヒートマップ	2 次元の濃淡	相関行列、時間×場所

原則：「シンプルに、正確に、美しく」。デザインは情報伝達の手段で、装飾ではない。

📐 定義

データを視覚化する技術・デザイン

英語名 Data Visualization、カテゴリ：可視化。

🔬 記号・要素の読み解き

data-ink ratio: Tufte の概念：「情報を伝えるインク」/「総インク」を最大化
aesthetic mapping: 変数を視覚属性（位置、色、大きさ）に割り当てる対応
Grammar of Graphics: Wilkinson の理論。 ggplot2 の基盤
Gestalt 原理: 近接、類似、連続、閉合などの知覚原理
色覚多様性: 色覚バリエーションを考慮（赤緑色弱は人口の 5%）

🧮 数値例・実値計算

悪いグラフ vs 良いグラフ（よくある失敗例）：

悪い例	問題	改善
3D 円グラフ	奥行きで面積が歪む	2D 棒グラフ
y 軸が 0 から始まらない	差を誇張	必ず 0 起点 or 注記
多すぎる色	意味不明	2〜5 色に絞る
凡例が遠い	視線移動が多い	凡例をデータの隣に
赤緑のみ	色覚多様性無視	青オレンジ + 形状

🐍 Python 実装例

最小コードで動かしてみる例：

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 散布図に回帰直線 + 信頼帯
sns.regplot(data=df, x='高齢化率', y='死亡率')
plt.title('高齢化率 vs 死亡率（47都道府県）')
plt.xlabel('高齢化率 (%)')
plt.ylabel('死亡率 (‰)')
plt.tight_layout()
plt.show()

⚠️ よくある落とし穴

❌ チャートジャンク

装飾過多で情報が見えなくなる。 Tufte の警告通り、余計な要素を削る。

❌ 軸の操作

y 軸を 0 から始めないと差を誇張できる。報道・広告で頻発する嘘グラフ。

❌ 情報過多

1 枚に 10 系列以上は読めない。ファセット分割（小倍数）を使う。

❌ 3D の濫用

見栄え重視で 3D 円グラフ等を使うと、比較の精度が落ちる。

❌ 色覚多様性無視

赤緑だけで分けると 5% の人に読めない。形状や濃淡を併用。