本ページは データビジュアライゼーション(Data Visualization)を多角的に解説します。 上のチップは、 検索・関連語の手がかりです。
データビジュアライゼーション(Data Visualization)は、 統計学・デザイン・認知科学を統合した実学です。 Edward Tufte の古典「The Visual Display of Quantitative Information」(1983)以来、 「データ→図→洞察」の流れがデータサイエンスの中心になりました。 報告・プレゼン・EDA のあらゆる場面で必要。
基本グラフの使い分け:
| グラフ種類 | 適したデータ | 例 |
|---|---|---|
| 棒グラフ | カテゴリ vs 数値 | 都道府県別人口 |
| 折れ線 | 時系列 | 月別売上推移 |
| 散布図 | 2 つの数値変数 | 身長 vs 体重 |
| ヒストグラム | 数値の分布 | 年齢分布 |
| 箱ひげ図 | 分布の比較 | 群別の収入分布 |
| ヒートマップ | 2 次元の濃淡 | 相関行列、 時間×場所 |
原則:「シンプルに、 正確に、 美しく」。 デザインは情報伝達の手段で、 装飾ではない。
データを視覚化する技術・デザイン
英語名 Data Visualization、 カテゴリ:可視化。
悪いグラフ vs 良いグラフ(よくある失敗例):
| 悪い例 | 問題 | 改善 |
|---|---|---|
| 3D 円グラフ | 奥行きで面積が歪む | 2D 棒グラフ |
| y 軸が 0 から始まらない | 差を誇張 | 必ず 0 起点 or 注記 |
| 多すぎる色 | 意味不明 | 2〜5 色に絞る |
| 凡例が遠い | 視線移動が多い | 凡例をデータの隣に |
| 赤緑のみ | 色覚多様性無視 | 青オレンジ + 形状 |
最小コードで動かしてみる例:
1 2 3 4 5 6 7 8 9 10 11 12 13 | import matplotlib.pyplot as plt import seaborn as sns import pandas as pd df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1) # 散布図に回帰直線 + 信頼帯 sns.regplot(data=df, x='高齢化率', y='死亡率') plt.title('高齢化率 vs 死亡率(47都道府県)') plt.xlabel('高齢化率 (%)') plt.ylabel('死亡率 (‰)') plt.tight_layout() plt.show() |