論文・記事に 「ヒストグラム」「箱ひげ図」「KDE」「バイオリンプロット」「ECDF」「QQプロット」 として登場する 1変量データの可視化手法群。 すべての分析の出発点となる探索的データ解析 (EDA) の中核ツール。
論文記事から各用語のリンクをクリックすると、 該当箇所が開きます:
1変量データを見ることは、 あらゆる分析の出発点。 数値要約(平均、 分散)だけでは見えない分布の形・歪み・多峰性・外れ値を確認できます。
| 手法 | 分かること | 適性 n |
|---|---|---|
| ヒストグラム | 分布の形、 ピーク、 歪み | 30〜数万 |
| 箱ひげ図 | 5数要約、 外れ値、 群比較 | 10〜大量 |
| KDE | 滑らかな密度、 多峰性 | 50〜数千 |
| バイオリン | 箱ひげ + 密度形状 | 50〜数千 |
| ECDF | 累積比率、 2分布比較 | 任意 |
| QQプロット | 理論分布との一致 | 任意 |
連続値データを階級(ビン)に分け、 各階級の度数を棒の高さで表現。 分布の全体像を最も直感的に見せる可視化。
ヒストグラムはビン数で見え方が大きく変わる。 主要なルール:
$n = 47$(47都道府県)なら、 Sturges で約 7 ビン、 √n で約 7 ビン。 実務では複数のビン数を試して「分布の本質」を見るのが安全。
data/raw/SSDSE-B-2026.csv (CP932、 47 都道府県 × 2023 年度)。 列 A1101 (総人口)を 1 万人単位に変換して使用。1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | import pandas as pd import matplotlib.pyplot as plt import numpy as np df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1]) df = df[df['年度']==2023] pop = df['A1101'] / 10000 ## 万人単位 fig, axes = plt.subplots(2, 2, figsize=(12, 8)) ## 左上:ヒストグラム(Sturges 公式) axes[0, 0].hist(pop, bins='sturges', edgecolor='white', color='#1976D2') axes[0, 0].set_title('ヒストグラム(線形軸)') ## 右上:対数ヒストグラム axes[0, 1].hist(np.log1p(pop), bins=15, edgecolor='white', color='#388E3C') axes[0, 1].set_title('log1p 後(正規に近づく)') ## 左下:箱ひげ図 + ストリップ axes[1, 0].boxplot(pop, vert=False, widths=0.5) axes[1, 0].scatter(pop, np.ones_like(pop) + np.random.uniform(-0.1, 0.1, len(pop)), alpha=0.5) axes[1, 0].set_title('箱ひげ + 生データ点') ## 右下:ECDF sorted_pop = np.sort(pop) ecdf = np.arange(1, len(sorted_pop)+1) / len(sorted_pop) axes[1, 1].step(sorted_pop, ecdf, where='post') axes[1, 1].set_title('ECDF(経験的累積分布)') plt.tight_layout() |
data/raw/SSDSE-B-2026.csv。 列 A4101 (勤労者世帯年間食料費・ 円)。1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | import seaborn as sns ## displot — KDE + ヒストグラム + rug の三位一体 sns.displot(data=df, x='A4101', kde=True, rug=True, height=5) ## バイオリンプロット — 分布形状を保持 sns.violinplot(data=df, y='A4101', inner='box') ## boxenplot — 大規模データ向けの分位点版 sns.boxenplot(data=df, y='A4101') ## stripplot + boxplot の重ね描き(raincloud 風) fig, ax = plt.subplots(figsize=(8, 5)) sns.boxplot(data=df, y='A4101', ax=ax, width=0.3) sns.stripplot(data=df, y='A4101', ax=ax, color='red', alpha=0.5, jitter=0.1) |
data/raw/SSDSE-B-2026.csv。 列 A1101 (総人口) と log1p 変換後の値。1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | from scipy import stats x = df['A1101'].values ## 記述統計量 print(f'平均 : {np.mean(x):.0f}') print(f'中央値 : {np.median(x):.0f}') print(f'最頻値 : {stats.mode(x, keepdims=False).mode}') print(f'歪度 : {stats.skew(x):.3f}') print(f'尖度 : {stats.kurtosis(x):.3f}') print(f'IQR : {stats.iqr(x):.0f}') print(f'MAD : {stats.median_abs_deviation(x):.0f}') ## 正規性検定(Shapiro-Wilk: 小サンプル向き、 47 件に最適) stat, p = stats.shapiro(x) print(f'Shapiro-Wilk: W={stat:.3f}, p={p:.4f}') ## D'Agostino-Pearson 検定(歪度・尖度ベース) stat, p = stats.normaltest(x) print(f'D-Agostino : K²={stat:.3f}, p={p:.4f}') ## QQ プロット — 正規分布との比較 stats.probplot(x, dist='norm', plot=plt) |
data/raw/SSDSE-B-2026.csv。 列 A4101。 scipy.stats.probplot で計算。1 2 3 4 5 6 7 8 9 10 11 12 13 14 | import plotly.express as px ## ホバーで都道府県名が見えるヒストグラム fig = px.histogram(df, x='A1101', nbins=15, hover_data=['都道府県']) fig.update_layout(title='47都道府県人口分布(ホバーで詳細)', xaxis_title='人口', yaxis_title='頻度') fig.show() ## 箱ひげ + 個別データ点(外れ値が誰か判明) fig = px.box(df, y='A1101', points='all', hover_data=['都道府県']) fig.show() ## バイオリン + ストリップ fig = px.violin(df, y='A4101', box=True, points='all', hover_data=['都道府県']) fig.show() |
1 変量の可視化は「1 つの変数の分布を目で見る」第一歩。 ヒストグラム・箱ひげ・密度プロット・QQ プロットが主役。 SSDSE-B-2026 の A1101(県別人口)は東京都が外れ値レベルで大きく、 ヒストグラムだけでは形が潰れるため、 対数変換と組合せるのが鉄則。
1 変量の可視化 は「可視化」カテゴリの中核概念。 初めて触れる読者は、 まずこの「🎨 直感」セクションだけ通読し、 必要になった時点で「📐 数式」「🐍 Python」「⚠️ 落とし穴」へ戻る読み方が定着しやすいです。
直感の次は、 厳密な定義を確認します。 数式は言語の一種で、 一度書き慣れれば「言葉より速く伝えられる」便利な道具。 慣れていない方は、 各記号が何を表すかを下の「🔬 記号読み解き」で 1 つずつ確認してください。
上の数式を眺めるだけでは身につかないので、 各記号がどんな役割を担っているかを言葉で押さえます。 「数式を音読する習慣」がつくと、 論文や教科書を読むスピードが体感で 2 倍ほど上がります。
数式だけでは「実感」が湧きにくいので、 実データ data/raw/SSDSE-B-2026.csv(47 都道府県 × 16 年)で 1 度手計算してみると理解が定着します。
SSDSE-B-2026 の A1101(2023, n=47)は平均 2,645,809、 標準偏差 2,797,551、 中央値 1,549,000、 最大 14,086,000(東京)、 最小 537,000(鳥取)。 平均 > 中央値で右に強く歪んでおり、 対数変換すると 13.19 ± 0.91 と概ね対称化される。 箱ひげ図では Q1=1,034,000、 Q3=2,636,500、 IQR=1,602,500、 上ヒゲ閾値=5,040,250 を超える 8 県(東京・神奈川・大阪・愛知・埼玉・千葉・兵庫・福岡)が外れ値として描かれる。
| 都道府県 | A1101 総人口 | A1303 65 歳以上 | L3221 消費支出 |
|---|---|---|---|
| 東京都 | 14,086,000 | 3,205,000 | 341,320 |
| 神奈川県 | 9,229,000 | 2,390,000 | 306,565 |
| 大阪府 | 8,763,000 | 2,424,000 | 271,246 |
| 愛知県 | 7,477,000 | 1,923,000 | 300,221 |
| 埼玉県 | 7,331,000 | 2,012,000 | 344,092 |
| 千葉県 | 6,257,000 | 1,756,000 | 306,943 |
上記は SSDSE-B-2026 (2023) からの抜粋。 手計算で確認した値が、 後述の Python 実装で得る値と一致することを確認すると、 「数式とコードの対応関係」がクリアに見えるようになります。
公的統計(SSDSE-B-2026)を題材に、 最小限の Python コードで 1 変量の可視化 を動作させます。 まずはこのまま実行してみてください。
# 1 変量の可視化 を SSDSE-B-2026 で実行する最小コード
import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
df = df[df['SSDSE-B-2026'] == 2023] # 2023 年のみ抽出
print(df.shape) # (47, 112)
print(df[['Prefecture','A1101','A1303','L3221']].head())
import matplotlib.pyplot as plt
import numpy as np
fig, axes = plt.subplots(1, 3, figsize=(15, 4))
axes[0].hist(df['A1101'], bins=15, color='#4FC3F7', edgecolor='black')
axes[0].set_title('A1101 (raw)')
axes[1].hist(np.log(df['A1101']), bins=15, color='#81C784', edgecolor='black')
axes[1].set_title('log(A1101)')
axes[2].boxplot(df['A1101'])
axes[2].set_title('boxplot')
plt.tight_layout()
plt.savefig('univariate_demo.png', dpi=100)
上のコードで動かない場合は、 ①必要なパッケージがインストール済みか(pip install pandas scikit-learn scipy statsmodels matplotlib)、 ②データファイルが data/raw/SSDSE-B-2026.csv に存在するか、 ③encoding='cp932' になっているかを確認してください。
1 変量の可視化 を使うときに初学者が踏みやすい失敗パターン。 1 度経験してしまえば次から避けられますが、 先に知っておくに越したことはありません。
この 1 変量可視化 ページで出てくる主要キーワードを一覧します。チップをクリックすると該当箇所へジャンプできます。
あなたは、可視化 の入口で「1 変量可視化(Univariate Visualization)」という用語に出会ったところです。 この用語は 1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。
本ページでは、まず数式や形式的定義よりも、実データ(SSDSE-B-2026, 47 都道府県)で具体的な値を見ます。 そのあと、数式 → 計算 → Python 実装 → 落とし穴 → 関連用語、という順で「使える知識」に組み立てていきます。
1 変量可視化 の本質は、ひとことで言うと「1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。」です。 数式に踏み込む前に、まずイメージで掴みましょう。
ヒント:直感が掴めたら、次の「数式または定義」セクションで形式化を確認してください。 形式化と直感がつながれば、1 変量可視化 はもう武器です。
1 変量可視化 を一般化して書くと、観測ペア $(x_1, y_1), \dots, (x_n, y_n)$(ここでは $n = 47$ 都道府県)に対して、次の関係を仮定します。
$$ \boxed{\quad y = f(x_1, x_2, \dots, x_p; \theta) + \varepsilon \quad} $$ここで $\theta$ は推定したいパラメータ、$\varepsilon$ はモデルでは説明しきれない誤差項。 1 変量可視化 の流派ごとに、$f$ の形(線形・ロジスティック・木)、$\varepsilon$ の分布(正規・二項・ポアソン)が変わります。
| 記号 | 意味 | SSDSE-B での例 |
|---|---|---|
| $x$ | 説明変数 | A1101(総人口(47 都道府県)) |
| $y$ | 目的変数 | 死亡率・出生率など |
| $n$ | 標本数 | 47(都道府県数) |
| $\theta$ | パラメータ | 傾き・切片など |
| $\varepsilon$ | 誤差項 | モデルで説明しきれない残り |
上の式 $y = f(x; \theta) + \varepsilon$ を「数学者の声」ではなく、「現場の声」で読み直してみます。
合言葉:「定義は短い、解釈は長い」。1 変量可視化 はたった 1 行の式ですが、それを 47 都道府県データに当てると、5 種類のチェックリスト(線形性・独立性・等分散・正規性・外れ値)が芋づる式に出てきます。
数式が読めたら、すぐに 実データ(SSDSE-B-2026, 47 都道府県, 2023 年度)で計算しましょう。 抽象を 47 行の表に落とすと、急に理解できることがあります。
# 1 変量可視化 の代表値を SSDSE-B-2026 で確認
col = 'A1101'
s = df2023[col].astype(float)
print('n :', len(s)) # 47
print('mean :', round(s.mean(), 2))
print('median :', round(s.median(), 2))
print('std :', round(s.std(), 2))
print('min / max :', s.min(), '/', s.max())
print('Top 3 prefs :')
print(df2023.nlargest(3, col)[['Prefecture', col]])
結果を見ると、47 都道府県のうち上位 3 県が突出しているか、なだらかに分布しているか、すぐ分かります。 この「分布の形」が見えると、1 変量可視化 を語る土台ができたことになります。
Python の実装は「読む → 集計 → 描く → 報告」を一直線に書きます。長いコードよりも、各ステップが分離していることが大事です。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# SSDSE-B-2026 を読み込み(総人口(47 都道府県))
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])
# 2023 年度(最新)だけ抽出
df2023 = df[df['SSDSE-B-2026'] == 2023].copy()
print(df2023.shape) # (47, ...)
print(df2023[['Prefecture', 'A1101']].head())
# 1 変量可視化 を 47 都道府県でビジュアル化
fig, ax = plt.subplots(figsize=(9, 6))
df2023.sort_values(col, ascending=False).plot.bar(
x='Prefecture', y=col, ax=ax, color='#00897B', legend=False)
ax.set_title('総人口(47 都道府県)(SSDSE-B-2026, 2023)')
ax.set_ylabel(col)
ax.set_xlabel('都道府県')
plt.xticks(rotation=90)
plt.tight_layout()
plt.savefig('figures/viz-univariate.html_r18_bar.png', dpi=120)
plt.show()
レポート文例:「SSDSE-B-2026(2023 年度, n=47)に基づいて 1 変量可視化 を確認したところ、平均は X、標準偏差は Y、上位 3 県は東京・神奈川・大阪であった。 SSDSE-B-2026 の人口(A1101 列)を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値(右裾の長い分布)が一目で分かります。」
合言葉:レポート提出前に「ゼロ起点で 1 枚描き直す」「外れ値を 1 県外して再計算」「逆方向の因果を 1 行で否定する」を必ずやる。
本ページに登場した Python コードはすべて以下のテンプレートで読み解けます:
覚え方:「Read → Roll up → Render → Read it back」。 最後の「Read it back」は、出力された数字や図を口に出して 1 度言うこと。 これで 1 変量可視化 の現場運用は十分に回ります。
使います。前処理(特徴量 → 入力ベクトル)、評価(指標の可視化)、解釈(係数の可視化)など、機械学習のあらゆる工程で 1 変量可視化 は登場します。
記述統計や 1 変量・2 変量の可視化には十分。ただし複数の説明変数を同時に検討するときは、自由度が枯れます。bootstrap や情報量規準(AIC/BIC)で補強しましょう。
独立行政法人統計センター(NSTAC)「SSDSE」サイトから無料でダウンロードできます。本ページの実装はすべて data/raw/SSDSE-B-2026.csv を前提にしています。
SSDSE は教育目的での利用が許諾されています(出典明示、改変記録)。論文公開時は出典欄に「総務省統計局, SSDSE-B-2026」を必ず書きましょう。
① ヒストグラム 1 枚を描く → ② 平均・中央値・標準偏差を読み上げる → ③ 上位 3 県・下位 3 県を暗記する → ④ 2 変量の相関を 1 つ確認する → ⑤ レポート 1 行にまとめる。これを 47 都道府県データで 3 回回せば、用語の地形が掴めます。
本リポジトリの 論文一覧 から「可視化」カテゴリの論文を見ると、1 変量可視化 を実際に使った再現コードが付いています。
「目的 → データ → 1 変量可視化 の選択理由 → 結果(図 + 数値)→ 解釈 → 限界(n=47, 単年)→ 次の一手」の順が王道です。
用語は単独では覚えづらいので、前提・並列・発展の 3 方向で 16 件並べます。
勧め方:1 日 1 リンク。クリックして読んだら、1 変量可視化 のページに戻り、「1 変量可視化 とこの用語はどう違う?」を 1 行書く。
合言葉:5 STEP のうちどれか 1 段でも飛ばすと、結論が「数字だけ」になり、読者の腑に落ちなくなります。 1 変量可視化 は「数字 + 物語」のセットで完成です。
np.random.seed で作って「再現実験しました」と書く(教育用途では SSDSE-B-2026 を使うのが必須)iloc[:, 5] のように位置で参照し、SSDSE のバージョン違いで壊れるコードを書くx1, x2, x3 のように匿名化し、読者が意味を追えないコードにする1 変量可視化 は、19 世紀末〜 20 世紀初頭の統計学黎明期から発達してきました。可視化 の中核として、Galton、Pearson、Fisher、Yule などが基礎を築き、現代では SSDSE のような公的データを使った教育素材で広く扱われています。
1 変量可視化 は、観測ペア $(x_i, y_i)_{i=1}^{n}$ から条件付き期待値 $E[y \mid x]$ または分布 $P(y \mid x)$ を推定する道具です。 線形・非線形・パラメトリック・ノンパラメトリックという 4 つの軸の中で、1 変量可視化 は「可視化」という棚に並んでいます。
df.dropna() の前に必ず欠損率を df.isna().mean() で測る。1 変量可視化 は 記述統計・データサイエンス・機械学習 の交差点に位置します。 どの分野から入っても、いずれは 1 変量可視化 を通ります。
同じテーマで使い回せる narration を 5 つ並べておきます。コピペして「コード解説」欄に貼ってください。
1 変量可視化 を学ぶときに使う SSDSE-B-2026 は、47 都道府県 × 約 110 列 × 複数年度のパネルデータです。 本ページでは「2023 年度の 47 行」を主に使います。 以下に、よく登場する代表的なカラムを示します。
| SSDSE コード | 日本語名 | 単位 | 1 変量可視化 での主な使い方 |
|---|---|---|---|
| Code | 地域コード | — | JOIN キー |
| Prefecture | 都道府県名 | — | カテゴリ軸・ラベル |
| A1101 | 総人口 | 人 | 説明変数(規模) |
| A1303 | 65 歳以上人口 | 人 | 高齢化率の分子 |
| A4101 | 出生数 | 人 | 人口動態の説明変数 |
| A4200 | 死亡率 | ‰ | 目的変数の代表 |
| B4101 | 年平均気温 | ℃ | 気候系の説明変数 |
| L3221 | 消費支出 | 円 | 家計の目的変数 |
使い方のコツ:列名はすべて A1101 のような英数記号です。SSDSE のコードブックで日本語ラベルを確認しながら使ってください。
本ページの例では A1101(総人口(47 都道府県))を中心に使っています。
解説は最小限。コードは 10 行以内。これで 1 変量可視化 の最短ルートが手に入ります。
import pandas as pddf = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=[1])df = df[df['SSDSE-B-2026'] == 2023]col = 'A1101'print(df[['Prefecture', col]].sort_values(col, ascending=False).head())import matplotlib.pyplot as pltdf.plot.hist(y=col, bins=20)plt.title('総人口(47 都道府県)(SSDSE-B-2026, 2023)')plt.savefig('figures/viz-univariate.html_r18_hist.png', dpi=120)plt.show()注意:10 行で動かせる、というだけで、これがゴールではありません。 1 変量可視化 の本当の難しさは「描いた図をどう解釈するか」「報告にどう落とすか」にあります。
1 変量可視化 の結果を、ゼミ・卒論・社内会議で報告するときの定型文を 3 つ用意しました。 最初は丸ごとコピー、慣れたら差し替えて使ってください。
「本研究では、SSDSE-B-2026(n=47, 2023 年度)を用いて 1 変量可視化 を確認した。 主たる説明変数は A1101(総人口(47 都道府県))であり、47 都道府県を対象とした分布の確認、相関の評価、1 変量可視化 を用いた分析を実施した。 分析の結果、上位 3 県・下位 3 県の特徴と、SSDSE-B-2026 の人口(A1101 列)を 47 都道府県でヒストグラムにすると、東京・神奈川などの突出した値(右裾の長い分布)が一目で分かります。」
「総人口(47 都道府県) を 47 都道府県で比較したところ、東京・神奈川・大阪など大都市圏が突出していることが分かった。 1 変量可視化 を用いた分析から、地域差は単に人口規模の違いだけでは説明できず、複数要因の組み合わせで生じていると示唆された。 今後の打ち手は、上位県のベストプラクティスを参考にしつつ、下位県への支援策を検討することである。」
「皆さん、1 変量可視化 はひとことで言うと『1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。』です。 今回は SSDSE-B-2026(総務省統計局, 47 都道府県, 2023 年度)を使って、実際の数字でこの考え方を確かめました。 皆さん自身でも、別の指標(人口、出生率、家計支出など)に置き換えて同じ手順を試してみてください。」
同じ用語でも、見る立場によって意味が変わります。3 つの視点を切り替えて、用語の輪郭を立体的に掴みましょう。
統計学者にとって 1 変量可視化 は「データから母集団を推定する道具」です。 確率モデル・尤度・不偏性・効率性・一致性などの数学的性質に注目し、漸近理論で性能保証を行います。 47 都道府県データは「小標本(n=47)」と分類され、bootstrap や情報量規準による補強が必要になります。
データサイエンティストにとって 1 変量可視化 は「ビジネス課題を数字で答えるパイプラインの 1 部品」です。 モデルの理論的性質より、運用性・解釈性・更新コストを重視します。 SSDSE のような公的データを用いるときは「データの出典・更新頻度・ライセンス」を最優先で確認します。
教育の現場では 1 変量可視化 は「初学者が躓きやすいポイント」を含む単元です。 抽象的な数式よりも、具体的な 47 都道府県データで手を動かし、図を描き、結果を口頭で説明できるようになることが目標になります。 本ページの並び(直感 → 数式 → 計算 → Python → 落とし穴)は、まさにこの教育的アプローチに沿っています。
視点切り替えの効果:1 つの用語を 3 通りに眺めると、自分が今どの立場で議論しているか自覚できます。 論文を読むときは ①、現場で使うときは ②、人に教えるときは ③ ── と意識的に切り替えてください。
1 変量可視化 と似た用語を、使い分けの観点から並べます。違いを言語化できれば、迷いが減ります。
| 用語 | 目的 | 入力 | 出力 | 強み | 弱み |
|---|---|---|---|---|---|
| 1 変量可視化 | 1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。 | 47 都道府県 × 約 110 変数 | 図 + 表 + 200 字レポート | 直感的、再現容易 | 小標本(n=47)の制約 |
| 相関係数 | 2 変量の同調を 1 数で要約 | x, y の 47 ペア | r ∈ [−1, +1] | シンプル | 非線形は捉えられない |
| 線形回帰 | 条件付き期待値の線形近似 | 説明変数群 | 回帰係数・予測値 | 解釈容易 | 非線形には弱い |
| ロジスティック回帰 | 2 値分類 | 説明変数群 | 確率 + 係数 | 分類問題の標準 | 線形決定境界 |
| ランダムフォレスト | 非線形分類・回帰 | 大量変数 | 予測 + 重要度 | 非線形対応 | 解釈やや難 |
1 変量可視化 は 可視化 の中で「1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。」を担う基本道具です。可視化 の他のトピックは、この基本の応用または並列の道具にあたります。
使えます。SSDSE-A(市区町村)、SSDSE-C(年次推移)、SSDSE-D・E(個票)など、1 変量可視化 の手順はそのまま適用できます。粒度(県・市・個人)に応じて n が変わるので、結果の信頼性も変わります。
SSDSE は年に 1 度更新されます。1 変量可視化 のコード自体は変更不要ですが、結果(数値・図)は最新年度のものに置き換えてレポートしましょう。出典欄に「SSDSE-B-2027(仮)」と書き換えるのを忘れずに。
できます。ピボット → グラフ → 関数 で代表値や相関は出ます。ただし、再現性・履歴管理・自動化の面で Python に劣ります。学習用には Python を強く勧めます。
進めます。1 変量可視化 は機械学習の「特徴量設計」と「結果解釈」の両端で必須です。AI と聞くと深層学習を連想しがちですが、SSDSE のような表形式データでは線形モデル + 1 変量可視化 の組み合わせで十分実用になります。
3 つ確認します:①ファイルパス(data/raw/SSDSE-B-2026.csv)が合っているか、②エンコーディングが cp932 か、③ヘッダ 2 行目の日本語ラベルを skiprows で飛ばしたか。これで 9 割解決します。
figures/ ディレクトリが存在しない可能性があります。import os; os.makedirs('figures', exist_ok=True) を先頭に追加してください。
本ページの 12 セクションを順に読み進めるのが最短です。特に「直感 → 数式 → 計算 → Python」の 4 段が腑に落ちれば、用語の 80 % は理解できたとみなせます。
このカードを印刷し、SSDSE-B-2026 で 1 回手を動かせば、用語の「使える形」が定着します。 1 変量可視化 はあくまで「1 つの変数の分布・代表値・ばらつきを 1 枚の図で見せる手法群。ヒストグラム、箱ひげ、KDE などが代表。」というシンプルな考え方の道具ですので、迷ったらこの 1 行に戻ってください。