論文で「階層クラスタリング」「デンドログラム」「Ward 法でクラスタリング」と書かれているとき。 「47都道府県を樹形図で類型化」のような用途で、 k-means と並ぶクラスタリングの2大手法の1つ。
階層クラスタリング とは:サンプルを1点ずつ結合(または分割)してデンドログラム(樹形図)を作り、任意の階層で切ってクラスタを得る。
scipy.cluster.hierarchy.linkage + dendrogram階層クラスタリング(hierarchical clustering)は、 サンプルを階層的(=入れ子状)にグループ化する手法。 結果はデンドログラム(樹形図)として可視化され、 「どのサンプル同士が、 どの段階で結合するか」が一目で分かります。
k-means との根本的違い:
これにより、 「2クラスタにしたらどう分かれる?3クラスタなら?4クラスタなら?」を一度の計算で全部見られるのが強み。
階層クラスタリングには、 結合方向の異なる2方式があります:
通常「階層クラスタリング」と言えば凝集型を指します。 以下も凝集型を中心に説明します。
「2つのクラスタの距離」をどう測るかで結果が変わります。 主要な選択肢:
| 結合法 | 距離の定義 | 特徴 |
|---|---|---|
| 単連結(single) | 最も近い2点の距離 | 細長いチェーン状クラスタ |
| 完全連結(complete) | 最も遠い2点の距離 | コンパクトな塊 |
| 群平均(average) | 全ペアの平均距離 | 単連結と完全連結の中間 |
| Ward 法 | 結合による分散増加量を最小化 | 均等サイズの球形クラスタ。 最も使われる |
| 中央連結 | 中心同士の距離 | 逆転が起きる場合あり |
選び方の指針:
4都道府県の (高齢化率, 死亡率) で、 単連結階層クラスタリングを追います:
| 県 | 高齢化率 | 死亡率 |
|---|---|---|
| A: 秋田 | 39 | 19 |
| B: 高知 | 36 | 17 |
| C: 東京 | 23 | 9 |
| D: 沖縄 | 23 | 11 |
初期距離行列(ユークリッド距離):
ステップ1:C と D(距離2.00)を結合 → クラスタ {C,D} 誕生。 結合高さ=2.00
ステップ2:残り {A}, {B}, {C,D} で再計算。 単連結なら d({A},{C,D}) = min(d(A,C), d(A,D)) = 17.89、 d({B},{C,D}) = min(14.32, 15.26) = 14.32、 d(A,B) = 3.61 ← 最短。 → A と B を結合 → クラスタ {A,B} 誕生。 結合高さ=3.61
ステップ3:残り {A,B}, {C,D}。 単連結なら距離 = min(全ペア) = min(18.87, 17.89, 15.26, 14.32) = 14.32。 → 2クラスタを最終結合。 結合高さ=14.32
結果のデンドログラム:
高さ 14.32 ─┐ │ ┌────────────────┐高さ 3.61 ──┤ │ ┌───┐ │ │ │ │ │ │高さ 2.00 ──┤ │ │ ┌─┴─┐ │ A B A B C D
2クラスタに切る場合:{A,B} と {C,D}(=「高齢化進行群」と「若年群」)。 4クラスタなら個別の4県。
階層クラスタリングの強みは「k を後で決められる」。 デンドログラムを見て:
| 長所 | 短所 |
|---|---|
| k を後で決められる | 計算量 O(n³)(大規模困難) |
| 階層構造が見える(デンドログラム) | 一度結合したら変更不可能 |
| 結合基準の選択肢が豊富 | 結合基準で結果が大きく変わる |
| 球形でないクラスタも捕捉可(単連結) | 外れ値に弱い(単連結) |
| 解釈しやすい樹形図 | 逆転(inversion)が起きる場合あり |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | from scipy.cluster.hierarchy import linkage, dendrogram, fcluster from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt # 必ず標準化 X_std = StandardScaler().fit_transform(X) # Ward法で階層クラスタリング Z = linkage(X_std, method="ward") # デンドログラム描画 fig, ax = plt.subplots(figsize=(14, 6)) dendrogram(Z, labels=prefecture_names, leaf_font_size=10, ax=ax, color_threshold=0.7*max(Z[:,2])) # k=4 でクラスタ分割 labels = fcluster(Z, t=4, criterion="maxclust") |

2クラスタ $A, B$ の距離 $d(A, B) = \min_{a \in A, b \in B} d(a, b)$。 最近隣の距離が0に近いペアを次々結合するので、 細長い「鎖状」クラスタができやすい。 「友達の友達は友達」的なつながりを捕捉。 ただし外れ値1つが「橋」になって、 別のクラスタを巻き込むことも(chaining問題)。
$d(A, B) = \max_{a \in A, b \in B} d(a, b)$。 最遠の距離を見るので、 結合された後のクラスタがコンパクトになる。 ただし外れ値があると最遠が大きくなり、 結合を遅らせる。
「2クラスタを結合したときの分散増加量」が最小のペアを選ぶ:
$\Delta(A, B) = \sum_{x \in A \cup B} \|x - \mu_{AB}\|^2 - \sum_{x \in A} \|x - \mu_A\|^2 - \sum_{x \in B} \|x - \mu_B\|^2$
これをLance-Williams 更新式で効率的に計算できる:
$d_{Ward}(A \cup B, C) = \frac{n_A + n_C}{n_A + n_B + n_C} d(A,C) + \frac{n_B + n_C}{n_A + n_B + n_C} d(B,C) - \frac{n_C}{n_A + n_B + n_C} d(A,B)$
結果として、 均等サイズの球形クラスタが形成されやすい性質を持ちます。 k-means と似た性質(ユークリッド距離前提、 球形向き)ですが、 階層構造が見えるのが利点。
基本実装は $O(n^3)$。 例えば n=1000 で 10億回の計算。 大規模データには厳しい。
効率化:(i) 近接行列を最初に計算し再利用、 (ii) SLINK アルゴリズム(単連結用 O(n²))、 (iii) BIRCH との組み合わせで近似。 n < 5000 程度なら普通に scipy で実行可能。
中央連結や重心連結では、 「結合距離が前の結合より小さくなる」逆転が起きることがある。 デンドログラムを描いたときに枝が交差し、 解釈不能に。 Ward 法や単連結・完全連結・群平均ではこれは発生しません。 だから実用では Ward 法が選ばれることが多い。
SSDSE家計5項目で Ward 法を実行した結果。 似た都道府県が下から順にまとまっていく構造が一目で分かります。
階層クラスタリングでは「2つのクラスタ間の距離」をどう定義するかが核心:
| 連結法 | 距離の定義 | 特徴 |
|---|---|---|
| 単連結 (single) | 最も近いペアの距離 | 細長いクラスタ、 chain 効果 |
| 完全連結 (complete) | 最も遠いペアの距離 | コンパクトなクラスタ |
| 群平均 (average) | 全ペアの平均距離 | バランス型 |
| Ward法 | クラスタ内分散の増加最小 | 最も人気、 等サイズ |
| 重心 (centroid) | 重心同士の距離 | 逆転が起こる |
各点を独立クラスタとして開始 → 近いペアを順次マージ → 1つの大きなクラスタに。 一般的。
全データを1クラスタとして開始 → 順次分割 → 各点が独立クラスタに。 計算量大、 まれにしか使われない。
凝集型は O(n³) または O(n² log n)。 大規模データには不向き(k-means が O(n) で速い)。 n < 数千が現実的な目安。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN from sklearn.preprocessing import StandardScaler from sklearn.metrics import silhouette_score import pandas as pd import numpy as np # データの標準化(重要!) scaler = StandardScaler() X_std = scaler.fit_transform(X) # k-means km = KMeans(n_clusters=3, random_state=0, n_init=10) labels_km = km.fit_predict(X_std) print(f'クラスタ中心: {km.cluster_centers_}') print(f'inertia: {km.inertia_}') # 階層クラスタリング(Ward法) agg = AgglomerativeClustering(n_clusters=3, linkage='ward') labels_agg = agg.fit_predict(X_std) # シルエットスコアで評価 score = silhouette_score(X_std, labels_km) print(f'シルエットスコア: {score:.3f}') |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | import matplotlib.pyplot as plt inertias = [] silhouettes = [] for k in range(2, 11): km = KMeans(n_clusters=k, random_state=0, n_init=10).fit(X_std) inertias.append(km.inertia_) silhouettes.append(silhouette_score(X_std, km.labels_)) # エルボー法 plt.subplot(1, 2, 1) plt.plot(range(2, 11), inertias, 'o-') plt.xlabel('k'); plt.ylabel('inertia') # シルエット法 plt.subplot(1, 2, 2) plt.plot(range(2, 11), silhouettes, 'o-') plt.xlabel('k'); plt.ylabel('Silhouette') |
1 2 3 4 5 6 | from scipy.cluster.hierarchy import linkage, dendrogram Z = linkage(X_std, method='ward') plt.figure(figsize=(14, 6)) dendrogram(Z, labels=labels, leaf_rotation=90) plt.show() |
階層クラスタリング がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。 同じ情報でも見方を変えると気付きが変わります。
🌐 統計・データサイエンス › 教師なし学習 › クラスタリング › 階層クラスタリング
中心の概念から放射状に、 前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。 ノードをドラッグ、 ホイールでズーム、 クリックで遷移。
大きな円が小さな円を包含する Circle Packing 図。 「階層クラスタリング」は緑色でハイライト。
長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「階層クラスタリング」は緑色でハイライト。
| マップ | 分かること | こんな時に見る |
|---|---|---|
| 🔗 関係マップ | 手法間の横の関係(前提→発展→応用) | 「次に何を学べばよい?」 学習順序の判断 |
| ⭕ 包含マップ | 分類体系の入れ子構造(上位⊃下位) | 「この手法はどんなジャンルに属する?」 |
| 🌳 ツリーマップ | 分野の規模比較(面積=ボリューム) | 「データサイエンス全体の俯瞰像」 |
💡 ジャストインタイム学習のヒント:3つの視点を行き来することで、 概念を多角的に理解できます。 包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。
結合基準・距離尺度・評価指標・大規模化トピックを網羅。
SSDSE-B-2026 の数値列を標準化し、 Ward 法でクラスタリングします。 結合距離の典型的構造を把握しましょう。
| k | 構造的特徴 | シルエット | 解釈例 |
|---|---|---|---|
| 2 | 大首都圏 vs 地方 | 高 | 最も粗い構造 |
| 3 | 首都圏/地方都市/過疎地 | 最高 | 解釈バランス◎ |
| 4 | + 観光地特化 | 中 | 沖縄・北海道が独立 |
| 8 | 細分化 | 低下 | 過細 |
1 2 3 4 5 6 7 8 9 10 11 12 13 | import pandas as pd from scipy.cluster.hierarchy import linkage, fcluster, dendrogram from sklearn.preprocessing import StandardScaler from sklearn.metrics import silhouette_score df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1) num = df.select_dtypes(include='number').dropna() X = StandardScaler().fit_transform(num) Z = linkage(X, method='ward') for k in [2, 3, 4, 5, 8]: labels = fcluster(Z, t=k, criterion='maxclust') print(f'k={k}: silhouette = {silhouette_score(X, labels):.3f}') |
linkage(metric='cityblock', method='ward') は警告も出さず動くので注意。 マンハッタン距離なら group_average や complete、 コサイン距離なら average を選ぶのが定石。 文書クラスタリングで「コサイン距離 + Ward」を見たら誤りです。1 2 3 4 5 6 7 8 9 10 | from scipy.cluster.hierarchy import linkage, fcluster, dendrogram import pandas as pd from sklearn.preprocessing import StandardScaler df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1) num = df.select_dtypes(include='number').dropna() X = StandardScaler().fit_transform(num) Z = linkage(X, method='ward') labels = fcluster(Z, t=3, criterion='maxclust') dendrogram(Z, labels=df['都道府県'].values) |
1 2 3 4 5 6 | from sklearn.cluster import AgglomerativeClustering ac = AgglomerativeClustering(n_clusters=3, linkage='ward').fit(X) labels = ac.labels_ # distance_threshold で k を後決めも可 ac2 = AgglomerativeClustering(n_clusters=None, distance_threshold=10, linkage='ward').fit(X) |
1 2 | import seaborn as sns sns.clustermap(num, standard_scale=1, method='ward', cmap='vlag') |
1 2 3 | # pip install fastcluster import fastcluster Z = fastcluster.linkage(X, method='ward') # scipy の数倍高速 |
| 用途 | 推奨 | 補足 |
|---|---|---|
| 小〜中規模 (n < 5000) | scipy.cluster.hierarchy | 業界標準 |
| パイプライン統合 | sklearn.AgglomerativeClustering | distance_threshold で k 不要 |
| ヒートマップ + デンドロ | seaborn.clustermap | 遺伝子発現解析の定番 |
| 高速版 | fastcluster | scipy 互換 API |
| 大規模(n > 10⁵) | BIRCH → 階層 | 2 段階アプローチ |
「階層クラスタリング」を理解するうえで必要なキーワードを 10 件以上提示します。 各チップから対応セクションへ移動できます。
30 秒結論 文脈 直感 数式 記号読み解き 実値計算 Python 実装 落とし穴 関連手法 関連用語 グループ教材 概念マップ
このセクションは「階層クラスタリング」を扱う 用語ページ です。 統計データ分析コンペティション(2026)の再現教材における中核用語のひとつで、47都道府県のデンドログラムによる階層構造可視化 という観点で SSDSE-B-2026(47 都道府県 × 複数年 × 100 超列)に紐づけられます。
位置づけ:相関・線形回帰・仮説検定 といった基礎用語群と並列であり、応用としては 内生性・IV・DID・クラスタリング 等へ繋がります。
階層クラスタリング を一言でいえば「47都道府県のデンドログラムによる階層構造可視化」。 47 都道府県という小さな母集団でも、 SSDSE-B-2026 の A1101 列に注目すると、 大都市圏と地方の差・人口規模に伴う相対比較など、 様々なパターンが見えてきます。
比喩でいうと、 階層クラスタリング はデータ分析の「眼鏡」のようなもの。 同じデータでも眼鏡を変えれば、 平均(中心)・分散(ばらつき)・相関(連動)・因果(影響)と、 異なる情報が浮かび上がります。 SSDSE-B-2026 を題材に、 この眼鏡をかけてみるのが本ページの狙いです。
階層クラスタリング の代表的な定義式は次のとおりです。
$$ d(C_i \cup C_j, C_k) = \alpha_i d(C_i, C_k) + \alpha_j d(C_j, C_k) + \beta d(C_i, C_j) + \gamma \lvert d(C_i,C_k) - d(C_j,C_k)\rvert $$ここで使われる記号や演算の意味は次節で言葉に翻訳します。
数式の各記号を、日本語の意味に変換します。
SSDSE-B-2026(公的統計の社会・教育系データセット、 47 都道府県 × 10 年分超 × 100 以上の列)を用いて、 「階層クラスタリング」を体感します。 ファイル名は SSDSE-B-2026.csv、 読み込みは下記の Python コードで行います。
import pandas as pd
# SSDSE-B-2026 を読み込む(cp932 / Shift_JIS)
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=[1], encoding='cp932')
print(df.shape) # (564, 112)
print(df['SSDSE-B-2026'].unique()) # 含まれる年度
latest = df[df['SSDSE-B-2026'] == df['SSDSE-B-2026'].max()].copy()
print(latest[['Prefecture', 'A1101', 'A4101']].head())
ここで使った中心列 A1101 は SSDSE-B-2026 における 47都道府県のデンドログラムによる階層構造可視化 に関連する指標です。 算出例:
A1101 平均と標準偏差を求めるA1101 と A4101 の相関(線形・順位)を比較するscipy / pandas / scikit-learn / statsmodels を中心とした標準的な実装例です。 まず CSV を読み込み、 次に 階層クラスタリング の解析を行います。
import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=[1], encoding='cp932')
df = df[df['SSDSE-B-2026'] == df['SSDSE-B-2026'].max()].copy()
x = df['A1101'].astype(float).values
y = df['A4101'].astype(float).values
# 基本統計量
print('n =', len(x))
print('mean(x) =', np.mean(x))
print('std(x) =', np.std(x, ddof=1))
# 階層クラスタリング の代表的計算(用途に応じて scipy/statsmodels を切替える)
r, p = stats.pearsonr(x, y)
print(f'Pearson r = {r:.4f}, p = {p:.4g}')
rs, ps = stats.spearmanr(x, y)
print(f'Spearman rho = {rs:.4f}, p = {ps:.4g}')
用途別の追加実装:
# 標準化と簡易クラスタリングの例
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
X = df[['A1101', 'A4101']].astype(float).values
Xs = StandardScaler().fit_transform(X)
km = KMeans(n_clusters=4, n_init=10, random_state=0).fit(Xs)
df['cluster'] = km.labels_
print(df[['Prefecture', 'A1101', 'A4101', 'cluster']].head(10))
# 時系列(北海道の A1101)— 例として ARIMA 系の前処理
import statsmodels.api as sm
ts = df.sort_values('SSDSE-B-2026').groupby('SSDSE-B-2026')['A1101'].mean()
print(ts.tail())
res = sm.tsa.stattools.adfuller(ts)
print('ADF stat:', res[0], 'p:', res[1])
階層クラスタリング を実務で扱う際に踏みやすい落とし穴を 5 件挙げます。
階層クラスタリングを使いこなすカギは、 「結合基準 (linkage)」 と「距離尺度」、 そして デンドログラムをどこで切るかの 3 点にあります。 ここでは SSDSE-B-2026 を題材に、 これらの選択が結果に与える影響を実証的に示します。
|
Ward 法は球状で同程度の大きさのクラスタを作りやすい一方、 Single 法は「鎖状」につながる傾向(chaining 問題)があり、 SSDSE-B-2026 のような少数都道府県データでは 1 つの大クラスタ + 数個の単独都道府県になりがちです。
| 距離 | 特徴 | 向く場面 |
|---|---|---|
| Euclidean | L2 ノルム | 標準化済み量的データ |
| Manhattan | L1 ノルム | 外れ値耐性 |
| Correlation | パターン類似 | 時系列の形状比較 |
| Cosine | 方向の類似 | 高次元疎データ |
SSDSE-B-2026 で都道府県を意味のあるクラスタにまとめるには、 「距離閾値 t」を 視覚的と 統計的の両方で決める必要があります。 視覚的には、 デンドログラムで「大きな谷」が見えるところを切断します。 統計的には、 シルエット係数や inconsistency 係数をプロットして、 ピークを探すのが定石です。
|
上のコードを SSDSE-B-2026 で実行すると、 多くの場合 k=3 or k=4 で silhouette が最大になります。 そこを切断点として採用し、 デンドログラム上に水平線を引いて報告書に貼り付けるのが定番です。 ただし、 silhouette だけに頼らず、 各クラスタの構成都道府県を地理的・経済的に解釈できるか必ず確認してください。
階層クラスタリングは「クラスタ間の距離関係を 木構造として可視化できる」点が最大の魅力です。 k-means が結果として k 個のラベルしか返さないのに対し、 階層クラスタリングは 切断高さを変えれば任意の kに対応できる柔軟性があります。 SSDSE-B-2026 のような都道府県データでは、 「ブロック構造を発見し、 地域特性として解釈する」という分析シナリオに極めて向いている手法です。
本ページでは「階層クラスタリング」を 12 セクション(🔖 キーワード索引/💡 30 秒結論/📍 文脈/🎨 直感/📐 数式/🔬 記号読み解き/🧮 実値計算/🐍 Python 実装/⚠️ 落とし穴/🌐 関連手法/🔗 関連用語/📚 グループ教材)で完結に整理しました。 SSDSE-B-2026 を素材に、 概念の輪郭・式の意味・実装手順・典型的な失敗パターンの 4 点を最低限押さえれば、 統計データ分析コンペの現場で迷わず使えるはずです。