UMAP | 用語解説

🔖 キーワード索引

「UMAP」を取り巻く中核キーワード群です。検索やインデックス作成で参照する際の手がかりにしてください。各キーワードは関連する概念・手法・道具立てを含み、文献検索や学習計画の起点になります。

UMAP次元削減可視化多様体t-SNEPCA低次元埋め込みRiemannian

💡 30秒で分かる結論 — UMAP

最も忙しい読者のために、まず結論だけまとめます。詳細は以下のセクションへ：

UMAP＝高次元データを 2-3 次元 に圧縮して可視化する手法。 2018 年に登場し、 t-SNE を高速・大局保存で凌ぐ。
理論：多様体仮定 ＋ 位相幾何（Riemannian 距離、 fuzzy simplicial set）。
強み：高速（数十万点も実用的）、 大局構造保存、 新規データ射影可能。
弱み：パラメータ依存（n_neighbors, min_dist）、距離の絶対値は信用しない。
応用：単一細胞 RNA-seq、画像/テキスト埋め込みの可視化、 ML 特徴探索。

📍 文脈 — どこで出会うか

「768 次元の BERT 埋め込みを可視化したい」「数万枚の画像の類似度マップを作りたい」 — そんなときの定番手法。 scikit-learn と互換 API で導入が簡単。

このページの読み方：まず 30秒結論と直感を読み、必要に応じて数式や計算例、落とし穴に進んでください。

🎨 直感で掴む

高次元 → 低次元の手法を比較：

PCA：線形射影。大局構造は保存するが、曲がった多様体には弱い。
t-SNE：近傍構造を強調。局所は綺麗だが大局歪み。遅い。
UMAP：t-SNE の良さ + 大局保存 + 高速 + 新規データ対応。

イメージ：「3 次元の地球儀を 2 次元の地図に投影」 — メルカトル図法は北極で歪むが、大陸の位置関係は維持。 UMAP も同様の妥協を高度な数学で行う。

📐 定義・数式

【UMAP の最適化目標】

$$\min_{Y} \sum_{(i,j)} w_{ij}^{\text{high}} \log \frac{w_{ij}^{\text{high}}}{w_{ij}^{\text{low}}(Y)} + (1 - w_{ij}^{\text{high}}) \log \frac{1 - w_{ij}^{\text{high}}}{1 - w_{ij}^{\text{low}}(Y)}$$

高次元の近傍重み $w^{\text{high}}$ と低次元の重み $w^{\text{low}}$ のクロスエントロピー

🔬 記号・要素の読み解き

n_neighbors: 近傍の数。小さいと局所重視、大きいと大局重視。既定 15。
min_dist: 低次元での点間最小距離。小さくクラスタが密、大きくゆったり。既定 0.1。
n_components: 埋め込み次元。通常 2 か 3（可視化）、 10〜50（前処理）。
metric: 高次元距離。 euclidean, cosine, hamming, 自前関数も可。
random_state: 再現性のため固定。ただし並列実装で完全一致しないことあり。

🧮 実値で計算してみる

SSDSE-B の都道府県データ（数十次元）を UMAP で 2D 可視化：

各都道府県を「人口、高齢化率、 TFR、失業率、 ...」のベクトルで表現
標準化（必須）
UMAP で 2D に圧縮
地域で色分けして散布図
近い県は「総合的に似ている県」

🐍 Python での扱い

最小再現コード。 SSDSE-B のような実データを前提に、 4〜8 行で動く例です：

import umap, pandas as pd
from sklearn.preprocessing import StandardScaler
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=1)
X = StandardScaler().fit_transform(df.select_dtypes('number').fillna(0))
emb = umap.UMAP(n_neighbors=10, min_dist=0.3, random_state=0).fit_transform(X)
print(emb.shape)  # (47, 2)

補足：ライブラリのバージョンや前処理状態によって出力は変わります。自分の環境で動かすときは pip list でバージョンを確認し、入力 CSV のパス・列名を実態に合わせてください。

⚠️ よくある落とし穴

UMAP を実務で扱うとき、多くの分析者が同じところでつまずきます。代表的な失敗パターンを先回りで押さえておくと、後工程のトラブルを大幅に減らせます。

❌ 距離の絶対値を信じる

UMAP 後の「2 点間距離」は元の距離と比例しません。「近い/遠い」の順序だけが意味あり。

❌ クラスタサイズの誤解

UMAP の点群サイズは見かけ。「大きいクラスタ＝多い」とは限らない。

❌ パラメータで結果激変

n_neighbors を 5 と 100 で実行すると別の図に。複数設定で比較を。

❌ 標準化忘れ

スケールが違う列をそのまま入れると距離が歪む。必ず StandardScaler。

❌ 少サンプル

n < 100 程度では UMAP の利点が出にくい。 t-SNE や PCA を先に検討。

※ 上記は文献調査・現場経験で報告される頻度の高い注意点。ドメインや手法のバージョンによって追加の落とし穴がある場合があります。

🌐 関連手法・派生

t-SNE：UMAP 以前の定番、局所構造に強い
PCA：線形、解釈可能、高速
parametric UMAP：ニューラルネットでパラメータ化、新規データへ高速射影
densMAP：密度を保存する UMAP の拡張
PaCMAP：t-SNE + UMAP の長所を統合した新手法

❓ よくある質問

Q1. 「UMAP」を学ぶ前提知識は？

分野（次元削減）の基本概念を一通り押さえておくと理解が早いです。不明な用語が出てきたら、各リンクから前提の用語ページを参照してください。数式が出てくる場合は中学〜高校レベルの代数と、必要なら微分・確率の基礎が役立ちます。

Q2. 数式が分からなくても使える？

多くの場合「直感」と「Python での扱い」を理解すれば実務で使えます。ただし 落とし穴 セクションの内容は数式の意味と紐づくため、余裕があれば数式も眺めてみてください。

Q3. 関連する手法・概念は？

関連用語セクションを参照してください。並列概念（兄弟）、前提（必要知識）、発展（次に学ぶべき）の 3 種類で整理してあります。

Q4. レポート・論文での書き方は？

数値だけでなく、 (1) 使ったデータの出典、 (2) 適用条件の確認結果、 (3) 不確実性（CI・SE）、 (4) 限界、を含めるのが標準です。実務チェックリストも参考に。

Q5. 業務以外の身近な例は？

本ページの直感で掴むセクションに具体例があります。自分の関心領域（趣味・専門）でも例を考えてみると、理解が深まります。

📜 ひとことヒストリー

UMAP は「次元削減」分野の中で発展してきた概念・手法です。学術的には継続的な研究で精緻化され、実務的にはツール・ライブラリの普及で誰でも使えるようになってきました。用語の使い方・意味は時代と分野で少しずつ変わるため、文脈に応じた解釈が大切です。入門書だけでなく、標準的な教科書（例：データサイエンス・統計学の定本）や信頼できるオンライン教材も併用すると、ぶれない理解に近づけます。

✅ 実務チェックリスト — UMAP

□ 用語の定義を自分の言葉で説明できるか
□ 使うべき場面と使ってはいけない場面を区別できているか
□ 数式や指標の前提条件を確認したか
□ 入力データの尺度・分布・サンプル数を確認したか
□ 結果の不確実性（信頼区間・標準誤差）を把握しているか
□ 解釈と限界を区別できているか
□ 関連用語・落とし穴を一通り点検したか
□ レポートに必要な情報（出典・前提・限界）を含められるか

📚 関連グループ教材

「UMAP」は単独で完結する概念ではなく、より大きな分野の一部です。上位カテゴリの教材を読むことで、この用語の 位置づけ が立体的に見えてきます：

📚 教師なし学習 — このカテゴリの体系的解説

💡 学習のコツ：用語ページは「点」、グループ教材は「線」、概念マップは「面」。行き来することで知識が定着します。

🎯 まとめ — このページで押さえること

「UMAP」 はこのページで詳しく扱った概念です。持ち帰ってほしい 3 つの要点：

UMAP＝高次元データを 2-3 次元 に圧縮して可視化する手法。 2018 年に登場し、 t-SNE を高速・大局保存で凌ぐ。
理論：多様体仮定 ＋ 位相幾何（Riemannian 距離、 fuzzy simplicial set）。
強み：高速（数十万点も実用的）、 大局構造保存、 新規データ射影可能。

さらに学ぶには、関連用語や関連グループ教材を参照してください。各用語ページを縦断的に読むことで、体系的な理解が育ちます。