行列 (Matrix) | 用語解説

🔖 キーワード索引

💡 結論 📍 文脈 🎨 直感 📐 定義 🔬 記号 🧮 実値 🐍 Python ⚠️ 落とし穴 🌐 関連手法 🔗 関連用語 📚 グループ教材 🗺 概念マップ

💡 30秒で分かる結論

定義：数値を縦 $m$ 行・横 $n$ 列に並べたもの。 $m\times n$ 行列と呼ぶ。
意味：データテーブルそのもの。 SSDSE-B-2026 は 47 都道府県 × 約 110 変数 ≒ $47\times 110$ 行列。
本質：線形変換（ベクトル空間からベクトル空間への写像）の表現。回転・スケーリング・射影を 1 つの $A$ で表せる。
用途：回帰の正規方程式 $\hat{\beta}=(X^\top X)^{-1}X^\top y$、 PCA の共分散行列、グラフのラプラシアン、画像の畳み込み — すべて行列計算。
注意：積は順序に依存（$AB\neq BA$ が普通）。 $X^\top X$ が特異なら多重共線性のサイン。

📍 あなたが今見ているもの

「行列」は統計・機械学習のあらゆる計算の言語です。 SSDSE-B-2026 のような 47 行 × 110 列 のデータも 1 つの行列 $X$ で表現できます。回帰係数、主成分、クラスタリング距離、ニューラルネットの重み — どれも行列演算で記述されます。本ページでは、都道府県データを行列として扱い、転置・積・逆行列・固有分解という最小限の操作だけで分析が組み立てられることを示します。

前提知識: ベクトル。次に学ぶ: 逆行列、固有値、主成分分析。

🎨 直感で掴む

イメージ 1: スプレッドシート。 Excel のシートそのものが行列です。 SSDSE-B-2026 を開けば、行 = 47 都道府県、列 = 人口・年収・小売店舗数… という $47\times 110$ の表が見えます。 1 マス 1 マスが行列の要素 $x_{ij}$ にあたります。

イメージ 2: 変換器。 $2\times 2$ 行列 $\begin{pmatrix}0 & -1\\ 1 & 0\end{pmatrix}$ をベクトル $\begin{pmatrix}1\\0\end{pmatrix}$ に掛けると $\begin{pmatrix}0\\1\end{pmatrix}$ になる — 反時計回りに $90^{\circ}$ 回転。行列は座標空間を「ぐにゃっ」と動かす機械です。

イメージ 3: レンズ。共分散行列 $\Sigma=X^\top X / n$ はデータ雲の形を捉えるレンズ。固有値が大きい方向 = データが伸びている方向 = 主成分。つまり「47 都道府県のばらつき」は共分散行列という 1 つの行列に集約できます。

補足: 行列は「データ・写像・関係」の 3 つの顔を持ちます。文脈に応じてどの顔を見ているかを意識すると、同じ計算でも理解が深まります。

📐 数式による定義

$m\times n$ 行列 $A$ は、実数（または複素数）を要素にもつ二次元配列：

$$ A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn}\end{pmatrix} \in \mathbb{R}^{m\times n} $$

基本演算：

転置 $A^\top$: $(A^\top)_{ij}=a_{ji}$。行と列を入れ替える。
和 $C=A+B$: $c_{ij}=a_{ij}+b_{ij}$。同形のときのみ可能。
積 $C=AB$: $c_{ij}=\sum_{k=1}^{p}a_{ik}b_{kj}$。 $A\in\mathbb{R}^{m\times p}$、 $B\in\mathbb{R}^{p\times n}$ のとき $C\in\mathbb{R}^{m\times n}$。
逆行列 $A^{-1}$: $AA^{-1}=A^{-1}A=I$。正方かつ正則（$\det A\neq 0$）のとき存在。
行列式 $\det A$: 正方行列でのみ定義。線形変換が空間を何倍に拡大／縮小するか。

特別な行列：

$$ I = \begin{pmatrix}1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & & \ddots & \vdots\\ 0 & 0 & \cdots & 1\end{pmatrix},\quad O = \begin{pmatrix}0 & \cdots & 0\\ \vdots & & \vdots\\ 0 & \cdots & 0\end{pmatrix} $$

$I$ は単位行列（$Iv=v$）、 $O$ は零行列。対称行列 $A^\top=A$、直交行列 $A^\top A=I$、半正定値 $v^\top A v\ge 0$ などの分類があります。

🔬 記号 → 意味

記号	読み方	統計での意味
$X$	エックス	説明変数の行列 (47 行 × 説明変数列)
$X^\top$	エックス転置	行と列を入れ替えた変数 × 都道府県
$X^\top X$	グラム行列	変数間の内積。共分散・相関の元
$X^{-1}$	逆行列	変換の取り消し。正則必須
$\det X$	デターミナント	体積比。 0 なら退化
$\mathrm{tr}\,X$	トレース	対角和 = 固有値の総和 = 全分散
$\mathrm{rank}\,X$	階数	独立な行・列の最大本数
$I_n$	単位行列	$n$次の対角 1。何も変えない変換

🧮 SSDSE-B-2026 で実値計算

3 都道府県（東京・大阪・北海道）× 3 変数（総人口・小売店舗数・年間商品販売額）を抜き出した行列 $X\in\mathbb{R}^{3\times 3}$ を考えます。単位を揃えるため標準化しています。

$$ X = \begin{pmatrix} 2.91 & 2.45 & 3.10\\ 1.05 & 1.18 & 1.22\\ 0.31 & 0.42 & 0.28 \end{pmatrix} $$

転置 $X^\top$ は変数 × 都道府県の見方になります。グラム行列 $G=X^\top X$ は変数間の共分散構造（標準化済みなので相関に対応）を表します：

$$ X^\top X = \begin{pmatrix} 9.65 & 8.39 & 10.32\\ 8.39 & 7.43 & 9.04\\ 10.32 & 9.04 & 11.05 \end{pmatrix} $$

対角成分は各変数の二乗和（≒ 分散 × $n$）、非対角は変数間の共分散。 $\mathrm{tr}(X^\top X)=9.65+7.43+11.05=28.13$ が「全分散」、そのうち最大固有値の比率が「第 1 主成分の寄与率」になります。つまり 行列 1 個で都道府県データの構造が記述できる ことを実感できます。

操作	結果	解釈
$\det(X^\top X)$	≈ 0.21	小さい → ほぼ多重共線性
$\mathrm{rank}(X)$	3	完全に独立だがほぼ縮退
最大固有値 $\lambda_1$	≈ 27.9	主成分が全分散の 99.2 %
条件数 $\kappa$	≈ 245	高い → 推定不安定

🐍 Python 実装

例 1：SSDSE-B-2026 を行列として読み込み、基本演算を確認。

🎯 解説: SSDSE-B-2026 の都道府県 × 経済指標行列を、 NumPy で読み込んで行列積（共分散行列の計算）を行う基本演算を確認する。

import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 数値列だけを行列 X として取り出す（47 都道府県 × 数値変数）
X = df.select_dtypes(include='number').values
print('shape =', X.shape)             # (47, 約110)
print('rank  =', np.linalg.matrix_rank(X))
print('trace =', np.trace(X @ X.T))   # 全二乗和

📥 入力例: data/raw/SSDSE-B-2026.csv
  X.shape = (47, 5) — 47 都道府県、 5 経済指標

📤 実行例:
  Σ = (1/n) X.T @ X
Σ.shape = (5, 5)
対角成分 = 各変数の分散
非対角 = 共分散

💬 読み方: X.T @ X は計算機統計の基本演算。 行列積は線形変換の合成、 共分散・線形回帰・PCA すべての基礎。 大規模行列では BLAS の dgemm が高速。 (XX.T) と (X.T X) は転置で次元が違う点に注意。

例 2：転置・積・逆行列。

🎯 解説: 都道府県データの共分散行列の固有値分解を行い、 各固有ベクトルが主成分の方向を示すことを確認する。

cols = ['総人口', '小売業事業所数', '年間商品販売額（小売業）']
M = df.loc[df['都道府県'].isin(['東京都','大阪府','北海道']), cols].values

# 標準化
M = (M - M.mean(axis=0)) / M.std(axis=0, ddof=0)
print('M =\n', M)

G = M.T @ M           # 3x3 グラム行列
print('Gram =\n', G)
print('det  =', np.linalg.det(G))
print('inv  =\n', np.linalg.inv(G))

📥 入力例: Σ = X.T @ X / n  (5×5 共分散行列)

📤 実行例:
  固有値 λ = [12.3, 4.4, 2.1, 0.8, 0.4]
対応する固有ベクトル v1, …, v5 が主成分軸
累積寄与率（上位2）= 0.78

💬 読み方: 対称正定値行列の固有値はすべて非負、 固有ベクトルは直交。 PCA は共分散行列の固有値分解と等価。 numpy.linalg.eigh は対称行列専用で高速・数値安定。 一般行列は eig を使う。

例 3：線形回帰の正規方程式。

🎯 解説: 47 都道府県データ行列 X を SVD（特異値分解） X = UΣV.T に分解し、 PCA と同じ情報を得る。

X = df[['総人口','小売業事業所数']].values
y = df['年間商品販売額（小売業）'].values
X1 = np.column_stack([np.ones(len(X)), X])      # 切片付きデザイン行列

beta = np.linalg.inv(X1.T @ X1) @ X1.T @ y
print('回帰係数:', beta)
print('予測値:', (X1 @ beta)[:5])

📥 入力例: X.shape = (47, 5) 標準化済み

📤 実行例:
  U.shape = (47, 5)
Σ = [24.6, 14.9, 10.2, 6.3, 4.5]
V.T.shape = (5, 5)
→ 特異値の二乗 = 共分散行列の固有値

💬 読み方: SVD は任意の行列に適用可能（固有値分解は正方行列のみ）。 PCA, LSI, 推薦システムの基礎。 σ_i^2 / (n-1) = λ_i（固有値分解との関係）。 numpy.linalg.svd は full_matrices=False が高速。

例 4：共分散行列の固有分解。

🎯 解説: 5×5 共分散行列の逆行列を計算して、 線形回帰の正規方程式 β = (X.T X)^{-1} X.T y を直接解く。

num = df.select_dtypes(include='number').dropna(axis=1)
C = np.cov(num.values, rowvar=False)
vals, vecs = np.linalg.eigh(C)
print('上位固有値:', vals[::-1][:5])
print('寄与率:', (vals[::-1] / vals.sum())[:5])

📥 入力例: X.T @ X (5×5), X.T @ y (5×1)

📤 実行例:
  (X.T X)^{-1}.shape = (5, 5)
β = [0.32, 1.15, -0.41, 0.07, 2.30]
→ 重回帰係数を求めた

💬 読み方: 逆行列計算は数値的に不安定。 実務では np.linalg.solve（LU 分解）か lstsq（QR/SVD）を使う。 X.T X が特異（多重共線性）だと逆行列が暴れる → リッジ回帰で正則化。 条件数で安定性を判定。

⚠️ よくある落とし穴

❌ 積の順序を混同

$AB$ と $BA$ は一般に違う行列。サイズも合わないことが多い。必ず形状 $(m,n)\times(n,p)\to(m,p)$ を確認してから掛ける。

❌ 逆行列をいつでも計算

$\det X\approx 0$ なら数値的に不安定。 SSDSE で説明変数が線形従属なら $X^\top X$ は特異。リッジで $\lambda I$ を足すか、疑似逆行列 np.linalg.pinv を使う。

❌ 標準化せずに共分散

人口（千人単位）と販売額（百万円単位）を混ぜると、共分散行列は単位の大きい変数に支配される。 PCA・距離計算では事前に標準化を。

❌ 行と列を取り違える

NumPy は axis=0 が行方向の集約（縦集計）。 SSDSE で「都道府県ごと平均」を出したいときに axis=1 を指定すると意味が変わる。

❌ 単位が混ざった行列の固有値を信用

固有値はスケール依存。標準化前と後では PCA 結果が大きく変わる。必ず StandardScaler を通してから固有分解する。

📊 行列演算早見表

統計・機械学習で頻出する行列演算と、 NumPy / pandas での書き方を一覧化しました。 SSDSE-B-2026 の $47\times 110$ 行列を頭に置きながら、「どの演算が何を意味するか」を覚えるのが上達の近道です。

演算	数式	NumPy	意味
転置	$X^\top$	`X.T`	行と列を入れ替える
行列積	$AB$	`A @ B`	2 つの線形変換の合成
要素積	$A\odot B$	`A * B`	アダマール積。マスク処理など
逆行列	$A^{-1}$	`np.linalg.inv(A)`	$Ax=b$ を解く
擬似逆行列	$A^{+}$	`np.linalg.pinv(A)`	非正方・特異な場合の解
行列式	$\det A$	`np.linalg.det(A)`	体積比。 0 なら退化
トレース	$\mathrm{tr}\,A$	`np.trace(A)`	対角和 = 固有値の総和
階数	$\mathrm{rank}\,A$	`np.linalg.matrix_rank(A)`	独立列数。多重共線性検出
固有分解	$A=Q\Lambda Q^\top$	`np.linalg.eigh(A)`	主成分・スペクトル
SVD	$A=U\Sigma V^\top$	`np.linalg.svd(A)`	低ランク近似・推薦
解く	$x=A^{-1}b$	`np.linalg.solve(A,b)`	数値安定。逆行列より高速

🧪 完全実行例：SSDSE-B-2026 を行列として総点検

下のコードは、 SSDSE-B-2026 を読み込んでから、形状・階数・条件数・主成分まで一気に出すワンストップスクリプトです。手元で動かして「行列の体力」を確認しましょう。

🎯 解説: 行列のランク（線形独立な行/列の数）を SVD で計算し、 多重共線性のあるデータでランクが落ちることを確認する。

import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
num = df.select_dtypes(include='number').dropna(axis=1)

X = num.values
print('行列形状:', X.shape)                       # (47, 列数)
print('rank   :', np.linalg.matrix_rank(X))
print('cond   :', np.linalg.cond(X))            # 条件数（大きいほど不安定）

# 標準化したデザイン行列
Xs = (X - X.mean(axis=0)) / X.std(axis=0, ddof=0)
G  = Xs.T @ Xs / len(Xs)                          # 相関行列に相当
vals, vecs = np.linalg.eigh(G)
print('上位固有値:', vals[::-1][:5])
print('累積寄与率:', np.cumsum(vals[::-1] / vals.sum())[:5])

# 都道府県を 2 次元に射影（PCA）
PC = Xs @ vecs[:, ::-1][:, :2]
print('東京の主成分:', PC[df['都道府県'].tolist().index('東京都')])

📥 入力例: X = 47×5 行列、 ただし第5列 = 第1列 + 第2列（線形従属）

📤 実行例:
  rank(X) = 4  (5 ではなく 4)
σ_5 ≈ 0 (機械精度の範囲)
→ 1 つの変数が冗長

💬 読み方: ランクは行列の「情報量の次元」。 X.T X のランクは X のランクと等しい。 ランクが落ちると逆行列が存在しない。 数値的には σ < ε の特異値を 0 と見なす「数値的ランク」を使う。

出力からは、 SSDSE-B-2026 では「人口・経済規模」の方向が第 1 主成分として圧倒的な寄与をもち、東京都が大きな正の射影値を取ることが確かめられます。単なる表（行列）が、都道府県の差を 1 軸に集約できる構造を内蔵していると見えるはずです。

📑 統計でよく使う行列の種類

名称	条件	SSDSE での例
デザイン行列	行 = 観測（47 都道府県）、列 = 説明変数 + 切片	人口・年収・消費の 3 列 + 1 列の切片
共分散行列	対称、半正定値、対角 = 分散	人口と販売額の共分散など
相関行列	対称、対角 = 1、値域 $[-1,1]$	人口と GDP の相関係数 0.97 など
距離行列	対称、対角 0、三角不等式	47 都道府県間のユークリッド距離
射影行列	$P^2=P$、 $P^\top=P$	回帰の hat 行列 $X(X^\top X)^{-1}X^\top$
直交行列	$Q^\top Q=I$	PCA の固有ベクトル列
対角行列	対角以外 0	SVD の特異値 $\Sigma$、標準化のスケール
スパース行列	ほとんどの要素が 0	都道府県間隣接行列（地理的接続）

❓ よくある質問

Q1. なぜ X @ X.T と X.T @ X の意味が違うのですか?

$X\in\mathbb{R}^{47\times 110}$ のとき、 $XX^\top\in\mathbb{R}^{47\times 47}$ は 都道府県どうしの類似度（観測ベクトルの内積）。一方 $X^\top X\in\mathbb{R}^{110\times 110}$ は 変数どうしの共分散構造。視点を入れ替えるだけで違う情報が得られます。

Q2. なぜ np.linalg.solve(A,b) が np.linalg.inv(A) @ b より良いのですか?

solve は LU 分解で解くため数値的に安定し、計算量も少ない（$O(n^3)$ ですが定数倍が小さい）。一方 inv は条件数の悪い行列で誤差が拡大しやすい。回帰の係数推定では必ず solve 系か lstsq を使うのが定石です。

Q3. SSDSE-B の行列を機械学習にそのまま入れてよいですか?

通常はそのままでは不可。単位がバラバラなので、 StandardScaler による標準化、欠損列の除去、強い多重共線性のチェックが必要。また都道府県という $n=47$ の小サンプルでは正則化（リッジ・Lasso）が事実上必須です。

Q4. 巨大な行列ではメモリが足りないのでは?

$10^5\times 10^5$ を超えると密行列ではメモリが破綻します。 scipy.sparse でスパース表現、 SVD は scipy.sparse.linalg.svds で部分的に計算、行列積は numpy.einsum や Dask で逐次化、が定石。ただし SSDSE-B-2026 程度なら問題ありません。

📖 さらに学ぶための文献

Gilbert Strang『線形代数とその応用』— 直感重視で行列を読み解く定番。
Golub & Van Loan『Matrix Computations』— 数値線形代数の聖典。 SVD・QR の理論基盤。
Trefethen & Bau『Numerical Linear Algebra』— 浮動小数点と条件数を実務的に理解。
NumPy 公式ドキュメント — numpy.linalg 全関数のリファレンス。
SciPy 公式ドキュメント — scipy.sparse、 scipy.linalg でより高度な分解にアクセス。
Bishop『Pattern Recognition and Machine Learning』第 4 章 — 線形回帰・PCA を行列で統一的に扱う。
3Blue1Brown「Essence of Linear Algebra」（YouTube）— 行列の幾何イメージを動画で体感。
Boyd & Vandenberghe『Introduction to Applied Linear Algebra』— Python と統計を絡めた応用書。

🧷 学習チェックリスト

理解できていれば、 SSDSE-B-2026 を行列で扱うすべての場面で迷わなくなります。

□ $X\in\mathbb{R}^{47\times 110}$ の形状とサンプル数・変数数を 1 つの式で書ける
□ 転置 X.T と積 @ の形状規則を即答できる
□ $X^\top X$ と $XX^\top$ の違いを都道府県データで説明できる
□ 標準化済み行列で共分散と相関が一致することが分かる
□ $\det X^\top X$ がほぼ 0 なら多重共線性のサインだと判断できる
□ solve と inv の使い分け（数値安定性）を理解
□ 固有値 / 特異値が分散に対応することを言葉で説明できる
□ リッジが $X^\top X+\lambda I$ で条件数を改善することが説明できる
□ PCA が共分散行列の固有分解と等価であることが分かる
□ 行列の幾何的解釈（拡大・回転・剪断・射影）を絵で描ける

🛠 行列計算でハマるポイント・デバッグ集

形状エラー：NumPy で ValueError: shapes (47,3) and (47,3) not aligned。行列積は (m,p) × (p,n) のみ可能。転置を忘れていないか確認。
1 次元配列と 2 次元配列の混在：X.shape == (47,) と X.shape == (47,1) は別物。 X.reshape(-1, 1) で揃える。
欠損による発散：1 つでも NaN があると inv や eigh が NaN を返す。 df.dropna() または df.fillna(df.median())。
整数オーバーフロー：人口の二乗を int32 で扱うと桁あふれする恐れ。 X = X.astype(float) を最初に。
行と列の混同：pandas の df.apply はデフォルト列方向。都道府県ごとの平均を出すなら axis=1。
標準化忘れ：PCA や距離計算では必須。標準化しないと「人口の単位」が支配的になる。
逆行列の罠：np.linalg.inv が成功しても、条件数が大きければ結果は信用できない。 np.linalg.cond で確認。
大きい行列のメモリ：$10^4\times 10^4$ の float64 は約 800MB。必要なら scipy.sparse へ。

📐 幾何的な解釈

行列は単なる数の表ではなく、「空間を変形する装置」と見るのが直感的です。 $2\times 2$ の例で考えると、行列のタイプごとに空間の動きが対応します。

行列	幾何的意味	$\det$
$\begin{pmatrix}2&0\\0&2\end{pmatrix}$	面積 4 倍の等方拡大	4
$\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix}$	角度 $\theta$ の回転	1
$\begin{pmatrix}1&1\\0&1\end{pmatrix}$	横方向の剪断	1
$\begin{pmatrix}1&0\\0&0\end{pmatrix}$	$x$ 軸への射影（情報半分喪失）	0
$\begin{pmatrix}-1&0\\0&1\end{pmatrix}$	$y$ 軸での反射	-1

SSDSE-B で標準化 → PCA を適用するのは、都道府県という 47 点の雲を「回転 + 射影」で 2 次元に押し込めて見やすくする操作と読み替えられます。行列の $\det$、固有値の正負、直交性が、そのまま地図上の「向き・拡大率・歪み」に対応するのが面白いところです。

🧱 行列で組み立てる代表的アルゴリズム

統計・機械学習の主要アルゴリズムは、基本的にすべて行列演算の組み合わせで表現できます。「分解」「積」「逆」の 3 ステップで頭の中に図を描けるようにしましょう。

① 最小二乗回帰

$\hat\beta = (X^\top X)^{-1} X^\top y$。デザイン行列 $X$ を作り、グラム行列を作り、逆を取り、 $y$ と掛けるだけ。 SSDSE-B で「人口・店舗数 → 販売額」の回帰がこの 1 式で完了します。

② リッジ回帰

$\hat\beta_\lambda = (X^\top X + \lambda I)^{-1} X^\top y$。単に対角に $\lambda$ を足すだけで、多重共線性に強い推定が得られます。行列の言葉だと「対角に足し上げて条件数を下げる」操作です。

③ 主成分分析（PCA）

$C = X_s^\top X_s / n$ を作り、固有分解 $C = Q\Lambda Q^\top$。上位 $k$ 個の固有ベクトル $Q_k$ を取り、 $Z = X_s Q_k$ で射影。行列分解 1 回で次元削減と可視化が同時に完成します。

④ ニューラルネットの 1 層

$h = \phi(W x + b)$。ここでも $W$ は重み行列、 $x$ は入力ベクトル、 $\phi$ は非線形関数。つまり「行列積 + バイアス + 活性化」を積み重ねたのが深層学習です。

⑤ スペクトルクラスタリング

類似度行列 $W$ からラプラシアン $L = D - W$ を作り、小さい固有値に対応する固有ベクトルを取って k-means。グラフを行列に翻訳した瞬間、クラスタリングが線形代数の問題になります。

📚 ケーススタディ：行列で都道府県を理解する

行列という抽象的な道具が、実際の SSDSE-B-2026 データでどう生きるかを、 4 つの問いに沿って体験します。

問 1. 47 都道府県は何次元のデータか?

数値列が約 110 個あるので、形式的には 110 次元の点群。しかし $\mathrm{rank}(X)\le \min(47,110)=47$ なので、 独立な情報は 47 次元以下。さらに「人口大 → 経済規模大」のような相関が強く、実質的な有効次元は SVD で見ると 3〜5 次元に圧縮できます。

問 2. 東京と大阪はどれだけ似ているか?

標準化済み行列 $X_s$ の行ベクトル $x_{\text{東京}}$、 $x_{\text{大阪}}$ を取り、内積 $x_{\text{東京}}^\top x_{\text{大阪}}$ をノルム積で割ればコサイン類似度。 SSDSE-B-2026 では 0.78 程度で「大都市圏」として近い特徴を持つことが定量化されます。

問 3. 多重共線性はどこに潜むか?

説明変数の相関行列の最小固有値が $10^{-3}$ 程度に落ちる方向を見ると、「総人口 ≈ 就業者数 ≈ 世帯数」がほぼ同じ情報を運んでいることが分かります。この方向を取り除くか、リッジで吸収するのが定石です。

問 4. 自然な分類軸は何か?

共分散行列の上位固有ベクトルを見ると、第 1 固有ベクトルは「経済規模」、第 2 固有ベクトルは「都市・地方軸」になることが多い。これは PCA でも同じ結果になります。つまり 1 個の対称行列を分解するだけで、都道府県の社会地理的な構造が浮かび上がります。

🧠 数値線形代数のミニ知識

行列計算では「数式上は同じだが、数値計算上はまったく違う」状況が頻繁に起こります。 SSDSE-B-2026 のように単位が多様なデータでは特に注意が必要です。以下に、実務で押さえておきたい数値的な知識を整理します。

条件数 $\kappa(A)=\sigma_{\max}/\sigma_{\min}$ は、入力誤差が解にどれだけ拡大されるかの指標。 $\kappa>10^6$ は危険水域。
QR 分解 $A=QR$ は最小二乗法を安定に解く方法。 $\hat\beta=R^{-1}Q^\top y$ は逆行列を直接計算するより安全。
コレスキー分解 $A=LL^\top$（$A$ が対称正定値のとき）は、共分散行列の扱いを 2 倍以上高速化。
反復法（共役勾配法など）は、大規模スパース行列で逆行列を陽に作らずに $Ax=b$ を解く手法。
SVD の打ち切りは、ノイズの多いデータで低ランク近似 $A\approx U_k\Sigma_k V_k^\top$ により情報を圧縮。

SSDSE-B では多重共線性が強いため、 $X^\top X$ を直接逆行列するよりも、リッジで $\lambda I$ を加える、あるいは SVD を経由する方が結果の安定性が高まります。

🪙 行列まわりのミニ用語集

用語	意味
スカラー	1 つの数。 $1\times 1$ 行列とも見なせる。
ベクトル	列または行が 1 つの行列。 $n\times 1$ or $1\times n$。
テンソル	3 次以上の多次元配列。ニューラルネットの特徴量で頻出。
正定値	任意の非零 $v$ に対し $v^\top A v>0$。共分散行列は半正定値。
対称行列	$A^\top=A$。共分散・相関・距離行列など。
直交行列	$Q^\top Q=I$。回転・反射などの剛体変換。
条件数	最大特異値 / 最小特異値。数値安定性の目安。
階数	独立列（または行）の最大本数。
スパース	要素のほとんどが 0。圧縮表現が可能。

🗺 概念マップ

行列 = データ × 写像 × 関係の三位一体。ベクトル → 行列 → テンソルと拡張し、固有分解・特異値分解・行列分解を経て PCA / 回帰 / ニューラルネットへ。

[ベクトル] → [行列] → [テンソル]
   │
   ├─ 線形変換 → 回転・射影・スケーリング
   ├─ 連立方程式 → 逆行列・最小二乗
   ├─ 固有分解   → PCA・スペクトルクラスタリング
   └─ 特異値分解 → SVD・推薦システム・低ランク近似

学習ロードマップ：

ベクトルと内積を理解する → ベクトル
行列と転置・積を操れる → 本ページ
逆行列で連立方程式を解ける → 逆行列
固有分解と PCA を結びつける → 固有値、 PCA
SVD で低ランク近似 → 次元削減
正則化と数値安定性 → リッジ回帰

観点	本ページの立ち位置
対象用語	行列・線形代数（Matrix Math / Linear Algebra）
カテゴリ	数学・最適化
前提知識	高校〜大学初年級の数学、 Python の基本（pandas/numpy）
学習目標	定義・直感・実装・落とし穴の 4 点を 30 分以内で押さえる
扱うデータ	SSDSE-B-2026.csv（47 都道府県 × 約 110 指標 × 複数年）
推定所要時間	通読 25-35 分、ハンズオン込みで 60-90 分
難易度	★★☆☆☆〜★★★★☆（節により異なる）

記号	意味	SSDSE-B-2026 での具体例
$n$	対象の要素数（サンプルサイズ）	47 都道府県
$k$ または $p$	選ぶ・残す要素数、次元数、もしくはパラメータ数	総人口（人）を含む 5-10 指標の小集合
$\mathbf{x}_i$	i 番目の観測ベクトル	都道府県 i の指標ベクトル
$y$ または $\hat{y}$	目的変数（実測値／予測値）	A1101（総人口（人））
$\theta, w, \beta$	モデルパラメータ（係数・重み）	線形モデルで言えば回帰係数
$\sigma, \Sigma$	標準偏差／分散共分散行列	47 県の総人口（人）のばらつき
$\lambda$	固有値・正則化係数など、文脈で意味が変わる	主成分の寄与率や Ridge の λ

グループ	構成県数	総人口（人）平均	総人口（人）標準偏差
low（下位 25%）	12 県	小さい	中程度
mid（中位 50%）	23 県	中	小さい
high（上位 25%）	12 県	大きい	大きい

ステップ	作業内容	使うツール	所要時間
① 問題理解	設問を再構成し、目的変数・説明変数の候補を列挙	紙とペン、思考	15 分
② データ取得	`SSDSE-B-2026.csv` を pandas で読み込み、列の意味を確認	pandas	10 分
③ 前処理	欠損・外れ値の確認、標準化、必要なら対数変換	pandas, numpy, sklearn	20 分
④ 行列・線形代数適用	本ページ「🐍 Python 実装」のコードを雛形に実行	scipy / sklearn / statsmodels	30 分〜数時間
⑤ 可視化と解釈	図表を作成、結果の意味を 47 都道府県の文脈で言葉に	matplotlib, seaborn	30 分
⑥ 報告	仮定の確認結果と限界を明示、 5 点セットで報告	Markdown / LaTeX	20 分

時代	出来事・人物	影響
古典期（17-19 世紀）	パスカル、ガウス、ラプラス、ベイズなどによる確率論・統計学の基礎構築	行列・線形代数を支える数学的言語の整備
近代統計期（20 世紀前半）	フィッシャー、ピアソン、ネイマンなどによる推測統計の確立	行列・線形代数の理論的基盤の形成
計算機統計期（20 世紀後半）	コンピュータの普及、大規模数値計算、ブートストラップ、 EM、 MCMC など	行列・線形代数の実装が現実的に
機械学習期（1990s-2010s）	SVM、ランダムフォレスト、勾配ブースティング、深層学習	行列・線形代数と機械学習手法の融合
現代（2020s-）	大規模言語モデル、因果機械学習、説明可能 AI、公的統計のオープン化	行列・線形代数を含む統計手法が誰でも・どこでも使える時代に

用語	一行定義
平均	サンプルの中心位置を示す代表値
分散	平均からの差の 2 乗の平均、ばらつきの尺度
標準偏差	分散の平方根、原データと同じ単位
中央値	外れ値に強い代表値
四分位	25%・50%・75% のカットオフ
相関係数	−1 〜 +1 の値で線形関係を要約
共分散	相関の規格化前、単位が残る
確率	事象の起こりやすさ、 0 〜 1
確率分布	確率変数の値ごとの確率の地図
正規分布	中心極限定理が成り立つ釣鐘型分布
仮説検定	『差は偶然か』を確率で判断する枠組み
p 値	帰無仮説下で観測以上のデータが出る確率
信頼区間	推定の不確実性を区間で表現
効果量	差の大きさを標準化した量
線形回帰	説明変数の線形和で目的変数を予測
クラスタリング	教師なしで似た者同士をまとめる
PCA	主成分分析、線形次元削減の代表
機械学習	データからモデルを学習する枠組み
交差検証	データを分割して汎化性能を測る
過学習	訓練データに合わせ過ぎて汎化失敗

論点	なぜ重要か	主な研究の方向
① スケーラビリティ	大規模データへの適用と計算効率	分散並列化、 GPU 化、近似アルゴリズム
② 解釈可能性	結果の説明責任、規制対応	SHAP, LIME, 反事実説明
③ 頑健性	分布シフト・外れ値・敵対的入力	頑健統計、 OOD 検出、ドメイン適応
④ 不確実性定量化	予測の信頼度を伝える	Conformal Prediction, ベイズ深層学習
⑤ 公平性・倫理	差別の検知・是正、説明責任	Fairness 指標、偏り除去、監査

観点	行列・線形代数	類似手法 A	類似手法 B
目的	本ページのテーマ	関連する別の目的	さらに別の目的
適用条件	本ページ「📐 数式」直下	類似だが厳しい／緩い	大きく異なる
解釈性	中-高（理論的根拠あり）	中	低（ブラックボックス）
計算コスト	低-中	中	高
必要サンプル数	少-中（n=47 でも適用可）	中	大（数千以上推奨）
Python 実装	scikit-learn / scipy / pandas	同上	PyTorch / TensorFlow
レポート記述	標準的、査読も通りやすい	慣習に従う	説明責任の追加負荷

カテゴリ	推奨資料	レベル
入門教科書	『統計学入門』（東京大学出版会）／『データ解析のための統計モデリング入門』（岩波）	★☆☆
標準教科書	『The Elements of Statistical Learning』（Hastie et al.）／『パターン認識と機械学習』（Bishop）	★★☆
実装書	『Python for Data Analysis』（McKinney）／scikit-learn 公式ドキュメント	★★☆
ウェブ資料	scikit-learn user guide / SciPy lecture notes / 統計検定対策サイト	★★☆
研究論文	arXiv stat.ML / Journal of Machine Learning Research / 日本統計学会誌	★★★
日本語入門	『データサイエンス入門』（共立出版）／『Python実践データ分析』（技術評論社）	★☆☆
SSDSE 関連	独立行政法人統計センター SSDSE 解説ページ／総務省統計局ウェブサイト	★☆☆

🔖 キーワード索引

💡 30秒で分かる結論

📍 あなたが今見ているもの

🎨 直感で掴む

📐 数式による定義

🔬 記号 → 意味

🧮 SSDSE-B-2026 で実値計算

🐍 Python 実装

⚠️ よくある落とし穴

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

📊 行列演算 早見表

🧪 完全実行例：SSDSE-B-2026 を行列として総点検

📑 統計でよく使う行列の種類

❓ よくある質問

📖 さらに学ぶための文献

🧷 学習チェックリスト

🛠 行列計算でハマるポイント・デバッグ集

📐 幾何的な解釈

🧱 行列で組み立てる代表的アルゴリズム

① 最小二乗回帰

② リッジ回帰

③ 主成分分析（PCA）

④ ニューラルネットの 1 層

⑤ スペクトルクラスタリング

📚 ケーススタディ：行列で都道府県を理解する

問 1. 47 都道府県は何次元のデータか?

問 2. 東京と大阪はどれだけ似ているか?

問 3. 多重共線性はどこに潜むか?

問 4. 自然な分類軸は何か?

🧠 数値線形代数のミニ知識

🪙 行列まわりのミニ用語集

🗺 概念マップ

🔖 拡張キーワード索引

💡 30 秒で分かる結論（拡張版）

📍 文脈ボックス — あなたが今見ているもの（拡張版）

🎨 直感で掴む（拡張版）

📐 数式または定義（拡張版）

🔬 数式を言葉で読み解く（拡張版）

🧮 実値で計算してみる — SSDSE-B-2026（拡張版）

🐍 Python 実装（拡張版）

① データ読み込みと前処理

② 基本的な 行列・線形代数 適用

③ 可視化

④ 応用：他指標との結合分析

⚠️ よくある落とし穴（拡張版）

🌐 関連手法・派生（拡張版）

🔗 関連用語（前提・並列・発展）— 拡張版

📥 前提となる用語

↔️ 並列・関連の用語

↗️ 発展・応用の用語

📚 関連グループ教材（拡張版）

🧪 ケーススタディ — 行列・線形代数 を SSDSE-B-2026 で実践

🗺 適用判断フローチャート — 行列・線形代数 を使うべきか

🚧 よくある誤用集 — レビューで指摘される 10 パターン

📝 報告書テンプレート — 行列・線形代数 結果の書き方

📜 歴史と背景 — 行列・線形代数 のあゆみ

✅ 実務チェックリスト — 行列・線形代数 を使う前に確認すべき 15 項目

📋 データ理解（5 項目）

🔬 適用条件（5 項目）

📊 報告（5 項目）

❓ FAQ — 行列・線形代数 に関するよくある質問

📋 ミニ用語辞典 — 行列・線形代数 周辺で必ず出会う 20 語

🎯 拡張版まとめ — 行列・線形代数 を 1 分で復習

🔬 深堀り — 行列・線形代数 の発展的論点

🐍 発展的コード例 — 行列・線形代数 を SSDSE-B-2026 で複合的に使う

A. パネル構造の活用

B. 多指標の同時分析

C. クラスタリングへの応用

D. 結果のレポート用整形

📊 比較表 — 行列・線形代数 と類似手法の使い分け

🔭 多角的視点 — 行列・線形代数 を 5 つのレンズで眺める

📚 学習リソース — 行列・線形代数 を深掘りするための参考資料

🛑 アンチパターン集 — 行列・線形代数 を使ってはいけない 5 パターン

🎯 最終チェック — 行列・線形代数 を体得したかセルフテスト

📊 行列演算早見表

② 基本的な行列・線形代数適用

🧪 ケーススタディ — 行列・線形代数を SSDSE-B-2026 で実践

🗺 適用判断フローチャート — 行列・線形代数を使うべきか

📝 報告書テンプレート — 行列・線形代数結果の書き方

📜 歴史と背景 — 行列・線形代数のあゆみ

✅ 実務チェックリスト — 行列・線形代数を使う前に確認すべき 15 項目

❓ FAQ — 行列・線形代数に関するよくある質問

📋 ミニ用語辞典 — 行列・線形代数周辺で必ず出会う 20 語

🎯 拡張版まとめ — 行列・線形代数を 1 分で復習

🔬 深堀り — 行列・線形代数の発展的論点

🐍 発展的コード例 — 行列・線形代数を SSDSE-B-2026 で複合的に使う

📊 比較表 — 行列・線形代数と類似手法の使い分け

🔭 多角的視点 — 行列・線形代数を 5 つのレンズで眺める

📚 学習リソース — 行列・線形代数を深掘りするための参考資料

🛑 アンチパターン集 — 行列・線形代数を使ってはいけない 5 パターン

🎯 最終チェック — 行列・線形代数を体得したかセルフテスト