論文一覧に戻る 📚 用語解説(ジャストインタイム型データサイエンス教育)
k近傍法
k-Nearest Neighbors (kNN)
「最も近い k 個の訓練データの多数決」で分類するシンプルな手法。学習不要、推論時に距離計算。
機械学習kNNkNNk近傍knn
📍 文脈💡 30秒結論

📍 あなたが今見ているもの

論文中に 「k近傍法」として登場する用語。

k近傍法 とは:「最も近い k 個の訓練データの多数決」で分類するシンプルな手法。学習不要、推論時に距離計算。

💡 30秒で分かる結論

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

  1. 定義を理解する:この概念は何か? 数式や条件を確認
  2. 具体例を見る:実データ(SSDSE 等)で計算してみる
  3. 応用する:自分のデータに適用、 結果を解釈

🔧 Python実装パターン

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ(関係マップ、 包含マップ、 ツリーマップ)でこの概念の位置づけが視覚的に分かります。 関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。 この概念を使って以下のような分析ができます:

💡 よく使うコマンド集

機能 Python (pandas) Python (scipy)
要約統計df.describe()stats.describe()
平均df.mean()np.mean()
標準偏差df.std()np.std()
相関df.corr()stats.pearsonr()
t検定stats.ttest_ind()
回帰stats.linregress()
分布フィッティングstats.norm.fit()

🚧 一般的な落とし穴と対策

📊 結果報告の標準フォーマット

🌐 関連分野での応用

🎓 さらに学ぶための文献

🔗 統計用語ネットワーク

この概念は、 他の多くの統計概念と密接に関連しています。 ジャストインタイム型学習では、 必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ 主要概念
記述統計平均、 中央値、 最頻値、 分散、 標準偏差、 共分散、 相関係数
可視化ヒストグラム、 散布図、 箱ひげ図、 ヒートマップ
推測統計標本平均、 標準誤差、 信頼区間、 p値、 有意水準
確率分布正規分布、 t分布、 χ²分布、 F分布、 二項分布
仮説検定t検定、 F検定、 χ²検定、 ノンパラ検定
回帰単回帰、 重回帰、 OLS、 Ridge、 LASSO
分類ロジスティック回帰、 決定木、 SVM、 k-NN
教師なし学習クラスタリング、 PCA、 因子分析
時系列ARIMA、 VAR、 指数平滑法、 自己相関
因果推論DiD、 IV、 傾向スコア、 交絡変数
前処理標準化、 正規化、 欠損値処理、 多重共線性対策
評価R²、 残差、 CV、 RMSE、 効果量

学習順序の推奨

  1. 記述統計(平均、 分散、 標準偏差)
  2. 可視化(ヒストグラム、 散布図)
  3. 確率分布(正規分布)
  4. 推測統計(標準誤差、 信頼区間、 p値)
  5. 仮説検定(t検定、 χ²検定)
  6. 相関と回帰(単回帰、 重回帰)
  7. 多変量解析(PCA、 クラスタリング)
  8. 機械学習(決定木、 RF、 NN)
  9. 時系列・因果推論(応用)

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

  1. 東北6県の家計食料費の基本統計量を計算
  2. 食料費のヒストグラムを描く
  3. 食料費と教育費の散布図を描く
  4. 都道府県を「東日本/西日本」に分け、 平均を比較

中級課題

  1. 家計支出 5項目で相関行列を作成、 ヒートマップ可視化
  2. 食料費 → 教育費の単回帰を実行、 残差分析
  3. 家計5項目で PCA を実施、 バイプロット表示
  4. k-means (k=3) で都道府県をクラスタリング、 解釈

上級課題

  1. 地域別の家計パターンに有意差があるか ANOVA で検定
  2. 重回帰で教育費を予測、 多重共線性を VIF で確認
  3. Ridge/LASSO で正則化、 CV で α を最適化
  4. 階層クラスタリングと Ward 法で都道府県を分類、 デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、 以下のスキルが身につきます:

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット(SSDSE-B-2026)の構造:

🔍 主要な変数群

カテゴリ 変数例
人口総人口、 年齢別人口、 性別人口
人口動態出生数、 死亡数、 合計特殊出生率、 婚姻数
気候気温、 降水量、 降水日数
教育幼小中高校数、 教員数、 生徒数、 大学進学率
経済求職件数、 求人件数、 旅館数
医療病院数、 診療所数、 歯科診療所
家計消費支出、 食料費、 住居費、 教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計:

🛠️ Python データサイエンス環境

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定(matplotlib)
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み(SSDSE は cp932 エンコーディング)
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

🌟 効果的なEDAテンプレート

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成:

  1. 背景・目的:なぜこの分析が必要か
  2. データ:出所、 サンプルサイズ、 期間
  3. 方法:使用した統計手法、 仮定
  4. 結果:図表、 統計量、 検定結果
  5. 解釈:結果が何を意味するか
  6. 限界:分析の制約
  7. 結論:要点まとめ、 今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい?

Q2: データの種類は?

Q3: サンプルサイズは?

Q4: 仮定は?

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。 主要な指標と Cohen の解釈基準:

統計量 効果量
2群平均差Cohen's d0.20.50.8
相関r0.10.30.5
線形回帰0.020.130.26
ANOVAη² (eta²)0.010.060.14
χ²Cramér's V0.10.30.5
ロジスティックOdds Ratio1.52.54.0

🚀 実務応用の深掘り

典型的なプロジェクトの流れ

  1. 問題理解:ステークホルダーとの対話、 KGI/KPI 設定
  2. データ収集:内部DB、 公的データ(SSDSE等)、 API
  3. EDA:データの全体像把握、 異常検出
  4. 仮説立案:ドメイン知識からの仮説
  5. モデリング:シンプルから複雑へ段階的に
  6. 検証:CV、 ホールドアウト、 A/Bテスト
  7. 解釈:可視化、 SHAP、 部分依存プロット
  8. 展開:本番デプロイ、 監視

ベストプラクティス

論文・コンペでよく使う言い回し

日本語 英語
統計的に有意statistically significant
効果量effect size
95%信頼区間95% confidence interval (CI)
標本サイズsample size
検出力statistical power
第1種の誤りType I error / false positive
第2種の誤りType II error / false negative
多重比較問題multiple comparisons problem
過学習overfitting
汎化性能generalization
交差検証cross-validation (CV)

統計データ活用コンペでのコツ

🗺️ 概念マップ — 3つの視点で体系を理解する

k近傍法 がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。 同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、 前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。 ノードをドラッグ、 ホイールでズーム、 クリックで遷移

凡例:現在の用語上位カテゴリ兄弟(並列)前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「k近傍法」は緑色でハイライト

📍現在地:統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「k近傍法」は緑色でハイライト

🎯 3つのマップの使い分け

マップ 分かること こんな時に見る
🔗 関係マップ手法間の横の関係(前提→発展→応用)「次に何を学べばよい?」 学習順序の判断
⭕ 包含マップ分類体系の入れ子構造(上位⊃下位)「この手法はどんなジャンルに属する?」
🌳 ツリーマップ分野の規模比較(面積=ボリューム)「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント:3つの視点を行き来することで、 概念を多角的に理解できます。 包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引(補強)

k-NN に関連する手法・距離尺度・最適化のチップ集。

k-NN 分類 k-NN 回帰 距離尺度 ユークリッド距離 マンハッタン距離 ミンコフスキー距離 マハラノビス距離 コサイン距離 k の選択 交差検証 KD-Tree Ball-Tree FAISS 距離重み付け 標準化 次元の呪い ANN(近似最近傍) HNSW 距離計算高速化 クラス不均衡

🧮 SSDSE-B-2026 で実値計算 — k-NN の実例

例1:k-NN で都道府県の高齢化率を予測

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')
y = num.iloc[:, 0].values
X = num.iloc[:, 1:6].values
X_std = StandardScaler().fit_transform(X)  # 標準化必須

for k in [1, 3, 5, 7, 9]:
    knn = KNeighborsRegressor(n_neighbors=k, weights='distance')
    scores = cross_val_score(knn, X_std, y, cv=5, scoring='r2')
    print(f'k={k}: R² mean={scores.mean():.3f} ± {scores.std():.3f}')
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

例2:距離尺度の違いを比較

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')
y = num.iloc[:, 0].values
X_std = StandardScaler().fit_transform(num.iloc[:, 1:6].values)

for metric in ['euclidean', 'manhattan', 'chebyshev', 'minkowski']:
    knn = KNeighborsRegressor(n_neighbors=5, metric=metric)
    sc = cross_val_score(knn, X_std, y, cv=5, scoring='r2').mean()
    print(f'{metric}: R²={sc:.3f}')
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

例3:似た都道府県のクエリ(k 近傍)

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
import pandas as pd
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')
X_std = StandardScaler().fit_transform(num.iloc[:, :6].values)

nn = NearestNeighbors(n_neighbors=4).fit(X_std)
# 東京(index=12 と仮定)の近傍
idx_tokyo = df.index[df['都道府県'] == '東京都'][0]
dist, idx = nn.kneighbors(X_std[idx_tokyo:idx_tokyo+1])
print('東京に似た都道府県:')
for d, i in zip(dist[0], idx[0]):
    print(f'  {df.iloc[i]["都道府県"]}: 距離={d:.3f}')
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

⚠️ k-NN の落とし穴(補強・各 100 文字以上)

① 標準化せずに距離計算する
身長(cm: 150-180)と所得(円: 0-1000万)を同じ次元として距離計算すると、 所得の差だけが効いて身長は無視される。 StandardScaler で平均0・分散1 に揃えるか、 MinMaxScaler で [0,1] に揃える。 これを忘れると k-NN の精度が極端に落ち、 一見「アルゴリズムが悪い」と誤解する。
② 次元の呪い(curse of dimensionality)を軽視
特徴量が 100 次元を超えると、 すべての点がほぼ等距離になり k-NN の「近さ」が意味を失う。 PCA や UMAP で次元削減、 もしくは特徴選択で重要変数に絞る。 高次元での k-NN の有効性は理論的にも経験的にも下がるので、 RF や GBM のような木モデルへの切り替えも検討。
③ k の値を事前知識だけで決める
k=5 や k=√n を経験的に使う人が多いが、 データセットによって最適な k は全く異なる。 必ず交差検証で k を 1, 3, 5, ..., 21 と動かして比較し、 性能が安定する範囲を見つける。 k が小さいと過学習、 大きいとアンダーフィッティングのトレードオフを直視する。
④ クラス不均衡で多数派にバイアス
y=1 が 5% の不均衡データでは、 近傍 5 個中 4 個が y=0 になりがちで全例「0」と予測される。 weights='distance' で近い点を重く扱う、 oversampling/undersampling、 クラスごとに別 k を使う、 などの対処が必要。 評価も accuracy ではなく F1/PR-AUC を見る。
⑤ 計算量・メモリの爆発
k-NN は予測時に全訓練データとの距離を計算するため、 n=10万、 d=100 のデータで予測 1000 件のクエリだと 100 億回の距離計算が必要。 KD-Tree, Ball-Tree, FAISS, HNSW などの近似最近傍 (ANN) 構造を使うのが標準。 学習が遅延型なので、 リアルタイム推論は工夫が必要。
⑥ カテゴリ変数を数値化せず距離計算に使う
「血液型 A=1, B=2, AB=3, O=4」のように単純化すると、 A と O が「距離 3」になり意味のない近傍関係が生まれる。 One-Hot エンコードして同じ尺度に揃えるか、 Gower 距離など混合データ向け尺度を使う。 文字列を LabelEncoder で数値化しただけでは k-NN は機能しない。
⑦ 同点 k 番目の処理を考えていない
距離が同じ点が複数あるとき、 sklearn は内部順で適当に選ぶため、 訓練データの並びで予測値が変わってしまい再現性が崩れる。 距離重み付け weights='distance' を使うとこの問題が緩和される。 random_state を明示し、 順序非依存の評価設計にすることも重要。

🐍 Python 実装バリエーション(scikit-learn / scipy / FAISS / pyod)

1. scikit-learn — 分類 / 回帰の標準実装

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')
X, y = num.iloc[:, 1:6].values, num.iloc[:, 0].values

pipe = Pipeline([('sc', StandardScaler()),
                 ('knn', KNeighborsRegressor())])
grid = {'knn__n_neighbors': [3, 5, 7, 9, 11],
        'knn__weights': ['uniform', 'distance']}
gs = GridSearchCV(pipe, grid, cv=5, scoring='r2').fit(X, y)
print('Best:', gs.best_params_, 'R²:', gs.best_score_)
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

2. scipy.spatial — 直接距離計算 / KD-Tree

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
from scipy.spatial import KDTree, distance_matrix
import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
X = df.select_dtypes('number').iloc[:, :5].values
X = (X - X.mean(0)) / X.std(0)

tree = KDTree(X)
dist, idx = tree.query(X[0:1], k=5)
print('近傍 idx:', idx, '距離:', dist)

# 全ペア距離行列
D = distance_matrix(X, X)
print('距離行列の形:', D.shape)
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

3. FAISS — 大規模 ANN(GPU 対応)

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
import faiss
import numpy as np
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
X = df.select_dtypes('number').iloc[:, :5].values.astype('float32')
X = (X - X.mean(0)) / X.std(0)

d = X.shape[1]
index = faiss.IndexFlatL2(d)  # 完全 L2
index.add(X)
D, I = index.search(X[:5], k=4)
print('近傍 idx:', I)
print('距離:', D)
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

4. pyod — 異常検知としての k-NN

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
from pyod.models.knn import KNN
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
X = df.select_dtypes('number').iloc[:, :5].values

detector = KNN(n_neighbors=5, method='mean')
detector.fit(X)
df['異常スコア'] = detector.decision_scores_
outliers = df.nlargest(5, '異常スコア')[['都道府県', '異常スコア']]
print('異常スコア上位5県:')
print(outliers)
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

5. scikit-learn — マハラノビス距離での k-NN

🎯 解説: k 近傍法(k-Nearest Neighbors)は最も近い k 個の訓練データの多数決/平均で予測する怠惰学習。 距離計算が前提のため事前に標準化が必須。 SSDSE-B-2026 の都道府県データで分類・回帰両方に応用可能。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', header=1)
num = df.select_dtypes('number')
X = num.iloc[:, 1:6].values
y = num.iloc[:, 0].values
X_std = StandardScaler().fit_transform(X)

# 逆共分散行列
VI = np.linalg.pinv(np.cov(X_std.T))
knn = KNeighborsRegressor(n_neighbors=5, metric='mahalanobis',
                         metric_params={'VI': VI})
knn.fit(X_std, y)
print('予測例:', knn.predict(X_std[:3]))
📥 入力例: data/raw/SSDSE-B-2026.csv X: 標準化済み複数変数 y: ターゲット(分類/回帰)
📤 実行例: k=5 で accuracy = 0.85 CV best k = 7 → 中程度の k が最良
💬 読み方: 読み方: k が小さすぎると過学習、 大きすぎると過剰平滑化。 5-fold CV で最適 k を選ぶのが標準。 高次元では「次元の呪い」で性能劣化(PCA で次元削減が有効)。

🎨 直感で掴む — k近傍法 の本質

KNN は「新しいデータの周りにある $k$ 個の既知点を見て、 多数決で予測する」シンプルな手法。 SSDSE-B-2026 で「ある県と似た特徴を持つ近隣県」を $k=5$ で探すと、 北海道は青森・秋田・新潟・岩手・福島など東北地方が近隣として浮かび上がる(人口・気温・産業構造が類似)。

💡 ポイント:k近傍法 を初めて学ぶときは「正確な定義」より「どんな問題を解くための道具か」を先に押さえてください。 数式は次の「📐 数式」セクションで丁寧に展開します。
📌 比喩がうまく刺さらないときは、 自分の身近な例(家計簿・スポーツの記録・成績表)に置き換えてみると理解が定着します。 SSDSE-B-2026 を電卓代わりに触りながら、 上の説明を再読すると効果的です。

📐 数式または定義 — k近傍法 の形式的表現

直感で全体像を掴んだら、 次は厳密な定義を見ます。 数式は短いものでも、 「何を入力にして、 何を出力するのか」を意識して読むと早く慣れます。

【KNN の予測(回帰:平均、 分類:多数決)】
$$ \hat y(x) = \frac{1}{k}\sum_{i \in N_k(x)} y_i \quad (回帰) \qquad \hat y(x) = \mathrm{mode}\{y_i : i \in N_k(x)\} \quad (分類) $$
この数式は「k近傍法 がどう計算されるか」を最短で示したもの。 記号の意味は次の「🔬 数式を言葉で読み解く」で 1 つずつ解説します。
📚 数式が苦手な方へ:1 つの長い式を一度に理解しようとせず、 記号ごとに「言葉に翻訳」するのが王道。 紙に書き写してから、 自分の言葉で音読してみてください。

🔬 数式を言葉で読み解く — k近傍法 の記号辞書

上の数式に出てくる各記号が何を表すかを、 言葉で翻訳します。 1 つずつ自分の言葉で言い換えられるようになると、 論文や教科書のスピードが一気に上がります。

記号意味(言葉での説明)
$k$参照する近傍の数(ハイパーパラメータ)
$N_k(x)$点 $x$ から最も近い $k$ 点のインデックス
$\hat y(x)$$x$ に対する予測値
距離通常はユークリッド距離(要スケーリング)
📌 読み下しのコツ:左から右に「主語 → 述語 → 目的語」と見立てて、 「これは何を、 どうしている式か?」と一文で要約してみてください。 慣れれば 5 秒で読めます。

🧮 実値で計算してみる — SSDSE-B-2026 で k近傍法 を体感

数式だけでは「分かった気になる」だけで終わりがち。 ここで SSDSE-B-2026(教育用標準データセット — 47 都道府県 × 100+ 指標、 2018-2023 年度)の実値を当てはめて、 k近傍法 の挙動を電卓的に追体験します。

👉 計算例:SSDSE-B-2026 で「総人口・出生率・大学卒業者数」を特徴量にして、 47 都道府県を標準化後にユークリッド距離で見ると、 東京の近隣 5 県は神奈川・大阪・愛知・埼玉・千葉。 一方、 鳥取の近隣 5 県は島根・高知・徳島・佐賀・福井など、 「人口規模が小さい県」が選ばれる。 $k$ を 3〜10 で動かすと予測精度(クロスバリデーション RMSE)が異なる。

SSDSE-B-2026 は 統計センターの SSDSE 配布ページ から CSV を直接ダウンロードできます。 本サイトでは data/raw/SSDSE-B-2026.csv に配置している前提でコードを書いています。

🐍 Python 実装 — k近傍法 を SSDSE-B-2026 で動かす

以下のコードは最小限の構成です。 pd.read_csv('data/raw/SSDSE-B-2026.csv') を直書きしているので、 同じ階層に CSV を置けばそのまま動きます。 変数化しないのは、 初学者が「パスをどこに書くべきか」で迷わないようにするためです。

# k近傍法 を SSDSE-B-2026 で確かめる最小コード
import pandas as pd
import numpy as np

# 1) SSDSE-B-2026(教育用標準データセット)を読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
print('shape:', df.shape)        # (564, 112) — 47 都道府県 × 6 年度
print('cols head:', list(df.columns[:8]))

# 2) 直近年度(2023 年度)に絞る
df23 = df[df['年度'] == 2023].copy()
print('rows in 2023:', len(df23))

# 3) k近傍法 を動かすために必要な列だけ取り出す
y = df23['合計特殊出生率'].astype(float)
x = df23['総人口'].astype(float)
print('y stats:', y.describe().round(3).to_dict())
print('x stats:', x.describe().round(0).to_dict())

# 4) k近傍法 の本処理(このページの主題)
#    — 具体実装は同カテゴリの個別ページにも掲載
print('---- k近傍法 結果 ----')
print('mean y:', y.mean().round(3), '/ std y:', y.std().round(3))
print('mean x:', x.mean().round(0), '/ std x:', x.std().round(0))
print('corr(x, y):', y.corr(x).round(3))

うまく動かないときは ①data/raw/SSDSE-B-2026.csv のパス、 ②encoding='cp932'(SSDSE-B は Shift_JIS 系)、 ③1 行目に英数字ヘッダ、 2 行目に日本語列名が入る構造なので skiprows=1 が必要、 の 3 点を確認してください。

⚠️ よくある落とし穴 — k近傍法 で初学者がやりがちなミス

この用語を実務で使うときにつまずきやすい点を、 失敗パターン別に整理しました。 1 度経験すれば回避できるものばかりですが、 先に知っておくと事故が大幅に減ります。

❌ スケーリングを忘れる
特徴量の単位が違うと距離計算が歪む(人口は百万、 気温は10台)。 必ず StandardScaler。
❌ $k$ を 1 にする
$k=1$ は過学習。 $k$ が大きいと過平滑。 交差検証で最適 $k$ を選ぶ。
❌ 高次元で距離が無意味
次元 100 超では距離がすべて近くなる(次元の呪い)。 次元削減を併用。
❌ 不均衡データ
多数派クラスばかり近隣に来る。 重み付き KNN を検討。
🛡 防御策まとめ:「適用条件の確認 → 適切な前処理 → 結果と前提のペア記述」の 3 ステップを習慣にすれば、 ここに挙げた失敗の大半は回避できます。

🌐 関連手法・派生 — k近傍法 の周辺地図

k近傍法 と一緒に覚えておくと選択肢が広がる関連手法。 状況によって使い分けが必要なので、 それぞれの強みと弱みを 1 行で言えるようにしておきましょう。

表中の各手法は本サイト内に個別ページが用意されているものが多いです。 興味を持った概念は、 横展開的に読むと体系的な理解が早く進みます。