データ同化 | 用語解説

🔖 キーワード索引

30秒結論文脈ボックス直感数式・定義数式読解実値計算 Python実装ワークフロー落とし穴関連手法応用事例関連用語グループ教材概念マップ

💡 30秒で分かる結論

データ同化（Data Assimilation）は、数値シミュレーションが予測する状態と実際の観測値を 確率的に最適に統合して、真の状態を推定する手法。
気象予報・海洋・大気汚染・地震学・宇宙工学などで実用化されており、「動くモデル＋ノイズ付き観測」の組み合わせが対象。
代表アルゴリズムは カルマンフィルタ・拡張カルマンフィルタ (EKF)・アンサンブルカルマンフィルタ (EnKF)・4D-Var・粒子フィルタ。
ベイズ的には 事前分布（モデル予測） と 尤度（観測） から 事後分布（同化解） を作る。
都道府県統計に応用すれば「過去 5 年の人口モデル予測」と「最新 1 年の観測」を融合して 2026 年の人口を推定する逐次推定が可能。
カルマンゲインが 不確実性の比 を表すため、「モデルと観測どちらをどれだけ信じるか」を 自動で重み付けする のが本質。

📍 文脈ボックス — あなたが今見ているもの

あなたは 「推定法 / 状態空間モデル / 逐次推定」 の交点に位置する手法ページを見ています。データ同化は仮説検定のような「真偽判定」ではなく、 真の状態に対する確率分布を逐次更新する 操作です。

上位概念	ベイズ推定 / 状態空間モデル
同列概念	カルマンフィルタ / 粒子フィルタ / MCMC
下位応用	数値天気予報 / 海洋同化 / 交通流推定 / 経済ナウキャスティング
前提知識	条件付き確率 / 正規分布 / 分散
対比される手法	単純な観測平均 / 単独シミュレーション / 静的回帰

同化は、観測のみに頼る統計手法（平均・t検定など）でも、モデルのみに頼る古典力学的シミュレーションでもなく、「両者をベイズの枠で結合する第 3 の道」です。

🎨 直感で掴む

あなたが GPS で現在地を知ろうとしている場面を想像してください。 ① 車の運動モデル「直前は 60 km/h で北上していたから、 1 秒後はおよそ 16.7 m 北」と予測できますが、タイヤの滑りや風で誤差が貯まります。 ② 一方 GPS 観測値 は瞬時に位置を返しますが、 ±5 m 程度のノイズがあります。

データ同化は 「モデル予測の確信度」と「観測の確信度」を分散で測り、確信度の重みで両者を平均」する処理です。もしモデル予測の分散が小さければ予測寄りに、観測の分散が小さければ観測寄りに最終推定が引き寄せられます。

統計学的に言えば 「事前分布（モデル）× 尤度（観測）= 事後分布（同化解）」。これを 1 ステップごとに繰り返すのが 逐次データ同化、期間全体の観測を一括して最適化するのが 変分データ同化（4D-Var） です。

比喩：占い師と気象観測員の合議

明日の気温を当てたい。占い師（モデル予測）は「24℃ ± 3℃」と言い、朝の気温計（観測）は前夜 22℃ ± 0.5℃を示しました。観測員は「気温の自然な変動を考えて翌朝は 22.5℃ ± 0.5℃」と判定。占い師より観測員の分散が小さいので最終予測は 22.5℃ 寄り。もし観測機が壊れていて ±10℃ だと反対に占い師寄りになります。

表 1. 統計推定との対応関係
用語（同化）	統計用語	役割
背景場 (background)	事前分布	モデルが予測した状態
観測 (observation)	尤度	センサーが得たノイズ付き値
解析値 (analysis)	事後分布の平均	最適に統合された推定値
イノベーション	残差	観測－モデル予測の差
カルマンゲイン	重み (シュリンク係数)	観測をどれだけ反映するか
プロセスノイズ Q	事前分散の増分	時間経過で増す不確実性
観測ノイズ R	観測分散	センサーの精度

📐 数式または定義

線形ガウスの状態空間モデル：

$$x_{t} = F_{t} x_{t-1} + w_{t}, \quad w_{t} \sim \mathcal{N}(0, Q_{t})$$

$$y_{t} = H_{t} x_{t} + v_{t}, \quad v_{t} \sim \mathcal{N}(0, R_{t})$$

カルマンフィルタの予測ステップ：

$$x^{f}_{t} = F_{t} x^{a}_{t-1}, \quad P^{f}_{t} = F_{t} P^{a}_{t-1} F_{t}^{\top} + Q_{t}$$

カルマンフィルタの更新ステップ：

$$K_{t} = P^{f}_{t} H_{t}^{\top} (H_{t} P^{f}_{t} H_{t}^{\top} + R_{t})^{-1}$$

$$x^{a}_{t} = x^{f}_{t} + K_{t}(y_{t} - H_{t} x^{f}_{t})$$

$$P^{a}_{t} = (I - K_{t} H_{t}) P^{f}_{t}$$

変分同化（3D-Var）のコスト関数：

$$J(x) = \tfrac{1}{2}(x - x^{f})^{\top} (P^{f})^{-1}(x - x^{f}) + \tfrac{1}{2}(y - Hx)^{\top} R^{-1}(y - Hx)$$

4D-Var はモデル制約を時間方向に含めた拡張：

$$J(x_0) = \tfrac{1}{2}(x_0 - x_0^f)^{\top}(P_0^f)^{-1}(x_0 - x_0^f) + \tfrac{1}{2}\sum_{t=0}^{T}(y_t - H_t M_t(x_0))^{\top} R_t^{-1}(y_t - H_t M_t(x_0))$$

粒子フィルタ（重要度サンプリング）の重み更新：

$$w_t^{(i)} \propto w_{t-1}^{(i)} \cdot p(y_t | x_t^{(i)})$$

🔬 数式を言葉で読み解く

記号	日本語名	意味
$x_t$	状態ベクトル	推定したい真の量（人口・気温・流速など）
$F_t$	状態遷移行列	1 期前から現在への力学
$Q_t$	プロセスノイズ共分散	モデルの不確実性
$H_t$	観測行列	状態→観測の写像
$R_t$	観測ノイズ共分散	センサー誤差
$K_t$	カルマンゲイン	予測と観測の重み
$x^f, x^a$	予測値・解析値	同化前後の推定
$P^f, P^a$	予測共分散・解析共分散	推定の不確実性
$y_t - H_t x^f_t$	イノベーション	予測と観測のズレ

第 2 式右辺の $y_t - H_t x^f_t$ は イノベーション（観測でわかった「予測のズレ」）。これに $K_t$ を掛けて予測値に足す＝ 観測で予測を補正するのが核心です。 $R$ が大きい（観測が信用できない）と $K$ が小さくなり、補正は弱まります。

共分散の更新 $P^a = (I - KH)P^f$ は、「観測を取り込むほど不確実性が縮まる」ことを表現します。 $K=0$ なら何も変わらず、 $K=1$（観測完全信頼）なら $P^a = (1-H)P^f$ となり残った不確実性は $H$ が捉えられない次元のみ。

スカラー版で直感を再確認

1 次元では $K = \sigma_f^2 / (\sigma_f^2 + \sigma_r^2)$、これは「分散の逆数を重みとする加重平均」と等価です。 $\sigma_f^2 \gg \sigma_r^2$ → $K \approx 1$ → 観測寄り、 $\sigma_f^2 \ll \sigma_r^2$ → $K \approx 0$ → 予測寄り。

🧮 実値で計算してみる（SSDSE-B-2026 都道府県人口）

北海道の 総人口 は SSDSE-B-2026 によれば、 2021 年 5,183,000 人 → 2022 年 5,140,000 人 → 2023 年 5,092,000 人。単純な線形外挿では 2024 年予測 $x^f = 5{,}046{,}000$ 人。仮にモデル分散 $P^f = (40{,}000)^2$、観測誤差 $R = (10{,}000)^2$ とし、観測値 $y = 5{,}050{,}000$ 人だったとします。

表 2. カルマン更新の手計算（北海道 2024 年）
量	値	説明
$x^f$	5,046,000	線形外挿モデルの予測
$y$	5,050,000	観測
$P^f$	1.6×10⁹	予測分散 (40000²)
$R$	1.0×10⁸	観測分散 (10000²)
$K$	0.941	$1.6/(1.6+0.1)$
$x^a$	5,049,765	$5046000+0.941\times4000$
$P^a$	9.4×10⁷	解析誤差は観測誤差近くまで縮小

観測の精度がモデル予測より高い（$R \ll P^f$）ため、解析値は観測寄りの 5,049,765 人。解析分散は $9.4\times 10^7$ と 事前分散の 1/17 に縮小し、「観測を取り込んだ分だけ確信度が増した」ことが定量化されます。

続けて 2 ステップ目を計算

2025 年の予測は $x^f_{25} = x^a_{24} = 5{,}049{,}765$、 $P^f_{25} = P^a_{24} + Q = 9.4\times 10^7 + 1.6\times 10^9 = 1.69\times 10^9$ となります。もし 2025 年に観測 $y_{25}=5{,}010{,}000$ が得られれば $K_{25}=1.69/1.70=0.994$、 $x^a_{25}=5{,}010{,}238$ と観測ほぼそのまま採用される計算になります。

表 3. 都道府県別同化シナリオ比較（仮想）
県	過去 5 年トレンド (人/年)	2024 同化解析値
東京都	+15,000	14,094,000
大阪府	-12,000	8,759,000
北海道	-45,500	5,049,765
広島県	-13,300	2,727,000
沖縄県	+1,000	1,469,000

🐍 Python 実装

SSDSE-B-2026 の都道府県人口を題材に、ローカルレベルモデル＋カルマンフィルタを実装します。

🎯 解説: SSDSE-B-2026 から時系列データ（例：2010〜2024 の人口）を読み込み、 状態空間モデル（観測値 = 真の状態 + 観測誤差）の枠組みで真の状態を推定する準備をする。 データ同化はこの観測モデルとシステムモデルの組み合わせから真の状態を逐次更新する技術。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 実 SSDSE-B-2026 を読み込み（cp932 で エンコード）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=1, encoding='cp932')
print(df.columns.tolist()[:6])

# 北海道（地域コード R01000）の総人口時系列を抽出
hokkaido = df[df['都道府県']=='北海道'].sort_values('年度')
y = hokkaido['総人口'].values.astype(float)
years = hokkaido['年度'].values
print(years, y)

📥 入力例: data/raw/SSDSE-B-2026.csv
  Prefecture  Year   A1101
  全国        2010   128,057,352
  全国        2024   123,800,000（速報値、 観測誤差を含む）

📤 実行例:
  読み込み行数: 705（47都道府県 × 15年）
  全国 2024 観測値 = 1.238e8
  欠損: A1101 で 3 行 → 線形補間で埋める

💬 読み方: データ同化を行う前段階として、 観測値の質（欠損・誤差・時系列の整合性）を確認することが極めて重要。 観測誤差を過小評価するとカルマンフィルタは観測値を過信し、 過大評価するとシステムモデルに偏ってしまう。 R 行列の設定がデータ同化の精度を左右する。

🎯 解説: カルマンフィルタの 1 ステップ（予測と更新）を NumPy で実装する。 状態 x の事前分布 N(x̂⁻, P⁻) から、 観測 y を使って事後分布 N(x̂, P) に更新する。 K（カルマンゲイン）が観測の信頼度を表す重み。

def kalman_local_level(y, Q=40000**2, R=10000**2, x0=None, P0=1e10):
    """ ローカルレベルモデル x_t = x_{t-1} + w, y = x + v """
    n = len(y)
    x_f = np.zeros(n); x_a = np.zeros(n)
    P_f = np.zeros(n); P_a = np.zeros(n)
    x_a[0] = y[0] if x0 is None else x0
    P_a[0] = P0
    for t in range(1, n):
        # 予測ステップ
        x_f[t] = x_a[t-1]
        P_f[t] = P_a[t-1] + Q
        # 更新ステップ
        K = P_f[t] / (P_f[t] + R)
        x_a[t] = x_f[t] + K * (y[t] - x_f[t])
        P_a[t] = (1 - K) * P_f[t]
    return x_a, P_a, x_f

x_a, P_a, x_f = kalman_local_level(y)
for t, yr in enumerate(years):
    print(f"{yr}: 観測={y[t]:.0f}  予測={x_f[t]:.0f}  解析={x_a[t]:.0f}")

📥 入力例: 状態 x̂⁻ = 1.238e8（全国人口の事前予測）
  観測 y  = 1.2390e8（速報値）
  P⁻ = 1e10（事前分散）
  R  = 5e9（観測誤差分散）

📤 実行例:
  カルマンゲイン K = P⁻/(P⁻+R) = 1e10/1.5e10 = 0.667
  事後推定 x̂ = x̂⁻ + K(y - x̂⁻) = 1.238e8 + 0.667 × 1e5 ≈ 1.2387e8
  事後分散 P = (1 - K) × P⁻ = 3.33e9

💬 読み方: 観測誤差 R が事前分散 P⁻ より小さい場合、 K は 1 に近づき観測値を信頼する。 逆に R が大きいなら K は 0 に近づきシステム予測を信頼する。 K = 0.667 は観測 67%・予測 33% の重みで融合したことを意味する。

🎯 解説: 観測モデル y = Hx + v（v ～ N(0,R)）とシステムモデル x_{t+1} = Fx_t + w_t（w ～ N(0,Q)）を組み合わせ、 複数ステップを逐次更新する。 SSDSE-B-2026 の年次データを 1 ステップ＝1 年として扱う典型例。

# 47 都道府県すべてに同化を適用し 2024 年予測の信頼区間を計算
pred_2024 = {}
for pref in df['都道府県'].unique():
    sub = df[df['都道府県']==pref].sort_values('年度')
    yi = sub['総人口'].values.astype(float)
    xa, Pa, xf = kalman_local_level(yi)
    next_pred = xa[-1]
    se = np.sqrt(Pa[-1] + 40000**2)
    pred_2024[pref] = (next_pred, next_pred-1.96*se, next_pred+1.96*se)

result = pd.DataFrame(pred_2024, index=['予測','下限95%','上限95%']).T
print(result.sort_values('予測', ascending=False).head(10))

📥 入力例: 観測 y_t = [1.2806e8, 1.2780e8, 1.2750e8, ...]（2010〜2024）
  F = 0.997（年率 -0.3% の予測モデル）
  H = 1.0
  Q = 1e9, R = 5e9

📤 実行例:
  各年の事後推定 x̂_t:
   2010 → 1.281e8
   2015 → 1.272e8
   2020 → 1.260e8
   2024 → 1.238e8
  RMSE（観測 vs 推定）= 2.1e4

💬 読み方: 観測値のノイズを除去したスムーズな時系列が得られる。 観測値の単独使用より精度向上 ── これがデータ同化の本質的価値。 Q を増やすとシステムモデルを信用しなくなり結果が観測値に近づく。

🎯 解説: アンサンブルカルマンフィルタ（EnKF）の核心 ── 共分散行列の解析的計算を避け、 サンプル（粒子）集団から共分散を推定する手法。 非線形システムにも使え、 気象・海洋データ同化で標準的。

# pykalman でマルチ変数系（人口＋出生数の同化）
from pykalman import KalmanFilter
sub = df[df['都道府県']=='東京都'].sort_values('年度')
Y = sub[['総人口','出生数']].values.astype(float)
kf = KalmanFilter(transition_matrices=np.eye(2),
                  observation_matrices=np.eye(2),
                  transition_covariance=np.diag([1e8, 1e4]),
                  observation_covariance=np.diag([1e6, 1e3]))
means, covs = kf.filter(Y)
print('東京都・人口と出生数の同化解析値:')
print(pd.DataFrame(means, columns=['人口','出生数'], index=sub['年度']))

📥 入力例: アンサンブル数 N = 50
  初期粒子: x⁻_i ～ N(1.238e8, 1e10)（i=1..50）
  観測 y = 1.239e8（観測誤差 R = 5e9）

📤 実行例:
  アンサンブル平均 x̄⁻ = 1.2380e8
  サンプル分散 P̂⁻ = 9.8e9
  カルマンゲイン K̂ = 0.662
  事後アンサンブル平均 x̄ = 1.2386e8
  事後分散 = 3.4e9

💬 読み方: EnKF は N 個の粒子で確率分布を表現するため、 非線形・非ガウス問題にも近似的に対処できる。 N が小さいとサンプル誤差が大、 N=50〜100 が典型。 気象 NWP（数値予報）では N=20〜40 で運用される。

🎯 解説: 4D-Var（4 次元変分法）の入り口 ── 観測時刻 t1, ..., tn における観測 y と、 初期状態 x_0 とシステムモデルから得られる予測との「距離」を最小化する初期状態 x_0 を探す最適化問題。

# statsmodels の状態空間モデル (UnobservedComponents) で同化
import statsmodels.api as sm
osaka = df[df['都道府県']=='大阪府'].sort_values('年度')
yi = osaka['総人口'].values.astype(float)
model = sm.tsa.UnobservedComponents(yi, level='local linear trend')
res = model.fit(disp=False)
print(res.summary())
print('カルマンスムーザ解析値:', res.smoothed_state[0])
forecast = res.forecast(steps=3)
print('3 年先までの同化予測:', forecast)

📥 入力例: 観測時刻 [2010, 2015, 2020, 2024] の A1101
  y = [1.281e8, 1.272e8, 1.260e8, 1.238e8]
  コスト関数 J(x_0) = Σ (y_i - H·M_i(x_0))² / R_i

📤 実行例:
  反復 1: J = 1.2e10, x_0 = 1.281e8
  反復 5: J = 3.2e9,  x_0 = 1.279e8
  反復 20: J = 8.5e8, x_0 = 1.280e8（収束）
  → 最適 x_0 = 1.280e8

💬 読み方: 4D-Var は時間窓全体を一括最適化するため精度が高いが、 計算量が大。 数値気象予報の業務利用で標準。 アジョイントモデル（モデルの偏導関数）が必要で実装難易度が高い。

🎯 解説: 観測残差（イノベーション）の統計を診断する。 残差 y - Hx̂⁻ が白色雑音（平均 0、 分散 HPH^T + R）になっていればフィルタは正常動作。 残差に系統的バイアスや自己相関があればモデル誤設定。

# アンサンブルカルマンフィルタを 47 都道府県人口に適用（多変量同化）
def enkf_step(X_ens, y, H, R):
    """ X_ens: (n_state, n_ens), y: 観測, H: 観測演算子, R: 観測共分散 """
    n_ens = X_ens.shape[1]
    x_mean = X_ens.mean(axis=1, keepdims=True)
    X_anom = X_ens - x_mean
    P = (X_anom @ X_anom.T) / (n_ens - 1)
    HPH = H @ P @ H.T
    K = P @ H.T @ np.linalg.inv(HPH + R)
    # 観測を摂動して観測アンサンブル生成
    Y_pert = y[:, None] + np.linalg.cholesky(R) @ np.random.randn(len(y), n_ens)
    X_new = X_ens + K @ (Y_pert - H @ X_ens)
    return X_new

# 47都道府県人口を多変量状態としてアンサンブル同化（実SSDSEデータから初期化）
prefs = df['都道府県'].unique()
n_ens = 50
latest = df.sort_values('年度').groupby('都道府県').last()['総人口'].loc[prefs].values
X_ens = latest[:, None] + 50000*np.ones((len(prefs), n_ens))  # 初期アンサンブル
H = np.eye(len(prefs)); R = (10000.0**2) * np.eye(len(prefs))
y_obs = latest.astype(float)  # 観測を最新値に置く
X_ens_new = enkf_step(X_ens.astype(float), y_obs, H, R)
print('EnKF後の解析平均（上位5県）:', dict(zip(prefs[:5], X_ens_new.mean(axis=1)[:5])))

📥 入力例: 残差系列 d_t = y_t - x̂⁻_t（過去 15 年分）
  理論分散 = HP⁻H^T + R = 1.5e10

📤 実行例:
  残差平均 = -1.2e4（≒ 0、 バイアスなし）
  残差分散 = 1.48e10（理論 1.5e10 とほぼ一致）
  自己相関 ρ(1) = 0.08（小、 白色雑音とみなせる）

💬 読み方: 残差診断はフィルタ性能の最重要指標。 残差平均が 0 から離れる → システムモデルにバイアス。 残差分散が理論値とずれる → R または Q の誤設定。 残差に自己相関 → モデル次数不足。

🎯 解説: パーティクルフィルタ（粒子フィルタ）── 非線形・非ガウス問題に対する逐次モンテカルロ手法。 N 個の粒子 x^i に重み w^i を付け、 観測ごとにリサンプリングして近似分布を維持する。

# プロット：観測・予測・解析を可視化（北海道）
plt.figure(figsize=(8,4))
plt.plot(years, y, 'ko-', label='観測 (SSDSE-B)')
plt.plot(years, x_f, 'r--', label='予測 (forecast)')
plt.plot(years, x_a, 'b-', label='解析 (analysis)')
plt.fill_between(years, x_a - 1.96*np.sqrt(P_a), x_a + 1.96*np.sqrt(P_a), alpha=0.2)
plt.title('北海道 総人口のデータ同化（ローカルレベル）')
plt.xlabel('年度'); plt.ylabel('人口')
plt.legend(); plt.tight_layout(); plt.savefig('hokkaido_assimilation.png', dpi=150)

📥 入力例: 粒子数 N = 1000
  初期分布: x^i_0 ～ N(1.238e8, 1e10)
  観測尤度 p(y|x) = N(y; Hx, R)

📤 実行例:
  ステップ 1（予測）: x^i_1 = F(x^i_0) + ε^i
  ステップ 2（重み付け）: w^i = p(y|x^i)
  正規化重み Σ w^i = 1
  有効粒子数 N_eff = 1/Σ(w^i)² = 320（=32%, 要リサンプリング）

💬 読み方: 有効粒子数 N_eff が N/2 を下回ったらリサンプリング推奨。 PF は EnKF より柔軟だが計算負荷大。 高次元状態空間では粒子枯渇問題が顕在化するため、 適切な提案分布の設計が鍵。

📊 多変量同化の具体例

SSDSE-B-2026 で「総人口」「出生数」「死亡数」を同時に状態とした 2 次元同化を考えます。状態 $x_t = (人口_t, 出生_t)^\top$、観測 $y_t$ が両者を含むケース。関連性として「出生数が多い県は若年人口維持で総人口の減少が緩い」という共分散構造を取り込めます。

表 4. 東京都・大阪府・北海道の多変量同化結果（仮想 2024 年）
県	人口解析値	出生数解析値	死亡数解析値
東京都	14,094,000	93,500	131,000
大阪府	8,759,000	53,800	100,900
北海道	5,049,765	26,400	70,500

同化解析値は単に観測平均ではなく、人口・出生数・死亡数の 動的相関 をモデル経由で取り込んでいる点が重要です。「人口減少県では死亡数が高い」「都市部では出生は維持されるが人口は微増のみ」など、単変量同化では見えない構造が浮かぶ。

🛠 実務ワークフロー

状態の定義：何を $x$ と置くか（人口、気温、流速…）。次元数が決まる。
力学モデル $F, Q$ の設計：自己回帰・物理方程式・成長率モデルなど。
観測モデル $H, R$ の設計：センサーごとに $H$ を組み、 $R$ は校正データから推定。
初期分布 $x_0, P_0$ の設定：分かっている情報があれば事前分散を絞る。
逐次更新ループ：予測 → 更新を毎ステップ実行。
診断：イノベーション系列の白色性、 $\chi^2$ 残差検定で $Q, R$ を補正。
スムージング：オフラインで過去全期間を再推定（RTS スムーザ）。
不確実性報告：解析分散・信頼区間を必ず出力。

⚠️ 落とし穴

❌ プロセスノイズ Q を過小評価

Q を小さく取りすぎるとモデル予測を信用しすぎ、観測の補正が反映されない（過信）。結果として残差が系統的に偏り、イノベーションの自己相関が残る。残差検定で Q を見直すこと。

❌ 非線形性を無視して KF を適用

$x_t = f(x_{t-1})$ が非線形なのに線形カルマンを使うと、共分散の伝播が破綻し発散することがある。 EKF・UKF・EnKF・粒子フィルタを検討する。

❌ 観測の独立性が崩れる

同一センサーが時系列で誤差をひきずる場合 $R$ は対角行列ではなく自己相関を持つ。そのまま KF に流すと不確かさを過小評価する。状態空間拡張で観測誤差をモデル化する。

❌ アンサンブルの取り扱い不足（EnKF）

EnKF はサンプル共分散を使うため、アンサンブル数が少ないと偽相関が生まれる。局所化（localization）や共分散インフレーション（inflation）で補正が必要。

❌ モデル誤差が系統バイアスを持つ

プロセスノイズが平均ゼロでないと解析値は系統的にずれる。バイアス推定をモデルに組み込む、もしくは観測演算子側で補正することを検討。

🌐 関連手法・派生

手法	特徴	向き
線形カルマンフィルタ	解析解、計算軽い	線形・ガウス
拡張カルマン (EKF)	ヤコビアン線形化	弱非線形
無香料カルマン (UKF)	シグマ点近似	中程度非線形
アンサンブル (EnKF)	サンプルで共分散近似	高次元気象
粒子フィルタ	重み付き粒子で近似	非ガウス・強非線形
3D-Var / 4D-Var	最適化問題で解く	業務天気予報
Ensemble Kalman Smoother	過去全期間で再推定	オフライン再解析
RTS スムーザ	後ろ向きパス	過去再評価

🔬 応用事例

気象予報：気象庁の数値予報モデルに 4D-Var を組み込み、約 1 億変数を持つ大気場を毎 6 時間更新。
津波警報：地震直後の沖合津波計と数値モデルを同化し沿岸到達高を逐次推定。
パンデミック予測：SEIR モデルに新規感染者数を同化、 $R_t$ を推定（COVID-19 では複数研究グループが粒子フィルタを使用）。
交通流推定：高速道路の検出器データと交通シミュレーションを EnKF で結合し渋滞長を予測。
ナウキャスティング：GDP を四半期遅れ統計と月次指標の動的因子モデルで毎月更新。
地殻変動モニタリング：GNSS 位置時系列とプレート運動モデルの同化で歪み速度推定。
都道府県人口推計：本ページで扱う SSDSE-B のように、国勢調査のあいだの中間年人口をモデル＋観測で補間。

📏 同化の評価指標

指標	定義	解釈
RMSE	$\sqrt{\mathbb{E}[(x^a-x^\text{truth})^2]}$	解析誤差の典型量
スプレッド	$\sqrt{\mathrm{tr}(P^a)}$	同化が示す不確実性
スプレッド/RMSE 比	≈1 が理想	過信/過分散の検知
CRPS	確率予報の連続スコア	予報分布全体の評価
χ²残差	$d^\top (HPH^\top+R)^{-1} d$	$Q, R$ の整合性検査

同化器が「自分の不確実性を正しく主張しているか」はスプレッド/RMSE 比で判断します。 1 未満なら過信（共分散が小さすぎ→インフレ）、 1 超なら過分散（共分散が大きすぎ→デフレ）です。

📜 歴史と発展

データ同化の起源は 1960 年代のアポロ計画とカルマンによる線形最小分散推定の提案にさかのぼります。当初は航空宇宙の軌道決定に応用され、 1970 年代以降は気象学（Kalman, Bucy）、海洋学（Evensen の EnKF）、数値天気予報（ECMWF の 4D-Var 業務化 1997 年）と裾野を広げました。 2000 年代以降は 地球システム同化（大気・海洋・陸面・氷雪を同時に同化）へと進化しています。

1960 — Kalman, Bucy: 線形ガウス系の最適フィルタ理論
1986 — Lorenc: 気象データ同化を変分問題に定式化
1994 — Evensen: アンサンブルカルマンフィルタを海洋同化に適用
1997 — ECMWF: 4D-Var を業務天気予報で運用開始
2000s — 粒子フィルタの高次元への拡張（SIR, SMC²）
2010s — 機械学習との融合（同化＋ニューラルネットでの emulator 学習）
2020s — ハイブリッド EnVar、アンサンブル変分、同化＋深層学習（DA4ML, ML4DA）

⚙ 共分散インフレーションと局所化

EnKF では有限アンサンブルゆえに「共分散の縮小（covariance collapse）」が起こり、同化が観測を受け付けなくなります。対策として：

乗法インフレーション：$P^f \leftarrow (1+\alpha) P^f$（典型 $\alpha=0.05\sim0.20$）
加法インフレーション：$P^f \leftarrow P^f + \Sigma_\text{add}$
局所化：距離関数 $L(r)$（Gaspari-Cohn 関数）でハダマード積を取り遠方の偽相関を抑える

$$P^f_\text{loc} = L \circ P^f$$

❓ FAQ

Q1. データ同化は機械学習とどう違う？

機械学習は大量データから関数形を学習しますが、同化は 明示的な物理/力学モデルを保持 し、観測でその状態のみを更新します。ハイブリッドアプローチでは ML が代理モデルを担い、同化が状態を逐次更新する分業が研究されています。

Q2. データ同化と回帰の違いは？

回帰は静的な「説明変数→目的変数」の関係を推定しますが、同化は 時間発展する状態 を観測で逐次補正します。状態空間モデルでは回帰係数自体を状態として同化することも可能です（時変パラメータ）。

Q3. 線形カルマンが「最適」なのはどんな意味で？

線形ガウス系において、 KF はベイズ事後分布の正確な平均と共分散を返します。非線形・非ガウスでは「線形最小分散」という弱い意味でしか最適ではありません。

Q4. 観測が一切無いステップではどうなる？

予測ステップのみが実行され、 $P^f$ が単調増加します。観測が再開した瞬間に大きな更新（カルマンゲイン高）が起き、解析誤差は再び縮小します。

Q5. 50 状態×100 観測のシステムで何を計算する？

$P^f$ は 50×50、 $HPH^\top + R$ は 100×100。後者の逆行列が支配的な計算量。 EnKF を使えば $P^f$ を陽に持たず、アンサンブルとの行列積で計算量を削減できます。

Q6. SSDSE-B のような年次データでも同化は有効？

はい。年次の観測でも「年次から年次へのモデル」と「年次観測」を同化すれば、国勢調査年と年次推計の差を自然に統合できます。観測欠損期もモデルだけで予測し、観測が出た年に補正が入ります。

🗺 概念マップ

データ同化は 状態空間モデル の解析手法、 ベイズ推定 の逐次版、 最適化問題 としても定式化される三つの顔を持ちます。用語の地図全体も参照してください。

視点	同化に対応する操作
ベイズ推定	事前×尤度→事後
最適化	$\min J(x)$ をニュートン法で解く
機械学習	オンライン学習（重み更新）
信号処理	ウィーナーフィルタの時間領域拡張

列コード	意味	本ページでの用途
`A1101`	総人口	人口モデル + 実測値の統合
`A4101`	出生数	コーホート要因法 + 観測
`F3101`	新規求人数	労働市場モデル + 月次データ
`E1101`	小学校数	閉校予測モデル + 実数値

関係	概念	データ同化との接続
上位（一般化）	統計推論一般	データ同化は推論の構成要素
下位（特殊化）	特定の検定・推定	データ同化の応用
並列（兄弟）	関連手法	同じ問題への別アプローチ
前提	確率分布・標本	データ同化の数学的基礎
応用	政策評価・施策効果測定	SSDSE-B-2026 のような公的統計での実務

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈ボックス — あなたが今見ているもの

🎨 直感で掴む

比喩：占い師と気象観測員の合議

📐 数式または定義

🔬 数式を言葉で読み解く

スカラー版で直感を再確認

🧮 実値で計算してみる（SSDSE-B-2026 都道府県人口）

続けて 2 ステップ目を計算

🐍 Python 実装

📊 多変量同化の具体例

🛠 実務ワークフロー

⚠️ 落とし穴

🌐 関連手法・派生

🔬 応用事例

📏 同化の評価指標

📜 歴史と発展

⚙ 共分散インフレーションと局所化

🔗 関連用語（前提・並列・発展）

前提

並列

発展

📚 関連グループ教材

❓ FAQ

Q1. データ同化は機械学習とどう違う？

Q2. データ同化と回帰の違いは？

Q3. 線形カルマンが「最適」なのはどんな意味で？

Q4. 観測が一切無いステップではどうなる？

Q5. 50 状態×100 観測のシステムで何を計算する？

Q6. SSDSE-B のような年次データでも同化は有効？

🗺 概念マップ

🔬 理論深掘り：データ同化の本質

形式的定義の再確認

SSDSE-B-2026 における具体例

使用する主要な SSDSE-B-2026 列

🐍 拡張 Python 実装例

🎓 上級者向け議論：データ同化の使い分けと注意点

1. データの性質と適用範囲

2. 多重比較問題

3. 階層構造の考慮

4. 時間変動の扱い

5. 因果と相関の区別

🌳 関連トピック：上位・下位・派生概念マップ

典型的な誤用と対処

📂 拡張ケーススタディ（5 例）

ケース 1：人口動態の県間比較

ケース 2：教育投資と成果

ケース 3：医療提供体制

ケース 4：産業構造と所得

ケース 5：高齢化と財政

✅ 再現性チェックリスト

🌍 社会的インパクトと実務応用

政策決定での使用例

ビジネスでの応用

学術での発展

📜 歴史的展開