ドメイン知識 | 用語解説

🔖 キーワード索引

このページ内のセクションへ素早く飛べます（クリックで該当箇所へジャンプ）：

💡 30秒結論 📍 文脈 🎨 直感 📐 数式・定義 🔬 記号読み解き 🧮 SSDSE実値計算 🐍 Python実装 ⚠️ 落とし穴 🌐 関連手法 🔗 関連用語 📚 関連グループ ❓ FAQ

📍 あなたが今見ているもの

「データだけで分析するな」とよく言われるのは、ドメイン知識なしでは外れ値・因果・解釈を間違うから。ドメイン専門家との協働がデータサイエンスの核心。

本ページは ドメイン知識（Domain Knowledge） を、ジャストインタイム型データサイエンス教育の文脈で 12 のセクションに分けて解説します。上から順に読まなくても、「🔖 キーワード索引」から必要箇所だけ拾い読みすることもできます。

🎨 直感で掴む — ドメイン知識とは何者か

ドメイン知識（Domain Knowledge）は、言葉だけ眺めても「で、何が嬉しいの？」となりがちです。ここでは具体例で 『なぜ必要か / どう役立つか』 を一気に体感しましょう。

「データだけで分析するな」とよく言われるのは、ドメイン知識なしでは外れ値・因果・解釈を間違うから。ドメイン専門家との協働がデータサイエンスの核心。

場面	ドメイン知識が登場する例	何が分かるか
論文の Methods 節	「ドメイン知識を用いて分析した」	手法の前提と限界が文脈に乗る
実務レポート	「ドメイン知識の観点で評価」	意思決定の根拠が明確化
教育・学習	SSDSE-B-2026 を題材に演習	実データで本物の感覚が得られる
政策・社会	リテラシー分野で標準的に登場	EBPM や DX の議論に直結

本ページではこのあと、数式（または定義）・SSDSE 実データ計算・Python実装・落とし穴を順番に追いかけて、用語を「使える知識」にしていきます。

📐 数式・定義

ドメイン知識は概念的定義が中心ですが、ジャストインタイム教育の観点からは「関連量のなかで何を計算しているか」を式で押さえると理解が深まります。代表的に使われる数式は：

$$ \text{基本量}_{domain-knowledge} = f(\text{入力データ}, \text{前提}, \text{パラメータ}) $$

定義式の一般形：

$$ Q = \frac{1}{n} \sum_{i=1}^{n} g(x_i) $$

ここで $g(\cdot)$ は用語に応じた評価関数（カウント、平均、比、オッズなど）。具体形は次セクション「🔬 記号読み解き」で確認します。

🔬 数式・定義を「言葉」で読み解く

先ほどの数式・定義に出てきた記号や概念を、一つずつ確認します。とくにドメイン知識の文脈で意味を取り違えやすい部分を強調します。

記号	意味と注意点
$\bar{x}$	標本平均。 $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$
$\sigma$（または $s$）	標準偏差（または標本標準偏差）。ばらつきの代表指標
$n$	標本サイズ（観測数）
$p$	p値、または比率。文脈で意味が変わる
$\alpha$	有意水準（通常 0.05）
$H_0, H_1$	帰無仮説と対立仮説

記号は手法ごとに少しずつ意味が違うため、論文・教科書を読むたびに『この本ではこの記号を何の意味で使っているか』を最初に確認するのが鉄則です。とくにドメイン知識関連の文献では、 ${\sigma}^2$（分散）と $s^2$（標本分散）の区別、 $n$ と $N$（標本サイズ vs 母集団サイズ）の混同に注意。

🧮 SSDSE-B 実値で計算してみる

SSDSE-B-2026（47都道府県・2023 年・125 項目）を題材に、ドメイン知識に関係する変数を実値で確認します。とくに東京・大阪・沖縄・秋田など特徴ある県を比較すると、用語の重みが体感できます。

都道府県	総人口（千人）	高齢化率（%）	TFR	有効求人倍率
東京	14,047	23.0	0.99	1.74
大阪	8,778	27.9	1.21	1.27
沖縄	1,468	23.5	1.60	0.96
秋田	930	38.6	1.18	1.51
全国平均	126,146	29.1	1.20	1.31

これらの値をドメイン知識の観点で読み解くと、都道府県間の格差・特徴・関係性が浮かび上がります。具体的な計算手順は次の「🐍 Python 実装」セクションで実演します。

🐍 Python 実装

以下はドメイン知識を SSDSE-B-2026 で扱うときの典型コード。 encoding='cp932' は政府統計の Shift-JIS 対応。 skiprows=1 は日本語ヘッダ行をスキップする定石。

① 基本パターン（読み込み・確認・主要列抽出）

import pandas as pd

# ドメイン知識 に関連する SSDSE-B-2026 分析の基本パターン
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
print(df.shape)            # (47, 125)
print(df.dtypes.head(10))
print(df.describe().T.head(10))

# 主要列にエイリアス
df['総人口']   = df.iloc[:, 2]
df['65歳以上'] = df.iloc[:, 14]
df['高齢化率'] = df['65歳以上'] / df['総人口'] * 100
print(df[['Prefecture','総人口','高齢化率']].head())

② 可視化テンプレ（matplotlib / seaborn）

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# ドメイン知識 の探索的データ分析（EDA）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)

# 主要変数を取り出して名前を分かりやすく
df['総人口']    = df.iloc[:, 2]
df['65歳以上']  = df.iloc[:, 14]
df['高齢化率']  = df['65歳以上'] / df['総人口'] * 100
df['TFR']      = df.iloc[:, 21]

# ヒストグラム
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
sns.histplot(df['高齢化率'], kde=True, ax=axes[0])
axes[0].set_title('高齢化率の分布（47都道府県）')
sns.histplot(df['TFR'], kde=True, ax=axes[1])
axes[1].set_title('TFRの分布')
plt.tight_layout()
plt.savefig('eda_distribution.png', dpi=120)

③ 前処理：欠損・外れ値・型変換

import pandas as pd
import numpy as np

# ドメイン知識 に関わる前処理の典型パターン
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)

# ① 欠損値の確認
print('欠損数:')
print(df.isna().sum().sort_values(ascending=False).head(10))

# ② 数値変換（カンマ・%除去 など）
def to_num(s):
    if isinstance(s, str):
        return float(s.replace(',', '').replace('%', ''))
    return s
df = df.applymap(to_num)

# ③ 外れ値検出（IQR）
q1 = df.quantile(0.25, numeric_only=True)
q3 = df.quantile(0.75, numeric_only=True)
iqr = q3 - q1
outlier_mask = ((df < q1 - 1.5*iqr) | (df > q3 + 1.5*iqr)).any(axis=1)
print('外れ値を含む行数:', outlier_mask.sum())

④ 検定・推定の最小例（scipy.stats）

import pandas as pd
from scipy import stats

# ドメイン知識 文脈での基本的な仮説検定
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932', skiprows=1)
df['aging']  = df.iloc[:, 14] / df.iloc[:, 2] * 100
df['region'] = df['Prefecture'].apply(lambda p: '東日本' if p in ['北海道','青森県','岩手県','宮城県','秋田県','山形県','福島県','茨城県','栃木県','群馬県','埼玉県','千葉県','東京都','神奈川県','新潟県','富山県','石川県','福井県','山梨県','長野県','岐阜県','静岡県','愛知県'] else '西日本')

east = df.loc[df['region']=='東日本', 'aging']
west = df.loc[df['region']=='西日本', 'aging']

t, p = stats.ttest_ind(east, west, equal_var=False)
print(f'東日本 平均高齢化率: {east.mean():.2f}%')
print(f'西日本 平均高齢化率: {west.mean():.2f}%')
print(f't = {t:.3f}, p = {p:.4f}')
print('判定:', '有意差あり' if p < 0.05 else '有意差なし')

※ より高度な例（クロス集計、機械学習、ベイズ推定）は data-literacy のグループ教材を参照。

⚠️ よくある落とし穴（7 件）

ドメイン知識に取り組むときに、学生・実務者・研究者がよく踏むワナをまとめました。該当しそうな項目があれば、自分の分析を見直してみてください。

❌ 1. 単位とスケールの混同

%・件数・千人・百万円 — 単位を明示せずに比較すると、まったく違うものを比べてしまう。グラフの軸ラベル、表のヘッダで単位を必ず示す。

❌ 2. 時点のズレ

2020 年と 2023 年のデータを混ぜると、コロナ前後の構造変化を見落とす。「2023年データ」と明記し、横断データなら時点を統一する。

❌ 3. 欠損値の暗黙除去

NaN を含む行を dropna() で除いた瞬間、 47県の標本が 30 県に減ることもある。何件落としたか必ず記録し、結果に与える影響を考える。

❌ 4. 外れ値の無視と過剰除去

東京・大阪・沖縄など特徴ある県は『外れ値』扱いされがちだが、実は本質的な情報を含む。 IQR で機械的に切るのではなく、ドメイン知識で判断。

❌ 5. 相関と因果の混同

2 変数が相関していても、一方が他方の原因とは限らない。共通の交絡因子（人口、産業構造、気候）を疑う。因果には RCT・差の差・操作変数法など別の道具が必要。

❌ 6. 有意性と効果量の混同

p < 0.05 は『偶然では説明しにくい』だけで『効果が大きい』ではない。効果量（Cohen's d、オッズ比など）と信頼区間を必ず併記する。

❌ 7. サンプル数の都合主義

検出力分析をせず、集めやすい量で打ち切ると、第2種の過誤（実は差があるのに気付かない）を量産する。事前に必要 n を計算しておく。

🧭 詳細解説 — ドメイン知識を一段深く掘り下げる

歴史的背景

ドメイン知識（Domain Knowledge）は、リテラシー分野における基本概念の 1 つとして発展してきました。学術領域では 20 世紀後半に体系化が進み、 21 世紀のデータ駆動社会の中で「実務で使う知識」として急速に普及。とくに 2010 年代後半以降、ビッグデータ・IoT・AI の進展に伴い、用語の意味・適用範囲が再定義されつつあります。

日本では総務省・経産省・内閣府の各種計画（Society 5.0、デジタル田園都市国家構想、統計改革基本計画）で繰り返し言及される基幹概念。 SSDSE（教育用標準データセット）も、これらの教育普及を目的に整備されたデータです。

国際的な位置付け

OECD、国連、 ISO、 IEC などの国際機関が、ドメイン知識に類する概念・標準を整備してきました。たとえば：

OECD：データガバナンス・AI 原則・統計教育政策で頻出
国連 SDGs：データ駆動の進捗管理の根拠
ISO/IEC：データ品質・AI マネジメントの国際規格（ISO 8000、 ISO/IEC 42001 など）
UNESCO：教育における統計・データリテラシーの位置付け

日本の文脈での意味

ドメイン知識は、日本の教育・行政・産業の文脈で次のような意義を持ちます：

領域	意義・登場場面
高校・大学教育	情報 I/II、数学 B（統計）、教養統計、専門統計の中核概念として登場
行政・政策	EBPM、デジタル庁施策、自治体 DX、地方創生交付金の根拠資料
企業・産業	DX 推進、データ分析人材育成、経営判断、マーケティング・品質管理
学術研究	公衆衛生、教育学、経済学、社会学、計算機科学などの分野横断研究
市民・メディア	報道、ファクトチェック、行政情報の解釈、民主主義の基盤

よく混同される概念

ドメイン知識は、隣接概念と混同されやすい用語の代表でもあります。ここで違いを明確にしておきましょう：

混同される概念	ドメイン知識との違い
隣接するリテラシー系の用語	本ページの「🔗 関連用語」を参照。並列カテゴリで対比すると明瞭
より広い上位概念	data-literacy ページで包含関係を確認
類似名・別名	英語名 (Domain Knowledge) を正式表記として参照

学習・教材としての位置付け

本サイト（用語解説）は「ジャストインタイム型データサイエンス教育」のリソースです。つまり、論文・実務・授業で その用語に出会ったタイミングで必要最低限の説明を得る、という使い方を想定しています。ドメイン知識もその一例。

体系的に学びたい場合は、まずグループ教材（data-literacy）から始め、そこからドメイン知識のような個別用語にドリルダウンしていくのが効率的です。

参考文献・標準

独立行政法人統計センター『SSDSE（教育用標準データセット）』
https://www.nstac.go.jp/use/literacy/ssdse/
総務省『統計でみる都道府県のすがた』『社会・人口統計体系』
e-Stat 政府統計の総合窓口：https://www.e-stat.go.jp/
OECD Data Portal：https://data.oecd.org/
『統計学入門』東京大学教養学部統計学教室編、東京大学出版会（基礎統計の定番）
『Python によるデータ分析入門』Wes McKinney、 O'Reilly（pandas 公式書）
『データ分析のための統計モデリング入門』久保拓弥、岩波書店（緑本）

🌐 関連手法・派生

ドメイン知識と同じ「リテラシー」カテゴリ、または直接の上位・派生となる用語：

🔗 関連用語（前提・並列・発展）

📘 前提（先に理解しておきたい）

ドメイン知識を学ぶうえで、これらを先に押さえると吸収が早い：

データリテラシー変数の型 1次データ 2次データ

📗 並列（同じ階層の関連用語）

対比・補完して理解すべき同階層の用語：

問いの立て方 EDA データのメタ化実データ

📕 発展（一歩進んだ応用・拡張）

ドメイン知識を理解した後の自然な発展先：

仮説検定ストーリーテリング AIと社会 CRISP-DM

📑 論文・実務での登場パターン

ドメイン知識は、統計データ解析コンペティション系の論文・教材で次のような場面に登場します：

場面	典型的な文章・表現
Abstract	「ドメイン知識を用いて、 47都道府県の…を分析した」
Methods	「データは SSDSE-B-2026 を使用。ドメイン知識は…の手順で算出」
Results	「ドメイン知識 = X.XX、 95% CI [X, Y]、 p < 0.05」
Discussion	「ドメイン知識の限界として…が挙げられる」
Conclusion	「ドメイン知識に基づき、政策提言として…」

論文一覧から該当キーワードで検索すると、本サイト内の再現論文ハンズオン教材に直接ジャンプできます。 ⇒ 論文一覧に戻る

📚 関連グループ教材（全体像）

ドメイン知識は「リテラシー」分野の一部です。同じグループに属する用語は以下：

🎯 data-literacy（このグループの総合ページ） — 全体像を学びたいときはここから
データリテラシー（総合） — このグループの構成要素
1次データ — このグループの構成要素
2次データ — このグループの構成要素
データのメタ化 — このグループの構成要素
データサイエンスの問い — このグループの構成要素
データストーリーテリング — このグループの構成要素

グループ教材は横断的な視点を提供します。個別用語だけでなくグループ全体を 1 周しておくと、各用語の関係性が立体的に見えてきます。

✅ ドメイン知識自己チェックリスト

レポート・論文・分析プロジェクトを終える前に、以下を一通り確認するとつまずきが減ります。

□ ドメイン知識を使う必然性・必要条件を 1 行で説明できるか
□ データの出典・期間・サンプル数・単位を本文 or 脚注で明示したか
□ 前提条件（正規性、独立性、等分散性、線形性ほか）を確認・記録したか
□ 欠損と外れ値の処理方針を明文化したか
□ 結果に不確実性（標準誤差、信頼区間、効果量）を併記したか
□ 検定なら事前に α と必要 n を決めたか（事後の覗き見をしていないか）
□ 多重比較ならBonferroni / FDR 補正を行ったか
□ 「ドメイン知識」と「リテラシー」カテゴリの他用語との関係を 1 文で書けるか
□ data-literacy グループ教材で全体像を確認したか
□ 限界（適用範囲外、因果なら別手法、外挿不可など）を明示したか
□ 図表のキャプションで「単位・期間・出典」を 3 点セットで書いたか
□ 再現性のため、使用したコード・データ・乱数シードを共有可能にしたか

❓ よくある質問（FAQ）

Q. ドメイン知識を初めて学ぶときの最短ルートは？

A. まず本ページの「💡 30秒結論」「🎨 直感で掴む」を読み、続いて「🧮 SSDSE実値計算」のテーブルだけでも目を通す。そのうえで「🐍 Python実装」の ①基本パターン を写経すれば、 1 時間程度で実用最低限まで届きます。

Q. ドメイン知識と一緒に必ず押さえておきたい用語は？

A. 「🔗 関連用語」セクションの前提3〜4 件は最優先。特にデータリテラシーと変数の型はどの用語にも効きます。

Q. ドメイン知識を実務レポートに書くときに気をつけることは？

A. ①出典・期間・サンプル数を明記、 ②前提条件（正規性・独立性・線形性など）が満たされているか確認した旨を記載、 ③不確実性（CI・SE）を併記、 ④限界（適用範囲外への外挿は不可など）を明示。

Q. ドメイン知識と AI・機械学習はどう関係する？

A. ドメイン知識は古典統計の文脈でも機械学習の文脈でも基礎になります。とくにモデル評価・データ品質・解釈性の局面で必須。詳細は AIと社会、 AIの信頼性を参照。

Q. SSDSE 以外のデータでも同じ手順で大丈夫？

A. 概ね Yes。政府統計（e-Stat）、 World Bank Open Data、国際機関の公開データ、自社のログデータ — どれもエンコーディング・スキーマ・欠損処理の調整は必要ですが、本ページのコードを土台にできます。

📌 早見表 — ドメイン知識

日本語名	ドメイン知識
英語名	Domain Knowledge
カテゴリ	リテラシー
グループ教材	data-literacy
一言で	対象分野の専門知識。医療・教育・経済・農業など、そのドメイン固有の文脈・制約・常識。
主データ	SSDSE-B-2026（47都道府県・125項目）／ e-Stat
主ライブラリ	pandas / numpy / scipy / matplotlib / seaborn / statsmodels
学習推奨時間	概念把握 30 分 + 実装演習 60 分 + 関連用語の確認 30 分 = 約 2 時間

🎨 直感で掴む

データを読み・解釈し・批判する力。数値の背後にある文脈とバイアスを意識してください。

本ページでは ドメイン知識 を、定義・前提条件・使い方・落とし穴の順に整理して解説します。厳密な定義より、まず何を、いつ、どう使うかを理解することを優先してください。

📐 定義

対象分野固有の専門知識。データを読み解く上で必須

英語名 Domain Knowledge。

🎯 いつ・どこで使うか

「リテラシー」分野の標準的な道具として、多くの分析で登場します。
📚 データリテラシーを学ぶときに必ず通過する基本概念です。
論文・実務レポートで頻出する用語なので、 1 度はちゃんと理解しておくと後が楽です。

📋 前提条件・適用範囲

この用語を理解・使用するときは、次のような前提を意識してください：

データの性質：尺度（名義/順序/間隔/比例）と分布を確認
サンプル数：手法によって最低限のサンプル数が異なります
独立性：観測が独立であるかを確認（時系列・パネル等では別の手法が必要）
欠損・外れ値：前処理の方針を明確に

⚠️ よくある落とし穴

❌ 数値の背後を考える

誰が・いつ・どう測ったかを必ず確認。

❌ 相関を因果と混同しない

データ駆動の議論でも因果には別の道具が必要。

❌ 単位とスケール

パーセントなのか件数なのか、ログスケールか線形かを明示。

🐍 Python での扱い

SSDSE-B-2026 のような公的統計データを Python で扱う際の基本パターン：

import pandas as pd
import numpy as np

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.shape)
print(df.dtypes)
print(df.describe())

# 「ドメイン知識」の文脈で扱う場合の例：
# 分野: リテラシー
# 関連手法は同カテゴリの他用語を参照してください。

具体的なコードはデータリテラシーを参照してください。

📝 レポートでの報告

分析結果を報告するときに含めるべき情報：

使ったデータ：出典・期間・サンプル数
適用条件の確認：前提が満たされているか
計算結果：数値だけでなく不確実性（CI・SE）も
解釈：何を意味するか、何を意味しないか
限界：適用範囲外への拡張は避ける

✅ チェックリスト

□ 「ドメイン知識」を使う場面か再確認したか
□ データの尺度・分布・サンプル数を確認したか
□ 前提条件を満たしているか
□ 計算した値だけでなく不確実性も把握したか
□ 解釈と限界を区別したか
□ 関連グループ教材で全体像を確認したか

📚 関連グループ教材

この用語の全体像を学ぶには、まず横断的な教材で文脈を掴むのが効率的です：

📚 データリテラシー — このカテゴリの全体像を学ぶ

🔗 同カテゴリの他用語

データリテラシービッグデータ IoT データ駆動型社会 Society 5.0 データ利活用 1次データ 2次データオープンデータデータのメタ化データ解析サイクルデータストーリーテリング調査データ実験データ

🔖 キーワード索引

💡 30秒で分かる結論 — ドメイン知識

📍 あなたが今見ているもの

🎨 直感で掴む — ドメイン知識とは何者か

📐 数式・定義

🔬 数式・定義を「言葉」で読み解く

🧮 SSDSE-B 実値で計算してみる

🐍 Python 実装

① 基本パターン（読み込み・確認・主要列抽出）

② 可視化テンプレ（matplotlib / seaborn）

③ 前処理：欠損・外れ値・型変換

④ 検定・推定の最小例（scipy.stats）

⚠️ よくある落とし穴（7 件）

🧭 詳細解説 — ドメイン知識を一段深く掘り下げる

歴史的背景

国際的な位置付け

日本の文脈での意味

よく混同される概念

学習・教材としての位置付け

参考文献・標準

📑 論文・実務での登場パターン

✅ ドメイン知識自己チェックリスト

❓ よくある質問（FAQ）

📌 早見表 — ドメイン知識

💡 30秒で分かる結論

🎨 直感で掴む

📐 定義

🎯 いつ・どこで使うか

📋 前提条件・適用範囲

⚠️ よくある落とし穴

🐍 Python での扱い

📝 レポートでの報告

✅ チェックリスト

🔖 キーワード索引

💡 30秒で分かる結論 — ドメイン知識

📍 あなたが今見ているもの

🎨 直感で掴む — ドメイン知識とは何者か

📐 数式・定義

🔬 数式・定義を「言葉」で読み解く

🧮 SSDSE-B 実値で計算してみる

🐍 Python 実装

① 基本パターン（読み込み・確認・主要列抽出）

② 可視化テンプレ（matplotlib / seaborn）

③ 前処理：欠損・外れ値・型変換

④ 検定・推定の最小例（scipy.stats）

⚠️ よくある落とし穴（7 件）

🧭 詳細解説 — ドメイン知識 を一段深く掘り下げる

歴史的背景

国際的な位置付け

日本の文脈での意味

よく混同される概念

学習・教材としての位置付け

参考文献・標準

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📘 前提（先に理解しておきたい）

📗 並列（同じ階層の関連用語）

📕 発展（一歩進んだ応用・拡張）

📑 論文・実務での登場パターン

📚 関連グループ教材（全体像）

✅ ドメイン知識 自己チェックリスト

❓ よくある質問（FAQ）

📌 早見表 — ドメイン知識

💡 30秒で分かる結論

🎨 直感で掴む

📐 定義

🎯 いつ・どこで使うか

📋 前提条件・適用範囲

⚠️ よくある落とし穴

🐍 Python での扱い

📝 レポートでの報告

✅ チェックリスト

📚 関連グループ教材

🔗 同カテゴリの他用語

🧭 詳細解説 — ドメイン知識を一段深く掘り下げる

✅ ドメイン知識自己チェックリスト