データサイエンスの問い

🔖 キーワード索引

このページで扱う主要キーワード（クリックで該当セクションへ）：

記述的問い予測的問い因果的問い PICO/SMART 仮説の階層交絡バイアス操作化 KPI 設計 EDA との関係再現可能性コンペ課題化

💡 30秒で分かる結論

「問い」はデータサイエンスの出発点であり最大の成果物、良い問いがなければ良い分析もない
分野：リサーチデザイン／思考法 — 統計・モデルより前に必須の工程
4 種類：記述的（何が？）／関連的（一緒に動く？）／予測的（次は何が？）／因果的（介入で何が変わる？）
良い問いの条件：具体性・測定可能・反証可能・データで答えられる・関係者に意味がある
注意：「データを見てから問いを作る」のではなく、問いを先に固めてからデータを集める

📍 あなたが今見ているもの

「データサイエンスの問い」 (Data Science Question) は、 SSDSE-B-2026 などの公的統計データを使った教材・分析で頻出するキーワードです。本ページでは、まず直感、次に数式、そして 47 都道府県の実値で確かめる、という流れで体系的に整理します。加えて、ケーススタディ・FAQ・歴史的経緯・参考文献までを 1 ページに集約し、用語の「地図」として使えるようにしました。

関連用語（前提・並列・発展）と関連グループ教材も末尾にまとめてあるので、用語の地図として活用してください。

🎨 直感で掴む

データサイエンスの問い (Data Science Question) は、分析プロジェクトの「最初に決めること」であり「最後まで効くもの」です。良い問いがないままモデルを作ると、たとえ高い精度でも「で、何が言いたいの？」と返されます。

Leek & Peng (2015) の有名な分類に従うと、問いは次の 6 種類に分けられます。簡略化して 4 種類で覚えても良い：

タイプ	聞いている内容	SSDSE 例
記述的 (Descriptive)	何が起きているか	「2023 年の都道府県別総人口は？」
探索的 (Exploratory)	何が一緒に動くか	「人口と県内総生産はどう関係？」
推測的 (Inferential)	母集団全体ではどうか	「2010-2023 年のトレンドは有意か？」
予測的 (Predictive)	次に何が起こるか	「2030 年の県別高齢化率は？」
因果的 (Causal)	X を変えると Y は変わるか	「子育て支援費を増やすと出生率は上がるか？」
機構的 (Mechanistic)	X はどう Y に影響するか	「人口流出の経路を構造方程式で」

難度は下に行くほど上がる傾向があります。多くの初学者は「予測的」「因果的」の問いを立てたいが、データが「記述的」までしか答えられない、というギャップが起こりがちです。

📐 数式・定義

形式的に書けば、 1 つの問いは「対象 $P$、指標 $X$、制約 $C$、期間 $T$」の組として整理できます。

【問いの形式表現】

$$Q = \langle \text{対象}\,P,\; \text{指標}\,X,\; \text{制約}\,C,\; \text{期間}\,T,\; \text{比較}\,B \rangle$$

たとえば「2023 年 47 都道府県（=P）における高齢化率（=X）と県内総生産（=Y）の相関（=比較 B）」は次のように：

$$Q = \langle P=47\text{都道府県},\; X=\text{高齢化率},\; Y=\text{県内総生産},\; T=2023,\; B=\text{Pearson 相関}\rangle$$

仮説検定の言い方をすれば、問い → 仮説 → 統計量 → 検定 → 結論という流れ：

$$\underbrace{Q}_\text{問い} \to \underbrace{H_0, H_1}_\text{仮説} \to \underbrace{T(X)}_\text{統計量} \to \underbrace{\Pr(|T|\ge t|H_0)}_\text{p 値} \to \text{結論}$$

🔬 数式・概念を言葉で読み解く

属性	意味	悪い例 → 良い例
具体性	誰の・何の・いつ	「働き方を分析」→「2023 年の女性労働力率を都道府県別に比較」
測定可能性	数値・状態として観測できるか	「幸せか」→「主観的幸福度スコア (0-10)」
反証可能性	「違っていた」と判断できる基準	「相関がある」→「Pearson r > 0.5 かつ p < 0.05」
データ可得性	そのデータが既存／取得可能か	「将来の心拍」→「過去の SSDSE 健康関連指標」
関係者にとっての意味	誰が結果を使うか	「興味で分析」→「自治体施策の優先度づけ」
SMART	Specific, Measurable, Achievable, Relevant, Time-bound	5 要素を 1 行に

医学の PICO（Population, Intervention, Comparator, Outcome）はリサーチデザインに直結する型として有名で、データサイエンスでも使えます。

🧮 実値で計算してみる（SSDSE-B-2026）

実値計算：SSDSE-B-2026 で問いを具体化してみる

「日本の地域格差を分析する」という大きな問いを、 SSDSE-B-2026 を使って答えられる粒度まで掘り下げる例：

粗い問い：「日本の地域格差はどうなっているか？」 — 抽象的すぎる
記述的に絞る：「2023 年の 47 都道府県の 1 人あたり県内総生産の分布は？」 → 答え：最大東京約 800 万円、最小沖縄約 240 万円、 CV ≒ 0.27
探索的に深める：「高齢化率と 1 人あたり生産は相関するか？」 → Pearson r ≒ −0.58、 p < 0.001
推測的に展開：「過去 10 年で都道府県間の経済格差は縮小？拡大？」 → CV の時系列で検証
予測的：「2030 年の 1 人あたり生産を予測」 → AR(1)＋人口比トレンド
因果的：「設備投資を 10% 増やせば生産は何 % 増えるか」 → IV 推定、 SSDSE 単独では交絡が多く厳密因果は困難

このように、同じテーマでも問いの種類が違えば、必要なデータ・分析手法・結論の強さが大きく異なります。一般に 記述 → 探索 → 推測 → 予測 → 因果 の順に必要な要件が厳しくなります。

🐍 Python 実装

例 1：問いの操作化（測定可能な変数に変換）

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
for c in ['総人口','県内総生産','65歳以上人口']:
    df[c] = df[c].astype(int)

# 問い:「地域格差はあるか？」を測定化
df['1人あたり県内総生産'] = df['県内総生産'] / df['総人口']
print('最大:', df['1人あたり県内総生産'].max())
print('最小:', df['1人あたり県内総生産'].min())
print('CV  :', df['1人あたり県内総生産'].std() / df['1人あたり県内総生産'].mean())

例 2：問い「高齢化率と 1 人当たり生産は相関？」

df['高齢化率'] = df['65歳以上人口'] / df['総人口']
r = df[['高齢化率','1人あたり県内総生産']].corr().iloc[0,1]
print('Pearson r =', round(r, 3))

例 3：問いを比較として書き直す（介入想定）

# 「高齢化率 30% 超 / 未満で 1 人当たり生産は違うか?」
high = df[df['高齢化率']>=0.30]['1人あたり県内総生産']
low  = df[df['高齢化率']< 0.30]['1人あたり県内総生産']
from scipy.stats import ttest_ind
t, p = ttest_ind(low, high, equal_var=False)
print('t=', round(t,3), ' p=', round(p,4))
print('high 平均:', round(high.mean()))
print('low  平均:', round(low.mean()))

例 4：問いを KPI 化してダッシュボード化

kpi = {
    '対象期間': '2023',
    '対象範囲': '47都道府県',
    '指標': '1人あたり県内総生産 (円/人)',
    '中央値': float(df['1人あたり県内総生産'].median()),
    '上位5県': df.nlargest(5, '1人あたり県内総生産')['都道府県'].tolist(),
    '下位5県': df.nsmallest(5, '1人あたり県内総生産')['都道府県'].tolist(),
}
print(kpi)

📂 ケーススタディ・追加実装例

ケース 1：SMART 化チェック

悪い問い	SMART 化
「人口減少を分析」	「2010-2023 年の都道府県別人口変化率を SSDSE-B で集計し、上位 5 / 下位 5 を比較」
「経済成長要因」	「2023 年の県内総生産を、人口・就業者数・大学数で説明する重回帰の決定係数を測る」
「高齢化の影響」	「高齢化率と医療費（1 人当たり）の Pearson 相関と、 95% CI を 2018-2023 年で年別に計算」

ケース 2：問いを仮説に翻訳

問い：「東京と他県では人口動態が異なるか？」

$H_0$：東京と地方の平均年率変化率は等しい
$H_1$：等しくない
検定：Welch の t 検定、有意水準 5%
サンプル：2010-2023、各県の年率変化率（SSDSE-B 派生）

ケース 3：PICO テンプレで医療データの問い

P (Population)：65 歳以上の高齢者
I (Intervention)：定期健康診断受診
C (Comparator)：未受診
O (Outcome)：5 年後の生存率

ケース 4：データドリブン vs 仮説ドリブン

軸	データドリブン	仮説ドリブン
出発点	データ	問い・理論
強み	未知の構造発見	反証可能・解釈容易
弱み	HARKing・偽陽性	枠外の知見を見逃す
使い分け	EDA・特徴量発見	確認的分析・論文

ケース 5：問いの「品質チェックリスト」

□ 5W1H（誰の・何の・いつ・どこの・どう・なぜ）が明確
□ 答えるためのデータが手元にある／取得可能
□ 反証可能な閾値・基準を持つ
□ 結果の使い手（意思決定者）が明確
□ 結論の意味と限界を 1 文で書ける

ケース 6：SSDSE-B-2026 で問いの粒度を試す

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)

# Q1: 記述 — 2023 年の総人口分位点
df23 = df[df['年度']=='2023'].copy()
df23['総人口'] = df23['総人口'].astype(int)
print('Q1:', df23['総人口'].quantile([0.25, 0.5, 0.75]))

# Q2: 探索 — 高齢化率と県内総生産の相関
df23['65歳以上人口'] = df23['65歳以上人口'].astype(int)
df23['県内総生産'] = df23['県内総生産'].astype(int)
df23['高齢化率'] = df23['65歳以上人口'] / df23['総人口']
print('Q2 r:', df23[['高齢化率','県内総生産']].corr().iloc[0,1])

# Q3: 推測 — 高齢化率の 95% CI
import numpy as np
m = df23['高齢化率'].mean()
se = df23['高齢化率'].std(ddof=1) / np.sqrt(len(df23))
print('Q3 CI:', m - 1.96*se, m + 1.96*se)

🪜 ステップバイステップチュートリアル

チュートリアル：SSDSE-B-2026 で問いを 5 ステップで磨く

ステップ 1：粗い問いを書く

「日本の地域格差を分析したい」 — これだけでは何もできない。

ステップ 2：5W1H で具体化

Who：都道府県（47 個）
What：1 人あたり県内総生産 (経済指標)
When：2023 年
Where：日本全体
Why：地方創生政策の優先度づけ
How：CV と分位範囲を測る

ステップ 3：仮説を立てる

H1：1 人あたり県内総生産の CV は 0.3 以上で、大きな地域格差がある
H2：上位 5 県と下位 5 県の差は 3 倍以上ある
H3：高齢化率と 1 人あたり生産は負の相関がある

ステップ 4：分析プラン

記述統計：CV、四分位、上位／下位 5 県
探索：Pearson 相関、散布図
推測：t 検定で上位 vs 下位の差検定
結果の信頼性：ブートストラップで CI

ステップ 5：実行

import pandas as pd, numpy as np
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
df['総人口'] = df['総人口'].astype(int)
df['県内総生産'] = df['県内総生産'].astype(int)
df['65歳以上人口'] = df['65歳以上人口'].astype(int)
df['1人当たり生産'] = df['県内総生産']/df['総人口']
df['高齢化率'] = df['65歳以上人口']/df['総人口']

# H1: CV
cv = df['1人当たり生産'].std()/df['1人当たり生産'].mean()
print('H1 CV:', round(cv,3))

# H2: 上位/下位 5 県差
top5 = df.nlargest(5, '1人当たり生産')['1人当たり生産'].mean()
bot5 = df.nsmallest(5, '1人当たり生産')['1人当たり生産'].mean()
print('H2 ratio:', round(top5/bot5,2))

# H3: 相関
r = df[['高齢化率','1人当たり生産']].corr().iloc[0,1]
print('H3 r:', round(r,3))

ステップ 6：結論と提言

「CV=0.27、上位/下位比＝2.7 倍、 r=-0.58。 H1 はやや支持されないが、 H2・H3 は支持される。政策提言：高齢化率の高い地方県に優先投資」 — のように、問い → 仮説 → 検証 → 提言まで一気通貫で書く。

🚀 現場での応用シナリオ（8 例）

応用 1：自治体施策の優先順位づけ

「47 都道府県のうち、子育て支援を強化すべき優先 5 県は？」 → SSDSE-B から「出生率低位 × 子育て支援費低位」を抽出。

応用 2：教育の課題発見

「不登校率と学校資源の関係は？」 → 文科省統計と SSDSE 教育指標を結合。

応用 3：医療資源の最適配分

「医師偏在指標と県別人口当たり医師数の関係は？」 → 公的データから KPI を導出。

応用 4：マーケティング

「新商品 X の購入意向を年代別に予測」 → ロジスティック回帰、 ROC-AUC で評価。

応用 5：人事 / People Analytics

「離職率を高めている要因は？」 → 因果推論（A/B テスト、 IV）、共変量調整。

応用 6：研究・論文執筆

「○○と△△の関係を明らかにする」 → 仮説 → 統計検定 → CI → 結論。 PRISMA / RECORD ガイドラインに沿う。

応用 7：競争・コンペ

SIGNATE / Kaggle / 統計データ解析コンペ：「予測精度」or「説明力」を最大化、という問いに事前に分解。

応用 8：意思決定支援

「介入 X を行うと Y は何 % 改善するか？」 — 因果問い。 RCT、 IV、 RDD、 DID、などの設計が必要。

🏋️ 演習問題（8 題）

「学生の成績を上げるには？」を SMART 化し、 SSDSE と組み合わせて検証可能にせよ。
Leek & Peng の 6 タイプそれぞれに、 SSDSE-B-2026 から問いを 1 つずつ作れ。
PICO 枠組みで「コロナ後遺症に対する運動療法」の問いを設計せよ。
「相関がある」と「因果がある」の違いを 300 字で説明せよ。
HARKing を避けるために、事前登録のテンプレートを書け（仮説・データ・分析手順）。
CRISP-DM の 6 段階を SSDSE 分析プロジェクトに当てはめよ。
KPI と OKR の違いを表で整理せよ。
「予測できる」と「因果が分かる」の違いを SSDSE 例で示せ。

🗺 学習ロードマップ

レベル 1 — 問いの 6 タイプ（記述／探索／推測／予測／因果／機構）を区別。
レベル 2 — SMART 化、 PICO 化のテンプレートを使った具体化。
レベル 3 — 問い → 仮説 → 検証 → 結論の流れを SSDSE で実行。
レベル 4 — HARKing、多重比較、事前登録、再現可能性の作法。
レベル 5 — 因果推論の枠組み（RCT、 IV、 DID、 RDD、 PSM）。
レベル 6 — 意思決定科学、価値関数、効用、ベイズ意思決定。

📊 比較表（兄弟手法・選択肢）

問いの 6 タイプ比較（Leek & Peng 2015）

タイプ	聞いていること	必要	例
記述的	何が起きているか	サンプリング	「2023 年の総人口分布」
探索的	何が一緒に動くか	多変量データ	「高齢化率と県内総生産の関係」
推測的	母集団全体の傾向	無作為サンプル	「日本全体での傾向」
予測的	次に何が来る	学習データ	「2030 年の人口」
因果的	X を変えたら Y は	介入 / IV / RDD	「子育て支援を増やすと出生率は」
機構的	X はどう Y に影響	構造モデル	「人口流出の経路」

📖 用語ミニ辞典

用語	意味
問い (question)	何を知りたいか
仮説 (hypothesis)	仮の答え
操作化	抽象概念を測定可能変数へ
SMART	Specific/Measurable/Achievable/Relevant/Time-bound
PICO	Population/Intervention/Comparator/Outcome
HARKing	結果を見てから仮説を後付け
交絡	原因と結果の両方に影響する第三変数
因果推論	介入効果を観察データから推定する枠組み
予測 vs 因果	当てる vs 動かす、別問題
KPI	Key Performance Indicator
OKR	Objectives and Key Results
CRISP-DM	データマイニング標準プロセス

🍳 コードレシピ（コピペ用 15 連発）

レシピ	コード
SMART 化テンプレ	「[誰の] の [何] を、 [どの期間] の [どのデータ] で、 [どの比較] で測る」
PICO テンプレ	Population, Intervention, Comparator, Outcome
FINER テンプレ	Feasible, Interesting, Novel, Ethical, Relevant
Research Question の例	「2023 年 47 都道府県で X と Y の Pearson 相関は、 95% 信頼区間で 0.5 を超えるか」
仮説テンプレ	H0: 母平均は等しい / H1: 等しくない
KPI テンプレ	対象 / 期間 / 指標 / 目標値 / 計測方法
OKR テンプレ	Objective（質的）+ Key Results 3-5 個（量的）
PICO 例	P=20-65 歳労働者、 I=リモートワーク、 C=出社、 O=月平均生産性
CRISP-DM	Business / Data / Prep / Model / Eval / Deploy の 6 ステップ
EDA 質問チェック	「データの粒度は？欠損は？分布は？外れ値は？」
p 値の意味	「H0 が真と仮定したとき、観察以上に極端な結果が起こる確率」
信頼区間 95%	「100 回サンプリングして 95 回は真の値を含む区間」
予測の問い	「次の Y を当てる、因果は問わない」
因果の問い	「X を操作したら Y はどう変わるか」
HARKing 防止	事前登録 / 仮説 → 分析の順 / 探索と確認的分析を分離

⚠️ よくある落とし穴

❌ 問いを後付けで作る (HARKing)

データを見てから「この相関が出るような問い」を後出しすると、偽陽性を多発する。問い → 仮説 → 分析の順を守る。事前登録の発想を持つ。

❌ 広すぎる問い

「日本社会を分析する」は出発点としては OK、だが必ず「対象・指標・期間・比較」に分解しないと進まない。

❌ 反証不能な問い

「○○は重要か」のような問いは反証できない。「○○が増えると Y が p 単位変わるか」など、数で答えられる形に直す。

❌ 予測と因果の混同

予測が高精度でも因果は別問題。「人口減少を予測できる」≠「人口減少を引き起こす要因が分かった」。因果の問いには介入・実験／自然実験／IV/RDD が必要。

❌ 関係者の不在

誰が結果を使うかを決めずに分析すると、出来上がっても「で、何に使えるの？」になる。ステークホルダーと一緒に問いを練る。

❓ よくある質問（FAQ）

Q: 「問い」と「仮説」はどう違う？

A: 問いは「何を知りたいか」、仮説は「現時点での仮の答え」。良い問い → 仮説 → 検証可能な統計モデル、という流れ。

Q: 問いを後から作っても良くないですか？

A: 分析過程で問いが洗練されるのは自然。ただし「結果を見てから問いを差し替える」は HARKing と呼ばれ、偽陽性の温床。探索と確認的分析を分離する。

Q: 因果の問いはデータだけで答えられる？

A: 原則は無理。ランダム化試験 (RCT) が黄金標準、観察データでは IV・DID・RDD などの工夫が必要。因果推論の枠組みを学ぶ。

Q: 良い問いの「具体例」を見たい

A: 「2023 年の SSDSE-B のうち、 65 歳以上比率が 30% を超える県の県内総生産は、 30% 未満の県と比べて 1 人あたりで何 % 違うか？」 — 5W が全部入っている。

Q: 問いは 1 つに絞るべき？

A: 主問い 1 つと副問い 2-3 個に整理。ダッシュボードに置く KPI も 5-7 個を上限に絞ると、受け手が判断しやすい。

📜 歴史と背景

位置づけ：「問いを立てる」は、統計学・データサイエンス・計量経済学・社会科学すべてに共通する 最上位 の課題です。にもかかわらず教科書では軽く扱われがちで、結果として「ツールは使えるが何を問うべきか分からない」学習者が多発します。

研究の歴史的整理：

1980 年代 — Tukey の EDA（Exploratory Data Analysis）が「データを見て問いを更新する」反復過程を強調
2003 — CRISP-DM（Cross-Industry Standard Process for Data Mining）が「ビジネス理解 → データ理解 → 準備 → モデリング → 評価 → 展開」のサイクルを標準化
2015 — Leek & Peng が Science 誌で 6 種類の問い分類を提案
2020 年代 — 「問いと意思決定の接続」を強調する Decision-Science 系の方法論が定着

SMART（Specific, Measurable, Achievable, Relevant, Time-bound）原則や、医学研究の PICO 枠組み（Population, Intervention, Comparator, Outcome）は、データサイエンスの問い設計にも直接転用できます。

🌐 関連手法・派生・対概念

方向	関連	関係
同階層	仮説 / 検証可能性 / 操作化 / 概念図	問い作りの周辺技法
方法論	EDA / 仮説検定 / モデリング / 因果推論	問いの種類に応じた手法
プロセス	CRISP-DM / OSEMN / TDSP	問い→収集→分析→提案の枠組み
関連分野	リサーチデザイン / リサーチクエスチョン	社会科学・医学に共通
下流	KPI / OKR / ダッシュボード	問いの可視化と運用

🗺 概念マップ

問いを軸にしたデータサイエンスの流れ：

   【ステークホルダーの関心】
              │
              ▼
       【問い】← 操作化（SMART / PICO）
              │
              ▼
      【仮説 H0 / H1】
              │
              ▼
   ┌──────────┼──────────┐
記述   関連   予測   因果
（記述統計 / 相関 / 機械学習 / 因果推論）
              │
              ▼
        【結論・KPI・提言】
              │
              ▼
        【意思決定・施策】

📚 参考文献・出典

Leek, J. T., Peng, R. D. (2015). What is the question? Science, 347, 1314-1315.
Wickham, H., Grolemund, G. (2017). R for Data Science. O'Reilly.
Provost, F., Fawcett, T. (2013). Data Science for Business. O'Reilly.
CRISP-DM 1.0 (2000). Cross-Industry Standard Process for Data Mining.