論文一覧に戻る 📚 用語集トップ 🗺 概念マップ
📚 用語解説
📚 用語解説
データサイエンスの問い
Data Science Question
リサーチデザイン / 思考法

🔖 キーワード索引

このページで扱う主要キーワード(クリックで該当セクションへ):

記述的問い 予測的問い 因果的問い PICO/SMART 仮説の階層 交絡 バイアス 操作化 KPI 設計 EDA との関係 再現可能性 コンペ課題化

💡 30秒で分かる結論

📍 あなたが今見ているもの

データサイエンスの問い」 (Data Science Question) は、 SSDSE-B-2026 などの公的統計データを使った教材・分析で頻出するキーワードです。 本ページでは、 まず直感、 次に数式、 そして 47 都道府県の実値で確かめる、 という流れで体系的に整理します。 加えて、 ケーススタディ・FAQ・歴史的経緯・参考文献までを 1 ページに集約し、 用語の「地図」として使えるようにしました。

関連用語(前提・並列・発展)と関連グループ教材も末尾にまとめてあるので、 用語の地図として活用してください。

🎨 直感で掴む

データサイエンスの問い (Data Science Question) は、 分析プロジェクトの「最初に決めること」であり「最後まで効くもの」です。 良い問いがないままモデルを作ると、 たとえ高い精度でも「で、 何が言いたいの?」と返されます。

Leek & Peng (2015) の有名な分類に従うと、 問いは次の 6 種類に分けられます。 簡略化して 4 種類で覚えても良い:

タイプ聞いている内容SSDSE 例
記述的 (Descriptive)何が起きているか「2023 年の都道府県別総人口は?」
探索的 (Exploratory)何が一緒に動くか「人口と県内総生産はどう関係?」
推測的 (Inferential)母集団全体ではどうか「2010-2023 年のトレンドは有意か?」
予測的 (Predictive)次に何が起こるか「2030 年の県別高齢化率は?」
因果的 (Causal)X を変えると Y は変わるか「子育て支援費を増やすと出生率は上がるか?」
機構的 (Mechanistic)X はどう Y に影響するか「人口流出の経路を構造方程式で」

難度は下に行くほど上がる傾向があります。 多くの初学者は「予測的」「因果的」の問いを立てたいが、 データが「記述的」までしか答えられない、 というギャップが起こりがちです。

📐 数式・定義

形式的に書けば、 1 つの問いは「対象 $P$、 指標 $X$、 制約 $C$、 期間 $T$」の組として整理できます。

【問いの形式表現】
$$Q = \langle \text{対象}\,P,\; \text{指標}\,X,\; \text{制約}\,C,\; \text{期間}\,T,\; \text{比較}\,B \rangle$$

たとえば 「2023 年 47 都道府県(=P)における 高齢化率(=X)と 県内総生産(=Y)の 相関(=比較 B)」 は次のように:

$$Q = \langle P=47\text{都道府県},\; X=\text{高齢化率},\; Y=\text{県内総生産},\; T=2023,\; B=\text{Pearson 相関}\rangle$$

仮説検定の言い方をすれば、 問い → 仮説 → 統計量 → 検定 → 結論 という流れ:

$$\underbrace{Q}_\text{問い} \to \underbrace{H_0, H_1}_\text{仮説} \to \underbrace{T(X)}_\text{統計量} \to \underbrace{\Pr(|T|\ge t|H_0)}_\text{p 値} \to \text{結論}$$

🔬 数式・概念を言葉で読み解く

属性意味悪い例 → 良い例
具体性誰の・何の・いつ「働き方を分析」→「2023 年の女性労働力率を都道府県別に比較」
測定可能性数値・状態として観測できるか「幸せか」→「主観的幸福度スコア (0-10)」
反証可能性「違っていた」と判断できる基準「相関がある」→「Pearson r > 0.5 かつ p < 0.05」
データ可得性そのデータが既存/取得可能か「将来の心拍」→「過去の SSDSE 健康関連指標」
関係者にとっての意味誰が結果を使うか「興味で分析」→「自治体施策の優先度づけ」
SMARTSpecific, Measurable, Achievable, Relevant, Time-bound5 要素を 1 行に

医学の PICO(Population, Intervention, Comparator, Outcome)はリサーチデザインに直結する型として有名で、 データサイエンスでも使えます。

🧮 実値で計算してみる(SSDSE-B-2026)

実値計算:SSDSE-B-2026 で問いを具体化してみる

「日本の地域格差を分析する」という大きな問いを、 SSDSE-B-2026 を使って答えられる粒度まで掘り下げる例:

  1. 粗い問い:「日本の地域格差はどうなっているか?」 — 抽象的すぎる
  2. 記述的に絞る:「2023 年の 47 都道府県の 1 人あたり県内総生産の分布は?」 → 答え:最大東京 約 800 万円、 最小沖縄 約 240 万円、 CV ≒ 0.27
  3. 探索的に深める:「高齢化率と 1 人あたり生産は相関するか?」 → Pearson r ≒ −0.58、 p < 0.001
  4. 推測的に展開:「過去 10 年で都道府県間の経済格差は縮小?拡大?」 → CV の時系列で検証
  5. 予測的:「2030 年の 1 人あたり生産を予測」 → AR(1)+人口比トレンド
  6. 因果的:「設備投資を 10% 増やせば生産は何 % 増えるか」 → IV 推定、 SSDSE 単独では交絡が多く厳密因果は困難

このように、 同じテーマでも問いの種類が違えば、 必要なデータ・分析手法・結論の強さが大きく異なります。 一般に 記述 → 探索 → 推測 → 予測 → 因果 の順に必要な要件が厳しくなります。

🐍 Python 実装

例 1:問いの操作化(測定可能な変数に変換)

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
for c in ['総人口','県内総生産','65歳以上人口']:
    df[c] = df[c].astype(int)

# 問い:「地域格差はあるか?」を測定化
df['1人あたり県内総生産'] = df['県内総生産'] / df['総人口']
print('最大:', df['1人あたり県内総生産'].max())
print('最小:', df['1人あたり県内総生産'].min())
print('CV  :', df['1人あたり県内総生産'].std() / df['1人あたり県内総生産'].mean())

例 2:問い「高齢化率と 1 人当たり生産は相関?」

df['高齢化率'] = df['65歳以上人口'] / df['総人口']
r = df[['高齢化率','1人あたり県内総生産']].corr().iloc[0,1]
print('Pearson r =', round(r, 3))

例 3:問いを比較として書き直す(介入想定)

# 「高齢化率 30% 超 / 未満で 1 人当たり生産は違うか?」
high = df[df['高齢化率']>=0.30]['1人あたり県内総生産']
low  = df[df['高齢化率']< 0.30]['1人あたり県内総生産']
from scipy.stats import ttest_ind
t, p = ttest_ind(low, high, equal_var=False)
print('t=', round(t,3), ' p=', round(p,4))
print('high 平均:', round(high.mean()))
print('low  平均:', round(low.mean()))

例 4:問いを KPI 化してダッシュボード化

kpi = {
    '対象期間': '2023',
    '対象範囲': '47都道府県',
    '指標': '1人あたり県内総生産 (円/人)',
    '中央値': float(df['1人あたり県内総生産'].median()),
    '上位5県': df.nlargest(5, '1人あたり県内総生産')['都道府県'].tolist(),
    '下位5県': df.nsmallest(5, '1人あたり県内総生産')['都道府県'].tolist(),
}
print(kpi)

📂 ケーススタディ・追加実装例

ケース 1:SMART 化チェック

悪い問いSMART 化
「人口減少を分析」「2010-2023 年の都道府県別人口変化率を SSDSE-B で集計し、 上位 5 / 下位 5 を比較」
「経済成長要因」「2023 年の県内総生産を、 人口・就業者数・大学数で説明する重回帰の決定係数を測る」
「高齢化の影響」「高齢化率と医療費(1 人当たり)の Pearson 相関と、 95% CI を 2018-2023 年で年別に計算」

ケース 2:問いを 仮説 に翻訳

問い:「東京と他県では人口動態が異なるか?」

ケース 3:PICO テンプレで医療データの問い

ケース 4:データドリブン vs 仮説ドリブン

データドリブン仮説ドリブン
出発点データ問い・理論
強み未知の構造発見反証可能・解釈容易
弱みHARKing・偽陽性枠外の知見を見逃す
使い分けEDA・特徴量発見確認的分析・論文

ケース 5:問いの「品質チェックリスト」

ケース 6:SSDSE-B-2026 で問いの粒度を試す

import pandas as pd
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)

# Q1: 記述 — 2023 年の総人口分位点
df23 = df[df['年度']=='2023'].copy()
df23['総人口'] = df23['総人口'].astype(int)
print('Q1:', df23['総人口'].quantile([0.25, 0.5, 0.75]))

# Q2: 探索 — 高齢化率と県内総生産の相関
df23['65歳以上人口'] = df23['65歳以上人口'].astype(int)
df23['県内総生産'] = df23['県内総生産'].astype(int)
df23['高齢化率'] = df23['65歳以上人口'] / df23['総人口']
print('Q2 r:', df23[['高齢化率','県内総生産']].corr().iloc[0,1])

# Q3: 推測 — 高齢化率の 95% CI
import numpy as np
m = df23['高齢化率'].mean()
se = df23['高齢化率'].std(ddof=1) / np.sqrt(len(df23))
print('Q3 CI:', m - 1.96*se, m + 1.96*se)

🪜 ステップバイステップ チュートリアル

チュートリアル:SSDSE-B-2026 で問いを 5 ステップで磨く

ステップ 1:粗い問いを書く

「日本の地域格差を分析したい」 — これだけでは何もできない。

ステップ 2:5W1H で具体化

ステップ 3:仮説を立てる

ステップ 4:分析プラン

  1. 記述統計:CV、 四分位、 上位/下位 5 県
  2. 探索:Pearson 相関、 散布図
  3. 推測:t 検定で上位 vs 下位の差検定
  4. 結果の信頼性:ブートストラップで CI

ステップ 5:実行

import pandas as pd, numpy as np
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='shift_jis')
df.columns = df.iloc[0]
df = df.iloc[1:].reset_index(drop=True)
df = df[df['年度']=='2023'].reset_index(drop=True)
df['総人口'] = df['総人口'].astype(int)
df['県内総生産'] = df['県内総生産'].astype(int)
df['65歳以上人口'] = df['65歳以上人口'].astype(int)
df['1人当たり生産'] = df['県内総生産']/df['総人口']
df['高齢化率'] = df['65歳以上人口']/df['総人口']

# H1: CV
cv = df['1人当たり生産'].std()/df['1人当たり生産'].mean()
print('H1 CV:', round(cv,3))

# H2: 上位/下位 5 県差
top5 = df.nlargest(5, '1人当たり生産')['1人当たり生産'].mean()
bot5 = df.nsmallest(5, '1人当たり生産')['1人当たり生産'].mean()
print('H2 ratio:', round(top5/bot5,2))

# H3: 相関
r = df[['高齢化率','1人当たり生産']].corr().iloc[0,1]
print('H3 r:', round(r,3))

ステップ 6:結論と提言

「CV=0.27、 上位/下位比=2.7 倍、 r=-0.58。 H1 はやや支持されないが、 H2・H3 は支持される。 政策提言:高齢化率の高い地方県に優先投資」 — のように、 問い → 仮説 → 検証 → 提言まで一気通貫で書く。

🚀 現場での応用シナリオ(8 例)

応用 1:自治体施策の優先順位づけ

「47 都道府県のうち、 子育て支援を強化すべき優先 5 県は?」 → SSDSE-B から「出生率低位 × 子育て支援費低位」を抽出。

応用 2:教育の課題発見

「不登校率と学校資源の関係は?」 → 文科省統計と SSDSE 教育指標を結合。

応用 3:医療資源の最適配分

「医師偏在指標と県別人口当たり医師数の関係は?」 → 公的データから KPI を導出。

応用 4:マーケティング

「新商品 X の購入意向を年代別に予測」 → ロジスティック回帰、 ROC-AUC で評価。

応用 5:人事 / People Analytics

「離職率を高めている要因は?」 → 因果推論(A/B テスト、 IV)、 共変量調整。

応用 6:研究・論文執筆

「○○と△△の関係を明らかにする」 → 仮説 → 統計検定 → CI → 結論。 PRISMA / RECORD ガイドラインに沿う。

応用 7:競争・コンペ

SIGNATE / Kaggle / 統計データ解析コンペ:「予測精度」or「説明力」 を最大化、 という問いに事前に分解。

応用 8:意思決定支援

「介入 X を行うと Y は何 % 改善するか?」 — 因果問い。 RCT、 IV、 RDD、 DID、 などの設計が必要。

🏋️ 演習問題(8 題)

  1. 「学生の成績を上げるには?」 を SMART 化し、 SSDSE と組み合わせて検証可能にせよ。
  2. Leek & Peng の 6 タイプそれぞれに、 SSDSE-B-2026 から問いを 1 つずつ作れ。
  3. PICO 枠組みで「コロナ後遺症に対する運動療法」 の問いを設計せよ。
  4. 「相関がある」 と 「因果がある」 の違いを 300 字で説明せよ。
  5. HARKing を避けるために、 事前登録のテンプレートを書け(仮説・データ・分析手順)。
  6. CRISP-DM の 6 段階を SSDSE 分析プロジェクトに当てはめよ。
  7. KPI と OKR の違いを表で整理せよ。
  8. 「予測できる」 と 「因果が分かる」 の違いを SSDSE 例で示せ。

🗺 学習ロードマップ

  1. レベル 1 — 問いの 6 タイプ(記述/探索/推測/予測/因果/機構)を区別。
  2. レベル 2 — SMART 化、 PICO 化のテンプレートを使った具体化。
  3. レベル 3 — 問い → 仮説 → 検証 → 結論の流れを SSDSE で実行。
  4. レベル 4 — HARKing、 多重比較、 事前登録、 再現可能性の作法。
  5. レベル 5 — 因果推論の枠組み(RCT、 IV、 DID、 RDD、 PSM)。
  6. レベル 6 — 意思決定科学、 価値関数、 効用、 ベイズ意思決定。

📊 比較表(兄弟手法・選択肢)

問いの 6 タイプ比較(Leek & Peng 2015)

タイプ聞いていること必要
記述的何が起きているかサンプリング「2023 年の総人口分布」
探索的何が一緒に動くか多変量データ「高齢化率と県内総生産の関係」
推測的母集団全体の傾向無作為サンプル「日本全体での傾向」
予測的次に何が来る学習データ「2030 年の人口」
因果的X を変えたら Y は介入 / IV / RDD「子育て支援を増やすと出生率は」
機構的X はどう Y に影響構造モデル「人口流出の経路」

📖 用語ミニ辞典

用語意味
問い (question)何を知りたいか
仮説 (hypothesis)仮の答え
操作化抽象概念を測定可能変数へ
SMARTSpecific/Measurable/Achievable/Relevant/Time-bound
PICOPopulation/Intervention/Comparator/Outcome
HARKing結果を見てから仮説を後付け
交絡原因と結果の両方に影響する第三変数
因果推論介入効果を観察データから推定する枠組み
予測 vs 因果当てる vs 動かす、 別問題
KPIKey Performance Indicator
OKRObjectives and Key Results
CRISP-DMデータマイニング標準プロセス

🍳 コードレシピ(コピペ用 15 連発)

レシピコード
SMART 化テンプレ
「[誰の] の [何] を、 [どの期間] の [どのデータ] で、 [どの比較] で測る」
PICO テンプレ
Population, Intervention, Comparator, Outcome
FINER テンプレ
Feasible, Interesting, Novel, Ethical, Relevant
Research Question の例
「2023 年 47 都道府県で X と Y の Pearson 相関は、 95% 信頼区間で 0.5 を超えるか」
仮説テンプレ
H0: 母平均は等しい / H1: 等しくない
KPI テンプレ
対象 / 期間 / 指標 / 目標値 / 計測方法
OKR テンプレ
Objective(質的)+ Key Results 3-5 個(量的)
PICO 例
P=20-65 歳労働者、 I=リモートワーク、 C=出社、 O=月平均生産性
CRISP-DM
Business / Data / Prep / Model / Eval / Deploy の 6 ステップ
EDA 質問チェック
「データの粒度は?欠損は?分布は?外れ値は?」
p 値の意味
「H0 が真と仮定したとき、 観察以上に極端な結果が起こる確率」
信頼区間 95%
「100 回サンプリングして 95 回は真の値を含む区間」
予測の問い
「次の Y を当てる、 因果は問わない」
因果の問い
「X を操作したら Y はどう変わるか」
HARKing 防止
事前登録 / 仮説 → 分析 の順 / 探索と確認的分析を分離

⚠️ よくある落とし穴

❌ 問いを後付けで作る (HARKing)
データを見てから「この相関が出るような問い」を後出しすると、 偽陽性を多発する。 問い → 仮説 → 分析 の順を守る。 事前登録の発想を持つ。
❌ 広すぎる問い
「日本社会を分析する」は出発点としては OK、 だが必ず「対象・指標・期間・比較」に分解しないと進まない。
❌ 反証不能な問い
「○○は重要か」 のような問いは反証できない。 「○○が増えると Y が p 単位変わるか」 など、 数で答えられる形に直す。
❌ 予測と因果の混同
予測が高精度でも因果は別問題。 「人口減少を予測できる」≠「人口減少を引き起こす要因が分かった」。 因果の問いには介入・実験/自然実験/IV/RDD が必要。
❌ 関係者の不在
誰が結果を使うかを決めずに分析すると、 出来上がっても「で、 何に使えるの?」になる。 ステークホルダーと一緒に問いを練る。

❓ よくある質問(FAQ)

Q: 「問い」と「仮説」はどう違う?
A: 問いは「何を知りたいか」、 仮説は「現時点での仮の答え」。 良い問い → 仮説 → 検証可能な統計モデル、 という流れ。
Q: 問いを後から作っても良くないですか?
A: 分析過程で問いが洗練されるのは自然。 ただし「結果を見てから問いを差し替える」は HARKing と呼ばれ、 偽陽性の温床。 探索と確認的分析を分離する。
Q: 因果の問いはデータだけで答えられる?
A: 原則は無理。 ランダム化試験 (RCT) が黄金標準、 観察データでは IV・DID・RDD などの工夫が必要。 因果推論の枠組みを学ぶ。
Q: 良い問いの「具体例」を見たい
A: 「2023 年の SSDSE-B のうち、 65 歳以上比率が 30% を超える県の県内総生産は、 30% 未満の県と比べて 1 人あたりで何 % 違うか?」 — 5W が全部入っている。
Q: 問いは 1 つに絞るべき?
A: 主問い 1 つと副問い 2-3 個に整理。 ダッシュボードに置く KPI も 5-7 個を上限に絞ると、 受け手が判断しやすい。

📜 歴史と背景

位置づけ:「問いを立てる」は、 統計学・データサイエンス・計量経済学・社会科学すべてに共通する 最上位 の課題です。 にもかかわらず教科書では軽く扱われがちで、 結果として「ツールは使えるが何を問うべきか分からない」学習者が多発します。

研究の歴史的整理:

SMART(Specific, Measurable, Achievable, Relevant, Time-bound)原則や、 医学研究の PICO 枠組み(Population, Intervention, Comparator, Outcome)は、 データサイエンスの問い設計にも直接転用できます。

🗺 概念マップ

問いを軸にしたデータサイエンスの流れ:

   【ステークホルダーの関心】
              │
              ▼
       【問い】← 操作化(SMART / PICO)
              │
              ▼
      【仮説 H0 / H1】
              │
              ▼
   ┌──────────┼──────────┐
記述   関連   予測   因果
(記述統計 / 相関 / 機械学習 / 因果推論)
              │
              ▼
        【結論・KPI・提言】
              │
              ▼
        【意思決定・施策】

📚 参考文献・出典