DataFrame | 用語解説

🔖 キーワード索引

pandasDataFrameSeries表形式データ処理Python

💡 30秒で分かる結論

DataFrame ── pandasの表形式データ構造

pandas の表形式データ構造。「行（observation）×列（variable）」の Excelシート的オブジェクト
各列は Series（1次元、型統一）。 DataFrame は Series の辞書
主操作：選択（loc/iloc）／フィルタ（query）／集約（groupby）／結合（merge）
NumPy／Excel／SQL／RDataFrame と互換性が高く、データサイエンスの共通言語
大規模データなら polars / Dask、 GPU なら cuDF と置き換え可能

📍 文脈 ── どこで出会うか

SSDSE のCSVを読み込んだ瞬間からあなたは DataFrame を触っています。全データサイエンス作業の8割はこの上での操作と言って過言ではありません。

🎨 直感で掴む

都道府県データを例に：

       都道府県  人口      高齢化率  死亡率
0      北海道    5224614    32.5      12.1
1      青森県    1237984    34.6      14.2
2      岩手県    1210534    34.2      13.5
…

これが DataFrame。行=都道府県、列=変数、インデックスは番号 or 都道府県名。

📐 定義／数式

DataFrameの3層の構造：

インデックス（index）：行ラベル（何の観測か）
カラム（columns）：列ラベル（何の変数か）
データ（values）：実際の値（2次元NumPy配列）

🔬 記号を読み解く

Series: 1次元、同じ型。 DataFrameの1列に相当
dtype: 列ごとの型（int64, float64, object, datetime64 等）
loc / iloc: ラベル指定 / 位置指定の参照
groupby: 分割→適用→結合の3段階パターン（Split-Apply-Combine）
NaN: 欠損値表現

🧮 実値で計算してみる

典型的な5操作：

df.head()                              # 先頭5行
df["高齢化率"].mean()                  # 列の平均
df[df["高齢化率"] > 30]                # フィルタ
df.groupby("地域")["人口"].sum()       # 集計
df.merge(df2, on="都道府県")           # 結合

🐍 Python 実装

最小限のスニペットで動作確認できる例。公的データ（SSDSE 等）を想定しています。

import pandas as pd

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
print(df.shape)            # (47, 列数)
print(df.dtypes.head())
print(df.describe())

# 高齢化率が高い順 Top 5
print(df.nlargest(5, '高齢化率')[['都道府県','高齢化率']])

⚠️ よくある落とし穴

❌ 1. SettingWithCopyWarning を無視

スライスへの代入は本体に反映されない場合あり。 .copy() 明示

❌ 2. inplace=True 多用

可読性低下＆将来非推奨予定。代入で書く

❌ 3. 巨大DataFrameをfor文で回す

遅い。 vectorize（列演算）または apply で

❌ 4. NaN を 0 と勘違い

集計で skipna=True がデフォだがゼロ埋めとは違う挙動

❌ 5. dtype の自動推定ミス

郵便番号が数値化されゼロが消えるなど。 dtype=strを明示

📚 関連グループ教材

この用語の全体像を学ぶには、横断的な教材で文脈を掴むのが効率的です。

🔎 深掘り解説

頻出操作チートシート

# 行操作
df.iloc[0]                     # 1行目（位置）
df.loc['秋田県']               # ラベル指定
df.head(5)                     # 先頭5行
df.sample(10)                  # ランダム10行

# 列操作
df[['人口','高齢化率']]         # 複数列
df['人口密度'] = df['人口']/df['面積']  # 新規列

# フィルタ
df[df['人口'] > 1e6]           # 条件
df.query("人口 > 1e6 and 高齢化率 < 30")

# 集約
df.groupby('地域')['人口'].agg(['mean','sum'])
df.pivot_table(index='地域', values='人口', aggfunc='sum')

# 結合
df1.merge(df2, on='都道府県', how='inner')
pd.concat([df1, df2], axis=0)

パフォーマンスTips

iterrows() は遅い → 列演算（vectorize）を使う
apply は最後の手段。まず組込みメソッドを探す
dtype を最適化：int64 → int32、 object → category
巨大データは polars または Dask
chunksize でストリーミング読み込み

✅ 使う前のチェックリスト

☐ DataFrame が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — DataFrame を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔎 深掘り解説

頻出操作チートシート

# 行操作
df.iloc[0]                     # 1行目（位置）
df.loc['秋田県']               # ラベル指定
df.head(5)                     # 先頭5行
df.sample(10)                  # ランダム10行

# 列操作
df[['人口','高齢化率']]         # 複数列
df['人口密度'] = df['人口']/df['面積']  # 新規列

# フィルタ
df[df['人口'] > 1e6]           # 条件
df.query("人口 > 1e6 and 高齢化率 < 30")

# 集約
df.groupby('地域')['人口'].agg(['mean','sum'])
df.pivot_table(index='地域', values='人口', aggfunc='sum')

# 結合
df1.merge(df2, on='都道府県', how='inner')
pd.concat([df1, df2], axis=0)

パフォーマンスTips

iterrows() は遅い → 列演算（vectorize）を使う
apply は最後の手段。まず組込みメソッドを探す
dtype を最適化：int64 → int32、 object → category
巨大データは polars または Dask
chunksize でストリーミング読み込み

✅ 使う前のチェックリスト

☐ DataFrame が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — DataFrame を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈 ── どこで出会うか

🎨 直感で掴む

📐 定義／数式

🔬 記号を読み解く

🧮 実値で計算してみる

🐍 Python 実装

⚠️ よくある落とし穴

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

🔎 深掘り解説

頻出操作チートシート

パフォーマンスTips

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

🔎 深掘り解説

頻出操作チートシート

パフォーマンスTips

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

📚 関連グループ教材

🔗 同カテゴリの他用語