論文一覧に戻る 📚 用語集トップ 🗺 概念マップ
📚 用語解説
📚 用語解説
集合
Set
数学基礎

🔖 キーワード索引

要素和集合積集合差集合ベン図冪集合写像Venn包除原理確率

別名・略称:(なし)

💡 30秒で分かる結論

集合(Set):要素の集まり。 確率の基礎

📍 あなたが今見ているもの

確率=集合への測度」と聞くと急に難しく感じますが、 要は 「事象という集合に確率という重みを振る」 仕組み。 また、 SQL の UNION ALL、 pandas の merge、 機械学習の クラスラベル も集合論で考えられます。 すべての数学・統計の 基礎言語

🎨 直感で掴む

集合演算の基本

演算記号意味
和集合A ∪ BA または B
積集合A ∩ BA かつ B
差集合A \ BA で B でないもの
補集合AᶜA でないもの全部
部分集合A ⊆ BA の全要素が B にも

📐 定義 / 数式

【包除原理】
$$|A \cup B| = |A| + |B| - |A \cap B|$$ $$|A \cup B \cup C| = |A| + |B| + |C| - |A \cap B| - |B \cap C| - |A \cap C| + |A \cap B \cap C|$$
【ド・モルガンの法則】
$$(A \cup B)^c = A^c \cap B^c, \quad (A \cap B)^c = A^c \cup B^c$$
【冪集合】
$$\mathcal{P}(A) = \{ S : S \subseteq A \}, \quad |\mathcal{P}(A)| = 2^{|A|}$$

🔬 記号・式を言葉で読み解く

要素
集合のメンバー。 $x \in A$ で表記。
空集合 ∅
要素を持たない集合。 全集合の部分集合。
写像
1 つの集合の要素を別の集合の要素に対応させる規則。 関数の一般化。
濃度
集合の「大きさ」。 有限集合では要素数。
可算/非可算
自然数と 1 対 1 対応できる集合は可算、 実数は非可算。

🧮 実データで計算してみる

SSDSE データで「東京 OR 大阪のデータを抜き出す」は和集合:

  • 集合 A = 東京のデータ行
  • 集合 B = 大阪のデータ行
  • A ∪ B = 東京 ∪ 大阪 のデータ行
  • SQL:WHERE pref IN ('東京', '大阪')

包除原理の使用例:「英語が好きな人 50、 数学が好きな人 30、 両方好き 15」→ 少なくとも 1 教科好き = 50 + 30 - 15 = 65 人

🐍 Python 実装

SSDSE-B-2026(47 都道府県・2023 年データ)を題材にした最小コード:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
# Python の set 型で集合演算
A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}

print(A | B)  # 和集合 {1,2,3,4,5,6,7,8}
print(A & B)  # 積集合 {4,5}
print(A - B)  # 差集合 {1,2,3}
print(A ^ B)  # 対称差 {1,2,3,6,7,8}

# pandas でも集合的操作
import pandas as pd
s1 = pd.Series(['a', 'b', 'c'])
s2 = pd.Series(['b', 'c', 'd'])
print(pd.Index(s1).intersection(pd.Index(s2)))  # ['b','c']

⚠️ よくある落とし穴

⚠️ 空集合の扱い
空集合との演算で予期せぬ結果になる。 確率では 0 になるとは限らない。
⚠️ 可算/非可算の誤解
「無限集合だから一括できる」は誤り。 連続集合は離散集合と質が違う。
⚠️ 重複の扱い
数学の集合では重複なし。 でも「サンプル」は重複可(マルチセット)。
⚠️ 写像が well-defined か
1 つの入力から複数の出力が出ては写像にならない。
⚠️ 無限和集合の確率
確率測度は可算加法性のみ要求、 非可算は不可。

🌐 関連手法・この用語を使う論文

📄 全数理論文の基礎
集合論は確率・統計・機械学習の共通言語です。