ソーシャルメディアデータ

🔖 キーワード索引

SNSTwitter/X非構造化テキスト感情分析API

💡 30秒で分かる結論

ソーシャルメディアデータ ── SNSから得られる非構造化データ

Twitter/X、 Facebook、 Instagram、 TikTok 等の非構造化データ
形式：テキスト、画像、動画、ハッシュタグ、メタデータ（時刻、位置、リアクション）
応用：マーケティング、感情分析、トレンド検知、危機対応、社会調査
取得方法：公式API、スクレイピング（規約注意）、アカデミック・データセット
倫理：個人特定、プライバシー、規約遵守、 IRB審査が必要なケースも

📍 文脈 ── どこで出会うか

近年の社会科学・マーケティング論文で頻出。「リアルタイムの世論」「災害時の情報拡散」など、公式統計では捉えられない動きを観測できます。

🎨 直感で掴む

SNSデータの3つの層：

コンテンツ層：本文、画像、動画
関係層：フォロー、リプライ、リツイート、メンション → ネットワーク構造
反応層：いいね、シェア、ブックマーク → 反応強度

これらを組み合わせて、「誰が、何を、どう広めたか」を分析できます。

📐 定義／数式

【感情分析の枠組み】

tweet → 前処理 → 埋め込み or 辞書照合 → ポジティブ／ネガティブ／中立

【拡散の指標】

エンゲージメント率 = (Like + Retweet + Reply) / Followers
R0（再生産数）= 1ツイートあたりの平均拡散人数

🔬 記号を読み解く

テキスト: 本文。絵文字／URL／メンションを含む
メタデータ: 投稿時刻、位置情報（あれば）、端末、言語
グラフ構造: ユーザー間のフォロー／RT関係
時系列: イベント前後でハッシュタグ頻度の変化など

🧮 実値で計算してみる

架空シナリオ：「災害時のSNS反応」

地震発生から1時間以内に「#地震」を含む投稿が10万件
ピーク時の投稿頻度：1秒あたり300件
位置情報付き投稿の集計で被災地周辺を可視化
感情分析で「不安／情報共有／支援要請」を分類

🐍 Python 実装

最小限のスニペットで動作確認できる例。公的データ（SSDSE 等）を想定しています。

🎯 目的：X (Twitter) API v2 を tweepy で叩き、「高齢化」を含む日本語ツイート 100 件を取得し、投稿時刻と「いいね数」を含む DataFrame に整形する。 SSDSE-B-2026 の高齢化率と紐付ける前段階。

📥 入力：Bearer Token（X Developer Portal で取得）、検索クエリ '高齢化 lang:ja'、上限 100 件。 tweet_fields=['created_at','public_metrics'] でメタ情報を付与。

# X (Twitter) API v2 の例（tweepyライブラリ）
import tweepy
import pandas as pd

client = tweepy.Client(bearer_token='YOUR_BEARER_TOKEN')
res = client.search_recent_tweets(query='高齢化 lang:ja',
                                  max_results=100,
                                  tweet_fields=['created_at','public_metrics'])
df = pd.DataFrame([{
    'text': t.text,
    'created_at': t.created_at,
    'likes': t.public_metrics['like_count']
} for t in res.data])
print(df.head())

📤 出力
                                                text          created_at  likes
0  日本の高齢化はもはや先進国共通の課題に…       2026-05-19 12:34:00+00:00   42
1  地方の高齢化と人口減少、 SSDSE で見ると…   2026-05-19 11:50:00+00:00   18
2  高齢化率 30% 超えの県では介護人材不足が…   2026-05-19 11:25:00+00:00    7
（API 課金プランにより取得上限は変動）

💬 解釈：tweepy.Client は API v2 を簡潔に叩ける薄ラッパ。ただし「Recent Search」は直近 7 日のツイートのみで、歴史的な傾向追跡には Academic Research API か別途データセットが必要。「いいね数」は時間と共に増えるため、取得タイミングで値が変わることに注意。

⚠️ よくある落とし穴

❌ 1. 規約違反スクレイピング

各SNSの利用規約とAPI制限を遵守。訴訟例多数

❌ 2. 代表性バイアス

SNSユーザーは人口の一部、さらに発言層は偏る。「世論」と直結させない

❌ 3. ボット／自動投稿の混入

人間の意見と区別する必要。ボット検出が前処理必須

❌ 4. 時系列の歪み

プラットフォームの仕様変更や検閲で過去比較が困難

❌ 5. プライバシー無配慮

個人特定可能な内容の公開研究はIRB審査・倫理委員会承認が必要

🐍 Python 実装（パイプライン全体）

テキストデータの基本処理を、 SSDSE のような数値データと組み合わせる典型例を示します。仮想的に「都道府県名を含むツイートの感情極性」を集計するシナリオです。

🎯 目的：ツイート風 CSV（text, created_at, prefecture）を読み込み、 URL・@メンション・#ハッシュタグ記号を除去して clean 列を作る。「日本語ツイートの前処理」の最初のステップ。

📥 入力：data/raw/tweets_sample.csv （想定列：text, created_at, prefecture）。 parse_dates で datetime 化。 SSDSE と結合するキーは「prefecture」（都道府県名）。

import pandas as pd
import re

# (A) ツイート風のテキストを読み込み（CSV列: text, created_at, prefecture）
tweets = pd.read_csv('data/raw/tweets_sample.csv', encoding='utf-8',
                     parse_dates=['created_at'])
print(tweets.shape, tweets.dtypes)

# (B) 前処理：URL／メンション／ハッシュタグの除去
def clean_text(s: str) -> str:
    s = re.sub(r'https?://\S+', '', s)   # URL
    s = re.sub(r'@\w+', '', s)            # メンション
    s = re.sub(r'#(\w+)', r'\1', s)       # ハッシュタグの#を除く
    return s.strip()

tweets['clean'] = tweets['text'].astype(str).apply(clean_text)
print(tweets[['text','clean']].head(3))

📤 出力
(120, 3) ── text:object, created_at:datetime64[ns], prefecture:object
                                  text                                 clean
0  https://t.co/abc 高齢化が… @user1 #社会         高齢化が… 社会
1  @news_bot 介護人材不足です #高齢化              介護人材不足です 高齢化
2  良いニュース！ https://… #日本                    良いニュース！ 日本

💬 解釈：URL とメンションを除き、ハッシュタグの「#」だけ取り除いて単語自体は残すのが SNS テキスト前処理の定石。これだけで「TF-IDF や感情辞書ベース」の精度が大きく上がる。ただし、絵文字・顔文字・スラングは別途処理ロジックが必要。

感情極性は辞書ベースが導入として手軽：

POS = {'良い','嬉しい','最高','素晴らしい','楽しい'}
NEG = {'悪い','悲しい','最悪','酷い','嫌い'}

def polarity(s: str) -> int:
    pos = sum(w in s for w in POS)
    neg = sum(w in s for w in NEG)
    return pos - neg  # 正:ポジ / 負:ネガ / 0:中立

tweets['polarity'] = tweets['clean'].apply(polarity)

# (C) 都道府県 × 日次で集計
daily = (tweets
   .groupby([tweets['created_at'].dt.date, 'prefecture'])
   ['polarity']
   .agg(['mean','count'])
   .reset_index())
print(daily.head())

SSDSE と結合すれば「人口規模 vs ツイート量・感情」の関係も検証可能：

ssdse = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)
ssdse = ssdse[['都道府県','人口総数']].rename(columns={'都道府県':'prefecture'})

agg = (tweets.groupby('prefecture')['polarity'].mean()
       .reset_index(name='avg_polarity'))
merged = agg.merge(ssdse, on='prefecture', how='inner')
print(merged.corr(numeric_only=True))

📊 主要プラットフォームの特性比較

プラットフォーム	主な投稿形式	ユーザー層	分析適性	取得難度
X (Twitter)	短文＋画像	幅広いが社会的関心が高い層	時事・速報	高（API 有料化）
YouTube	動画＋コメント	10–50代中心	コンテンツ評価	中
Reddit	長文＋投票	欧米中心、専門コミュニティ	深掘り議論分析	低
Instagram	画像・短編動画	10–30代	ブランド・マーケ	中
TikTok	短編動画	Z世代中心	トレンド検知	高
Mastodon	短文＋画像	技術寄りニッチ	研究用途	低
Bluesky	短文＋画像	早期採用者	新興分析	中（成長中）

⚖️ 代表性バイアスとその対策

「SNS で多い意見＝世論」ではありません。次のバイアスを必ず文書化：

選択バイアス：そもそも SNS を使う層は人口の一部（X は日本で約3割）
発言バイアス：使っていても多くは ROM。発言者は更に少数
ボット・反復投稿：1 人が大量に投稿、自動投稿の混在
アルゴリズム露出：プラットフォームが優先表示する内容に偏る
時間帯：特定時間帯に投稿が集中（職業・地域でずれる）

対策としては、 ① 公的統計や調査データと併用、 ② プラットフォーム別の比較、 ③ ユーザー特性で層別化、 ④ ボット検出フィルタ、などが有効です。

❓ よくある質問

Q1. 学術利用なら API 無料枠で十分？

X はかつて Academic Research Track があったが現状大きく制限。 Reddit / Mastodon / Bluesky は緩やかで、大学研究には現実的。古いデータが必要なら学術データセット（GDELT 等）を検討。

Q2. 感情分析は辞書 vs 機械学習、どちらを使う？

初手は辞書（実装が単純）。ニュアンスや皮肉が問題になるなら、既訓練の BERT 系（日本語なら東北大ベース、 cl-tohoku/bert-base-japanese）か LLM API。ただし計算コストとの兼ね合い。

Q3. 個人を特定できる投稿は引用してよい？

原則 No。 ID をハッシュ化または完全匿名化し、引用が必要な場合は IRB 審査と本人同意が望ましい。公人の公的発言は別ですが慎重に。

Q4. ハッシュタグ分析だけで十分か？

代表性が悪いことが多い。ハッシュタグ非使用の投稿が大多数で、ハッシュタグ付き投稿はキャンペーン参加者など特殊層に偏る。補助的指標として使う。

Q5. 位置情報付き投稿の割合は？

プラットフォーム・年代により 1〜5% 程度。災害分析等で重要だが、自己選択バイアスが強いため数値的代表性は乏しい。補完にプロフィール記載地域などを使う。

📚 関連グループ教材

この用語の全体像を学ぶには、横断的な教材で文脈を掴むのが効率的です。

📊 公的統計データ（SSDSE）との比較

観点	SNS データ	SSDSE / e-Stat
取得方法	API・スクレイピング	CSV ダウンロード
時間粒度	秒オーダーまで可	年次・月次中心
空間粒度	位置情報があれば点単位	都道府県・市区町村
代表性	低（自己選択）	高（悉皆／確率標本）
変数	テキスト・画像中心	数値中心
分析適性	感情・トレンド・拡散	構造・規模・推移
補完関係	「いま起きていること」	「全体像」

両者を組合せた研究が増えています。例：SNS の感情指標 × 県別失業率（SSDSE）の相関、災害発生時の SNS 言及量 × 人的被害（消防庁統計）の関係など。

💾 大量 SNS データの保存設計

SNS データは「テキスト＋メタ＋画像/動画リンク」と階層化されており、単一の表に押し込めると非効率です。典型的な3層設計：

Cold（オブジェクトストレージ）：S3 / GCS。生 JSON や画像バイナリ。 1 ファイル/投稿で保管
Warm（カラム DB）：Parquet on S3 + DuckDB / BigQuery。投稿 ID、時刻、ユーザー、テキスト本文、メトリクスのみ
Hot（RDB / 検索エンジン）：PostgreSQL / Elasticsearch。直近1ヶ月分の検索用。全文インデックス必須

投稿 ID（UNIQUE）と取得時刻（パーティション）が中核キー。ハッシュタグやメンションは JSON 配列 → 配列展開ビューで結合。グラフ部分（フォロー / RT）は Neo4j などのグラフ DB が向きます。

🎯 主要な応用領域

領域	代表タスク	活用される指標・手法
マーケティング	ブランド評判・キャンペーン効果	SOV、 NSS、ハッシュタグ参加数
公共政策	政策に対する反応・分極化分析	ネットワーククラスタリング、感情分析
災害対応	避難情報拡散、被災状況把握	位置情報集約、緊急ハッシュタグ追跡
金融	市場感情と株価の関係	VADER、ニュース感情指標
公衆衛生	疾病流行の早期検知	症状ハッシュタグの時空間集約
社会科学	世論形成・抗議運動・分極化	トピックモデル、グラフ分析
教育	学習者コミュニティの態度分析	コメント分類、感情分析

🔌 API 取得の詳細コード

Reddit (PRAW)：研究用途で最も親切な API。 OAuth でアプリ登録するだけ。

import praw, pandas as pd

reddit = praw.Reddit(client_id='YOUR_ID',
                     client_secret='YOUR_SECRET',
                     user_agent='research-bot v0.1')

posts = []
for s in reddit.subreddit('japan').hot(limit=200):
    posts.append({'id': s.id, 'title': s.title,
                  'score': s.score, 'created_utc': s.created_utc,
                  'num_comments': s.num_comments,
                  'flair': s.link_flair_text})

df = pd.DataFrame(posts)
df['created_at'] = pd.to_datetime(df['created_utc'], unit='s', utc=True)
print(df.head())

YouTube Data API v3：動画コメントを取得。クォータ単位で課金。

from googleapiclient.discovery import build
import pandas as pd

yt = build('youtube', 'v3', developerKey='YOUR_KEY')

req = yt.commentThreads().list(part='snippet', videoId='VIDEO_ID',
                               maxResults=100, textFormat='plainText')
res = req.execute()

comments = [{
  'author': it['snippet']['topLevelComment']['snippet']['authorDisplayName'],
  'text':   it['snippet']['topLevelComment']['snippet']['textDisplay'],
  'likes':  it['snippet']['topLevelComment']['snippet']['likeCount'],
  'published': it['snippet']['topLevelComment']['snippet']['publishedAt'],
} for it in res['items']]

print(pd.DataFrame(comments).head())

Mastodon：分散インスタンスごとに API があり、認証不要の public ストリームも利用可。

from mastodon import Mastodon

m = Mastodon(api_base_url='https://mastodon.social')

# パブリックタイムライン
toots = m.timeline_public(limit=40)
for t in toots[:5]:
    print(t['content'][:80].replace('<','<'))

🛠 NLP 技術スタック

SNS テキストの分析に頻出する技術と日本語用のおすすめライブラリ：

タスク	手法	日本語向け実装
形態素解析	単語分割・品詞推定	MeCab, Janome, fugashi+UniDic, SudachiPy
基本ベクトル化	TF-IDF, Bag-of-Words	scikit-learn TfidfVectorizer
単語埋め込み	Word2Vec, fastText	gensim, Wikipedia 学習済モデル
文埋め込み	BERT, Sentence-BERT	cl-tohoku/bert-base-japanese (HF)
感情分析	辞書 / 機械学習 / LLM	日本語評価極性辞書, asari, BERT
トピック抽出	LDA, BERTopic, NMF	gensim LdaModel, bertopic
固有表現抽出	NER（人名/組織/地名）	GiNZA, spaCy 日本語モデル
対話/要約	GPT, T5	OpenAI / Claude API, Llama日本語版

📐 主要指標と計算式

指標	計算式	意味
エンゲージメント率	(Like+RT+Reply) / Followers	フォロワー比の反応強度
バイラル係数	$R_0 = \beta/\gamma$	1超で拡大、1未満で収束
SOV (Share of Voice)	対象ブランド言及数 / 全言及数	市場の声占有率
NSS	(ポジ件数 − ネガ件数) / 全件	純感情スコア
影響度	$\log$(Followers) × Engagement	単発リーチの規模
バースト度	$\|\Delta f\|$ / 過去窓の平均	話題の急上昇度

📖 ケーススタディ：選挙予測の試みと失敗

2010 年代前半、 Twitter の言及量から選挙結果を予測する論文が多数発表されました。しかし 2016 年米大統領選では、 SNS 上では Clinton 支持の言及がトランプを大きく上回ったにもかかわらず、トランプが勝利。原因は 選択バイアス（Twitter ユーザーは民主党支持に偏在）と、「沈黙の螺旋」（少数派は発言を控える）でした。

教訓：① SNS データ単独で集団全体を推定しない、 ② 公的調査と必ず突き合わせる、 ③ 「ない人」の声を補完する設計（重み付け、補完サンプリング）が必要。

🔬 情報拡散モデル（数式）

SNS 上の情報拡散は、感染症の SIR モデルと近い構造を持ちます：

$$ \frac{dI}{dt} = \beta S I - \gamma I $$

$S$=未拡散ユーザー、 $I$=拡散済み、 $\beta$=拡散率、 $\gamma$=飽和率。基本再生産数 $R_0 = \beta / \gamma$ が 1 を超えれば バイラル化。ハッシュタグの時系列を当てはめると流行の最大規模を予測できます。

独立カスケード（IC）モデル、線形閾値モデルなど、ネットワーク上の拡散モデルが多数提案されています。ネットワーク中心性（degree, betweenness, PageRank）が高いノードを特定すると、効率的な情報伝搬経路や、偽情報の発信源候補を見つけられます。

⚖️ 倫理・法規制チェックリスト

□ 利用するプラットフォームの利用規約・開発者規約を読了
□ 日本：個人情報保護法（仮名化／匿名加工情報の区別）を遵守
□ EU 圏：GDPR（同意・目的明示・データ最小化）を確認
□ 米国：CFAA（不正アクセス）・州の CCPA
□ 大学研究：所属機関の IRB / 研究倫理委員会に申請
□ 公開時は ID 仮名化、引用文の改変による特定回避
□ 学術データセットの再配布規約を確認（例：「30日以内に削除」など）
□ 取得 API のレート制限を守り、サーバーへの負荷を最小化

📜 歴史と発展

1997 年：SixDegrees.com、最初の SNS と言われる
2003 年：MySpace、 Friendster の流行
2004 年：Facebook 発足（ハーバード大内のみ）
2006 年：Twitter 発足。短文・公開タイムライン文化
2010 年代：Instagram / Snapchat の画像中心化、中国 Weibo / WeChat
2016 年：米大統領選における SNS の影響が議論される
2018 年：Cambridge Analytica 事件 → SNS データの倫理問題が顕在化
2020 年代前半：TikTok 急成長、ショート動画文化、アルゴリズム推薦の影響
2022 年：Twitter → X 改称、 API 大幅有料化、研究者の離反
2023–24 年：Threads, Bluesky, Mastodon など分散型代替の登場

🔎 深掘り解説

主要データソースとアクセス手段

プラットフォーム	取得方法	制限
X (Twitter)	API v2（有料化）、 Academic Track	厳しいレート制限
YouTube	Data API v3	クォータあり
Reddit	PRAW（Python）	比較的緩い
Mastodon	公開API	各インスタンスのポリシー
Bluesky	ATP / AT Protocol	新興、制限緩め

分析パイプライン

収集：API、ストリーミング、アーカイブ
クレンジング：絵文字、 URL、メンション処理
言語処理：トークン化、形態素解析、埋め込み
分析：感情、トピック、ネットワーク
可視化：時系列、ワードクラウド、ネットワーク図
解釈：代表性／バイアスを必ず議論

✅ 使う前のチェックリスト

☐ ソーシャルメディアデータ が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — ソーシャルメディアデータ を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔎 深掘り解説

主要データソースとアクセス手段

プラットフォーム	取得方法	制限
X (Twitter)	API v2（有料化）、 Academic Track	厳しいレート制限
YouTube	Data API v3	クォータあり
Reddit	PRAW（Python）	比較的緩い
Mastodon	公開API	各インスタンスのポリシー
Bluesky	ATP / AT Protocol	新興、制限緩め

分析パイプライン

収集：API、ストリーミング、アーカイブ
クレンジング：絵文字、 URL、メンション処理
言語処理：トークン化、形態素解析、埋め込み
分析：感情、トピック、ネットワーク
可視化：時系列、ワードクラウド、ネットワーク図
解釈：代表性／バイアスを必ず議論

✅ 使う前のチェックリスト

☐ ソーシャルメディアデータ が今のタスクに本当に適切か再確認した
☐ 前提条件（独立性、正規性、サンプル数等）を満たしているか確認した
☐ データの尺度・分布・欠損・外れ値を確認した
☐ 結果だけでなく「不確実性」（CI、標準誤差）も把握した
☐ 解釈と限界を区別して文書化した
☐ 関連する別の手法と比較したうえで本手法を選んだ
☐ 落とし穴（このページの ⚠️ セクション）に該当しないか確認した
☐ 関連グループ教材で全体像と位置付けを把握した

📖 さらに学ぶには

本サイト内

論文一覧に戻る — ソーシャルメディアデータ を実際に使った再現論文をハンズオン形式で読む
このページ上部の「🔗 関連用語」から派生概念へ
「📚 関連グループ教材」で横断的な学習教材へ

外部リソース

scikit-learn 公式ドキュメント — 標準実装と例
StatQuest with Josh Starmer (YouTube) — 直感的な統計／ML 解説
Cross Validated (Stack Exchange) — 統計／ML の質問サイト
arXiv — 最新の手法論文プレプリント

困ったときは

データの可視化（散布図、ヒストグラム、箱ひげ図）で異常を確認
サンプルサイズ・欠損・外れ値を確認
仮定が満たされているか診断（正規性検定、等分散性検定など）
類似研究での標準的な手法を確認
結果を複数手法でクロスチェック（頑健性確認）

🔖 キーワード索引

💡 30秒で分かる結論

📍 文脈 ── どこで出会うか

🎨 直感で掴む

📐 定義／数式

🔬 記号を読み解く

🧮 実値で計算してみる

🐍 Python 実装

⚠️ よくある落とし穴

🐍 Python 実装（パイプライン全体）

📊 主要プラットフォームの特性比較

⚖️ 代表性バイアスとその対策

❓ よくある質問

🌐 関連手法・派生

🔗 関連用語（前提・並列・発展）

📚 関連グループ教材

📊 公的統計データ（SSDSE）との比較

💾 大量 SNS データの保存設計

🎯 主要な応用領域

🔌 API 取得の詳細コード

🛠 NLP 技術スタック

📐 主要指標と計算式

📖 ケーススタディ：選挙予測の試みと失敗

🔬 情報拡散モデル（数式）

⚖️ 倫理・法規制チェックリスト

📜 歴史と発展

🔎 深掘り解説

主要データソースとアクセス手段

分析パイプライン

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

🔎 深掘り解説

主要データソースとアクセス手段

分析パイプライン

✅ 使う前のチェックリスト

📖 さらに学ぶには

本サイト内

外部リソース

困ったときは

📚 関連グループ教材

🔗 同カテゴリの他用語