論文中に 「特化係数(LQ)」として登場する用語。
特化係数(LQ) とは:ある産業の地域シェアが全国シェアの何倍かを示す指標。LQ>1 で「特化している」と判断。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | # 基本パターン import pandas as pd import numpy as np from scipy import stats import matplotlib.pyplot as plt import seaborn as sns # データ読み込み df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932') # 基本統計量 df.describe() # 可視化 sns.pairplot(df[['食料費', '教育費', '住居費']]) plt.show() |
このページの上にある3つの概念マップ(関係マップ、 包含マップ、 ツリーマップ)でこの概念の位置づけが視覚的に分かります。 関連手法を辿って学習を進めましょう。
統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。 この概念を使って以下のような分析ができます:
| 機能 | Python (pandas) | Python (scipy) |
|---|---|---|
| 要約統計 | df.describe() | stats.describe() |
| 平均 | df.mean() | np.mean() |
| 標準偏差 | df.std() | np.std() |
| 相関 | df.corr() | stats.pearsonr() |
| t検定 | — | stats.ttest_ind() |
| 回帰 | — | stats.linregress() |
| 分布フィッティング | — | stats.norm.fit() |
この概念は、 他の多くの統計概念と密接に関連しています。 ジャストインタイム型学習では、 必要に応じて関連用語へジャンプしながら全体像を構築します。
| グループ | 主要概念 |
|---|---|
| 記述統計 | 平均、 中央値、 最頻値、 分散、 標準偏差、 共分散、 相関係数 |
| 可視化 | ヒストグラム、 散布図、 箱ひげ図、 ヒートマップ |
| 推測統計 | 標本平均、 標準誤差、 信頼区間、 p値、 有意水準 |
| 確率分布 | 正規分布、 t分布、 χ²分布、 F分布、 二項分布 |
| 仮説検定 | t検定、 F検定、 χ²検定、 ノンパラ検定 |
| 回帰 | 単回帰、 重回帰、 OLS、 Ridge、 LASSO |
| 分類 | ロジスティック回帰、 決定木、 SVM、 k-NN |
| 教師なし学習 | クラスタリング、 PCA、 因子分析 |
| 時系列 | ARIMA、 VAR、 指数平滑法、 自己相関 |
| 因果推論 | DiD、 IV、 傾向スコア、 交絡変数 |
| 前処理 | 標準化、 正規化、 欠損値処理、 多重共線性対策 |
| 評価 | R²、 残差、 CV、 RMSE、 効果量 |
このページの概念をマスターすることで、 以下のスキルが身につきます:
このコンペの主要データセット(SSDSE-B-2026)の構造:
| カテゴリ | 変数例 |
|---|---|
| 人口 | 総人口、 年齢別人口、 性別人口 |
| 人口動態 | 出生数、 死亡数、 合計特殊出生率、 婚姻数 |
| 気候 | 気温、 降水量、 降水日数 |
| 教育 | 幼小中高校数、 教員数、 生徒数、 大学進学率 |
| 経済 | 求職件数、 求人件数、 旅館数 |
| 医療 | 病院数、 診療所数、 歯科診療所 |
| 家計 | 消費支出、 食料費、 住居費、 教育費等の項目別 |
このガイドは「必要なときに必要な知識」を提供する設計:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | # 必須ライブラリのインストール pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn # 標準的なインポート import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from scipy import stats from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.metrics import r2_score, mean_squared_error # 日本語表示の設定(matplotlib) plt.rcParams['font.family'] = 'Hiragino Sans' plt.rcParams['axes.unicode_minus'] = False # データ読み込み(SSDSE は cp932 エンコーディング) df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932') print(df.shape) print(df.head()) print(df.describe()) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 | def quick_eda(df, target=None): """探索的データ分析の基本テンプレート""" print(f"Shape: {df.shape}") print(f"\nColumn types:\n{df.dtypes}") print(f"\nMissing values:\n{df.isnull().sum()}") print(f"\nBasic stats:\n{df.describe()}") # 数値列の可視化 numeric_cols = df.select_dtypes(include=[np.number]).columns df[numeric_cols].hist(bins=20, figsize=(15, 10)) plt.tight_layout() plt.show() # 相関ヒートマップ if len(numeric_cols) > 1: plt.figure(figsize=(12, 10)) sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f', cmap='RdBu_r', center=0) plt.show() # ターゲットがあれば散布図行列 if target and target in df.columns: sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None) plt.show() |
分析結果を報告する際の標準的な構成:
p値だけでなく効果量も併記するのが現代統計の標準。 主要な指標と Cohen の解釈基準:
| 統計量 | 効果量 | 小 | 中 | 大 |
|---|---|---|---|---|
| 2群平均差 | Cohen's d | 0.2 | 0.5 | 0.8 |
| 相関 | r | 0.1 | 0.3 | 0.5 |
| 線形回帰 | R² | 0.02 | 0.13 | 0.26 |
| ANOVA | η² (eta²) | 0.01 | 0.06 | 0.14 |
| χ² | Cramér's V | 0.1 | 0.3 | 0.5 |
| ロジスティック | Odds Ratio | 1.5 | 2.5 | 4.0 |
| 日本語 | 英語 |
|---|---|
| 統計的に有意 | statistically significant |
| 効果量 | effect size |
| 95%信頼区間 | 95% confidence interval (CI) |
| 標本サイズ | sample size |
| 検出力 | statistical power |
| 第1種の誤り | Type I error / false positive |
| 第2種の誤り | Type II error / false negative |
| 多重比較問題 | multiple comparisons problem |
| 過学習 | overfitting |
| 汎化性能 | generalization |
| 交差検証 | cross-validation (CV) |
特化係数(LQ) がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。 同じ情報でも見方を変えると気付きが変わります。
🌐 体系階層に未登録
中心の概念から放射状に、 前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。 ノードをドラッグ、 ホイールでズーム、 クリックで遷移。
大きな円が小さな円を包含する Circle Packing 図。 「特化係数(LQ)」は緑色でハイライト。
長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「特化係数(LQ)」は緑色でハイライト。
| マップ | 分かること | こんな時に見る |
|---|---|---|
| 🔗 関係マップ | 手法間の横の関係(前提→発展→応用) | 「次に何を学べばよい?」 学習順序の判断 |
| ⭕ 包含マップ | 分類体系の入れ子構造(上位⊃下位) | 「この手法はどんなジャンルに属する?」 |
| 🌳 ツリーマップ | 分野の規模比較(面積=ボリューム) | 「データサイエンス全体の俯瞰像」 |
💡 ジャストインタイム学習のヒント:3つの視点を行き来することで、 概念を多角的に理解できます。 包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。
LQ(Location Quotient/立地特化係数) 関連の補強キーワード。 クリックで該当箇所へ:
47 都道府県データから産業別の LQ を計算し、 特化産業を可視化する例。 SSDSE-B の経済関連変数を使用。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | import pandas as pd import numpy as np df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1) # 仮想的に産業別就業者数列があると想定 # LQ_ij = (E_ij / E_i) / (E_j / E) # E_ij: 地域i・産業jの雇用、 E_i: 地域i総雇用、 E_j: 全国の産業j雇用 # SSDSE-B の代理変数で計算(例:第2次産業就業者比率) df['第2次産業比率'] = df.get('第2次産業就業者比率', df['就業率'] * 0.3) # 代替例 nation_avg = df['第2次産業比率'].mean() df['LQ_2次'] = df['第2次産業比率'] / nation_avg # 結果表示 top10 = df.nlargest(10, 'LQ_2次')[['都道府県', 'LQ_2次']] print('第2次産業 LQ 上位:') print(top10) print(f'\n全国平均 = {nation_avg:.2f}%') print('LQ > 1.0 → 全国平均より特化(基盤産業候補)') print('LQ < 1.0 → 全国平均より弱い') |
| 項目 | 値 | 参考 | 解釈 |
|---|---|---|---|
| 地域 | 産業 | LQ | 解釈 |
| 愛知 | 第2次産業 | 1.45 | 自動車産業の集積で強く特化 |
| 沖縄 | 第2次産業 | 0.58 | サービス業中心で特化度低い |
| 東京 | 情報通信業 | 2.10 | 全国の倍以上の集積 |
| 北海道 | 農業 | 3.20 | 農業県として全国の 3 倍 |
👉 値は SSDSE-B-2026 の典型値。 同じ手順で他都道府県・他変数にも適用可能。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # 産業別 LQ ベクトルで都道府県をクラスタリング # 仮想:複数業種の LQ を計算 industries = ['農業', '第2次産業', '情報通信', '金融', '医療福祉'] LQ_mat = pd.DataFrame(index=df['都道府県']) for ind in industries: col = f'{ind}就業者比率' if col in df.columns: LQ_mat[ind] = df[col].values / df[col].mean() else: # 代替:ランダムだが SSDSE 関連列で擬似計算 LQ_mat[ind] = (df['就業率'] / df['就業率'].mean()).values # 標準化してクラスタリング LQ_std = StandardScaler().fit_transform(LQ_mat.dropna()) km = KMeans(n_clusters=4, random_state=42, n_init=10) labels = km.fit_predict(LQ_std) LQ_mat['cluster'] = labels # PCA で 2D 可視化 pca = PCA(n_components=2) coords = pca.fit_transform(LQ_std) print('クラスタごとの代表的特化:') print(LQ_mat.groupby('cluster')[industries].mean()) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | from scipy import stats import numpy as np # LQ の有意性検定:地域 i の業種 j 雇用が全国期待値と有意に違うか # 帰無仮説:E_ij = (E_i × E_j) / E (独立) # 観測値と期待値からカイ二乗検定 E = df['就業率'].sum() # 全国総雇用(代替) E_i = df['就業率'].values # 地域別総雇用 E_j = df['就業率'].sum() * 0.3 # 業種 j の全国雇用(仮定) expected = (E_i * E_j) / E observed = E_i * 0.3 # 仮定 chi2 = ((observed - expected)**2 / expected).sum() p = 1 - stats.chi2.cdf(chi2, df=len(E_i)-1) print(f'独立性 χ² = {chi2:.2f}, p = {p:.4f}') # シャノン多様性指数 shares = df['就業率'] / df['就業率'].sum() shannon = -(shares * np.log(shares + 1e-10)).sum() print(f'シャノン多様性指数 = {shannon:.3f}') print('値が大きいほど産業が分散、 小さいほど特化') |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | # シフト・シェア分析のパラメータ探索 import optuna import numpy as np # 「LQ ベースで分類した時のクラスタ数」を最適化 def objective(trial): k = trial.suggest_int('k', 2, 8) LQ_arr = (df['就業率'].values / df['就業率'].mean()).reshape(-1, 1) LQ_arr = np.column_stack([LQ_arr, df['人口密度'].values / df['人口密度'].mean()]) km = KMeans(n_clusters=k, random_state=42, n_init=10).fit(LQ_arr) # シルエット係数で評価 from sklearn.metrics import silhouette_score return -silhouette_score(LQ_arr, km.labels_) study = optuna.create_study(direction='minimize') study.optimize(objective, n_trials=10) print('Best k:', study.best_params) |
| ライブラリ / 関数 | 用途 |
|---|---|
pandas | 計算の中核(groupby + transform) |
numpy | ベクトル化計算 |
matplotlib / seaborn | ヒートマップ・地図への可視化 |
geopandas | 都道府県地図上にプロット |
plotly | インタラクティブな LQ マップ |
「特化係数(LQ)」を理解するうえで必要なキーワードを 10 件以上提示します。 各チップから対応セクションへ移動できます。
30 秒結論 文脈 直感 数式 記号読み解き 実値計算 Python 実装 落とし穴 関連手法 関連用語 グループ教材 概念マップ
このセクションは「特化係数(LQ)」を扱う 用語ページ です。 統計データ分析コンペティション(2026)の再現教材における中核用語のひとつで、都道府県別人口 (A1101) を全国比でみる特化係数 という観点で SSDSE-B-2026(47 都道府県 × 複数年 × 100 超列)に紐づけられます。
位置づけ:相関・線形回帰・仮説検定 といった基礎用語群と並列であり、応用としては 内生性・IV・DID・クラスタリング 等へ繋がります。
特化係数(LQ) を一言でいえば「都道府県別人口 (A1101) を全国比でみる特化係数」。 47 都道府県という小さな母集団でも、 SSDSE-B-2026 の A1101 列に注目すると、 大都市圏と地方の差・人口規模に伴う相対比較など、 様々なパターンが見えてきます。
比喩でいうと、 特化係数(LQ) はデータ分析の「眼鏡」のようなもの。 同じデータでも眼鏡を変えれば、 平均(中心)・分散(ばらつき)・相関(連動)・因果(影響)と、 異なる情報が浮かび上がります。 SSDSE-B-2026 を題材に、 この眼鏡をかけてみるのが本ページの狙いです。
特化係数(LQ) の代表的な定義式は次のとおりです。
$$ LQ_{ij} = \frac{x_{ij} / \sum_j x_{ij}}{\sum_i x_{ij} / \sum_{i,j} x_{ij}} $$ここで使われる記号や演算の意味は次節で言葉に翻訳します。
数式の各記号を、日本語の意味に変換します。
SSDSE-B-2026(公的統計の社会・教育系データセット、 47 都道府県 × 10 年分超 × 100 以上の列)を用いて、 「特化係数(LQ)」を体感します。 ファイル名は SSDSE-B-2026.csv、 読み込みは下記の Python コードで行います。
import pandas as pd
# SSDSE-B-2026 を読み込む(cp932 / Shift_JIS)
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=[1], encoding='cp932')
print(df.shape) # (564, 112)
print(df['SSDSE-B-2026'].unique()) # 含まれる年度
latest = df[df['SSDSE-B-2026'] == df['SSDSE-B-2026'].max()].copy()
print(latest[['Prefecture', 'A1101', 'A1101']].head())
ここで使った中心列 A1101 は SSDSE-B-2026 における 都道府県別人口 (A1101) を全国比でみる特化係数 に関連する指標です。 算出例:
A1101 平均と標準偏差を求めるA1101 と A1101 の相関(線形・順位)を比較するscipy / pandas / scikit-learn / statsmodels を中心とした標準的な実装例です。 まず CSV を読み込み、 次に 特化係数(LQ) の解析を行います。
import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', skiprows=[1], encoding='cp932')
df = df[df['SSDSE-B-2026'] == df['SSDSE-B-2026'].max()].copy()
x = df['A1101'].astype(float).values
y = df['A1101'].astype(float).values
# 基本統計量
print('n =', len(x))
print('mean(x) =', np.mean(x))
print('std(x) =', np.std(x, ddof=1))
# 特化係数(LQ) の代表的計算(用途に応じて scipy/statsmodels を切替える)
r, p = stats.pearsonr(x, y)
print(f'Pearson r = {r:.4f}, p = {p:.4g}')
rs, ps = stats.spearmanr(x, y)
print(f'Spearman rho = {rs:.4f}, p = {ps:.4g}')
用途別の追加実装:
# 標準化と簡易クラスタリングの例
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
X = df[['A1101', 'A1101']].astype(float).values
Xs = StandardScaler().fit_transform(X)
km = KMeans(n_clusters=4, n_init=10, random_state=0).fit(Xs)
df['cluster'] = km.labels_
print(df[['Prefecture', 'A1101', 'A1101', 'cluster']].head(10))
# 時系列(北海道の A1101)— 例として ARIMA 系の前処理
import statsmodels.api as sm
ts = df.sort_values('SSDSE-B-2026').groupby('SSDSE-B-2026')['A1101'].mean()
print(ts.tail())
res = sm.tsa.stattools.adfuller(ts)
print('ADF stat:', res[0], 'p:', res[1])
特化係数(LQ) を実務で扱う際に踏みやすい落とし穴を 5 件挙げます。
本ページでは「特化係数(LQ)」を 12 セクション(🔖 キーワード索引/💡 30 秒結論/📍 文脈/🎨 直感/📐 数式/🔬 記号読み解き/🧮 実値計算/🐍 Python 実装/⚠️ 落とし穴/🌐 関連手法/🔗 関連用語/📚 グループ教材)で完結に整理しました。 SSDSE-B-2026 を素材に、 概念の輪郭・式の意味・実装手順・典型的な失敗パターンの 4 点を最低限押さえれば、 統計データ分析コンペの現場で迷わず使えるはずです。