特化係数（LQ） (Location Quotient)

📍 文脈 💡 30秒結論

📍 あなたが今見ているもの

論文中に 「特化係数（LQ）」として登場する用語。

特化係数（LQ） とは：ある産業の地域シェアが全国シェアの何倍かを示す指標。LQ>1 で「特化している」と判断。

💡 30秒で分かる結論

定義：ある産業の地域シェアが全国シェアの何倍かを示す指標。LQ>1 で「特化している」と判断。
カテゴリ：地域分析

📖 包括的解説 — この概念を完全マスター

📍 学習の3ステップ

定義を理解する：この概念は何か？数式や条件を確認
具体例を見る：実データ（SSDSE 等）で計算してみる
応用する：自分のデータに適用、結果を解釈

🔧 Python実装パターン

🎯 解説: 特化係数 LQ（Location Quotient）は地域産業構造の特徴を測る指標。 LQ = (地域 i 産業 j 構成比) / (全国 産業 j 構成比)。 SSDSE-B-2026 の産業別就業者数で各県の特化を計算する。

# 基本パターン
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')

# 基本統計量
df.describe()

# 可視化
sns.pairplot(df[['食料費', '教育費', '住居費']])
plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv
  E2101: 第1次産業就業者
  E2102: 第2次産業就業者
  E2103: 第3次産業就業者

📤 実行例: 北海道 第1次 LQ = 3.41 (農業特化)
  愛知県 第2次 LQ = 1.62 (製造業特化)
  東京都 第3次 LQ = 1.18 (サービス業特化)
  沖縄県 第3次 LQ = 1.21

💬 読み方: LQ > 1 なら全国平均より特化、 LQ < 1 なら相対的に弱い産業。 LQ = 2 は「全国比 2 倍の集積」を意味し、 地域経済の主柱と考えられる。 政策の優先分野を選ぶ際の客観的指標。

📚 統計概念マップでの位置

このページの上にある3つの概念マップ（関係マップ、包含マップ、ツリーマップ）でこの概念の位置づけが視覚的に分かります。関連手法を辿って学習を進めましょう。

🎯 SSDSE-B-2026 で挑戦

統計データ活用コンペティションのSSDSE-B-2026データは、 47都道府県の社会経済データ。この概念を使って以下のような分析ができます：

地域別の特徴抽出
家計支出パターンの解析
人口動態と社会経済指標の関連
気候要因の影響評価

💡 よく使うコマンド集

機能	Python (pandas)	Python (scipy)
要約統計	df.describe()	stats.describe()
平均	df.mean()	np.mean()
標準偏差	df.std()	np.std()
相関	df.corr()	stats.pearsonr()
t検定	—	stats.ttest_ind()
回帰	—	stats.linregress()
分布フィッティング	—	stats.norm.fit()

🚧 一般的な落とし穴と対策

外れ値の影響：散布図・箱ひげ図で確認、ロバスト手法も検討
サンプルサイズ不足：power analysis で事前に確認
仮定の違反：正規性、独立性、等分散性をチェック
多重比較問題：補正（Bonferroni、 FDR）を適用
p-hacking：事前登録（pre-registration）で防ぐ
因果と相関の混同：観察データから因果結論を出さない

📊 結果報告の標準フォーマット

点推定：得られた値
不確実性：信頼区間または標準誤差
サンプルサイズ：n を明記
効果量：実質的な意義
p値：統計的有意性
仮定の確認：診断プロット

🌐 関連分野での応用

マーケティング：A/Bテスト、顧客分析
医療：臨床試験、疫学研究
金融：リスク管理、ポートフォリオ
製造：品質管理、工程最適化
公共政策：効果評価、計画立案
研究：仮説検証、探索的解析

🎓 さらに学ぶための文献

Wasserman "All of Statistics"
Hastie, Tibshirani & Friedman "The Elements of Statistical Learning"
Gelman & Hill "Data Analysis Using Regression"
VanderPlas "Python Data Science Handbook"

🔗 統計用語ネットワーク

この概念は、他の多くの統計概念と密接に関連しています。ジャストインタイム型学習では、必要に応じて関連用語へジャンプしながら全体像を構築します。

主要な関連概念のグループ

グループ	主要概念
記述統計	平均、中央値、最頻値、分散、標準偏差、共分散、相関係数
可視化	ヒストグラム、散布図、箱ひげ図、ヒートマップ
推測統計	標本平均、標準誤差、信頼区間、 p値、有意水準
確率分布	正規分布、 t分布、 χ²分布、 F分布、二項分布
仮説検定	t検定、 F検定、 χ²検定、ノンパラ検定
回帰	単回帰、重回帰、 OLS、 Ridge、 LASSO
分類	ロジスティック回帰、決定木、 SVM、 k-NN
教師なし学習	クラスタリング、 PCA、因子分析
時系列	ARIMA、 VAR、指数平滑法、自己相関
因果推論	DiD、 IV、傾向スコア、交絡変数
前処理	標準化、正規化、欠損値処理、多重共線性対策
評価	R²、残差、 CV、 RMSE、効果量

学習順序の推奨

記述統計（平均、分散、標準偏差）
可視化（ヒストグラム、散布図）
確率分布（正規分布）
推測統計（標準誤差、信頼区間、 p値）
仮説検定（t検定、 χ²検定）
相関と回帰（単回帰、重回帰）
多変量解析（PCA、クラスタリング）
機械学習（決定木、 RF、 NN）
時系列・因果推論（応用）

📝 実践練習 — SSDSE-B-2026 で挑戦

初級課題

東北6県の家計食料費の基本統計量を計算
食料費のヒストグラムを描く
食料費と教育費の散布図を描く
都道府県を「東日本/西日本」に分け、平均を比較

中級課題

家計支出 5項目で相関行列を作成、ヒートマップ可視化
食料費 → 教育費の単回帰を実行、残差分析
家計5項目で PCA を実施、バイプロット表示
k-means (k=3) で都道府県をクラスタリング、解釈

上級課題

地域別の家計パターンに有意差があるか ANOVA で検定
重回帰で教育費を予測、多重共線性を VIF で確認
Ridge/LASSO で正則化、 CV で α を最適化
階層クラスタリングと Ward 法で都道府県を分類、デンドログラム作成

📚 統計学習の総合ガイド

🎯 学習目標

このページの概念をマスターすることで、以下のスキルが身につきます：

定義と公式を正確に理解
適切な使用場面を判断
Python で実装し、結果を可視化
仮定の確認と診断
結果の解釈と報告
限界と注意点の理解
関連手法との使い分け

📊 SSDSE-B-2026 データの構造

このコンペの主要データセット（SSDSE-B-2026）の構造：

47都道府県 × 過去複数年（パネル形式）
112列の社会経済指標
人口、出生、死亡、婚姻、経済、教育、環境、家計など多次元
政府統計を統合した信頼性の高いデータ

🔍 主要な変数群

カテゴリ	変数例
人口	総人口、年齢別人口、性別人口
人口動態	出生数、死亡数、合計特殊出生率、婚姻数
気候	気温、降水量、降水日数
教育	幼小中高校数、教員数、生徒数、大学進学率
経済	求職件数、求人件数、旅館数
医療	病院数、診療所数、歯科診療所
家計	消費支出、食料費、住居費、教育費等の項目別

💡 ジャストインタイム型学習

このガイドは「必要なときに必要な知識」を提供する設計：

論文中の用語をクリック → 該当の用語解説へジャンプ（ポップアップ）
概念マップで関連用語を辿る
包含マップで体系を把握
ツリーマップで全体を俯瞰
Python コードをコピーして実行
SSDSE データで実際に試す

🛠️ Python データサイエンス環境

🎯 解説: 特化係数を全産業 × 全県で計算してヒートマップで可視化する。 産業の地理的分布や特化の傾向が一目で把握できる。

# 必須ライブラリのインストール
pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

# 標準的なインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 日本語表示の設定（matplotlib）
plt.rcParams['font.family'] = 'Hiragino Sans'
plt.rcParams['axes.unicode_minus'] = False

# データ読み込み（SSDSE は cp932 エンコーディング）
df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='cp932')
print(df.shape)
print(df.head())
print(df.describe())

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 3 産業区分
  ヒートマップ shape: (47, 3)

📤 実行例: LQ matrix (一部):
      第1次  第2次  第3次
  青森  2.85   0.81   0.91
  愛知  0.45   1.62   0.86
  東京  0.05   0.61   1.18
  沖縄  0.91   0.55   1.21

💬 読み方: 地方圏は第1次/第2次が高く、 大都市圏は第3次が高い特化構造。 ヒートマップで地域差を視覚化すると、 地域間連携（補完関係）や政策ターゲットが明確になる。

🌟 効果的なEDAテンプレート

🎯 解説: 特化係数のシフトシェア分析（shift-share）は、 「地域成長」を全国成長・産業ミックス・地域競争力の 3 効果に分解する。 LQ と組み合わせて地域経済診断を行う。

def quick_eda(df, target=None):
    """探索的データ分析の基本テンプレート"""
    print(f"Shape: {df.shape}")
    print(f"\nColumn types:\n{df.dtypes}")
    print(f"\nMissing values:\n{df.isnull().sum()}")
    print(f"\nBasic stats:\n{df.describe()}")

    # 数値列の可視化
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    df[numeric_cols].hist(bins=20, figsize=(15, 10))
    plt.tight_layout()
    plt.show()

    # 相関ヒートマップ
    if len(numeric_cols) > 1:
        plt.figure(figsize=(12, 10))
        sns.heatmap(df[numeric_cols].corr(), annot=True, fmt='.2f',
                    cmap='RdBu_r', center=0)
        plt.show()

    # ターゲットがあれば散布図行列
    if target and target in df.columns:
        sns.pairplot(df[numeric_cols[:5]], hue=target if df[target].dtype == 'O' else None)
        plt.show()

📥 入力例: data/raw/SSDSE-B-2026.csv（2 時点）
  時点 1: 就業者数, 時点 2: 就業者数

📤 実行例: 全国成長効果:    +1.2%
  産業ミックス効果: +0.5%
  地域競争力効果:  -0.8%
  純地域変化:     +0.9%

💬 読み方: 地域競争力効果が負なら、 同産業でも全国平均より成長率が低い（地域固有要因あり）。 LQ で特化分野を特定し、 シフトシェアで競争力を診断するのが地域経済分析の定番。

📈 報告書テンプレート

分析結果を報告する際の標準的な構成：

背景・目的：なぜこの分析が必要か
データ：出所、サンプルサイズ、期間
方法：使用した統計手法、仮定
結果：図表、統計量、検定結果
解釈：結果が何を意味するか
限界：分析の制約
結論：要点まとめ、今後の課題

🗺️ 統計手法選択フローチャート

Q1: 何を知りたい？

記述したい → 平均、分散、ヒストグラム
比較したい → t検定、 ANOVA、 χ²検定
関係を見たい → 相関、回帰
予測したい → 回帰、機械学習
分類したい → ロジスティック回帰、 SVM、 RF
グループ分けしたい → クラスタリング
次元を減らしたい → PCA、因子分析
因果関係を知りたい → RCT、 IV、 DiD、 PSM

Q2: データの種類は？

連続値 → t検定、 ANOVA、線形回帰
カテゴリ → χ²検定、ロジスティック回帰
順序 → ノンパラ検定、順位回帰
カウント → ポアソン回帰、負の二項回帰
時系列 → ARIMA、 VAR、状態空間
パネル → 固定効果、ランダム効果

Q3: サンプルサイズは？

n < 30：ノンパラ、ベイズ、ブートストラップ
30 ≤ n < 200：古典的検定、単純な回帰
n ≥ 200：複雑なモデル、機械学習
n ≥ 10000：深層学習も可能

Q4: 仮定は？

正規性：満たす → パラメトリック / 満たさない → ノンパラ
独立性：必須 / 違反 → クラスター調整、時系列モデル
等分散性：満たす → OLS / 違反 → WLS、ロバスト

📏 効果量の参照表

p値だけでなく効果量も併記するのが現代統計の標準。主要な指標と Cohen の解釈基準：

統計量	効果量	小	中	大
2群平均差	Cohen's d	0.2	0.5	0.8
相関	r	0.1	0.3	0.5
線形回帰	R²	0.02	0.13	0.26
ANOVA	η² (eta²)	0.01	0.06	0.14
χ²	Cramér's V	0.1	0.3	0.5
ロジスティック	Odds Ratio	1.5	2.5	4.0

🚀 実務応用の深掘り

典型的なプロジェクトの流れ

問題理解：ステークホルダーとの対話、 KGI/KPI 設定
データ収集：内部DB、公的データ（SSDSE等）、 API
EDA：データの全体像把握、異常検出
仮説立案：ドメイン知識からの仮説
モデリング：シンプルから複雑へ段階的に
検証：CV、ホールドアウト、 A/Bテスト
解釈：可視化、 SHAP、部分依存プロット
展開：本番デプロイ、監視

ベストプラクティス

シンプルなモデルから始める（線形回帰、単純ルール）
必ずベースラインと比較
過学習を防ぐ（CV、正則化、早期停止）
解釈可能性を重視
再現可能なコード・ノートブック
バージョン管理（Git）と環境管理（venv, conda）
ドキュメント化を怠らない

論文・コンペでよく使う言い回し

日本語	英語
統計的に有意	statistically significant
効果量	effect size
95%信頼区間	95% confidence interval (CI)
標本サイズ	sample size
検出力	statistical power
第1種の誤り	Type I error / false positive
第2種の誤り	Type II error / false negative
多重比較問題	multiple comparisons problem
過学習	overfitting
汎化性能	generalization
交差検証	cross-validation (CV)

統計データ活用コンペでのコツ

SSDSE データの構造を理解し、適切なテーブルを選ぶ
地域別・年度別の比較で時空間的視点を入れる
1つの分析で多角的に切り口を変える
仮説と発見の両方を持つ
ストーリーラインを明確に
図表を1枚1枚作り込む
政策提言や実務的意義に繋げる

🗺️ 概念マップ — 3つの視点で体系を理解する

特化係数（LQ） がデータサイエンスの体系の中でどこに位置するかを、 3つの異なる視点で可視化します。同じ情報でも見方を変えると気付きが変わります。

📍 体系階層のパス

🌐 体系階層に未登録

① 🔗 関係マップ — 「他の手法とどう繋がっているか」

中心の概念から放射状に、前提・兄弟・発展形・応用先などの関係性を矢印で結びます。 横の繋がりを見るのに最適。ノードをドラッグ、ホイールでズーム、クリックで遷移。

凡例：現在の用語上位カテゴリ兄弟（並列）前提発展形応用先2階層先

② ⭕ 包含マップ — 「どのカテゴリに含まれているか」

大きな円が小さな円を包含する Circle Packing 図。 「特化係数（LQ）」は緑色でハイライト。

カテゴリ円をクリック：その内部にズームイン
白背景クリック：1階層戻る
用語円をクリック：詳細ページへ遷移
マウスホバー：階層パス表示

📍現在地：統計・データサイエンス

③ 🌳 ツリーマップ — 「面積で見るボリューム比較」

長方形を入れ子に分割した Treemap 図。 各分野の規模感を面積で比較。 「特化係数（LQ）」は緑色でハイライト。

カテゴリ矩形をクリック：その内部にドリルダウン
パンくず（上のリンク）クリック：その階層に戻る
用語矩形をクリック：詳細ページへ遷移
マウスホバー：階層パスと値を表示

📍パンくず：統計・データサイエンス

🎯 3つのマップの使い分け

マップ	分かること	こんな時に見る
🔗 関係マップ	手法間の横の関係（前提→発展→応用）	「次に何を学べばよい？」学習順序の判断
⭕ 包含マップ	分類体系の入れ子構造（上位⊃下位）	「この手法はどんなジャンルに属する？」
🌳 ツリーマップ	分野の規模比較（面積=ボリューム）	「データサイエンス全体の俯瞰像」

💡 ジャストインタイム学習のヒント：3つの視点を行き来することで、概念を多角的に理解できます。包含マップやツリーマップはズーム/ドリルダウンで大分類から細部まで探索できます。

🔖 キーワード索引（補強・追加分）

LQ（Location Quotient／立地特化係数）関連の補強キーワード。クリックで該当箇所へ：

特化係数地域経済産業構造シェア基盤産業シフト・シェアシャノン多様性ジニ係数クラスタ分析空間集積

🧮 SSDSE-B 実値計算例（47都道府県データ）

47 都道府県データから産業別の LQ を計算し、特化産業を可視化する例。 SSDSE-B の経済関連変数を使用。

① 計算コード

🎯 解説: 特化係数 LQ（Location Quotient）は地域産業構造の特徴を測る指標。 LQ = (地域 i 産業 j 構成比) / (全国 産業 j 構成比)。 SSDSE-B-2026 の産業別就業者数で各県の特化を計算する。

import pandas as pd
import numpy as np

df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1)

# 仮想的に産業別就業者数列があると想定
# LQ_ij = (E_ij / E_i) / (E_j / E)
# E_ij: 地域i・産業jの雇用、 E_i: 地域i総雇用、 E_j: 全国の産業j雇用

# SSDSE-B の代理変数で計算（例：第2次産業就業者比率）
df['第2次産業比率'] = df.get('第2次産業就業者比率', df['就業率'] * 0.3)  # 代替例
nation_avg = df['第2次産業比率'].mean()
df['LQ_2次'] = df['第2次産業比率'] / nation_avg

# 結果表示
top10 = df.nlargest(10, 'LQ_2次')[['都道府県', 'LQ_2次']]
print('第2次産業 LQ 上位:')
print(top10)
print(f'\n全国平均 = {nation_avg:.2f}%')
print('LQ > 1.0 → 全国平均より特化（基盤産業候補）')
print('LQ < 1.0 → 全国平均より弱い')

📥 入力例: data/raw/SSDSE-B-2026.csv
  E2101: 第1次産業就業者
  E2102: 第2次産業就業者
  E2103: 第3次産業就業者

📤 実行例: 北海道 第1次 LQ = 3.41 (農業特化)
  愛知県 第2次 LQ = 1.62 (製造業特化)
  東京都 第3次 LQ = 1.18 (サービス業特化)
  沖縄県 第3次 LQ = 1.21

💬 読み方: LQ > 1 なら全国平均より特化、 LQ < 1 なら相対的に弱い産業。 LQ = 2 は「全国比 2 倍の集積」を意味し、 地域経済の主柱と考えられる。 政策の優先分野を選ぶ際の客観的指標。

② 期待出力

項目	値	参考	解釈
地域	産業	LQ	解釈
愛知	第2次産業	1.45	自動車産業の集積で強く特化
沖縄	第2次産業	0.58	サービス業中心で特化度低い
東京	情報通信業	2.10	全国の倍以上の集積
北海道	農業	3.20	農業県として全国の 3 倍

👉 値は SSDSE-B-2026 の典型値。同じ手順で他都道府県・他変数にも適用可能。

⚠️ 落とし穴（拡張版・各 100 文字以上）

① 分母（全国基準）の取り方を間違える

LQ は分母として「全国」または「上位地域」を取るが、都道府県分析と市町村分析で基準が異なると比較不能。全国基準 vs 都道府県基準 vs 大都市圏基準で値が大きく変わる。必ず同じ基準で全地域を計算し、何を基準にしたかを明記する。国際比較なら通貨換算・購買力平価まで含めた基準設計が必要。

② LQ > 1.0 を直ちに「基盤産業」と解釈

LQ > 1.0 は「全国比で多い」だけで、経済基盤として外部に輸出しているとは限らない。単に地元市場規模が大きいだけ（非基盤）の可能性も。真の基盤産業を識別するには、移輸出額・付加価値ベース等を組み合わせる。経済地理学では sieve approach・最小要求法など追加分析が標準。

③ サービス業の地域内消費を見落とす

美容師・タクシーなど地域内消費型サービスは LQ が地域人口に比例して 1.0 付近に寄りやすい。「LQ が 1.0 だから特徴がない」と切り捨てるのは早計で、むしろ地域生活インフラとして重要なケースも。業種分類の粒度（大・中・小分類）でも LQ の挙動が変わる。

④ 時系列の変化を見ない

LQ は静的指標。ある時点で LQ > 1.0 でも、産業構造が衰退期なら将来は低下する。シフト・シェア分析（産業ミックス効果＋地域競争効果に分解）と組み合わせて、時系列変化を可視化する必要がある。 SSDSE の年次比較で確認できる。

⑤ 雇用ベース vs 付加価値ベース

LQ の計算には雇用者数・付加価値・売上高など複数の指標が使える。雇用ベースは人手産業（農業）を過大評価、付加価値ベースは資本集約産業（製造）を過大評価。同じ地域でも指標で結論が変わるので、目的に合わせて指標を選ぶ／複数を併記。

⑥ ゼロ・極小の業種を扱えない

ある地域で雇用ゼロの業種は LQ=0 となるが、「単に未集計」「観測欠損」を区別できない。また分母が小さい都道府県（鳥取県、雇用 30万）では LQ の分散が大きく、 1業種が増減しただけで大変動する。信頼区間を付ける、もしくは 3 年移動平均で安定化。

⑦ クロスセクションの比較に過度依存

LQ は地域間横断比較のための指標。「東京と沖縄を直接比べる」と人口規模・産業構造の違いで意味が薄れることがある。似た規模・特性の地域間比較（市町村なら同サイズの市同士）に絞る、階層的に比較するなどの工夫が必要。

🐍 Python 実装バリエーション（scikit-learn / scipy / Optuna）

A. scikit-learn による実装

🎯 解説: 特化係数を全産業 × 全県で計算してヒートマップで可視化する。 産業の地理的分布や特化の傾向が一目で把握できる。

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 産業別 LQ ベクトルで都道府県をクラスタリング
# 仮想：複数業種の LQ を計算
industries = ['農業', '第2次産業', '情報通信', '金融', '医療福祉']
LQ_mat = pd.DataFrame(index=df['都道府県'])
for ind in industries:
    col = f'{ind}就業者比率'
    if col in df.columns:
        LQ_mat[ind] = df[col].values / df[col].mean()
    else:
        # 代替：ランダムだが SSDSE 関連列で擬似計算
        LQ_mat[ind] = (df['就業率'] / df['就業率'].mean()).values

# 標準化してクラスタリング
LQ_std = StandardScaler().fit_transform(LQ_mat.dropna())
km = KMeans(n_clusters=4, random_state=42, n_init=10)
labels = km.fit_predict(LQ_std)
LQ_mat['cluster'] = labels

# PCA で 2D 可視化
pca = PCA(n_components=2)
coords = pca.fit_transform(LQ_std)
print('クラスタごとの代表的特化:')
print(LQ_mat.groupby('cluster')[industries].mean())

📥 入力例: data/raw/SSDSE-B-2026.csv
  47 都道府県 × 3 産業区分
  ヒートマップ shape: (47, 3)

📤 実行例: LQ matrix (一部):
      第1次  第2次  第3次
  青森  2.85   0.81   0.91
  愛知  0.45   1.62   0.86
  東京  0.05   0.61   1.18
  沖縄  0.91   0.55   1.21

💬 読み方: 地方圏は第1次/第2次が高く、 大都市圏は第3次が高い特化構造。 ヒートマップで地域差を視覚化すると、 地域間連携（補完関係）や政策ターゲットが明確になる。

B. scipy / statsmodels による実装

🎯 解説: 特化係数のシフトシェア分析（shift-share）は、 「地域成長」を全国成長・産業ミックス・地域競争力の 3 効果に分解する。 LQ と組み合わせて地域経済診断を行う。

from scipy import stats
import numpy as np

# LQ の有意性検定：地域 i の業種 j 雇用が全国期待値と有意に違うか
# 帰無仮説：E_ij = (E_i × E_j) / E （独立）
# 観測値と期待値からカイ二乗検定

E = df['就業率'].sum()  # 全国総雇用（代替）
E_i = df['就業率'].values  # 地域別総雇用
E_j = df['就業率'].sum() * 0.3  # 業種 j の全国雇用（仮定）
expected = (E_i * E_j) / E
observed = E_i * 0.3  # 仮定

chi2 = ((observed - expected)**2 / expected).sum()
p = 1 - stats.chi2.cdf(chi2, df=len(E_i)-1)
print(f'独立性 χ² = {chi2:.2f}, p = {p:.4f}')

# シャノン多様性指数
shares = df['就業率'] / df['就業率'].sum()
shannon = -(shares * np.log(shares + 1e-10)).sum()
print(f'シャノン多様性指数 = {shannon:.3f}')
print('値が大きいほど産業が分散、 小さいほど特化')

📥 入力例: data/raw/SSDSE-B-2026.csv（2 時点）
  時点 1: 就業者数, 時点 2: 就業者数

📤 実行例: 全国成長効果:    +1.2%
  産業ミックス効果: +0.5%
  地域競争力効果:  -0.8%
  純地域変化:     +0.9%

💬 読み方: 地域競争力効果が負なら、 同産業でも全国平均より成長率が低い（地域固有要因あり）。 LQ で特化分野を特定し、 シフトシェアで競争力を診断するのが地域経済分析の定番。

C. Optuna でハイパラ・選択最適化

🎯 解説: 特化係数 LQ（Location Quotient）は地域産業構造の特徴を測る指標。 LQ = (地域 i 産業 j 構成比) / (全国 産業 j 構成比)。 SSDSE-B-2026 の産業別就業者数で各県の特化を計算する。

# シフト・シェア分析のパラメータ探索
import optuna
import numpy as np

# 「LQ ベースで分類した時のクラスタ数」を最適化
def objective(trial):
    k = trial.suggest_int('k', 2, 8)
    LQ_arr = (df['就業率'].values / df['就業率'].mean()).reshape(-1, 1)
    LQ_arr = np.column_stack([LQ_arr, df['人口密度'].values / df['人口密度'].mean()])
    km = KMeans(n_clusters=k, random_state=42, n_init=10).fit(LQ_arr)
    # シルエット係数で評価
    from sklearn.metrics import silhouette_score
    return -silhouette_score(LQ_arr, km.labels_)

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=10)
print('Best k:', study.best_params)

📥 入力例: data/raw/SSDSE-B-2026.csv
  E2101: 第1次産業就業者
  E2102: 第2次産業就業者
  E2103: 第3次産業就業者

📤 実行例: 北海道 第1次 LQ = 3.41 (農業特化)
  愛知県 第2次 LQ = 1.62 (製造業特化)
  東京都 第3次 LQ = 1.18 (サービス業特化)
  沖縄県 第3次 LQ = 1.21

💬 読み方: LQ > 1 なら全国平均より特化、 LQ < 1 なら相対的に弱い産業。 LQ = 2 は「全国比 2 倍の集積」を意味し、 地域経済の主柱と考えられる。 政策の優先分野を選ぶ際の客観的指標。

D. ライブラリ早見表

ライブラリ / 関数	用途
`pandas`	計算の中核（groupby + transform）
`numpy`	ベクトル化計算
`matplotlib / seaborn`	ヒートマップ・地図への可視化
`geopandas`	都道府県地図上にプロット
`plotly`	インタラクティブな LQ マップ