AWS/Azure/GCP 等の計算資源サービス
データを「分析・モデリングに使える形に整える」工程。 分析の質はここで 8 割決まります。
本ページでは クラウドサービス を、 定義・前提条件・使い方・落とし穴の順に整理して解説します。 厳密な定義より、 まず何を、 いつ、 どう使うかを理解することを優先してください。
AWS/Azure/GCP 等の計算資源サービス
英語名 Cloud Service。
この用語を理解・使用するときは、 次のような前提を意識してください:
SSDSE-B-2026 のような公的統計データを Python で扱う際の基本パターン:
1 2 3 4 5 6 7 8 9 10 11 12 | import pandas as pd import numpy as np # データ読み込み df = pd.read_csv('data/raw/SSDSE-B-2026.csv', encoding='utf-8', skiprows=1) print(df.shape) print(df.dtypes) print(df.describe()) # 「クラウドサービス」の文脈で扱う場合の例: # 分野: データエンジニアリング # 関連手法は同カテゴリの他用語を参照してください。 |
具体的なコードは データエンジニアリング を参照してください。
分析結果を報告するときに含めるべき情報:
SSDSE-B-2026 を AWS/GCP/Azure 上で分析するときの典型構成。
| 役割 | AWS | GCP | Azure |
|---|---|---|---|
| オブジェクトストレージ | S3 | Cloud Storage | Blob Storage |
| DWH | Redshift | BigQuery | Synapse |
| ETL | Glue | Dataflow | Data Factory |
| コンテナ | ECS/EKS | GKE | AKS |
| 関数 | Lambda | Cloud Functions | Azure Functions |
| BI | QuickSight | Looker Studio | Power BI |
| ML | SageMaker | Vertex AI | ML Studio |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | # SSDSE-B-2026 を GCS にアップロードし BigQuery に取り込む
from google.cloud import storage, bigquery
# 1. ローカル → GCS
client = storage.Client()
bucket = client.bucket('my-bucket')
blob = bucket.blob('ssdse/ssdse_b_2026.csv')
blob.upload_from_filename('data/raw/SSDSE-B-2026.csv')
# 2. GCS → BigQuery
bq = bigquery.Client()
job_config = bigquery.LoadJobConfig(
source_format=bigquery.SourceFormat.CSV,
skip_leading_rows=2, # ヘッダ + 日本語見出し
encoding='SHIFT_JIS',
autodetect=True,
)
uri = 'gs://my-bucket/ssdse/ssdse_b_2026.csv'
job = bq.load_table_from_uri(uri, 'my_project.raw.ssdse_b_2026',
job_config=job_config)
job.result()
print('Loaded', job.output_rows, 'rows')
# 3. クエリ
q = '''SELECT 都道府県, 総人口, 65歳以上人口
FROM `my_project.raw.ssdse_b_2026`
WHERE 年度 = 2023 ORDER BY 総人口 DESC LIMIT 5'''
print([dict(row) for row in bq.query(q)])
|
| 分類 | 管理範囲 | 代表 | SSDSE-B での具体例 |
|---|---|---|---|
| IaaS | OS以上 | EC2, Compute Engine | Linux VM に pandas を入れて分析 |
| PaaS | アプリ以上 | App Engine, App Runner | Flask で SSDSE API を公開 |
| SaaS | 利用のみ | Google Sheets, Tableau Online | SSDSE を BI ツールで可視化 |
| FaaS | 関数のみ | Lambda, Cloud Functions | SSDSE 集計 API を関数で実装 |
| DBaaS | DB管理 | RDS, Cloud SQL | SSDSE 投入先 PostgreSQL |
特定クラウド依存を避けるには Terraform でインフラをコード化、 データ層は Parquet / Iceberg / Delta などのオープンフォーマットを採用。 SSDSE-B-2026 を Parquet で保管しておけば、 AWS/GCP/Azure どこでも読める。