要点

5.1 データソース

image.png

データ生成の運用パターンを理解するためには、その生成方法について把握する必要がある。そのためソースシステムのドキュメントを読み、パターンや癖を理解する必要がある

5.2 ソースシステムの主要な概念

5.2.1 ファイル

Excel, CSV, TXT…といった構造的なデータから非構造なデータ

5.2.2 API

5.2.3 OLTPシステム

一般にPostgreのよなRDBMSを指す。トランザクションに最適化されているため、大規模なデータをスキャンして分析するような用途には適さない。

5.2.3.* ACIDとアトミックトランザクション

atomic, consistency, isolation, durabillityというトランザクションに求められる性質

企業規模によってはOLTP上で分析を行うことも選択肢に入る。ただこれはいずれ破綻するためスケーラブルではない。(どこかで乗り換えないといけない)

5.2.4 OLAP

OLTPとは異なり分析を目的としたシステム。そのため個別のレコードの検索や取得のパフォーマンスはよくない。OLAPは通常分析に用いられるシステム(データソースではない)が、実際のユースケースにおいてソースとなりうる。例えばDWHがMLのトレーニングデータを提供していたりリバースETLでCRMなどのソースシステムに還元することがある

5.2.5 Change Data Capture