要点
データ生成の運用パターンを理解するためには、その生成方法について把握する必要がある。そのためソースシステムのドキュメントを読み、パターンや癖を理解する必要がある
Excel, CSV, TXT…といった構造的なデータから非構造なデータ
一般にPostgreのよなRDBMSを指す。トランザクションに最適化されているため、大規模なデータをスキャンして分析するような用途には適さない。
atomic, consistency, isolation, durabillityというトランザクションに求められる性質
企業規模によってはOLTP上で分析を行うことも選択肢に入る。ただこれはいずれ破綻するためスケーラブルではない。(どこかで乗り換えないといけない)
OLTPとは異なり分析を目的としたシステム。そのため個別のレコードの検索や取得のパフォーマンスはよくない。OLAPは通常分析に用いられるシステム(データソースではない)が、実際のユースケースにおいてソースとなりうる。例えばDWHがMLのトレーニングデータを提供していたりリバースETLでCRMなどのソースシステムに還元することがある