概要
- データ取り込みはデータパイプラインの始まりで重要(工数もかかる)
- 取り込み自体はマネージドなサービスをうまく使おう(車輪の再開発をしない)
- スキーマ変更などのパイプライン破壊に対する特効薬はない。関係者とコミュニケーションをとり事前に検知できるようになろう
1. Ingestion

データ取り込みとはソースシステムからストレージへのデータ移動。

データ取り込み
データ統合
- 異なるデータソースから得られたデータを組み合わせることで新しいデータセットを得ること
- ex. CRM, 広告などからユーザープロファイルを得る
- さらにその先にCRMに送ることもある(リバースETL)
内部取り込みとはまた少し違う。内部取り込みはデータ変換プロセスで行われる一部(ソースシステムからの移動ではない)
データパイプラインとは?
データパイプインとは、データライフエンジニアリングサイクルのステージを経てデータを移動させるアーキテクチャ、システム、プロセスの組み合わせ。これはわざとあいまいに定義している。データパイプランはどのようなニーズにも対応できる柔軟性を持つべきである。(オンプレかクラウドか?モノリシックかどうかは本質的でない)
2. Ingestionにおける検討事項
2.1 区切りあり or 区切りなし
