担当範囲

Ch2 Storageまで(Kindle版でp70-p80)

スプシ

https://docs.google.com/spreadsheets/d/1Qf-pNPrIGUqREizwzLhoeLTCqX2tgDpRgd0rBBYp8-0/edit#gid=865825057

Ch2

この本の主な目的はデータエンジニアリングを特定の技術の結晶という考え方をやめさせることである。技術的な抽象化によってデータエンジニアはデータライフサイクルをエンジニアリングする必要が出てくることが想定される。

What is the Data Engineering Lifecycle?

Untitled

ライフサイクルは生データをMLや分析などに消費できるまでの形にするところを指す。またライフサイクルは次の5つに分かれる。

ただStorageはデータの流れの最初から最後までかかわるのでライフサイクルの基礎部分にピンしてある。

一般にstorage, ingestion, transformationのところはごちゃごちゃに入り乱れている。しかしそれで問題ない。図ではきれいに分けてあるが、必ずしもきちんと連続したデータの流れにはならない。繰り返されたり順番が違ったりいろいろな予想外の方法で入り乱れている。

またライフサイクル全体を支える基礎としてsecurity, data management, data ops, data architecture, orchestration, software engineeringがある。これらの基礎技術なしにはライフサイクルは機能しない。

The Data Lifecycle vs The Data Engineering Lifecycle

Untitled