スプシ
https://docs.google.com/spreadsheets/d/1Qf-pNPrIGUqREizwzLhoeLTCqX2tgDpRgd0rBBYp8-0/edit?pli=1#gid=1908900664
範囲
P474-p487まで(Techniques for Modeling Batch Analytical Dataの前まで)
前置き
データモデリングとは、しばしばその重要性が見落とされる(overlook)ものである。データチームがゲームプラン(モデリング)なしにデータシステムを作ろうとするが、これは間違っている。
よく設計されたデータアーキテクチャは、組織のビジネスロジックや目標を反映(reflect)したものでないといけない。
データモデリングは一貫したアーキテクチャを選択することであり、とても重要なステップである。
データモデリングはずっと昔から何らかの形で行われていたが、2010年代半ばには時代遅れとみなされてきた(本当?その時代を知らない)ただdata lake 1.0やNoSQLやビッグデータシステムや関連するシステムの処理能力向上によって伝統的なデータモデリングを避けることが可能になった。
時代遅れとみなされてきたデータモデリングだが、最近はその必要性が見直されている。データガバナンスやデータ品質といったデータマネジメント(の考え方)の普及が一貫したビジネスロジックを求めていいる。というものの著者たちはストリーミングデータやMLの要求ににこたえるためには、もう一段階(新しいパラダイムが)必要だと考えている。
データモデルとは、データと現実世界の関係を表すものである。優れたデータモデルは組織内のコミュニケーションや業務の自然な流れをとらえている(コミュニケーションってなんだろう?)
一方でプアなデータモデルは一貫性がなく行き当たりばったりである
データのプロの中にはモデリングはエンタープライズな企業だけが必要としていると考えている人もいる。ただ理想的にはビジネスロジックやルールをデータのレイヤーに変換するだけでもすべての組織がモデリングすべきである
優れたデータモデルはビジネス上の意思決定と関係する必要がある。例えば顧客という言葉は部門によって違う意味を持つかもしれない