DeltaLake论文阅读笔记
DeltaLake论文:Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
论文原文地址:http://cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
原文阅读
摘要
1.Lakehouse基于开源的数据格式,比如Parquet
2.Lakehouse对机器学习和数据科学的支持很好
3.Lakehouse提供了很好的确保状态一致性的性能
介绍
第一代数仓支撑了BI,但需要严格按照数据库schema去写,来确保为了下游的BI工具可以消费
但是第一代的数据架构面临着一些问题。1.存算集中在一起。2.越来越多的数据集存在非结构化数据。
为了解决这些问题,第二代的数据分析平台提供了原始数据存储,形成了数据湖。数据湖架构是在读数据时才决定数据schema的体系。
当前广泛采用双层架构
但是这种双层架构会有以下四个问题
1.可靠性。保证数据湖和数仓的数据一致性是很困难的。在两个系统之间进行ETL会引入很多问题降低数据可靠性。
2.数据实时性。相比于数据湖,数仓的数据是比较旧的。但是数仓可以立即查询可用数据,数据湖则需要很长时间进行数据准备。数据分析经常需要使用过期的数据
3.限制了高级数据分析。数仓架构难以支撑机器学习框架。而使用数据湖胶固,则损失了数仓的ACID等优势特性。
4.资源浪费。
2 动机
目前已有的数据格式,没有解决ETL复杂性、实时性和高级数据分析的问题
3 Lakehouse架构
3.2 数据管理的元数据层
Dleta Lake,Iceberg和Hudi至支持单边事务,优化事务日志和被管理的对象大小也是个开放问题
3.3 SQL性能优化
Lakehouse:1.Lakehouse独立于数据格式(比如parquet和orc)以便于日后更新。2.
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 CCCCCoke!
评论