跳到主要内容

阿里开源大数据平台3.0技术解读摘录

看起来阿里的技术实力还是强, 而且是成体系的往前推进的感觉. 为了做数据湖仓, 直接做了个新的实时数据格式, 在iceberg/hudi这些主流之外又整了个全新的paimon数据湖格式, 与flink深度结合, 还是apache开源. 难怪最近在看一些字节等公司的技术分享时, 开始看到这个没听过的数据格式名词. 为了做serverless, 把很多组件一个个都serverless化处理, 而且是成体系的往前推进, 看起来工作量也是不小.

阿里巴巴-云栖2023-开源大数据平台3.0技术解读摘录

https://mp.weixin.qq.com/s/iEAl4qk2pkabCi-vfOBRyA

新一代的数据分析架构——流式湖仓, 将传统的 Hadoop 技术向新一代的湖仓分析 Lakehouse 架构进行演进。

picture 1

大家可以看到现在数据湖存储格式主要是 Iceberg、Delta、Hudi 三剑客来构建的,不同的用户和厂商会选择不同的数据库格式。但是 Iceberg 和 Delta 是面向批处理而设计的数据湖格式,与批处理的计算引擎配合更多一些,在 Lakehouse 上实现批处理,甚至可能是比较大力度的微批处理,通过 merge 来更新。这个架构无法彻底实现实时化,或者在实时化的力度上也做不到特别细粒度,比如分钟级的粒度甚至十分钟级的粒度都是非常困难的。

去年我们在 Flink 社区进行了技术探索,在 Flink 社区里启动了一个新的子项目叫 Flink Table Store,其目的是尝试看 PMF(市场的接受程度)。通过 Flink Table Store,发现设计一款真正面向实时更新的数据湖格式还是非常有必要的,尤其是跟 Flink 这种实时流式计算引擎配合,完全能在数据湖 Lakehouse 架构上,实现实时化数据链路。

为了让这个项目有更好的发展,我们今年决定把这个项目从 Flink 社区中独立出来,作为一个独立的 Apache 基金会项目去孵化,使其有一个更大的发展空间,命名为 Apache Paimon。

Paimon 是真正为实时更新而设计的数据湖格式,并且是完全开放的,不仅支持 Flink,也会支持 Spark、Presto、Trino、StarRocks 等主流计算引擎。

picture 0

serverless 大数据组件

picture 2

计算型选择了用户呼声最高的 Spark 和 StarRocks,这两款引擎推出了 EMR Serverless StarRocks 和即将发布的 EMR Serverless Spark 两款计算型 Serverless 产品。在存储方面,我们也推出了两款 Serverless 产品,第一款是和 OSS 对象存储团队联合合作推出的 OSS-HDFS ,全托管的 Serverless HDFS 产品。还有一款是数据湖管理构建产品中推出了完全兼容 HMS 协议的全托管的 Serverless 源数据管理的服务

picture 3

大家知道在 EMR 产品中运维是非常有挑战性的事情,因为 EMR 上有非常多的组件,Hadoop、Hive、Kafka、Spark、Flink、Presto 等,一旦系统出现问题怎么快速地定位问题,是一个非常让用户头疼的事情。甚至有时候即使没有出现问题,用户也希望对整个集群的资源利用率、存储效率进行提升。

之前完全都是靠人肉经验的去沉淀。前些年,我们也投入了很多的工程师帮助客户人肉解决这些问题,但近些年我们都把这些经验和知识沉淀成AI中的知识库、规则库,再结合一些传统机器学习算法和数据分析的方法,进行智能化定位问题,给用户建议,让用户优化集群,解决问题。

picture 4

created at 2023-11-15