对于企业来说采用云原生架构已经成为一种趋势和必要选择,可以帮助企业更好地应对业务变化和市场挑战,提高业务竞争力和创新能力;云原生架构可以为大数据在弹性、多租户、敏捷开发、降本增效、安全合规、容灾和资源调度等方向上带来优势。
在这个背景下,业界已经有很多云原生的大数据产品出现,帮助企业转型云原生架构,同时很多企业内部对大数据引擎如何能更好的利用云原生的特性支撑好业务也有很多的实践。本论坛特别邀请了来自Spark/Flink/Trino等领域内专家,分享这些引擎在云原生架构上面的一些实践经验。
点击链接了解更多议题详情,预约直播:
(资料图片)
出品人:一新 字节跳动 批式计算研发负责人
个人介绍:字节跳动批式计算负责人,支撑公司内大规模的离线数据处理&机器学习等业务场景,在 Spark/Ray/Primus/Iceberg 等方面做了大量的功能拓展&性能优化。
范文臣 Databricks 技术主管
个人介绍:范文臣,Databricks 开源组技术主管,Apache Spark PMC member,Spark社区最活跃的贡献者之一。从2013年开始参与Spark的研发,2015年加入Databricks,目前主要负责Spark Core/SQL 的设计开发和开源社区管理。
演讲题目:What"s new in Spark 3.4
演讲提纲:本次演讲介绍了 Apache Spark 最新版本 3.4 的新增功能和改进,包括 SQL, Python, Streamig 和 AI 集成等各个模块。
听众收益:了解 Spark 最新版本。
程航 字节跳动 计算引擎开发工程师
个人介绍:现任字节跳动基础架构工程师,主要负责 Spark 内核开发及字节自研 Cloud Shuffle Service 开发。
演讲题目:字节跳动 Spark Shuffle 大规模云原生化演进实践
演讲提纲:在字节跳动内部,Spark 是应用最广泛的计算引擎,每天任务数超过 150W,被广泛应用于大规模数据处理,机器学习等场景。线上集群磁盘类型多样,包括 SSD、HDD 以及混合等。每天会产生超过 100PB 以上的 Shuffle 数据,同时单个任务的 Shuffle 数据量可能达到数百 TB。巨量的 Shuffle 数据和复杂的计算资源环境给 Spark 运行过程中的 Shuffle 性能带来了很多挑战。本文会分享字节跳动在 Spark Shuffle 云原生化方面的大规模演进实践。
在提供稳定资源的集群,主要以部署 SSD 磁盘为主,我们使用社区 External Shuffle Service (ESS) 作为主要的 Shuffle 方案,将 ESS 云原生化部署,并进行深度定制:
- 增加 Shuffle 限流功能,按任务等级给作业分配不同 Shuffle QPS,增强 ESS 的服务分级隔离能力。当 ESS 节点压力过大时,会自动限流低优任务来保证高优任务的正常运行;
- 增加 Shuffle 溢写分裂功能,当单个 Executor 产生的 Shuffle 数据达到阈值时,主动释放该 Executor 并通知调度器在其他节点重新调度,防止打满磁盘,同时避免对 ESS 产生压力;
- 增强 ESS 的监控能力,并且优化 Spark UI,快速定位给 ESS fetch 压力最大的作业并进行及时的报警。同时通过自研的智能调优系统给作业推荐最佳的参数来优化作业 Shuffle 性能;
混部场景比较多样,包括在离线混部、与 HDFS 混部等,该场景下以部署 HDD 磁盘为主,磁盘性能差且容量不足,对 Shuffle 稳定性影响大。这种场景我们自研 Cloud Shuffle Service (CSS) 来解决上述问题:
- 该服务摒弃了 ESS 的实现思路而是采用了 push-based shuffle 思路。Shuffle write 阶段就直接按照 partition 把数据写入到远端服务的 buffer 并最终 flush 到远端服务的磁盘上。Shuffle read 阶段直接读取远端服务磁盘上的连续文件,避免了大量的磁盘随机 IO。
- CSS 也增加了 columnar shuffle 的支持,通过列式存储 shuffle 数据,获得更高的编码和压缩效率,极大减少 Shuffle 数据量
听众收益:
1. 介绍云原生环境下大规模 Shuffle 作业管理遇到的挑战
2. 针对不同场景对超大规模 Shuffle 作业进行的优化与收益
3. Columnar Shuffle 等新功能的研发支持与上线带来的收益
刘建刚 快手 技术专家
个人介绍:毕业于北航,先后任职于搜狗、百度,于2018年加入快手并推动Flink在快手的深度改造和生产可用。
演讲题目:Flink on k8s 在快手的生产实践
演讲提纲:
1. Flink从yarn向k8s迁移的背景。
2. Flink on k8s的生产可用性改造,包含调度、metric、debug优化等。
3. Flink on k8s的大规模迁移实践,如何帮助用户无缝迁移。
4. Flink on k8s的未来规划。
听众收益:
1. 了解云浪潮下的实时计算。
2. 业内少有的大规模上云经验。
3. Flink on k8s的稳定性实战。
张明磊 哔哩哔哩 OLAP 高级开发工程师
个人介绍:专注于超大规模分布式系统的研发与应用实践, 之前阿里云数据库OLAP团队参与ADB产品的研发, 现在在哔哩哔哩从事交互式分析产品的研发。
演讲题目:Trino在哔哩哔哩湖仓一体平台中的实践
演讲提纲:探讨 Trino 和 Iceberg 的结合,以及如何通过它们来优化湖仓一体中的大数据查询。其次,会侧重介绍 Trino 的稳定性保障,Trino 如何在保证高速查询的同时,也确保了系统的稳定运行。最后,我们将探索 Trino 的容器化及其计划。
听众收益:
1. Trino 如何结合 Iceberg 深度优化实现查询加速
2: Trino 的稳定性保障
3. Trino 的容器化部署
点击链接了解更多议题详情,预约直播:
关键词: