位置：首页 > 资讯 > 正文

Spark还是Flink？主流计算引擎如何选择？

来源：DataFunTalk 发表于： 2023-08-04 01:24:19

对于企业来说采用云原生架构已经成为一种趋势和必要选择，可以帮助企业更好地应对业务变化和市场挑战，提高业务竞争力和创新能力；云原生架构可以为大数据在弹性、多租户、敏捷开发、降本增效、安全合规、容灾和资源调度等方向上带来优势。

在这个背景下，业界已经有很多云原生的大数据产品出现，帮助企业转型云原生架构，同时很多企业内部对大数据引擎如何能更好的利用云原生的特性支撑好业务也有很多的实践。本论坛特别邀请了来自Spark/Flink/Trino等领域内专家，分享这些引擎在云原生架构上面的一些实践经验。

点击链接了解更多议题详情，预约直播：

(资料图片)

出品人：一新字节跳动批式计算研发负责人

个人介绍：字节跳动批式计算负责人，支撑公司内大规模的离线数据处理&机器学习等业务场景，在 Spark/Ray/Primus/Iceberg 等方面做了大量的功能拓展&性能优化。

范文臣 Databricks 技术主管

个人介绍：范文臣，Databricks 开源组技术主管，Apache Spark PMC member，Spark社区最活跃的贡献者之一。从2013年开始参与Spark的研发，2015年加入Databricks，目前主要负责Spark Core/SQL 的设计开发和开源社区管理。

演讲题目：What"s new in Spark 3.4

演讲提纲：本次演讲介绍了 Apache Spark 最新版本 3.4 的新增功能和改进，包括 SQL, Python, Streamig 和 AI 集成等各个模块。

听众收益：了解 Spark 最新版本。

程航字节跳动计算引擎开发工程师

个人介绍：现任字节跳动基础架构工程师，主要负责 Spark 内核开发及字节自研 Cloud Shuffle Service 开发。

演讲题目：字节跳动 Spark Shuffle 大规模云原生化演进实践

演讲提纲：在字节跳动内部，Spark 是应用最广泛的计算引擎，每天任务数超过 150W，被广泛应用于大规模数据处理，机器学习等场景。线上集群磁盘类型多样，包括 SSD、HDD 以及混合等。每天会产生超过 100PB 以上的 Shuffle 数据，同时单个任务的 Shuffle 数据量可能达到数百 TB。巨量的 Shuffle 数据和复杂的计算资源环境给 Spark 运行过程中的 Shuffle 性能带来了很多挑战。本文会分享字节跳动在 Spark Shuffle 云原生化方面的大规模演进实践。

在提供稳定资源的集群，主要以部署 SSD 磁盘为主，我们使用社区 External Shuffle Service (ESS) 作为主要的 Shuffle 方案，将 ESS 云原生化部署，并进行深度定制：

- 增加 Shuffle 限流功能，按任务等级给作业分配不同 Shuffle QPS，增强 ESS 的服务分级隔离能力。当 ESS 节点压力过大时，会自动限流低优任务来保证高优任务的正常运行；

- 增加 Shuffle 溢写分裂功能，当单个 Executor 产生的 Shuffle 数据达到阈值时，主动释放该 Executor 并通知调度器在其他节点重新调度，防止打满磁盘，同时避免对 ESS 产生压力；

- 增强 ESS 的监控能力，并且优化 Spark UI，快速定位给 ESS fetch 压力最大的作业并进行及时的报警。同时通过自研的智能调优系统给作业推荐最佳的参数来优化作业 Shuffle 性能；

混部场景比较多样，包括在离线混部、与 HDFS 混部等，该场景下以部署 HDD 磁盘为主，磁盘性能差且容量不足，对 Shuffle 稳定性影响大。这种场景我们自研 Cloud Shuffle Service (CSS) 来解决上述问题：

- 该服务摒弃了 ESS 的实现思路而是采用了 push-based shuffle 思路。Shuffle write 阶段就直接按照 partition 把数据写入到远端服务的 buffer 并最终 flush 到远端服务的磁盘上。Shuffle read 阶段直接读取远端服务磁盘上的连续文件，避免了大量的磁盘随机 IO。

- CSS 也增加了 columnar shuffle 的支持，通过列式存储 shuffle 数据，获得更高的编码和压缩效率，极大减少 Shuffle 数据量

听众收益：

1. 介绍云原生环境下大规模 Shuffle 作业管理遇到的挑战

2. 针对不同场景对超大规模 Shuffle 作业进行的优化与收益

3. Columnar Shuffle 等新功能的研发支持与上线带来的收益

刘建刚快手技术专家

个人介绍：毕业于北航，先后任职于搜狗、百度，于2018年加入快手并推动Flink在快手的深度改造和生产可用。

演讲题目：Flink on k8s 在快手的生产实践

演讲提纲：

1. Flink从yarn向k8s迁移的背景。

2. Flink on k8s的生产可用性改造，包含调度、metric、debug优化等。

3. Flink on k8s的大规模迁移实践，如何帮助用户无缝迁移。

4. Flink on k8s的未来规划。

听众收益：

1. 了解云浪潮下的实时计算。

2. 业内少有的大规模上云经验。

3. Flink on k8s的稳定性实战。

张明磊哔哩哔哩 OLAP 高级开发工程师

个人介绍：专注于超大规模分布式系统的研发与应用实践, 之前阿里云数据库OLAP团队参与ADB产品的研发, 现在在哔哩哔哩从事交互式分析产品的研发。

演讲题目：Trino在哔哩哔哩湖仓一体平台中的实践

演讲提纲：探讨 Trino 和 Iceberg 的结合，以及如何通过它们来优化湖仓一体中的大数据查询。其次，会侧重介绍 Trino 的稳定性保障，Trino 如何在保证高速查询的同时，也确保了系统的稳定运行。最后，我们将探索 Trino 的容器化及其计划。

听众收益：

1. Trino 如何结合 Iceberg 深度优化实现查询加速

2: Trino 的稳定性保障

3. Trino 的容器化部署

点击链接了解更多议题详情，预约直播：

关键词：

上一条：【分享】高温无情，但有他们“汗”卫这抹“绿”→

下一条：最后一页

“您看书我买单”文化惠民活动将于19日在保定市新华书店启动

首页

资讯

财经

行情

创新

科技

数据

Spark还是Flink？主流计算引擎如何选择？

推荐内容

浙大二院“会战”上虞：一声谢谢让我们充满力量

“神州北极”漠河：极寒-43.5℃ 冰雾罩城

国内首套冷链运输电子束消杀装备“破冰者”签约投产

2022年起江浙沪籍海船转籍登记实现“不停航办证”

“美人鱼”国家级表演赛三亚落幕

维护农民工权益 川渝同步开展根治欠薪冬季专项行动

广西东兴新增4例新冠肺炎本土确诊病例

最高判刑14年 6人因生产销售有毒有害食品被判刑

“贵州世居少数民族艺术大数据可视化网络传播平台”上线

山东泰安文旅融合释放惠民福利 盘活消费复苏

起底制售假证黑色产业链：出生到死亡，各类证都能造

山西孝义透水事故：“矿主”承包企业非法向黑煤窑供电

今日至周日北京将出现弱降雪大风强降温天气

火灾事故调查员李兴刚17年进出火场 找寻火灾“真凶”

公安部：严防监控设备沦为“罚款工具”

河南周口沈丘县公布四例新冠病毒感染者活动轨迹

江苏省地震局启动地震应急三级响应 目前尚未接到人员伤亡报告

西安市第二轮全员核酸检测筛查发现阳性人员127例

河南周口沈丘县4名核酸检测阳性人员被立案侦查

江苏常州地震后续：未来几天发生更大地震的可能性较小

“您看书 我买单”文化惠民活动将于19日在保定市新华书店启动

记者获悉，您看书 我买单文化惠民活动将于19日在保定市新华书店启动。据悉，此项活动由保定市文化广电和旅游局主办，市新华书店和市图书馆

杭州火灾系二房东与房客纠纷引起 人为放火致1死4伤

中新网杭州12月23日电(郭其钰)浙江省杭州市公安局上城区分局22日晚发布通报称，警方对上城区闸弄口街道机神新村放火案立案侦查，查明该案系

南京一民警执勤时被撞殉职 肇事者已被控制

中新网南京12月23日电 (徐珊珊)南京市公安局交通管理局22日通报，当天，南京机场高速一民警执勤时被撞，经抢救无效去世。目前，肇事驾

孙海洋夫妇顺利接到孙卓：孩子回到身边心里才踏实

“海洋四英还是一口气把车开到了学校。晚上11点42分，他们接到了孙卓，然后从侧门离开了。谢谢无数关切孙卓回家的人们。” 12月23日

寒潮将影响我国中东部地区 黄淮江淮等地有雾和霾天气

中新网12月23日电 据中央气象台网站消息，受寒潮影响，预计，12月23日至26日，我国中东部地区自北向南将先后出现4～5级风，阵风6～8级

那年今日 | 历史上的12月23日发生过什么大事？

历史上的12月24日有什么特别之处?2003年12月24日，鸟巢和水立方双双开工建设，这俩地方你去参观过吗?1818年12月24日，英国物理学家焦耳出生

维护农民工权益川渝同步开展根治欠薪冬季专项行动

山东泰安文旅融合释放惠民福利盘活消费复苏

火灾事故调查员李兴刚17年进出火场找寻火灾“真凶”

江苏省地震局启动地震应急三级响应目前尚未接到人员伤亡报告

“您看书我买单”文化惠民活动将于19日在保定市新华书店启动

记者获悉，您看书我买单文化惠民活动将于19日在保定市新华书店启动。据悉，此项活动由保定市文化广电和旅游局主办，市新华书店和市图书馆

杭州火灾系二房东与房客纠纷引起人为放火致1死4伤

南京一民警执勤时被撞殉职肇事者已被控制

　　“海洋四英还是一口气把车开到了学校。晚上11点42分，他们接到了孙卓，然后从侧门离开了。谢谢无数关切孙卓回家的人们。”　　12月23日

寒潮将影响我国中东部地区黄淮江淮等地有雾和霾天气

　　中新网12月23日电据中央气象台网站消息，受寒潮影响，预计，12月23日至26日，我国中东部地区自北向南将先后出现4～5级风，阵风6～8级