
早在 2009 年,阿里巴巴就开始大规模使用 Hadoop 等开源大数据技术,在经历双 11 等内部核心业务锤炼之后,于 2015 年启动开源大数据技术实时化,并实现全面上云,以开源大数据平台 E-MapReduce 和实时计算 Flink 版来对外提供公共云服务。
11 月 5 日,在云栖大会一体化大数据智能峰会上,阿里巴巴开源委员会大数据领域副主席、阿里云开源大数据负责人王峰回顾了阿里巴巴开源大数据技术十三载发展历程,从使用回馈到共建引领,兼容并蓄,持续创新。
早在 2009 年,阿里巴巴就开始大规模使用 Hadoop 等开源大数据技术,在经历双 11 等内部核心业务锤炼之后,于 2015 年启动开源大数据技术实时化,并实现全面上云,以开源大数据平台 E-MapReduce 和实时计算 Flink 版来对外提供公共云服务。阿里巴巴也积极参与开源社区以及合作伙伴的开源共建,贡献了开源数据 Shuffle 服务 Celeborn 到 Apache 孵化器,推动 Flink 成为实时计算领域的事实标准,最终形成了开放、多元、现代、智能的开源大数据技术生态。
本次峰会,王峰为我们分享了开源大数据的几个技术热点趋势,分别是云原生、实时化、数据湖和智能化。阿里巴巴开源大数据技术已经进入了全面云原生的时代,依托全面云原生架构,为用户提供极致弹性伸缩,按需使用的服务。同时在实时计算技术领域持续创新,提出 Flink SQL + Table Store 的使用方式,实现端到端的数仓链路实时流动,提供全增量数据链路一致性体验。构建统一架构的云原生数据湖,架构从存算一体到存算分离,融合多元化计算模式,实现智能安全的数据湖管理。在此基础之上,持续优化「智能运维大脑」,推出如 Flink 作业自动调优,EMR Doctor 智能运维诊断系统等,全面加深开源大数据平台的增值能力,帮助用户更高效地使用。
开源大数据产品矩阵再次升级,开源大数据平台 E-MapReduce 将技术引领优势,转化为云上产品服务能力,重磅发布 E-MapReduce 2.0,面向未来构建下一代开源大数据基础设施,弹性优化能力提升 3 倍,伸缩规模达千台,3 分钟即可创建 100 节点的数据湖集群。依托于 EMR、OSS、DataWorks 产品组合的数据湖,满分通过了信通院云原生数据湖评测,全面兼容 HDFS,湖权限和生命周期管理能力升级。实时计算 Flink 增强了复杂事件处理功能,可应用于实时风控、实时营销场景,分钟级作业诊断,帮助用户资源效率提升 30%。阿里云联合 Elastic 公司重磅发布云原生 Serverless Elasticsearch,为用户带来 SaaS 化产品体验,同时,使用成本下降 53%。与 Cloudera 公司战略合作的数据混合云 Cloudera CDP 公共云正式商用,为 CDP 用户带来统一的云上云下使用体验。
同时阿里巴巴开源大数据一直本着开放、创新、贡献的初心积极推动开源大数据技术的演进,截止到今年贡献 10 余个顶级开源项目,培养 50 余位顶级开源项目 Committer、PMC,代码贡献量超过 150 万,开源文化氛围浓厚。构建了围绕数据集成 Flink CDC、数据分析 Flink SQL、机器学习 Flink ML、规则引擎 Flink CEP、动态表存储 Flink Table Store 的 Apache Flink 生态项目群,推动 Flink 茁壮地成长为 Apache 的头部项目之一。同时生长于阿里巴巴的 Celeborn 项目-大数据计算引擎通用 Shuffle 服务成功进入 Apache 孵化器,为开源大数据技术更添一份力量。
开源大数据技术的「摩尔定律」提速
峰会上,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022 年开源大数据热力报告》重磅发布。
开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的 102 个开源大数据项目,探寻出开源大数据技术发展背后的「摩尔定律」,每隔 40 个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去 8 年里,发生了 5 次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。其中,阿里巴巴推动的 Apache Flink 在流处理领域热力值排名第一,DataX、Flink CDC、Apache Celeborn 入围热力榜单。
来源:互联网