加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

阿里收购德国开源数据公司 押注实时流处理框架Flink

发布时间:2019-01-26 00:22:50 所属栏目:优化 来源:21世纪经济报道
导读:副标题#e# 导读: 与阿里的合作可以让我们上升一个新的维度,我们将有机会开拓新的领域,将公司成为更有价值的实时数据处理系统。Data Artisan合伙人Kostas Tzoumas在新闻稿中表示。 在微软宣布GitHub免费开放私有代码库的同一天,阿里巴巴确认收购德国初创
副标题[/!--empirenews.page--]

导读:

“与阿里的合作可以让我们上升一个新的维度,我们将有机会开拓新的领域,将公司成为更有价值的实时数据处理系统。”Data Artisan合伙人Kostas Tzoumas在新闻稿中表示。

在微软宣布GitHub免费开放私有代码库的同一天,阿里巴巴确认收购德国初创企业Data Artisan。后者创建的Apache Flink是全球顶级的开源流处理框架,它不但是双十一大规模数据实时处理的秘密武器,更是荷兰国际集团、Netflix和Uber在内的国际巨头不可或缺的工具。

Data Artisans由开源流处理框架Apache Flink的创建者Kostas Tzoumas等人于2014年创建。作为大数据流处理方面为数不多的前沿技术,Flink为企业部署大规模的数据处理解决方案,以便他们能够即时响应数据,并做出更好更快的业务决策。

远在此项投资公布的三年多前,,阿里巴巴已经成为Apache Flink框架的用户。目前,阿里基于Flink开发的内部平台Blink已经广泛服务于阿里集团内外、包括广告、搜索等大量核心实时业务,并多次为双十一的极端运算要求赋能。

2

当地时间1月8日,德国媒体率先爆料后,阿里和Data Artisan纷纷发布新闻稿确认了双方合作的消息。

“我们相信这一战略合作将进一步加强Flink社区的发展,加速数据处理技术并为全球开发人员提供协作和建设性的开放环境。”阿里巴巴集团副总裁周靖人在新闻稿中表示。

从微软收购Github到IBM巨资334亿美元收购开源软件巨头红帽,收购具有独特技术和资源的开源企业,无疑是巨头们在2018年最重要的并购趋势之一。而本次阿里的收购,代表了全球第三大云厂商对这一前沿领域的技术布局。

根据德国媒体报道,该项收购金额在9000万欧元,但双方官方均未确认金额。该公司曾在2016年获得英特尔旗下投资基金及Btov、Tengelmann Ventures共650万欧元的A轮融资,以及一轮未公开的B轮融资。

根据Market Insights Reports的数据,预计到2025年全球流媒体分析市场规模将达到477.5亿美元,从2017年到2025年将增长34.98%。

火爆流框架

城市车流快速移动、工厂流水线不等人、医院在排号、叫的外卖在快跑,打车、点餐、网购等等,人们无法忍受长时间等待,等待意味着订单流失。所以,毫秒级、亚秒级大数据分析就凸显极大价值。

随着大数据、人工智能的兴起及5G技术发展,即时性成为了各个领域的刚需。上述场景还可以延展至高速公路监测、ADAS高级辅助驾驶、广告推荐、电商搜索推荐、股票交易市场、金融实时智能反欺诈等产业端。

据悉,Data Artisans所掌握的大数据流处理技术Flink可以在很大程度上解决越来越迫切的数据迅速处理问题。Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

根据其官网显示,2014年Flink作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。经过4年的快速发展,Apache Flink社区已经培养出了42名Committer和19名PMC Member。

以核心用户Netflix为例,大型视频内容服务的处理需求之大几乎是不可想象的。每天有超过1.09亿的消费者,通过在线用户服务享受1.25亿小时的电视和电影内容。这对公司的数据提取管道和流处理引擎提出了很高的要求,这些引擎必须处理涉及12 PB数据和3万亿日常事件。

Netflix流处理管理员Steve Wu表示,Flink for Netflix的关键元素是它能够定位有状态标注的应用程序,包括支持事件的时间戳,例如回滚和重放视频等。

经过几年的发展,中国的互联网巨头也开始了流计算的广泛应用,腾讯、华为、滴滴、美团、字节跳动等公司也将Flink作为首选的流处理引擎。

阿里Blink野心

尽管鲜有人听说,但Flink技术距离我们并不遥远。每年双十一阿里总部大屏幕的实时成交数字,就是通过巨大的网络流量,汇总各地方的报表、数据库,在毫秒级别时间进行计算,并汇总为单一视图的方式。

根据阿里巴巴Flink平台开发负责人之一、高级技术专家王绍翾曾在接受InfoQ采访中表示,2015年起,阿里巴巴就开始调研新一代流计算引擎。“我们当时的目标就是要设计一款低延迟、exactly once(一次就准确)、流(运算)和批(处理)统一的,能够支撑足够大体量的复杂计算的引擎。”

最终,Flink以高吞吐、低延迟的计算引擎、同时支持批处理和流运算等特性获得了阿里巴巴的青睐。

阿里巴巴计算平台事业部资深技术专家莫问曾在2018云栖大会的演讲中表示,阿里一直在寻找一种方式来开发一套统一的大数据引擎。“解决通用大数据计算需求,批流融合的计算引擎,才是大数据技术的发展方向,并且最终我们选择了Flink。”

基于Flink,阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。

“彼时的Flink不管是规模还是稳定性尚未经历实践,成熟度有待商榷。”阿里巴巴实时计算团队在一篇文章中写道。团队决定在阿里内部建立一个Flink分支Blink,并对Flink进行大量的修改和完善,让其适应阿里巴巴这种超大规模的业务场景。

在这个过程当中,该团队不仅对Flink在性能和稳定性上做出了很多改进和优化,同时在核心架构和功能上也进行了大量创新和改进。

关于Flink在阿里巴巴的大规模应用,莫问披露,Flink最初上线阿里巴巴只有数百台服务器,目前规模已达上万台,此等规模在全球范围内也是屈指可数的;基于Flink,阿里内部积累起来的状态数据已经是PB级别规模;如今每天在阿里Flink的计算平台上,处理的数据已经超过万亿条;在峰值期间可以承担每秒超过4.72亿次的访问,最典型的应用场景是阿里巴巴双11大屏。

2018年4月,以Blink为基础的阿里云实时计算正式商业化,使用用户已经超过2000家。在已有的用户中,实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域。

阿里集团内淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,在集团外,也有包括众安保险、全民TV、新华智云、贵州茅台等诸多公司的应用案例。

巨头+开源

从微软到IBM,再到此时的阿里,对以大数据、人工智能、云计算为核心的企业服务领域,开源的价值极其显著。与此同时,开源项目也需要足够多资金、项目和运营不断发展出更多的应能用领域。

华为云高级技术专家时金魁近日撰文认为,开源项目后面的商业公司若不在,项目本身必然走向灭亡,纯粹靠分散的发烧友的力量无法支撑一个成功的开源项目。

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读