加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 大数据 > 正文

手把手帮你设计大数据流水线

发布时间:2021-12-27 13:03:54 所属栏目:大数据 来源:互联网
导读:在数据架构中,数据流水线一般以数据为起点,以洞见为终点。如何从起点到终点,取决于一系列的因素。图1展示了一个数据架构下的数据流水线。 大数据流水线的标准工作流程包括以下步骤: 1)通过合适的工具收集数据(摄取)。 2)持久化存储数据。 3)数据处理或分
在数据架构中,数据流水线一般以数据为起点,以洞见为终点。如何从起点到终点,取决于一系列的因素。图1展示了一个数据架构下的数据流水线。
大数据流水线的标准工作流程包括以下步骤:
 
1)通过合适的工具收集数据(摄取)。
 
2)持久化存储数据。
 
3)数据处理或分析。从存储中获取数据,对其进行操作,然后将处理后的数据再次存储。
 
4)数据被其他处理/分析工具使用,或者被同一工具再次处理,从数据中获得进一步的结果。
 
5)为了使结果对业务用户有用,使用商业智能(BI)工具将结果可视化,或者将结果输入机器学习算法中进行预测。
 
6)一旦将合理的结果呈现给用户,这就为他们提供了对数据的洞见,然后他们可以采用这些数据进行进一步的业务决策。
 
你在流水线中部署的工具决定了获得结果的时间,也就是从数据被创建到能从中获得洞见之间的延迟。在考虑延迟的同时,设计数据架构的最佳方法是确定如何平衡吞吐量与成本,因为更高的性能和随之而来的低延迟通常会导致更高的成本。
 
 
建议数据架构师对流水线进行解耦,特别是将存储和处理分为多个阶段,这样做有很多好处,包括提高容错能力。例如,如果在第二轮处理中出了问题,或者专门用于处理该任务的硬件出现故障,不必从流水线的起点重新开始,系统可以从第二个存储阶段恢复。将存储与各个处理层解耦,使你有能力对多个数据存储进行读写。

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读