加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 大数据 > 正文

大数据基础平台架构和其价值,你了解多少?

发布时间:2021-12-17 17:30:09 所属栏目:大数据 来源:互联网
导读:从整体架构可以看出,大数据基础平台部分采取的策略准则是尽量减少对原有系统的修改,通过基于模块化的交付方式提供基于大数据的分布式存储能力、分布式计算能力和智能建模能力。 大数据基础平台:提供前端工业数据的批量及实时处理能力,分布式存储及计算能

从整体架构可以看出,“大数据基础平台部分”采取的策略准则是尽量减少对原有系统的修改,通过基于模块化的交付方式提供基于大数据的分布式存储能力、分布式计算能力和智能建模能力。
 
大数据基础平台:提供前端工业数据的批量及实时处理能力,分布式存储及计算能力,大数据基础平台数据管理能力。数据对象模型、工业对象模型的定义及实例的存储。
 
大数据基础平台
大数据基础平台是大数据的根基所在,大数据的上层应用都需要大数据基础平台提供数据存储和运算能力,本文中的三家工业客户都部署实施了该基础平台。
 
1. 大数据基础平台的主要组件和架构如下图所示:
 
 
Flume
 
1) Flume支持多种接入资源数据的类型以及接出数据类型,可以高效率的将多个数据源的数据发送至下游系统。
 
2) 当收集数据的速度超过将写入数据的时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据。.
 
3) Flume的管道是基于事务,保证了数据在传送和接收时的一致性。
 
4) 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等。
 
Kafka
 
1) 分布式,可划分,可靠性强的日志服务。
 
2) 以时间复杂度为O(1)的方式提供消息持久化能力。
 
3) 高吞吐率,即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。
 
4) 支持Kafka Server间的消息分区及分布式消费,同时保证每个Partition内的消息顺序传输。
 
5) 同时支持离线数据处理和实时数据处理。
 
6) 支持在线水平扩展。
 
Oozie
 
1) Oozie是管理Hadoop作业的工作流调度系统
 
2) Oozie的工作流是一系列的操作图
 
3) Oozie协调作业是通过时间(频率)以及有效数据触发当前的Oozie工作流程
 
4) Oozie是针对Hadoop开发的开源工作流引擎,专门针对大规模复杂工作流程和数据管道设计
 
5) Oozie围绕两个核心:工作流和协调器,前者定义任务的拓扑和执行逻辑,后者负责工作流的依赖和触发。
 
Zookeeper
 
1) 为了允许在分布式系统中对共享资源进行有序的访问,提供分布式互斥功能。
 
2) 与互斥同时出现的是同步访问共享资源的需求。无论是实现一个生产者-消费者队列,还是实现一个障碍,Zookeeper 都提供一个简单的接口来实现该操作。
 
3) Zookeeper可用于处理分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
 
4) 分布式系统可能必须处理节点停机的问题,Zookeeper 通过领导者选举对此提供现成的支持。
 
Hive
 
1) Hive本身不支持数据存储和运算,完全依赖HDFS和MapReduce、Spark、Tez中的一种。
 
2) 数据模型和关系数据库类似,为结构化的表;列的数量有限。
 
3) 同时支持行存储与列存储,但数据处理逻辑是基于行的模式。
 
4) 有限支持Update以及Delete操作(部分表类型支持,但计算时延高开销大)。
 
5) 不能保证处理的低迟延问题,适用于离线的批量数据计算。
 
6) 与Spark、Hbase和Impala等组件有良好的交互。
 
7) Hive的版本更新或更改计算引擎不会影响到当前的语法,只会添加语句,语法以及API接口,或者优化内部算法。
 
Spark
 
1) RDD,弹性分布式数据集,是一种编程抽象,代表可以跨机器进行分割的只读对象集合。RDD可以从一个继承结构(lineage)重建,提供了完善容错机制。同时,RDD支持并行操作,可以效率的读写HDFS或S3等分布式存储。
 
2) 由于RDD可以被缓存,因而避免了复杂运算中多次与HDFS交换数据流,同时避免在HDFS存储读取临时数据,简化了数据流。因此,Spark对迭代应用特别有效。大多数机器学习和最优化算法都是迭代的,使得Spark对数据科学来说是个非常有效的工具。
 
3) Spark支持多种语言,目前版本(2.2.0)可以在Shell中使用Python,Java以及Scala语言交互。
 
2. 平台的价值
 
慧都大数据基础平台实现了一个分布式文件系统,该文件系统有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合有超大数据集的应用程序。平台支持以流的形式访问文件系统中的数据。
 
慧都大数据基础平台在数据准备(Data Preparation)方面上具备天然的优势。平台的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像数据准备这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。平台实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读