大数据基础平台架构和其价值，你了解多少？

发布时间：2021-12-17 17:30:09 所属栏目：大数据来源：互联网

导读：从整体架构可以看出，大数据基础平台部分采取的策略准则是尽量减少对原有系统的修改，通过基于模块化的交付方式提供基于大数据的分布式存储能力、分布式计算能力和智能建模能力。大数据基础平台：提供前端工业数据的批量及实时处理能力，分布式存储及计算能

从整体架构可以看出，“大数据基础平台部分”采取的策略准则是尽量减少对原有系统的修改，通过基于模块化的交付方式提供基于大数据的分布式存储能力、分布式计算能力和智能建模能力。

大数据基础平台：提供前端工业数据的批量及实时处理能力，分布式存储及计算能力，大数据基础平台数据管理能力。数据对象模型、工业对象模型的定义及实例的存储。

大数据基础平台
大数据基础平台是大数据的根基所在，大数据的上层应用都需要大数据基础平台提供数据存储和运算能力，本文中的三家工业客户都部署实施了该基础平台。

1. 大数据基础平台的主要组件和架构如下图所示：

Flume

1) Flume支持多种接入资源数据的类型以及接出数据类型，可以高效率的将多个数据源的数据发送至下游系统。

2) 当收集数据的速度超过将写入数据的时候，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据。.

3) Flume的管道是基于事务，保证了数据在传送和接收时的一致性。

4) 支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等。

Kafka

1) 分布式，可划分，可靠性强的日志服务。

2) 以时间复杂度为O(1)的方式提供消息持久化能力。

3) 高吞吐率，即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。

4) 支持Kafka Server间的消息分区及分布式消费，同时保证每个Partition内的消息顺序传输。

5) 同时支持离线数据处理和实时数据处理。

6) 支持在线水平扩展。

Oozie

1) Oozie是管理Hadoop作业的工作流调度系统

2) Oozie的工作流是一系列的操作图

3) Oozie协调作业是通过时间（频率）以及有效数据触发当前的Oozie工作流程

4) Oozie是针对Hadoop开发的开源工作流引擎，专门针对大规模复杂工作流程和数据管道设计

5) Oozie围绕两个核心：工作流和协调器，前者定义任务的拓扑和执行逻辑，后者负责工作流的依赖和触发。

Zookeeper

1) 为了允许在分布式系统中对共享资源进行有序的访问，提供分布式互斥功能。

2) 与互斥同时出现的是同步访问共享资源的需求。无论是实现一个生产者-消费者队列，还是实现一个障碍，Zookeeper 都提供一个简单的接口来实现该操作。

3) Zookeeper可用于处理分布式应用中经常遇到的一些数据管理问题，如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

4) 分布式系统可能必须处理节点停机的问题，Zookeeper 通过领导者选举对此提供现成的支持。

Hive

1) Hive本身不支持数据存储和运算，完全依赖HDFS和MapReduce、Spark、Tez中的一种。

2) 数据模型和关系数据库类似，为结构化的表；列的数量有限。

3) 同时支持行存储与列存储，但数据处理逻辑是基于行的模式。

4) 有限支持Update以及Delete操作（部分表类型支持，但计算时延高开销大）。

5) 不能保证处理的低迟延问题，适用于离线的批量数据计算。

6) 与Spark、Hbase和Impala等组件有良好的交互。

7) Hive的版本更新或更改计算引擎不会影响到当前的语法，只会添加语句，语法以及API接口，或者优化内部算法。

Spark

1) RDD，弹性分布式数据集，是一种编程抽象，代表可以跨机器进行分割的只读对象集合。RDD可以从一个继承结构（lineage）重建，提供了完善容错机制。同时，RDD支持并行操作，可以效率的读写HDFS或S3等分布式存储。

2) 由于RDD可以被缓存，因而避免了复杂运算中多次与HDFS交换数据流，同时避免在HDFS存储读取临时数据，简化了数据流。因此，Spark对迭代应用特别有效。大多数机器学习和最优化算法都是迭代的，使得Spark对数据科学来说是个非常有效的工具。

3) Spark支持多种语言，目前版本（2.2.0）可以在Shell中使用Python，Java以及Scala语言交互。

2. 平台的价值

慧都大数据基础平台实现了一个分布式文件系统，该文件系统有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合有超大数据集的应用程序。平台支持以流的形式访问文件系统中的数据。

慧都大数据基础平台在数据准备(Data Preparation)方面上具备天然的优势。平台的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像数据准备这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。平台实现了将单个任务打碎，并将碎片任务发送到多个节点上，之后再以单个数据集的形式加载到数据仓库里。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为何大数据为NFT创造了	浅析大数据的数据灾备
总做描述性统计深入的	使用替代数据的五个隐