加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 大数据 > 正文

浅析大数据的数据灾备建设

发布时间:2022-08-26 15:24:56 所属栏目:大数据 来源:互联网
导读:大数据时代,数据呈爆炸趋势增长,很多企业都从大数据中获得了利益,推动各自的业务上升了一个台阶。通过大数据技术的完善尤其是大数据和云容器技术相结合,各个企业已经把自己的重要业务迁移到了大数据平台。与此同时企业对数据可靠性和业务连续性保证的
  大数据时代,数据呈爆炸趋势增长,很多企业都从大数据中获得了利益,推动各自的业务上升了一个台阶。通过大数据技术的完善尤其是大数据和云容器技术相结合,各个企业已经把自己的重要业务迁移到了大数据平台。与此同时企业对数据可靠性和业务连续性保证的诉求也与日俱增,大数据灾备刻不容缓。

  在讨论信息系统灾备之前,需要明确两个概念:RTO和RPO
 
  RTO:(RecoveryTime Object)是指灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。
 
  RPO:(RecoveryPoint Objective,复原点目标)是指数据中心能容忍的最大数据丢失量,是指当业务恢复后,恢复得来的数据和灾难发生前数据的差异,也就是能够容忍的数据丢失量。

  使用distcp的好处在于备份过程简单。并且可以根据自身的需要,对整体集群或对指定的目标进行备份。由于distcp能够灵活使用,所以非常方便配合各种业务操作。当每日完成数据加工操作后,可以在批量作业中调用disctcp将重要数据备份到异地机房进行保存。
 
  使用此种方法,需要建立目标集群,同时对网络带宽有一定需求,所以此种灾备系统的成本较高。如果需要降低成本同时对备份和恢复的效率要求不高,也可以将HDFS中的数据导出为文本,使用磁带库的方式进行备份。
 
  大数据平台中不仅需要对HDFS的数据进行备份,HBase数据库的灾备也尤为重要。HBase在大数据体系中,不仅承载OLAP的业务,同时也具备OLTP业务承载能力。
 
  在OLTP业务场景下,通常对RTO要求较高。可以考虑使用HBase数据库提供的Replication(复制)技术。HBase当前有3种Replication方式:
 
  异步Replication
  串行Replication
  同步Replication
  使用哪一种复制方式,需要根据对RTO和RPO的要求进行确定。不同种类的复制方式,对于前端业务在数据库中的操作效率,会有不同的感受。
 
  HBase数据库的备份原理,是对HLog进行读取并发给Slave端中进行应用,从而实现数据同步。每个Master节点中的RegionServer都有HLog,开启HBase的复制方式,在RegionServer上会开启一个单独的线程读取HLog,同时发送给Slave端。并通过Zookeeper记录已经发送的HLog的偏移量。在3种复制方式中,异步的复制方式对源端的HBase影响最小。

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读