因为敬畏所以备份,唯有盘活才能重生

2024-04-10

云信达张兵CEO接受了长江证券的邀请就这段时间网络上议论的沸沸扬扬的WM删库事件做出数据保护层面的剖析。


WM事件的本质

感谢长江证券计算机首席分析师凌总,感谢清泉石资本提供的机会,让我来跟大家解读一下最近的WM事件。2月23号WM发生了一次比较严重的事故,直到3月3日才最终恢复了全部的业务。这件事情引起了轩然大波,波及到上百万的商户。作为一名IT的老兵,我来给大家做一次科普。

首先从科学的角度解读一下。顺便也揭示一下行业乱象。首先WM事件发生的根本原因是数据被人为删除了,包括数据运行的软环境一起被破坏了。需要注意一点,这里面没有发生任何的硬件故障。机房、链路、设备没有任何问题,所以故障的核心问题直接指向了数据。


常见的几种数据保护技术

在解读之前,先跟大家科普一下常见的三种数据保护技术:

第一种是本地高可用,是利用冗余算法把数据写成多份。常见的有镜像技术、多副本技术、主从复制等技术。它实现不止一份数据运行在不同的物理位置,所以叫本地的高可用。

第二种技术是容灾,本质上是本地高可用技术在物理位置上的延展。数据跨越大型的物理环境,通过通信链路来实现业务连续不中断。容灾的范畴比较广,不仅仅考虑数据,还要考虑整个物理环境和用户的应用。容灾不是简单的一种技术,它是一大堆技术加上管理的组合。

本地高可用和远程容灾复制技术,都是着眼于抵御基础设施的故障,从而保障业务持续运行不中断;我们制造的多份冗余数据,都是确保“当下”的数据在多个地方都有,而不关心传播的数据正确与否。

举个例子,不管是多副本还是容灾,主数据插入一个A,副本数据也插入一个A;主数据删除一个A,副本数据也删除一个A,以保持一致性。主数据全部delete all,副本数据也是删除全部delete all。WM事件的本质是系统本身没坏,但因为人为的灾难导致数据被错误的改变,进而蔓延到整个运行环境,彻底搅乱了应用系统,造成了数据逻辑灾难。从删库到跑路,这是我们业内经常调侃的一句话。多副本和容灾都拯救不了WM。能抵御逻辑错误和人为错误的,只有接下来要介绍的第三种技术,就是数据备份。

不少人喜欢用“灾备”这个词,但是容灾是容灾,备份是备份,出发点和作用有本质区别,专业的IT规划从来都是严格区分,各自建设的。

数据备份和前两种技术本质的差别是它制造冗余副本的过程,不在生产系统的主操作逻辑里面,备份和生产是两个平行的逻辑。备份进程伴随在生产进程旁边,真实记录数据的变化量。好比营业大厅的视频监控,不干扰营业,但是记录营业厅每个时间点的状态,可以回放。如果把数据当作客体对象,这个对象会沿着时间轴发生变化。我们想象一个长条切片面包,备份系统保留有每个时间点的切片,所以备份系统不是一个或两个生产数据的副本,而是一系列按时间轴排列的副本集。从时间维度来看,备份系统不强调实时性,但极其强调时间序列的连续性和真实性。


容灾不可替代备份,对数据保有敬畏之心

备份和生产,好比一个硬币的两面,是自IT诞生之初就存在着的一种古老的技术。在对生产系统进行任何重大的操作之前,例如上线、割接、升级和变更,我们通常都会说,“先做一次备份再干吧”。中国的哲学观点是“福祸相倚,阴阳相济”,因此既要对生产中的数据有敬畏之心,也要对数据备份有敬畏之心。

由于时间关系,就不对备份技术做大篇幅的展开了。接下来也想揭露一下WM事件折射出来的因为无知和缺乏敬畏之心而导致的行业乱象,让大家避免跳坑。


云端数据保护

公有云服务进入大型IT企业的时间较短,许多方面缺乏沉淀和积累,还要交很多学费。两年前,我遇到某公司的一个很年轻的技术专家,我跟他在交流备份技术,他听了一会,打断我,跟我说,“我们互联网公司采用分布式技术,数据都是多副本,你讲的备份过时了”。
又一次,我跟一个知名大咖交流项目,他问我一个问题,说:“某云用不用你的技术?我一个亲戚在某云做高管,你不要骗我”。交流过程中他出去了一会,回来后说:“我给我亲戚打电话了,他说某云的数据的可靠性达到了99.99%,白金级的,你的备份不重要”。我心想,他所说的某云一年多前刚刚发生一起事故,把一个企业的运营数据永久丢失了。讲到这里,许多人脸色大变,原来云服务商承诺的99.99%,是不考虑逻辑故障的前提下得出的。潮水退去了,才发现原来都没有穿短裤。
对一个科技企业来说,做备份并不是很难的事,难的是无死角、持之以恒地做备份,这关乎代价。公有云有数据备份服务,只不过是需要额外付费。他为了维护99.99%的尊严,没有人告诉你,逻辑灾难不在常规的保护范围内。
WM事件里面不仅数据被删除了,数据运行的软环境也被破坏了,因此修复时间非常漫长。有人问如果把数据备份到另一个云上或者是备份下云,在另一个云或云下有一套干净环境,是不是可以大大缩短业务恢复时间?恭喜你答对了!不过要提醒的是,数据上云是很便宜的,上传容易下传难,下载流量贵的不得了。吐槽归吐槽,但是我们还是得怀着一颗敬畏之心看待数据保护这件事儿。

备份面临的现状与出路问题探讨

我现在向大家提出两个问题,第一,企业为什么容易忽视数据备份的建设?WM这次出事明显地看出来,他没有备份。第二,数据备份的出路和方向在哪里?

第一个问题,备份是要花钱的,道理大家都是懂的。2018年IDC面向全球企业的CIO做了一次调研,结果显示,70%的CIO对现有的备份系统不满意,50%的CIO计划改造或更换备份系统,这是为什么?因为消费者花了钱觉得不爽,不爽在哪里?首先备份数据需要的存储空间是大于生产系统的存储空间,有当前的有历史的,当然大了。这不是主要的原因。在2016年之前,市面上的主流备份技术都是把生产数据拷贝成一系列的映像文件,备份下来的映像文件是不能直接使用的,恢复数据是需要我们找到相应时间点的映像文件,restore倒回到一个存储空间才能打开数据。

因此,backup和restore是一对逆过程。正是因为这份数据不能直接使用,需要准备额外的存储空间,并且要经过一系列复杂的操作,所以恢复时间长,代价大。用户平时很少做恢复操作。

我有个CIO朋友跟我说过一句话,他说:“我希望永远也不要用到备份系统”。用到它的时候都是发生了巨大的灾难,所以数据备份是企业救命的最后一根稻草。

在我职业生涯里面,我遇到好几回痛彻心扉的故事。有一次,一个很大的用户发生了逻辑灾难,生产系统无法修复。大领导忍痛挥泪下决定,把生产系统格式化存储,从备份系统把数据找回来恢复。恢复了N个小时之后,发现一个无情事实:数据是坏的,恢复不成功。客户已经把门都堵上了,IT领导想死的心都有了。这就是所有企业要面对的现状。

备份系统消耗存储、不断烧钱,对备份数据做恢复验证还需要花更大的代价,目的只是为了一个永远也不想用到的救命药丸。如果您是企业的CIO,您会对这样的备份系统满意吗?企业花钱买备份的心态,就好比我们买一个意外伤害保险,你愿意花大价钱去买一个意外伤害保险吗?无非是出于尊重生命或合规监管的要求而已,企业忽视数据备份的建设,除了认知误区,缺乏敬畏心,其实还有背后的技术问题。

第二个问题是数据备份的出路和方向。2016年全球知名的IT研究分析机构Gartner给了一个答案,5个字,盘活暗数据。什么是暗数据呢?备份数据就是暗数据,平时不用,沉默在那,消耗企业的成本。事实上企业暗数据的数量要远远大于生产。

IDC做过一个统计,一个中型企业的生产数据会分成8~10份副本,供不同的人在不同的场景使用。打个比方,备份是一份,容灾要一份,查询统计要一份,开发测试要一份等等。一方面造成了存储的重复、浪费,另一方面数据的使用效率是不高的。企业目前没有很好的管理办法。


CDM创新备份技术,打穿了备份和数据使用

暗数据的技术和逻辑的特征是副本数据,也就是非原生数据,从生产系统复制出来的数据。所以Gartner在2016年定义了一种新的技术,叫副本数据管理,或者叫复制数据管理,英文名字叫copy data management,简称CDM。

Gartner定义了CDM三个特征:一、原格式拷贝;二、活跃黄金副本;三、虚拟副本服务。原格式拷贝得到的是活跃黄金副本,不同于传统备份的映像文件,是可以直接打开使用的。不过黄金副本是不会直接拿来用的,它是生产数据的权威的、基本的备份,是不能篡改的。因此以黄金命名。但是黄金副本可以通过一种数据虚拟化技术,可以提供虚拟副本服务。虚拟副本,第一它不占用存储空间,第二数量不限,第三可以追溯到任何时间点,第四可读可写。以上特征打穿了备份和数据使用,是一种端到端的跨界技术。

备份,传统上是运维的范畴,数据使用是业务的范畴。跨界的威力是巨大的,本来传统备份对企业来说是鸡肋,CDM现在是以终为始,把单纯面向恢复的数据备份变成了面向数据使用的备份。也就是,你备份完了,对CDM来讲才刚刚开始。运维的工具就变成了一个业务平台。备份从运维工具变成一个业务平台,数据备份这个古老的行当,就犹如凤凰涅槃浴火重生了。因此,盘活暗数据是数据备份的出路和方向,而CDM是一个理想的技术。

用户不愿意在老备份上花很多钱投资,因此会出现很多人会对备份意识不够,备份技术缺失等问题。自2016年以后,Gartner定义了CDM之后掀起了一番热潮。2018年,Gartner的备份恢复研究室的5个分析师,全体跳槽到了几家CDM初创企业,导致当年Gartner业务停滞,年度报告空缺了一年。其中知名是一个美国的CDM初创企业叫Rubrik,它不仅挖了Gartner的人,还公开叫板,打出一个新的概念,叫cloud data management,简称也叫CDM。

所以从2018年开始,复制数据管理进入了云数据管理的时代。简言之,CDM备份云也把备份数据的存储和使用通过云来展开,把复制数据管理从数据中心扩展到各种云,公有云、私有云等等。请大家一定要清楚,云数据管理CDM是基于复制数据管理的云数据管理,不是云里雾里的泛化的概念。在短短的2-3年,数据备份经历了两次升华,旧的玩家岌岌可危,新的玩家冉冉升起。

2016年Gartner初次定义CDM的文章的题目是《复制数据管理加速双态IT》。所谓的“双态”是稳态和敏态。稳态是决定企业存续的生产交易等核心业务系统,是求稳的;敏态是在企业数字化转型过程中,产生了大量的探索型、创新型的业务,追求的是敏捷性。大多数企业一般会采用一种新的技术,分布式、微服务架构,WM既有稳态也有敏态。

大企业客户会把稳态交给公云吗?不会。公有云是中小企业的归宿,大企业的归宿是双态。为什么CDM会加速双态IT?重要的原因是敏态业务的数据来自于稳态,CDM是端到端的跨界的技术,所以可以打通稳态和敏态,打通企业数据中心,私有云、公有云,加速数据流转。


WM事件的深度解读

回到WM事件,WM的IT本来是云上云下都有的。客户应用在腾讯云上面,客户的信息和账单放在一个线下数据库里,结果都被人为地破坏了。WM在3月1日晚上11点多发了一个公告。从WM的事后公告,可以得到如下几个信息:

第一,WM承认自己没有做好备份。以后线下的部分也要迁到云上,好像有腾讯云的加持就安全了;第二,腾讯云宣称帮助WM找回了数据,但没有用恢复数据的字眼;第三,从2月23日发生灾难到3月3日恢复数据,整整花了9天的时间,而且3月2日花了一天的时间做恢复演练,做恢复演练的过程中停止业务。

我想问,是不是全上云就不会发生类似灾难了?前两天我看云头条带节奏发了一个文章,说WM事件的解决是很完美的,较好的方案是全上云,不要半上云。你们觉得这个是理智的理性的一个分析吗?

其实WM这个事情它的根本原因是它是一个信息安全的事件,是人为地突破了防御,就干掉了数据。但是我们知道,做安全是七分管理,三分技术。管理里面有很多要素,里面有一个要素就是人,人是最不可琢磨的。一个高级的运维主管,突破了所有的堡垒机,所有的安全的防御,完全合理地删除了这些数据,你怎么防?所以放弃幻想吧。我再问9天时间,才全面恢复业务,能够接受吗? 


关于云信达

我们云信达公司是从2016年开始就专注于CDM技术的研发,主打产品eCloud Data Master是真正意义上的采用CDM技术的产品,从Gartner所定义的原格式的备份,到虚拟副本服务到多云的扩展。目前我们已经发展起了全技术栈的CDM的技术,是国内具有先进技术的CDM厂商,有兴趣的朋友欢迎来洽谈业务投资。

电话咨询
产品服务
解决方案
QQ客服