在钛媒体在线课“钛坦白”第50期,我们邀请了三位钛客讲讲企业要如何应对信息安全问题。本期钛客之一、英方股份联合创始人、CTO周华,具有20年互联网/大数据处理和数据安全管控与运营实战经验,曾就职于Oracle、亚信科技等公司,参与证券、医疗、教育等行业的灾备系统架构设计工作。曾指导完成《2016年中国灾备技术及行业白皮书》撰写工作。现负责英方股份产品技术定位与发展。
本文节选自周华在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击://www.erschrecken.com/pro 注册。
以下根据周华在钛坦白的分享实录整理:
灾备是什么?
灾备,是指灾难备援。作为IT产品,灾备跟生活中的保险类似,保险不保安全,只是在事故发生后进行的一种理赔,而灾备是在事故发生后的补救措施,即当事故发生之后需要保护客户的数据不丢,业务不停。
在网络安全领域,防火墙和杀毒软件是在一线的,但是当这一道防线没有拦住相关潜在的威胁,灾备就是信息安全的最后一道防线,是救命稻草。
灾备不仅仅是数据级简单的一个备份,还有业务连续性相关的一些需求。良好的灾备策略不仅能减少企业的灾备应对时间,还能大规模降低企业因为业务终端而导致的损失,并提升客户的使用体验。
灾备分三个等级:
第一个是数据级灾备。数据级有很多种方式,比如定时备份,每天晚上或者每隔一段时间做一次备份。另外一种比较高级的容灾方式是持续的数据复制和实时同步。
第二个是应用级灾备。应用级是在数据级的基础之上,能够确保应用相关进程服务的连续性,包括本地和异地的应用级容灾,确保当生产端出现故障时,备端的应用能够快速切换接管。
第三个是业务级灾备。如果说数据级灾备、应用级灾备都是在IT系统的范畴之内,业务级灾备则是在以上两个等级的灾备基础上,还需考虑到IT系统之外的业务因素,包括备用办公场所、办公人员等,而且业务级灾备通常对支持业务的IT系统会有更高的要求。
这三个层次之间的关系是逐级而上的。最基础的是数据级,其次是应用级,最高级是业务级。一般情况下,企业会进行数据级和应用级的建设。在灾备建设时,每个企业因为生产环境与喜好不同,使得灾备的交付方式也不一样。英方根据多年的灾备交付经验,在业内率先提出了“软件+硬件+DRaaS”的全生态交付模式,以适应不同企业对灾备建设的需求。
传统灾备存在的问题
灾备所需要应对的范畴包括IT系统问题、计算机网络安全技术问题、信息安全管理问题、灾害类问题等,当这些事情发生时,我们需要有保护数据和整个系统完整性的措施。
比如说勒索病毒,我的一位同事中招了,他的iphone还有相关苹果的设备都被锁定。还有一个英方的企业客户,相关的重要数据也被勒索病毒给加密了,最终他付了钱,但付了钱也没用,数据没有被恢复出来,最后全部要重新去整理。这些潜在威胁就像紧箍咒一样,你不知道什么时候会发生。一旦发生,我们该怎么样去保证数据的安全呢?
目前企业也采取了大量的安全措施,比如在前端为了防止网络的攻击,可以用相关的杀毒软件,或者对关键数据进行定时备份,甚至更高级别的灾备,比如两地三中心。在金融行业如证券和银行,要求高,所以灾备建设比较靠前,两地三中心是比较普遍的要求,甚至规定物理生产中心与灾备中心之间的物理距离不能低于多少公里,异地的灾备中心物理距离不能低于多少公里,相关的数据要在几分钟之内能够恢复出来。这不得不说灾备行业里面经常提到一句话——不要将所有的鸡蛋放在同一个篮子里。
而现在,企业对于关键数据的重视程度也越来越高,会把数据放在不同地方。比如说上云,企业可能会同时将数据放在阿里云和腾讯云上,然后利用英方的容灾方案做数据的实时保护和容灾接管,实现本地到云端、云端到云端的备份、恢复和高可用。
针对信息安全的灾备建设,市场很早就有相应的灾备手段,比如定时备份,但是随着数据量的增加,问题也逐渐暴露,比如定时备份有时间窗口,数据从开始备份到备份完成需要一段时间。随着业务的发展,数据量会越来越大,那么备份的时间窗口会越来越长,到某一个程度的时候,当天产生的数据可能当天也无法备份完成。
很多人可能没法理解,我当天产生的数据怎么会没法备份完呢?举个例子,在金融行业,有些部门实际工作时间是7×24小时不间断运行的,不会留有足够的时间给你备份。另外,多系统的集成和运转,业务移动化和云端化也给企业的灾备建设带来考验,这些不断出现的新场景,显然传统的定时备份、双机热备等难以应对。而大型企业一旦出现业务中断,可能受到的影响会很大,甚至产生很不好的舆论场。比如某个网站因为宕机而导致业务停止22个小时,又比如说一锄头把光纤挖断了,所有终端的业务都受到影响无法使用等。这些都表明,数据复制的实时性与业务连续性成为企业的刚需。
新的灾备方案
上面说传统灾备在新的场景需求下出现了瓶颈,但并不等于传统灾备方式会消失。我们说灾备其实是一个体系,在英方的客户群里,很多用户都采用了综合性的灾备方案,即传统灾备+新的灾备方案,就是灵活利用各种灾备手段,对不同的数据和应用进行区别性的灾备,比如传统的灾备可以定时备份一些日常的普通数据,关键的对实时性要求高的业务,可以用新的灾备方案。“新”在哪里呢,下面是我们提供的三种新解决方案:
- 实时性同步
实时性灾备与传统灾备的区别是,英方通过字节级技术监控,把原端产生的数据源源不断地发送到备端。一般情况下,英方字节级复制技术可以实现毫秒级的数据传输,丢失的数据也是毫秒级的。
举一个应用场景,买股票。买股票第一要看行情,包括涨跌的数据、股票价格等,而这些数据变化是非常快的,1秒钟可能会变化多次。这些是表面的变化,实际上背后是数据的同备,这个数据同步技术用的是英方的i2Distributior,现在很多的大的券商,包括海通证券、东方证券、中信证券等这块相关的行情分发就是用i2Distributior进行数据的同步。
行情分发是怎么回事呢,过程可以简单描述一下:首先系统会将从上交所、深交所产生的行情源下放到证券公司;其次证券公司会再同步到所有的营业网点、大户室(部分券商已经不把这个系统放在本地机房,而是放在云端)。这个过程需要系统把搜下来的这些数据快速的同步到各大相关的终端站点,或者是云端的云主机上面去。
这里面其实就两个要求:第一、毫秒级到达所有需要到达的点;第二、占用的网络带宽越少越好。在用户现场的PK中,用户摆了两台服务器,一台用一种行业比较牛的技术去搜行情源,另外就是用英方的i2Distributior,现场看谁搜出来的速度更快,结果是英方的更快。
- 业务连续性
业务连续性是相对数据实时同步要求更高的一种灾备模式,它要求当故障发生时,业务系统不要停。
这涉及到应用级相关的接管,不仅仅是应用还有数据,必须是某个状态两端的一致性,整个备端相关的平台才能起来(两端既要支持物理机、虚机和数据库,或者是Web应用、ERP系统各类应用相关的一些兼容性)。
英方i2Availability能够做到秒级接管,举一个例子,去年有家金融客户的FLASH卡坏掉,业务系统被切换到备端,但是直到下班,相关的人员才发现生产端已经宕掉。英方的技术员赶过去调出相关的日志分析,原来是FLASH卡坏掉出现物理故障,监控程序上传后马上切换到备端,阻止了这次事故的发生。优秀的业务连续性方案,能够做到发生切换时用户端无感。
- 云灾备
这两年,上云的客户越来越多。因此灾备架构也由传统的IT架构升级到云IT架构,云灾备目前不仅仅指灾备,还包括业务的上云迁移、云备份和恢复、云高可用。
云迁移会是一个比较重要的应用场景,比如浙江的一个三甲医院,它把相关的医疗影像数据同步到阿里云的OSS面向对象存储里面去。另外还有一些国企,比如中央的某部委项目,采用混合云的方式将一部分数据放在本地,另一部分存量或归档数据放在云端。
云端对企业来说可以缓解初期一大笔资金的投入,资源可以动态的分配,前期可以节省很多的相关费用。但是在完全云端化之前,企业要面对这样的场景:
一是部分业务上云,本地的系统和配置要继续使用,那么就需要在本地和云端之间进行数据的实时同步。英方i2Move能够把用户的大规模的业务系统在本地直接一键式迁移到云端。比如我们将电科院的三百多台服务器不停机一键式迁移到私有云上,还有从企业内部迁移到阿里云、腾讯云、华为云等公有云上,保障迁移过程数据不丢,业务不停。
二是本地继续作为传统的生产中心,云端定位为非敏感数据的备份及部分业务的容灾,比如对外可查询的数据、网站等,那么这就需要在本地与云端之间做CDP数据恢复和业务高可用容灾。
钛坦白群友互动:
1、请问备份和灾备的具体区别是什么呢?
周华:备份是基本需求,是将数据、系统从A备份到B;灾备是高级需求,包括备份、恢复和高可用,涉及的层次也很多:数据(结构化、非结构化)、应用、系统、物理机、虚拟机、本地、同城、异地、云端等等。
客户的需求也多样化,有简单的备份需求,也有级别更高的灾备要求,行业不一样,需求也会不一样。
2、企业客户对灾备方案的需求趋势是怎样的?
周华:现在的趋势是客户的要求都在提升,原来对灾备不太重视的教育和政府现在也越来越重视。在英方接触的行业客户里面,证券交易所和工行是目前接触到的对技术要求最高的。军队和涉密系统的灾备技术上要求可能没金融那么高,但对数据的安全性极高。
(本文独家首发钛媒体,根据英方股份联合创始人、CTO周华在钛坦白上的分享整理)
………………………………………
钛坦白第51期:初创企业如何做品牌与市场?
地点:钛坦白 | 品牌营销(微信群)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
钛媒体我喜欢的媒介,我将几天内完成注册。
原来如此!受教