前不久看了朋友发的一条微博,去听了一场公开课,加深了我对数据库保护方面的理解,主要是结合使用多种措施的意义。
尽管我从事数据保护和灾备行业已经有几个年头,但更多时候是在向用户解释什么时候适合用备份?什么时候适合CDP(持续数据保护)?它们的区别,RPO和RTO等等。
简注:RPO——恢复点目标,即到故障发生前的数据丢失量RTO——恢复时间目标,即恢复故障所用的时间
拿这两个指标一衡量,就可以看出不同类型数据库保护/备份技术的差别,类似的比较网上有许多,在此我只是以Oracle为代表简单总结一下,如有不准确之处还请大家指正。
1.RMAN/备份软件 简化跨平台数据保护
为什么把Oracle RMAN和备份软件归为一类,因为后者目前主要的机制也是调用RMAN,或者导入/导出。作为一种定时的数据库物理备份方式,基于RMAN的备份可以保证恢复的有效性,以磁盘、磁带介质为目标,做到完全、增量和差异备份,可以说是DBA和备份管理员所必须掌握的。
·不足:首 先是备份间隔——定时备份通常不适合在业务繁忙时进行,所以频率不能太高,RPO相对较大;而且在有些数据量很大的用户那里,每天一次夜间备份窗口也不够 用了,可能要改为每周一次;出现故障时,需要一个恢复的过程,数据才能可用,所以RTO也不算短;RMAN要求数据库必须打开归档日志。
如今随着两地三中心和双活的流行,人们对RPO和RTO的要求不断提高,备份看上去有些退居二线。但实际上它具有长期保留等方面的价值,还是很重要的一道保障。
代表产品:NetBackup、CommVault、戴尔NetVault(原Bakbone)等。
这些软件都能支持Windows、Linux和Unix多种平台,以及Oracle RAC集群。其中NetVault的一大特点是简捷易用,通过图形界面可以绕开RMAN命令的复杂性。
RMAN备份Oracle数据库到重复数据删除设备、远程复制容灾示意
1.5重复数据删除设备
这里我加了一个特殊的序号,该产品分类实际上要配合备份软件或者RMAN来使用,目的是通过重复数据删除等优化技术,节约存储空间并加快备份的速度。站在数据库保护的角度,不应完全算做一个单独的技术路线。
代表产品:EMC DataDomain、戴尔PowerVault DR系列等。
2.数据库物理复制高可用的低成本容灾
如今DataGuard(DG)已经是Oracle一个免费的组件,它通过将redo log同步/异步传送到本地或者远程的数据库服务器,再将对数据块的操作进行到备库。在11g之后的版本中,Active DataGuard(ADG)支持只读方式挂载的活动备库,不是完全的双活。
注:ADG是需要额外收费的,DG不单独收费。
同步方式的DataGuard基本上可以做到RPO=0,并且支持通过脚本来实现自动故障切换,RPO最短可达分钟级水平,不过生产环境中通常还是手动切换,毕竟一旦误切也挺麻烦的。
·不足:由于传送的是全量日志,对网络带宽和延时的要求较高。另外常用的DataGuard物理备库,偶尔也会遇到由于Oracle某种bug或者其他原因,导致block逻辑损坏,而且这个损坏会传输到备库,导致备库也异常。
DataGuard比较适合低成本容灾,非ADG不需要另外购买License,但也需要有人来监控、维护库之间的复制状态,或者说对DBA水平要求高一些,还是会产生一定成本。
注:备份可以理解为将某个时间点的数据状态导出单独保存;而数据库软件复制,只是建立了备库,如果想回滚到历史状态都需要用数据库自身的日志来实现。
3.数据库逻辑复制随时可用的灵活容灾
代表产品:Oracle GoldenGate、戴尔SharePlex(原Quest)等。
它 们的共同特点,都是从Oracle日志中解析出逻辑SQL语句,发送到备库,并将这些SQL重新执行一遍,以达到数据复制的效果。由于解析出来特定格式的 文件,本身不需要传递所有日志,这类软件在传输的过程中可能还增加了压缩功能,所以逻辑复制通过网络传送的数据量显著减少,对带宽要求降低,RTO最短可 达1秒。
这类复制软件应用相当灵活,支持异构跨平台(比如在小型机和x86服务器之间),甚至跨不同数据库复制。数据库逻辑复制应用的场景包括数据迁移、多库合并、容灾等方面,能够做到双活双写实时可用,只是备库做不到与主库之间的严格同步一致(会有一点滞后)。因此不需要数据库的切换,只要做好站点的仲裁并在上层应用切换即可。
数据库逻辑复制流程示意
·不足:正 是因为灵活,逻辑复制有时没有redo log的物理复制来的可靠,因此有的DBA朋友提出它并不适合所有的容灾需求。另外,复制的对象是表,因此要求DBA必须参照主库提前规划好备库,增加了 日常维护的工作量。还有就是价格,这类软件通常的销售方式是按照参与复制的节点数/CPU插槽来计算,所以购买成本不菲。
曾有业内资深人士表示,“SharePlex在国内的支持响应速度比较快,以前他们在某个用户的环境中遇到读归档日志慢的情况,原厂开发人员1天内就解决了这个bug。相比之下,有的厂商在国内的服务主要是第三方来做,原厂工程师来了有时解决不了问题”。
4.存储阵列的快照和复制改善的存储经济性
磁盘/闪存阵列提供的本地、远程复制功能,被称为底层存储(数据块级)的容灾保护。在经过LUN的初始同步之后,只需要继续复制数据增量/变化量即可。该技术配置简单,以逻辑盘为单位,而无需关注到具体的应用数据内容。
存储级复制,容灾端阵列上的LUN可以随时挂载到备用数据库服务器使用,根据操作的自动化程度,RTO可达分钟级。同步复制(镜像)的RPO接近零,但需要裸光纤,并且一般距离不超过50公里;异步复制RPO通常不短于5分钟。
远程复制
·不足:阵列复制只负责维护源端存储和目标端存储之间的一致性,而上面数据的有效性(比如数据库是否能正常打开)则不负责。因此该技术许多时候要结合快照一同使用。
快照是一种逻辑数据保护方式,它相当于在一个LUN上增加了时间点数据状态回滚/挂载的功能。为 了实现应用数据的有效一致性,有些高级快照功能支持主机端代理程序,比如在快照之前通知Oracle将内存中脏数据写盘,短时暂停I/O等快照完成再恢 复。此外,对于应用数据在多个LUN之间的同步一致,比如Oracle数据文件、日志文件等放在不同磁盘的情况,快照还需要支持一致性组功能,以保证它们 在同一时间点创建快照。
快照能在很短的时间内回滚到历史点,或者直接生成即时数据回放(或称直接挂载、瘦克隆),需要人工干预但RTO也较短。带有快照的复制,能够更好地与应用结合。
高级快照功能
·不足:不 同阵列的快照技术水平,决定了对性能影响和磁盘空间的占用也不相同,单一LUN/整个系统的快照数量通常也会做出限制。因此默认就打开或者推荐用户使用快 照的存储厂商并不多,比如戴尔SC(Compellent)和NetApp FAS系列。在存储高压力写入的情况下,即使有专门的一致性保证机制,还是有一定几率出现快照数据不可用的情况,这有点类似于主机掉电对数据库的影响。
戴 尔SC系列得益于原生的底层存储空间虚拟化管理,在单一存储系统上支持高达16000个Replay快照,可短至1分钟间隔达到准CDP的效果。并独创了 根据策略将快照数据转换为不同RAID级别(如RAID 10 to RAID 5/6)来节省空间,或者迁移到廉价存储层来降低成本。
对于快照、异步复制和同步复制功能,有些阵列品牌需要购买License,有的则包含在基础功能中。
小结
戴尔一站式解决方案 构建多维度屏障
正如那位数据库专家朋友有感而发:“Oracle的备份、容灾不能全部依赖物理DataGuard容灾。因此在条件允许情况下,建议增加物理备份和逻辑容灾。”这里的物理备份就是我们介绍的第1类——RMAN/备份软件;逻辑容灾则是第3类——数据库逻辑复制软件;我认为第4类——存储阵列的快照和复制也 可以作为一种补充。这三类产品戴尔全部都有,而且在技术上还都是属于广受好评的,能够为用户提供一站式解决方案。
至于同时应用多重数据保护技术是否复杂?“取决客户对于数据安全的重视程度”。本文我们只是拿Oracle来举例,对于其它类型数据库也可以作为一个参考。
好文章,需要你的鼓励
Spotify宣布已从其目录中删除7500万首"垃圾"音乐,作为打击日益泛滥的欺诈性音频内容和"AI垃圾"的努力。公司发布新政策禁止冒充、垃圾提交和欺诈版税生成。目前流媒体服务每日收到约15万首新曲目,其中28%为纯AI生成。主要唱片公司担心低质量内容稀释人类艺术家的版税池,而AI工具进一步加速了这一趋势。
ETH苏黎世大学研究团队提出OBR(最优脑重建)框架,创新性解决了大语言模型压缩中量化与剪枝方法的根本冲突。通过"分组错误补偿"机制,OBR实现了W4A4KV4+50%稀疏性的极端压缩,在保持优秀性能的同时获得4.72倍速度提升和6.4倍内存节省,为边缘设备部署大模型开辟新道路。
Meta公司推出名为"Vibes"的全新信息流功能,专门展示由创作者使用AI技术制作的视频内容。该功能将人工智能生成的视频内容进行整合和分类,为用户提供更加个性化的AI视频浏览体验,标志着Meta在AI内容分发领域的又一重要布局。
斯坦福大学研究团队开发出概念组合学习框架,让AI系统像人类一样学会"举一反三"。该技术将复杂学习任务分解为基础概念模块,通过灵活组合处理新任务,学习效率比传统方法提高10倍。实验显示在多概念组合任务中准确率达78%,并具备跨领域迁移能力。这项突破为通用人工智能发展奠定重要基础,预计将在医疗、教育、自动驾驶等领域率先应用。