当生产中心的数据或应用由于灾难或故障不能正常使用时执行故障恢复,以便快速在灾备中心启动业务。在进行故障恢复前,建议至少成功执行一次容灾测试。
前提条件
- 对于其他应用已配置基于LUN的保护策略和恢复计划。
- 对于使用阵列异步远程复制的保护组,需要保证灾备中心至少有一份可以使用的完整业务数据。
- 当生产端或灾备端存储、主机、虚拟机等设备上信息发生变更时,请手动刷新设备信息,变更项说明以及详细操作,请参见刷新保护组相关资源。
- 不支持数据存储名称中包含中文字符。
背景信息
故障恢复可以在生产中心的数据或应用非正常停止时,快速在灾备中心启动业务。当生产中心恢复后,执行计划性迁移操作将业务回切至生产中心。
建议启用归档日志保护,若不启用归档日志保护,故障恢复可能失败。如果未启用归档日志保护,您可以在导航栏中选择“保护”,单击保护组,选择“保护对象”页签,单击“修改保护设置”,勾选“归档日志保护”,启用归档日志保护。
操作步骤
- 执行故障恢复。
如果灾备主机(Linux操作系统)安装了华为多路径软件,请确认多路径软件设置的I/O悬挂时间不为“0”,且该灾备主机上由多路径软件所产生的虚拟设备均存在所对应的物理设备。更多详细信息请参见对应版本的《OceanStor UltraPath for Linux xxx 用户指南》。
- 在菜单栏上,单击“数据利用 > 数据恢复”。
- 单击需要执行的恢复计划,添加重保护前执行自定义脚本的步骤。操作如下:
- 选择“执行步骤”页签,然后单击“编辑步骤”按钮。
- 选择“重保护”,单击“ADG环境检查”步骤之前的任意步骤,单击“添加步骤”。
被添加的执行步骤的位置必须在“ADG环境检查”步骤之前。
- 输入“步骤名称”和“脚本名称”,其中脚本名称为被导入的自定义脚本的名称。自定义脚本的导入方法如下。
- 登录保护对象所在Linux业务主机,获取脚本模板,并按照模板自定义执行脚本。
自定义执行脚本名称长度范围为4到32位,只能由字母、数字、_和-组成,且必须以字母、数字或_开头,脚本后缀名为.sh。
脚本模板放置的路径为“/xxxx/Agentless/custom/sample”,恢复ADG环境的脚本模板名称为oracle_adg_recovery.sh。其中xxxx表示用户自定义的Agentless安装目录。
- 将自定义的执行脚本放置到指定路径下,确保BCManager系统能够查询到脚本。
脚本放置路径为“/xxxx/Agentless/custom”,其中xxxx表示用户自定义的Agentless安装目录。
- 设置自定义执行脚本的属主和执行权限。
执行chown root:root oracle_adg_recovery.sh,设置脚本属主为root:root;执行chmod 550 oracle_adg_recovery.sh,设置脚本权限为550。
其中,xxx表示用户自定义的Agentless安装用户。
- 如果您不设置自定义执行脚本的属主和执行权限,则恢复ADG环境脚本无法执行。
- ADG环境恢复脚本默认支持恢复OPEN_MODE为READ ONLY WITH APPLY,如果需要恢复为READ ONLY,则需要用户修改自定义脚本。
- 如果在重保护流程中需要使用自定义脚本恢复ADG环境,则灾备中心所有节点都需要配置自定义脚本。
- 执行以下命令设置ADG环境恢复脚本sudoer配置:
echo 'xxx1 ALL=(root) NOPASSWD:xxx2' >> /etc/sudoers.d/CUSTOM
其中xxx1表示自定义的Agentless安装用户,xxx2表示ADG环境恢复脚本的绝对路径。
表1 自定义脚本参数配置说明参数
|
说明
|
ORACLE_TYPE
|
ORACLE部署模式,单机填写为SINGLE,集群填写为RAC。
|
ORACLE_PATH
|
ORACLE安装目录,用于存放产生的临时文件。
|
RAC21
|
备集群节点1的hostname,如果是单机部署,则不需要填写RAC22。
|
RAC22
|
备集群节点2的hostname。
|
SYS_PASS
|
数据库sys密码。
|
Primary_TNS
|
当前主集群的TNS名称。
|
Standby_TNS
|
当前备集群的TNS名称。
|
IS_SKIP
|
如果是RAC集群,需要将集群中一个节点配置为0,另一节点配置为1。
|
- 选择“步骤执行策略”和“步骤位置”,单击“确定”。
- “步骤执行策略”说明如下:
- “失败后继续运行”:该步骤执行失败,恢复计划继续执行容灾恢复操作。
- “失败后流程终止”:该步骤执行失败,恢复计划停止执行容灾恢复操作。
- “步骤位置”可以选择“前置步骤”或“后置步骤”,设置添加步骤的执行位置,第一步不能添加前置步骤,最后一步不能添加后置步骤。
- 在“操作”区域单击“更多 > 故障恢复”。
单击“故障恢复”前,您可以选择“执行步骤”页签,然后单击“编辑步骤”按钮,选择“故障恢复”,并根据需要启用或者禁用可配置的步骤。可配置的步骤为“ 测试数据库连接(可配置)”,默认启用。
- 根据不同的保护对象类型,执行故障恢复。
- 当保护对象类型为“Oracle”时,请执行:
- 选择“灾备站点”。
- 选择“主机(组)> 可用灾备恢复主机或主机组”。
- 当灾备站点使用的存储阵列为闪存6.1.6版本及以后版本时,此处选择的待恢复的主机在存储阵列上只能归属于一个主机组,且该主机组只能归属于同一个映射视图。同时,受保护的应用使用的存储LUN对应的远程复制从LUN,和灾备集群的redo log、archive log归属的LUN,只能规划为归属于同一个LUN组,且该LUN组与该主机组必须归属于同一个映射视图中。如果使用的存储阵列为闪存6.1.6版本及以后版本,创建映射视图后,需要修改映射视图的属性,取消勾选“为主机启用带内命令”。
- 对于闪存6.1.6版本及以后版本的存储,提供了自动添加主机与存储映射的功能,只需要保证存储与主机的启动器连接正常,系统会自动在存储上创建对应的主机、主机组、LUN组和映射视图,创建原则如下:

- 单击“故障恢复”。
- 在弹出的“警告”对话框中仔细阅读提示内容后,勾选“我已阅读上述信息,了解执行此操作带来的后果”。
- 单击“确定”。
如果故障恢复失败,可以支持重试,重试将从失败处开始执行。
- 在灾备中心检查应用启动情况。
待故障恢复完成后,检查应用和数据是否正常,如果应用或数据出现异常,请联系华为技术支持工程师。
- 检查应用启动分为以下两种情况。
- 对于基于应用的保护策略,请检查应用启动是否成功并能正常进行数据读写操作。
- 执行重保护,对灾备站点接管的业务进行反向保护。
故障恢复完成之后,应用系统运行在灾备站点,保护组变为“无效”。此时需要进行重保护,恢复从灾备站点到生产站点的复制状态,将灾备站点运行期间的数据同步回生产站点。重保护后,原灾备站点为生产站点。
- 为了确保重保护前保护和恢复的配置不影响重保护后保护组和恢复计划的运行,执行重保护后系统将自动清理保护和恢复的配置。在执行重保护后,请重新配置保护策略和恢复策略,以确保容灾业务正常运行。
- 如果重保护失败,可以支持重试,重试将从失败处开始执行。
- 在菜单栏上,单击“数据利用 > 数据恢复”。
- 选择需要执行重保护的恢复计划,在“操作”区域单击“更多 > 重保护”。
- 在弹出的“确认”对话框中仔细阅读提示内容后,单击“确定”。