南瑞集团有限公司(国网电力科学研究院),南京 210000
摘要:IT系统是现代各公司经营管理的基础平台,信息系统的业务连续性很关键,其关系到企业各项生产业务的正常运行。随着IT系统的规模和复杂程度不断增加,安全连续运行能力成为了各大企业重点关注的问题。本文结合生产实际中的常见风险和架构风险,展开IT系统的业务连续性高可用指标的研究。
关键词:业务连续性;常见风险分析;信息系统高可用性评价指标
进入21世纪以来,我国在石油、化工、金融、电力、国防等不同领域的信息化程度高速都经历了高随的发展。现代企业信息系统的架构复杂,正常的使用过程中存在许多安全缺陷。例如系统的硬件单点/多点故障、网络切换故障/延迟、生产管理宕机/流程缺陷等。本文提炼出企业信息系统业务连续性的高可用性评价指标。企业使用这些指标对现有IT系统的情况进行对标,检查系统是否存在业务连续性方面的隐患,从而提高信息系统的高可用性。
信息系统风险点深度分析是一个重点考虑的因素,涉及IT系统设计过程中各个方面。只有及时准确地识别出风险,才能通过有针对的在系统的各个建设和运维环节来防范类似风险。本文将讨论对信息系统有较大影响的营运风险和突发事件风险,这些风险主要包括:(1)自然环境涉及风险(2)物理环境涉及风险(3)人员各因素风险(4)IT系统计划内检修风险。
这四小类风险在系统运行和生产过程中会造成不同程度的相关影响,可以将这些归结为两大类: 一类是灾难,另一类是故障。其区别在于,灾难会导致系统的停运,而故障会影响系统的正常运行。所以保证信息系统的业务连续性, 就要求IT系统有应对这两类风险自动调整和快速反应的能力[2]。
表1. IT系统风险示意表
重点考虑 因数 | 分类 | 具体描述 | |
风险 | 灾难 | 战争 | |
社会事件 | |||
自然灾害 | |||
故障 | 系统故障 | 业务应用故障 | |
服务器故障 | |||
IP/SAN故障 | |||
存储故障 | |||
计划内停机 | 业务软件升级 | ||
信息系统迁移 | |||
信息系统测试 | |||
容灾演戏 | |||
NBU和数据库备份归档造成信息处理能力下降 | |||
信息系统安全攻击 | |||
基础环境故障 | 机房配电故障 | ||
机房空调故障 |
对信息系统基础环境进行分类分析,总结提炼出高可用性指标。
用户终端
硬件故障、操作系统故障、病毒攻击等风险是现阶段用户终端的主要问题[1]。目前应对上述风险,常用的技术是将用户终端的数据异地进行存储, 发生灾难时通过异地存储的数据对本地丢失的数据进行恢复[4]。
中间件、 数据库、 服务器
这一类可以采用集群技术和负载均衡等办法去保证这些组件的高可用性。对服务器等硬件进行集中管理,利用vmware、citrix等虚拟化技术,灵活调整资源,提升资源的大幅度利用率,从而在遇见风险和故障时,实现功能的漂移,从而保证服务和应用顺利完成。
存储及网络
该类风险可以使用赛门铁克和飞康等成熟套装复制备份软件,去构建快速可靠的数据拷贝系统进行应对。SATA磁盘和磁带,具有高冗余性,可以构建多级高速数据保护机制。将新的备份技术应用于信息系统, 可以实现数据快速备份, 避免长时间备份工作对核心生产业务系统的高速运行的产生检修影响。
机房
配电、精密空调、UPS等系统机房的基础环境, 通常也可采用设备高冗余的部署方法, 例如双路配电UPS系统供电。
通过对IT基础环境、技术及管理两方面对常用信息系统架构进行的分析,我们可以总结研究出信息系统业务连续性的高可用性评价指标模型,具体包含运维管理制度、IT系统设计、IT系统实施标准三个方面。系统高可用指组成该系统的软硬件使用了冗余策略,比如集群、RAID、冗余等技术手段。结合各主流IT厂家的产品特性和大型企业数据中心的详细设计,设计出信息系统高可用性的具体指标。
表2.系统高可用评价指标
检查类别 | 评价指标 | 检查细项 |
环境检查 | 电源 | 双路电源及UPS的工作状态是否正常 |
空调 | 机房空调是否保证N+1配置 | |
温度 | 设备出风口温度小于等于25度 | |
主机 | 设备冗余配置符合度 | FC卡、网卡、电源、系统硬盘是否保证冗余配置,并接入两个或以上的IO背板 |
分区高可用 | FC链路、Lan链路、VIOS负载均衡是否工作正常 | |
是否配置了数据网卡与管理网卡,定期检查系统日志及MP卡硬件报错 | ||
不同分区的系统盘是否配置在不同的IO背板上,逻辑分区是否能资源动态调配,启动盘及第二启动盘启动路径设置是否正确 | ||
CPU、Memory、IO利用率是否高于50% | ||
存储 | 设备冗余配置符合度 | 磁盘阵列是否存在未处理的硬件故障 |
控制器、前端卡、后端卡、LUN对应的前段端口是否冗余配置,是否进行过载配置 | ||
Hot spare配置是否合理有效 | ||
控制器微码版本是否正确合理 | ||
存储虚拟化(是否有存储虚拟化架构) | 虚拟化存储设备、被虚拟化存储设备的互联端口属性是否一致。 | |
是否分配独立存储设备前端端口用于连接外部被虚拟化磁盘阵列。 | ||
外部被虚拟化磁盘阵列和存储设备连接时是否采用双路连接。 | ||
电池配置合理性 | 电池数量配置是否合理 | |
电池寿命是否在有效期内 | ||
RAID保护设置的合理性 | 是否存在做RAID5的SATA盘(SATA盘组应使用类似RAID6的模式) | |
DiskGroupd的Raid策略是否合理,与业务应用相结合进行判断 | ||
SAN | 硬件检测 | mode 187是否正设置 |
SAN交换机配置合理性 | SAN链路是否核心-边缘架构 | |
边缘光纤交换机上联核心是否实现链路聚合冗余,交换机的Zone配置是否对应(主备交换机一致) | ||
巡检内容的覆盖度 | 存储告警灯、存储日志的检查、微码版本是否最新 | |
主机集群 | 主机集群配置合格率 | 主机是否做集群,是否有两条以上的心跳线 |
锁盘的配置是否正确 | ||
集群日志、心跳线、主机的HA配置、应用切换脚本是是否有报错 | ||
集群切换演练(用户自行开展) | 是否有定期开展主机集群切换演练,是否制定演练预案。演练内容包含集群状态检查、主网卡失效验证、心跳失效验证、主机宕机验证、数据库故障验证、主备互切与回切验证 | |
数据库集群 | 参数设置 | 系统内核参数配置是否符合官方推荐 |
数据库软件版本及小版本(Opatch)是否合理是否合理 | ||
数据库软件日志、网络参数配置、redolog文件数量是否有报错信息 | ||
负载均衡 | 客户端中间件、软件程序连接数据库设置情况 | |
NTP | 时间同步 | 是否配置NTP服务且存在延时 |
Weblogic | 配置合理性 | weblogic配置软件版本是否合理,是否配置集群环境,重启后weblogic数据库连接池是否自动建立连接; |
weblogic日志文件是否存在报错及警告信息、配置文件是否有备份策略、配置参数是否合理、集群负载情况是否正常、集群配置是否合理; | ||
集群测试 | 是否定期开展weblogic集群演练测试; | |
防火墙 | 主备机 | 是否安装有2台防火墙设备主备架构 |
防火墙高可用策略(failover or HA) | ||
主备防火墙策略一致性,主备能否正常切换 | ||
线路连接 | 检查2台防火墙之间的连接,与其它设备的连接 | |
主备机状态 | 检查防火墙主备机运行状态 | |
主备机同步配置 | 检查2台主备防火墙之间的配置同步情况 |
由于各企业对信息化重视的程度愈发提高,人们对信息系统在生产生活中的的依赖性越来越强。本文从业务连续的视角出发, 结合业界典型范例,通过事实分析,最终提出了信息系统业务连续性高可用评价指标,企业可以使用这些指标去评价现有的信息系统。对标后,针对存在的不一致缺陷进行整改,从而可以极大的提高企业信息系统的业务连续性。
[1]王树鹏,云晓春,余翔湛。容灾的理论与关键技术研究[J].计算机工程与应用, 2004, 28: 54-58.
[2]张谞,谢亚光。信息系统的业务连续性研究[J].信息化研究, 2009, 35(1).
[3]方琳,张玉清,马玉祥。信息系统的业务连续性安全管理模型及实施流程 [J].计算机工程,2005,31 ( 24 ) : 180 -182.
[4] 高原,张勇,宁剑,顾文杰,陈鹏。适用于电网调控系统的细粒度多机冗余机制的设计与实现[J].计算技术与自动化,2019,Vol.38,No.4.
[5] 高洁,路宏伟,张璐《西安烟草信息系统容灾建设研究》[J].科技信息,2014,280-281.