刘杰,甘旭升,曲虹,戴喆
(1.西京学院,陕西西安710123;
2.空军工程大学空管领航学院,陕西西安710051)
摘要:传统危险性分析方法将事故视为开始事件诱发的一连串事件所造成的不幸后果,适于处理相对简单或由物理组件构成的系统,但无法胜任较为复杂的社会技术系统,有必要研究和探索推广性更好、更为有效的系统安全分析手段。系统理论事故模型与过程( STAMP)将安全视为系统组件间交互的一种涌现特性,并认为事故起因除了组件失效,组件间交互失常而违背安全约束也是重要诱因。主张在系统开发、设计和运行中通过加强控制和强化有关安全约束来预防事故。基于此,先引入了STAMP的基本概念,并介绍了其分析步骤,然后,以贴近真实的导弹拦截系统危险性分析案例,阐述了基于STAMP的分析过程。该分析方法可为开发较高安全性水平的社会技术系统提供技术支持。
关键词:危险性分析方法;涌现;系统理论;过程模型;控制行为
0 引言
传统危险性分析方法将危险视为一系列事件作用的结果,所考虑事件通常涉及若干类型的组件失效或人的失误。主要采用前向序列法(如故障模式与影响分析)或后向序列法(如故障树)直接描述失效与影响因素间的线性关系。此类方法适合于分析物理组件失效造成的损失或较为简单的系统。然而,一个不争的事实是,随着科技的进步,现代系统变得越来越复杂。这意味着人员、技术或组织等方面的更多因素会融人一个系统内共同运行。系统呈现了繁冗复杂的非线性特性,此时失效与影响因素间的解析关系不明显,传统方法显然无法处理这种情况,亟待探索更为有效的危险性分析方法。
系统理论事故模型与过程( Systems - Theoretic Accident Model and Process,STAMP)是Leveson提出的一种新型危险性分析方法,已广泛应用于航空、核电、能源开采和卫生保健等领域。STAMP不同于传统分析方法,它在分析系统失效及其因果关系时,将系统视为一个整体,并把安全作为一个控制问题来处理。STAMP认为,安全是某一环境下系统组件间交互而呈现出的一种涌现特性,该涌现特性受系统组件行为有关约束的控制。不难理解,事故诱因中除了组件失效或人的失误之外,还应涵盖组件间的非功能交互作用。而这种系统内组件间的非功能交互诱发的事故又称为系统事故,系统事故就是因缺少适当控制以约束组件间的交互而造成的。相应地,STAMP安全思想是,预防事故需要辨识和消除(或减轻)组件间的不安全交互,即在系统开发、设计和运行中加强控制和强化有关安全约束。
从掌握的文献来看,目前国内有关STAMP及其应用的研究尚不多见,本文可使我们更系统地了解和掌握相关知识。
1 基于STAMP的过程分析(STPA)
STAMP是一种系统安全分析方法,它继承了控制理论思想,将安全视为一个控制问题,并认为系统是动态的,而非静态的。STAMP采用了系统理论的约束与涌现、通信与控制以及过程模型等基本概念。
1.1 约束与涌现
STAMP的最基本概念是约束,而不是事件。在系统理论中,系统被视为一个层次控制结构,且各层级施加约束给下一层级。较高层级的约束控制着较低层级的行为。安全约束特指系统变量间的某些关系,这些关系有助于防止系统进入危险状态。涌现通常是指多个组件构成系统后,出现了系统构成前单个组件所不具有的性质,这个性质并不存在于任何单个组件当中,而是系统在低层次构成高层次时才表现出来。在STAMP中,安全可视为系统组件间交互而在各层级产生的一种涌现特性,它取决于系统内的组件行为上约束的强化。同时,也说明抛开背景信息讨论安全是无意义的。
1.2交流与控制
在控制过程中,保持顺畅有效的交流通道非常重要,它决定了能否建立有效的控制过程或达成预期目标。STAMP控制结构的层级间有两种交流通道:一种为向下的参考通道,为强化下一层级的安全约束提供必要的信息;另一种为向上的测量通道,提供有关如何有效满足约束的反馈信息,它是提供自适应控制的关键,如图1所示。典型的控制过程常通过反馈回路使关联组件保持在一个动态平衡状态,如图2所示。图中的自动控制器受人工控制器监督。虚线说明人工监督员可直接使用系统状态信息(非计算机提供),并且可不通过计算机指令去执行受控过程。
1.3过程模型
过程模型为控制理论的概念,也同样是STAMP中的一个基本概念。控制一个过程通常需要目标、行为、模型和可观测性等4个条件,而以模型条件最为重要。无论是人工控制器,还是自动控制器,都需要构建一个受控过程的模型,以期更有效地控制它。过程模型的作用:根据对受控过程当前状态的了解,确定需要何种控制行为,并对不同控制行为对当前状态的影响进行估计。
STPA是一种基于STAMP的危险性分析技术。它在分析系统时,使用了一系列交互作用的控制回路集合,可用于系统周期的任何阶段。以下为STPA的具体实现过程。
1.3.1 定义系统危险和相关的安全约束
危险通常根据具体条件或事件来定义,如设备损毁或任务失败。目前尚无具体定义标准,主要依赖领域专家的主观评价。定义系统危险后,即可通过对危险的理解,指定相关安全约束预防危险。对于自动电梯门例子,危险为:电梯关门时,有人出现在门口;安全约束为:门口出现任何人时,电梯门都不能关闭。
1.3.2开发安全控制结构
定义了危险与安全约束,随后,应着手建立包含安全控制过程的典型社会技术层次结构,即层次安全控制结构。广义的安全控制结构如图3所示,其不代表任何特定系统。从图中可发现,其结构包括两个基本部分:系统开发和系统运行。而每部分又由若干层级、层级间交互、反馈控制回路以及通信信道构成。每个节点代表社会技术系统的一个人或机器组件;向下的连线代表施加的控制行为,用以强化对系统的安全约束;而向上的连线代表提供给控制器的信息反馈,以便更有效地满足约束。层次安全控制结构非常复杂,对不同危险进行分析时,通常仅将总体结构的一部分作为研究对象,其它都可视为环境因素。
1.3.3辨识潜在的不适当控制行为
定义了系统级的安全控制结构后,需要辨识可使系统处于危险状态的潜在不适当控制行为。而危险状态是指违反已定义的安全约束所处的系统状态。根据控制行为可能引起的危险,给出了4种不适当控制的辨识方式:①无法提供或执行确保安全所需的控制行为;②提供了诱发危险的不安全控制行为;③提供了过早、过迟或无序的潜在安全控制行为;④终止过快的安全控制行为。不正确或不安全的控制行为可能会引起行为失常或组件间的交互失调。为确保评估的完整性,必须依次对每个控制行为进行深入研究。
1.3.4确定潜在的不适当控制行为如何发生
该步骤可找出违反安全约束导致不适当控制行为的场景。找出了潜在原因,就可以设计一些方法,用以防止或削弱所识别的场景。STAMP按功能控制图工作,并通过一系列控制回路的缺陷来牵引。控制缺陷是指控制过程中出现的任何不完整特性或缺点。由于事故是因不适当控制和安全约束造成的,事故原因可按控制缺陷来理解。可能导致危险的4类控制缺陷见图4和参见文献[3]。
2案例分析
为直观地阐述STPA分析过程,引用了一个类似于美国弹道导弹防御系统( BMDS)的虚拟导弹拦截系统( FMIS)的危险性分析案例。因篇幅有限,无法企及所有危险,仅选取个别典型危险作了剖析。
2.1 定义FMIS系统的危险及有关约束
实践和统计表明,意外发射拦截导弹是FMIS系统的一个重要危险,那么,在最高级别的系统规范中能追溯到两个要求(约束):其一,FMIS系统不应存在灾难性危险发生的可能性;其二,FMIS系统不应存在意外发射的可能性。且后者包含于前者之中。
2.2建立FMIS系统的安全控制结构
图5给出了FMIS系统的安全控制结构。图中包括不同的系统组件、各组件施加给其它组件的控制行为以及提供给控制器的反馈。例如,对于飞行计算机来说,一方面它为导弹硬件施加了保险和解除保险等控制行为,这些行为影响着硬件的状态,需要对定义的安全约束进行强化以确保系统的安全;另一方面,BIT(机内测试)结果和硬件Safe &Arm(保险与解除保险)状态的信息反馈给飞行计算机,以便更好地满足安全约束。此外,通过软件变更运行模式(测试、训练和现场操作)和引导系统攻击目标,操作人员可对点火控制软件的行为进行控制。
2.3 找出潜在的不适当控制行为
分析FMIS系统的安全控制结构,可找出诸多不适当的控制行为。这些不适当的控制行为,可能出现在实际系统中,也可能不出现。这些预先假设的不适当控制行为,在设计和制造时,应根据对系统行为的研究,逐一予以确认或排除。以下为拦截任务从火控软件到发射阵位的部分不适当控制行为。
2.3.1 缺失的“点火生效”指令
“点火生效”控制行为指挥发射阵位对拦截导弹进行现场点火。当在此之前,发送的是“拦截任务”和“任务取消”时,发射阵位将返回一个错误。如果忽略此控制,导弹将不会发射。尽管涉及到潜在的任务保证,但它不是潜在的不适当控制行为,不会造成意外发射的危险。
2.3.2不正确的“点火生效”指令
如果发送到发射阵位的“点火生效”指令不正确,发射阵位将转换到一个接受拦截任务并按发射程序推进的状态。该行为与其它不正确或不合适宜的控制行为相组合,可能导致意外发射。
2.3.3过早、过迟或失序的“点火生效”指令
较迟的“点火生效”指令仅会延迟发射阵位对发射程序的处理能力,而不会造成意外发射;“点火生效”指令发送过早,可能会给意外发射提供机会,其危险取决于不适当控制的可能性和提前执行控制行为的程度;最坏的情况是“点火生效”指令与“点火失效”指令失序,可能的话,所设计和建造的系统是有能力处理拦截和发射任务的。
2. 3.4过快终止的“点火生效”指令
“点火生效”指令不是一个连续控制信号,而是一个单纯的允许拦截命令,在这里讨论“点火生效”并无实际意义。
2. 3.5 确定潜在的不适当控制行为是如何出现的
为简化问题,更好说明应用过程,文中选择了相对简单的“不正确的点火生效指令”作为分析对象。
火控计算机在收到“武器射击”指令且火控系统至少一个主动跟踪时,将“点火生效”指令发送到发射阵位。根据要求和规范,“武器射击”指令处理相对简单,但在判断主动跟踪还是被动跟踪上有困难。软件支持的被动跟踪标准:①一段时间无雷达信号输入后;②预测总弹着时间后;③确认截获后。但是,这样会少考虑一种情况:若操作人员对上述3项都不选定,跟踪将不会标记为被动。在此前提下,纵使当前跟踪目标没威胁,一次意外“武器射击”指令输入,也会将“点火生效”指令立刻发送至发射阵位。
拦截导弹模拟器用于模拟导弹的飞行计算机,FMIS系统通过该模拟器周期性地测试系统的可操作性。危险性分析的目的是确定测试指令发送到操作系统的可能性。而发射阵位提供的系统状态信息包括:发射阵位是与模拟器相连接,还是与现有拦截导弹相连接。若火控计算机检测到状态变化,它会对操作人员做出提示,并重置为相匹配状态。然而,在发射阵位给火控组件发送状态变更信息前,火控软件将测试“点火生效”指令发送到发射阵位的时间窗口极小,从而为意外发射提供了机会。
从以上过程可知,基于STAMP的危险性分析,并非如传统分析方法那样通过提高组件可靠性来改善系统安全性,认为事故发生足一个复杂过程,涉及到整个社会技术系统,传统方法无法充分描述这个过程,而使用系统理论能够更好地分析和评估安全及危险,即从整体上分析哪些系统行为造成了事故,而不只是归咎于某个人或事。
3结论
1) STAMP将安全视为控制问题,把事故视为违背系统安全约束的结果。这种观点尤其适合于航空、航天、航海、核电和化工等复杂社会技术系统,为系统的危险性分析提供了一种新的方法和思路。
2)STAMP强调事故的发生存在由低风险向高风险转变的过程,且这一转变过程是可控的,因此,摒弃以往传统的事后补救思想,通过事前对风险转变过程的科学分析,是完全可以做到防患于未然的。
3)案例分析表明:对于类似于F'MIS系统的社会技术系统,可以按照定义危险约束确定控制结构一识别不当行为一找出行为起因的过程(即STPA分析)进行危险性分析,得出的危险分析结果,对于制订有效可行的防控措施,具有重要的实用价值。
4) STAMP危险性分析是一种有序的、有组织的危险分析方法,同时兼具结构严谨、简便直观、操作性强等优点。然而,作为新发展起来的新方法,尚存在如安全控制结构的确定等难题亟待解决,也是下一步深入研究的方向。