2.3 事故发生的可能性分析与评估
风险频率或风险概率均能描述事故发生的可能性。对危险事件频率/概率的评估,可参照历史数据、正式出版的权威数据库、先前的操作运行经验,或者选定的评估标准。从方法上来说,有统计分析法以及故障传播模型。基于故障传播模型,事故发生的可能性通常能获得量化的数据。
2.3.1 统计分析法
统计分析历史数据通常能够帮助人们获得危害整个系统、导致失效的小事件的可能性。具体而言,即用过程系统失效次数除以系统运行时间。这一方法可用于计算各种系统的失效频率,小者如阀门,大者如工业锅炉。大量现已投入使用的系统与子系统失效频率的数据都可以从工业手册中找到。此外,许多致力于风险管理或提供保险服务的公司也会维护此类信息的数据库。在一般文献中有关事件可能性的常见例子,如平均雷击的可能性为1×10-7/a、催化重整单元爆炸的可能性为2.6×10-4/a等。
然而,统计分析并不能完全直接应用于确定过程工业企业全厂整体的失效率。同事故后果的统计分析一样,要获得有效的统计分析结果需要两个前提条件:首先,必须具备足够的数据用于分析;其次,这些数据必须属于具有相似性的系统,这样才能用于所研究的系统。这两个条件有些矛盾,因为相似性越大的系统的有效数据就越少。此外,在分析过程工业工厂级的危险事故发生频率时,这两个条件往往很难满足。举例说明,一名工程师在某生产单元工作了15年,让他对该生产单元发生爆炸的可能性做出估计。如果在他工作的15年里该单元未发生事故,则他所做的估计就没有根据,而且在这种情况下得出的结论应该是:爆炸发生的可能性不小于15年/次。理想情况下,需要从其他相同的单元获得数据,但根据风险分析观点,不同工厂中的不同单元具有不同的生产量、工作环境、设备类型和员工素质,这些不同之处使得危险事件发生的频率完全不同,即很少有单元与所研究的单元足够相似从而能充分说明数据可以复用。因此,统计数据基本不可能一对一地应用。
2.3.2 故障传播模型法
因为单独的统计分析并不能有效地确定危险事件的频率,可以考虑用故障传播模型。故障传播建模主要是分析引发事故的一系列事件。通过分析什么事件可以引发连锁反应、哪些事件会使故障传播,并确定它们之间的相互关系,可以得出最终事件的发生频率。故障传播模型法是综合个体的失效率以确定整体系统的失效率。与整体系统相比,单个组件的失效率比较容易得到。因为单个组件通常较为简单并与其他的组件具有相似性,可以通过参考数据库或预估得到它的失效率。如压缩机、水泵、阀门、管道等的失效率就很容易从相关的数据库中或是经过预估计算得到,因为前人已经对此做了大量的工作。
事件树、故障树、致命度分析、可靠性框图均基于故障传播模型,且是评估事故发生的可能性的定量方法。以下将分别给出较为详细的介绍。
2.3.2.1 事件树
(1)简介
事件树分析(Event Tree Analysis,ETA)起源于决策树分析(DTA),它是一种按事故发展的时间顺序由初始事件开始推论可能的后果,从而进行危险源辨识的方法。某起事故的发生,是许多原因事件相继发生的结果,其中,某些事件的发生是以另一些事件首先发生为条件的,而某一事件的出现,又会引起另一些事件的出现。在事件发生的顺序上,存在着因果的逻辑关系。事件树分析法是一种时序逻辑的事故分析方法,它以某初始事件为起点,按照事故的发展顺序,分成阶段,一步一步地进行分析,每一事件可能的后续事件只能取完全对立的两种状态(成功或失败,正常或故障,安全或危险等)之一的原则,逐步向结果方面发展,直到达到系统故障或事故为止。所分析的情况用树枝状图表示,故称事件树。它既可以定性地了解整个事件的动态变化过程,又可以定量计算出各阶段的概率,最终了解事故发展过程中各种状态的发生概率。
(2)功能
①ETA可以事前预测事故及不安全因素,估计事故的可能后果,寻求最经济的预防手段和方法。
②事后用ETA分析事故原因,十分方便明确。
③ETA的分析资料既可作为直观的安全教育资料,也有助于推测类似事故的预防对策。
④当积累了大量事故资料时,可采用计算机模拟,使ETA对事故的预测更为有效。
⑤在安全管理上用ETA对重大问题进行决策,具有其他方法所不具备的优势。
(3)编制程序
①确定初始事件 事件树分析是一种系统地研究作为危险源的初始事件如何与后续事件形成时序逻辑关系而最终导致事故的方法。正确选择初始事件十分重要。初始事件是事故在未发生时,其发展过程中的危害事件或危险事件,如机器故障、设备损坏、能量外逸或失控、人的误动作等。可以用以下两种方法确定初始事件:根据系统设计、系统危险性评价、系统运行经验或事故经验等确定;根据系统重大故障或故障树分析,从其中间事件或初始事件中选择。
②判定安全功能 系统中包含许多安全功能,在初始事件发生时消除或减轻其影响以维持系统的安全运行。常见的安全功能列举如下:对初始事件自动采取控制措施的系统,如自动停车系统等;提醒操作者初始事件发生了的报警系统;根据报警或工作程序要求操作者采取的措施;缓冲装置,如减振、压力泄放系统或排放系统等;局限或屏蔽措施等。
③绘制事件树 从初始事件开始,按事件发展过程自左向右绘制事件树,用树枝代表事件发展途径。首先考察初始事件一旦发生时最先起作用的安全功能,把可以发挥功能的状态画在上面的分支,不能发挥功能的状态画在下面的分支。然后依次考察各种安全功能的两种可能状态,把发挥功能的状态(又称成功状态)画在上面的分支,把不能发挥功能的状态(又称失败状态)画在下面的分支,直到到达系统故障或事故为止。
④简化事件树 在绘制事件树的过程中,可能会遇到一些与初始事件或与事故无关的安全功能,或者其功能关系相互矛盾、不协调的情况,需用工程知识和系统设计的知识予以辨别,然后从树枝中去掉,即构成简化的事件树。
在绘制事件树时,要在每个树枝上写出事件状态,树枝横线上面写明事件过程内容特征,横线下面注明成功或失败的状况说明。
(4)定性分析
事件树定性分析在绘制事件树的过程中就已进行,绘制事件树必须根据事件的客观条件和事件的特征做出符合科学性的逻辑推理,用与事件有关的技术知识确认事件可能状态,所以在绘制事件树的过程中就已对每一发展过程和事件发展的途径作了可能性的分析。
事件树画好之后的工作,就是找出发生事故的途径和类型以及预防事故的对策。
①找出事故连锁 事件树的各分支代表初始事件一旦发生其可能的发展途径。其中,最终导致事故的途径即为事故连锁。一般地,导致系统事故的途径有很多,即有许多事故连锁。事故连锁中包含的初始事件和安全功能故障的后续事件之间具有“逻辑与”的关系,显然,事故连锁越多,系统越危险;事故连锁中事件树越少,系统越危险。
②找出预防事故的途径 事件树中最终达到安全的途径指导我们如何采取措施预防事故。在达到安全的途径中,发挥安全功能的事件构成事件树的成功连锁。如果能保证这些安全功能发挥作用,则可以防止事故。一般地,事件树中包含的成功连锁可能有多个,即可以通过若干途径来防止事故发生。显然,成功连锁越多,系统越安全,成功连锁中事件树越少,系统越安全。
由于事件树反映了事件之间的时间顺序,所以应该尽可能地从最先发挥功能的安全功能着手。
(5)定量分析
事件树定量分析是指根据每一事件的发生概率,计算各种途径的事故发生概率,比较各个途径概率值的大小,做出事故发生可能性序列,确定最易发生事故的途径。一般地,当各事件之间相互统计独立时,其定量分析比较简单。当事件之间相互统计不独立时(如共因失效,顺序运行等),则定量分析变得非常复杂。这里仅讨论前一种情况。
①各发展途径的概率 各发展途径的概率等于自初始事件开始的各事件发生概率的乘积。
②事故发生概率 事件树定量分析中,事故发生概率等于导致事故的各发展途径的概率和。
定量分析要有事件概率数据作为计算的依据,而且事件过程的状态又是多种多样的,一般都因缺少概率数据而不能实现定量分析。
(6)应用示例
如图2.3所示,系统为一个泵和两个阀门并联的简单系统,试绘出其事件树图并求其成功及失败概率(A、B、C的可靠度分别为0.95、0.9、0.9)。
图2.3 事件树应用示例
解:系统正常运行为(11)和(101)状态,所以系统可靠度RS为:
RS=RARB+RAFBRC=RARB+RA(1-RB)RC
=0.95×0.9+0.95×(1-0.9)×0.9=0.855+0.0855=0.9405
系统失效状态为(100)和(0)状态,所以,系统失效概率FS为:
FS=FA+RAFBFC=0.05+0.95×0.1×0.1=0.0595
或者 FS=1-RS=1-0.9405=0.0595
2.3.2.2 故障树
(1)概述
故障树分析(Fault Tree Analysis,FTA)又称为事故树分析(Accident Tree Analy-sis,ATA),是安全系统工程的重要分析方法之一,它是运用逻辑推理对各种系统的危险性进行辨识和评价,不仅能分析出事故的直接原因,而且能深入地揭示出事故的潜在原因。用它描述事故的因果关系直观、明了。思路清晰,逻辑性强,既可定性分析,又可定量分析。在风险管理领域常用于企业风险的识别和衡量。
故障树分析首先由美国贝尔电话研究所于1961年为研究民兵式导弹发射控制系统时提出来,1974年美国原子能委员会运用FTA对核电站事故进行了风险评价,发表了著名的《拉姆逊报告》。该报告对故障树分析做了大规模有效的应用。此后,在社会各界引起了极大的反响,受到了广泛的重视,从而迅速在许多国家和许多企业应用和推广。我国开展故障树分析方法的研究是从1978年开始的。目前已有很多部门和企业正在进行普及和推广工作,并已取得一大批成果,促进了企业的安全生产。
(2)基本符号
故障树是由各种符号和其连接的逻辑门组成的。最简单、最基本的符号如下。
1)事件符号
①矩形符号:。用它表示顶上事件或中间事件。将事件扼要记入矩形框内。必须注意,顶上事件一定要清楚明了,不要太笼统。例如“交通事故”、“爆炸着火事故”,对此人们无法下手分析,而应当选择具体事故。如“机动车追尾”、“机动车与自行车相撞”、“建筑工人从脚手架上坠落死亡”、“道口火车与汽车相撞”等具体事故。
②圆形符号:。它表示基本(原因)事件,可以是人的差错,也可以是设备、机械故障、环境因素等。它表示最基本的事件,不能再继续往下分析了。例如,影响司机瞭望条件的“曲线地段”、“照明不好”,司机本身问题影响行车安全的“酒后开车”、“疲劳驾驶”等原因,将事故原因扼要记入圆形符号内。
③屋形符号:。它表示正常事件,是系统在正常状态下发生的正常事件。如:“机车或车辆经过道岔”、“因走动取下安全带”等,将事件扼要记入屋形符号内。
④菱形符号:。它表示省略事件,即表示事前不能分析,或者没有再分析下去的必要的事件。例如,“司机间断瞭望”、“天气不好”、“臆测行车”、“操作不当”等,将事件扼要记入菱形符号内。
2)逻辑门符号 即连接各个事件,并表示逻辑关系的符号。其中主要有:与门、或门、条件与门、条件或门以及限制门。
①与门符号:。与门连接表示输入事件B1、B2同时发生的情况下,输出事件A才会发生的连接关系。二者缺一不可,表现为逻辑积的关系,即A=B1∩B2。在有若干输入事件时,也是如此。
②或门符号:。表示输入事件B1或B2中,任何一个事件发生都可以使事件A发生,表现为逻辑和的关系即A=B1∪B2。在有若干输入事件时,情况也是如此。
③条件与门符号:。表示只有当B1、B2同时发生,且满足条件α的情况下,A才会发生,相当于三个输入事件的与门。即A=B1∩B2∩α,将条件α记入椭圆形内。
④条件或门符号:。表示B1或B2任何一个事件发生,且满足条件β,输出事件A才会发生,将条件β记入椭圆形内。
⑤限制门符号:。它是逻辑上的一种修正符号,即输入事件发生且满足条件α时,才产生输出事件。相反,如果不满足,则不发生输出事件,条件α写在椭圆形符号内。
3)转出和转入符号 当故障树规模很大时,需要将某些部分画在别的纸上,这就要用转出和转入符号,以标出向何处转出和从何处转入。
①转出符号,它表示向其他部分转出,△内记入向何处转出的标记。
②转入符号,它表示从其他部分转入,△内记入从何处转入的标记。
(3)分析程序
故障树分析虽然根据对象系统的性质、分析目的的不同,分析的程序也不同。但是,一般都有下面的十个基本程序。有时,使用者还可根据实际需要和要求,来确定分析程序。
①熟悉系统。要求要确实了解系统情况,包括工作程序、各种重要参数、作业情况。必要时画出工艺流程图和布置图。
②调查事故。要求在过去事故实例、有关事故统计基础上,尽量广泛地调查所能预想到的事故,即包括已发生的事故和可能发生的事故。
③确定顶上事件 所谓顶上事件,就是所要分析的对象事件。分析系统发生事故的损失和频率大小,从中找出后果严重,且较容易发生的事故,作为分析的顶上事件。
④确定目标 根据以往的事故记录和同类系统的事故资料,进行统计分析,求出事故发生的概率(或频率),然后根据这一事故的严重程度,确定我们要控制的事故发生概率的目标值。
⑤调查原因事件 调查与事故有关的所有原因事件和各种因素,包括设备故障、机械故障、操作者的失误、管理和指挥错误、环境因素等,尽量详细查清原因和影响。
⑥画出故障树 根据上述资料,从顶上事件起进行演绎分析,一级一级地找出所有直接原因事件,直到所要分析的深度,按照其逻辑关系,画出故障树。
⑦定性分析 根据故障树结构进行化简,求出最小割集和最小径集,确定各基本事件的结构重要度排序。
⑧计算顶上事件发生概率。首先根据所调查的情况和资料,确定所有原因事件的发生概率,并标在故障树上。根据这些基本数据,求出顶上事件(事故)发生概率。
⑨进行比较 要根据可维修系统和不可维修系统分别考虑。对可维修系统,把求出的概率与通过统计分析得出的概率进行比较,如果二者不符,则必须重新研究,看原因事件是否齐全,故障树逻辑关系是否清楚,基本原因事件的数值是否设定得过高或过低等等。对不可维修系统,求出顶上事件发生概率即可。
⑩定量分析 定量分析包括下列三个方面的内容:
a.当事故发生概率超过预定的目标值时,要研究降低事故发生概率的所有可能途径,可从最小割集着手,从中选出最佳方案。
b.利用最小径集,找出根除事故的可能性,从中选出最佳方案。
c.求各基本原因事件的临界重要度系数,从而对需要治理的原因事件按临界重要度系数大小进行排队,或编出安全检查表,以求加强人为控制。
(4)工作方法
①准备阶段 确定所要分析的系统以及所要分析系统的范围;熟悉系统并收集系统的有关资料与数据;收集、调查所分析系统曾经发生过的事故和将来有可能发生的事故。
②故障树的编制 确定故障树的顶事件;调查与顶事件有关的所有原因事件并进行影响分析;采用一些规定的符号按照一定的逻辑关系,将故障树顶事件与引起顶事件的原因事件绘制成反映因果关系的树形图。
③故障树定性分析 按照故障树结构,求取故障树的最小割集或最小径集,以及基本事件的结构重要度,根据定性分析的结果确定预防事故的安全保障措施。
④故障树定量分析 根据引起事故发生的各基本事件的发生概率,计算故障树顶事件发生的概率,计算各基本事件的概率重要度。根据定量分析的结果以及事故发生以后可能造成的危害,对系统进行风险分析,以确定安全投入方向。
⑤故障树分析的结果总结与应用 及时对故障树分析的结果进行评价、总结,提出改进建议,为系统安全性评价与安全性设计提供依据。
(5)存在缺点
随着计算机技术的发展,用计算机画图及定性定量分析已成为现实,为故障树分析法的应用提供了科学手段。但故障树分析法也存在着一些缺点,如:
①要编好一棵故障树必须对系统非常熟悉和有丰富的经验,并且要准确地掌握好分析方法。即便如此,不同人编出的故障树其结果也不会完全相同。
②对很复杂的系统,编出的故障树会很庞大,这给定性定量分析带来一定的困难,有时甚至计算机都难以胜任。
③要对系统进行定量分析,必须知道故障树中各事件的发生概率,如果这些数据不准确则定量分析便不可能。
(6)应用示例
下面针对锅炉超压、锅炉缺水进行故障树分析。
①锅炉超压故障树(见图2.4)。
图2.4 锅炉超压故障树
②求最小割集
T=A1A2
=(X1+X2+X3+X4)X5B3
=(X1+X2+X3+X4)X5(X6+X7+X8)
=X1X5X6+X1X5X7+X1X5X8+X2X5X6+X2X5X7+X2X5X8+X3X5X6+X3X5X7+X3X5X8+X4X5X6+X4X5X7+X4X5X8
由此可得到12个最小割集:
k1={X1X5X6} k2={X1X5X7} k3={X1X5X8}
k4={X2X5X6} k5={X2X5X7} k6={X2X5X8}
k7={X3X5X6} k8={X3X5X7} k9={X3X5X8}
k10={X4X5X6} k11={X4X5X7} k12={X4X5X8}
③结构重要度分析 在12个最小割集中,它们都是3阶的,X5出现在每个最小割集中。因此,X5的结构重要度最大。X6,X7,X8分别在12个最小割集中出现4次。所以,X6,X7,X8结构重要度相等,且比X5次之。而X1,X2,X3,X4在12个最小割集中出现3次,这四个基本事件结构重要度相等,均小于前两部分结构重要度。
所以结构重要度排序如下:
Iф(5)>Iф(6)=Iф(7)=Iф(8)>Iф(1)=Iф(2)=Iф(3)=Iф(4)
④说明 压力表失灵(X7)包括压力表坏、超期校验、三通关闭;表盘看不清(X6)包括未标红线、光线不足、安装位置不当;工作失误(X8)包括脱岗、未监视。
⑤结果讨论分析 通过对故障树的定性分析得出,锅炉超压故障树有最小割集12个,也就是导致锅炉超压事故的可能性有12种。从结构重要度分析中可以看出,压力上升是导致锅炉超压事故的主要原因,其次是由于工作失误,既没有监视好压力表数值,也没及时调整燃烧,将压力控制在允许范围内。再有就是由于安全阀失灵,没能将压力迅速降到允许值内。
2.3.2.3 致命度分析
(1)定义
致命度分析(Criticality Analysis,CA)也称为危害性分析。它是在FMEA基础上扩展出来的,针对系统中特别严重的失效模式单独再进行详细分析,计算其临界值——致命度指数。它是一种定量分析方法,与失效模式及影响分析结合使用时,称为失效模式、影响及致命度分析。2.2.1.3已介绍了失效模式及影响分析方法。
(2)致命度分析目的
致命度分析的主要目的是:①尽量消除致命度高的失效模式;②当无法消除失效模式时,应尽量从设计、制造、使用和维修等方面去降低其致命度和减少其发生的概率;③根据失效模式不同的致命度,对零、部件或产品提出相应的不同质量要求,以提高其可靠性和安全性;④根据不同情况可采取对产品或部件的有关部位增设保护装置、监测预警系统等措施。
(3)致命度指数计算
致命度指数按照式(2.8)计算:
式中 Cr——致命度指数,表示相关系统元件每100万次(或100万件产品中)运行造成系统失效的次数(或件数);
n——元件的致命性失效模式总数;
i——致命性失效模式的第i个序号;
λG——元件单位时间或周期的失效率;
KA——元件λG的测定值与实际运行条件强度修正系数;
KE——元件λG的测定值与实际行动条件环境修正系数;
t——完成一项任务,元件运行的小时数或周期(次)数;
α——致命性失效模式与失效模式比,即λG中致命性失效模式所占的比例(<1);
β——致命性失效模式发生并产生实际影响的条件概率,其值见表2.12;
表2.12 条件概率β
106——单位调整系统,将Cr值由每工作一次的损失换算为每工作106次的损失换算系数,经此换算后Cr>1。
(4)致命度分析表格
致命度分析所用的表格(参考美国军用标准MIL-STD-1629中的CA标准分析表)如表2.13所示。
表2.13 致命度分析表
致命度分析(失效模式、影响及致命度分析)的正确性取决于两个因素:首先与分析者的水平有直接关系,要求分析者有一定实践经验和理论知识;其次则取决于可利用的信息,信息多少决定了分析的深度,如没有失效率数据时,只能利用失效模式发生的概率,用风险矩阵的方法分析,无法填写详细的致命度分析表。若所用的数据不可靠,则分析的结果必然有差错。
(5)方法特点
确定系统中每个元件发生失效后造成多大程度的严重性,按其严重度定出等级,以便改进系统性能。本方法易于理解,不用数学计算,但需要在失效模式及影响分析之后进行,与失效模式及影响分析一样,不能包含人和环境及部件之间相互作用等因素。
(6)应用示例
柱塞斜槽加工工艺过程FMEA的分析表见表2.14,将相对应的数据填入柱塞斜槽加工工艺过程致命度(危害性)分析表,见表2.15。然后进行危害性评价的计算。
表2.14 柱塞斜槽加工工艺过程FMEA的分析表
表2.15 柱塞斜槽加工工艺过程致命度(危害性)分析表
2.3.2.4 可靠性框图
(1)简介
可靠性框图是一种传统的可靠性分析方法,它用图形的方式来表示系统内部件的串并联关系,而且将表决方式的连接关系转换为串并联的方式,具有简单、清晰直观的特点。可靠性框图也被称为可靠性网络,它反映的是系统组成设备之间在可靠性上的结构关系,而不是系统组成结构上的关系。如图2.5所示为一个具有两个通道的1oo2(1 out of 2)传感器表决组的可靠性框图。在该传感器表决组中,两个传感器中的一个能够正常工作,那么整个表决组就能输出正确的测量检测信号。串联的共因失效表示两个传感器会因为共因而同时失效,这时整个表决组将失效,因此共因失效和传感器的并联是串联关系。
图2.5 可靠性框图示例
若从左端点到右端点存在一条或以上的通路则系统能够正常工作,可靠性框图就是由所有系统正常工作的通路构成的。因此由可靠性框图计算失效概率时,串联的支路计算一个以上(包括一个)组件失效的概率;并联的支路计算所有支路同时失效的概率。
(2)应用示例
如图2.5中,如果两个通道都发生检测到的或未检测到的危险失效,那么系统就会发生危险失效。另外,两个通道A和B还会因为共因而同时失效。可以得到PFD的近似公式(2.9)。