既然我们在设计产品之初已经留出了足够的裕量,保证了产品的可靠性,为什么产品在使用中仍然会出故障呢?
其中一个原因是退化,因为退化永恒,在产品设计之初留够的裕量随着使用时间的增长,这个裕量都要逐渐减少,如果裕量减少到0,则产品必定故障。
另一原因就是不确定性。我们回到以前介绍过的吊车的例子。我们说10吨是一个标称值,实际中几乎无法做到每一台吊车的实际起吊重量都能精确地达到10吨,在一批吊车中,这个10吨可以被理解成这批吊车起吊重量的平均值,具体到每一台可能在10吨多一点或少一点,这就是不确定性。
这种不确定性一般就用吊车起吊重量的某个百分比来表示上下限,比如10吨有上下15%误差,这意味着这一批吊车的起吊吨位在9.85吨至10.15吨之间,都是合格产品。这个时候,如果你恰好买到了一台9.85吨的吊车,你再去起吊9.9吨的货物,则会发现9.85-9.9=-0.05,这个裕量小于零了,则前面讨论的“吊车+货物”这个系统不真实、不可信了,吊车不可以依赖和信任了。
另一方面,我们再说说货物的重量,前面提到每次起吊货物重量是3吨,其实也不可能每次都恰好就等于3吨,这也有一个精度范围,比如实际可能是3.05吨,2.95吨等等,总之3吨也是货物重量的标称值,实际上每一次货物的重量在某一个范围内是不一样的。这也是一种不确定性。
如果我们用概率分布来分别描述一批吊车起吊重量和一批货物重量,我们就可以简单地计算“吊车+货物”这个系统真实可靠的概率,就是那些裕量大于0情况的概率,这个概率就是可靠度。
就是说任何类似“吊车+货物”这样的系统,在初始时刻都存在一个可靠度。如果系统构建的不好,比如“吊车”设计、制造的偏差范围大,而“货物”重量的变化范围也很大,则在“吊车+货物”这个系统运行过程中,裕量大于零的次数就低,即在系统设计之初,可靠度就很低。
这个时候,如果要让这个“吊车+货物”系统更真实可信,要么增加吊车的额定吨位,比如15吨,这时候即使还是误差15%,系统的裕量也会足够,即可靠度的确定性增加了;要么控制“吊车”偏差,或者控制“货物”重量的变化范围,也会保证系统的裕量大于零的情况多一些。当然,同时增加裕量和控制偏差,也可以达到预期的目标,这就是正向的可靠性设计优化。
以上所讨论的不确定性,我们称之为随机不确定性或者客观不确定性,“随机”的意思是可以用概率来刻画这种不确定性,客观的意思是不能完全消除这种不确定性,只能不断缩小偏差、提高精度。
下面再讨论一种不确定性,与人的认知能力有关。
2012年的秋天,我突然接到一位家在河北农村的亲戚来电,告诉我他在干农活时摔伤骨折了,已经被紧急送来北京积水潭医院,万幸他只是骨折,积水潭医院又是北京最好的骨科医院,我赶到医院去探望时,医生已经为他做好了手术,只需静养恢复即可。
我问他事情的经过,他告诉我,他在自家房顶使用电葫芦(一种轻便的吊车),准备把一麻袋秋收完的玉米吊到房顶晾晒,在起吊过程中失去平衡,他和电葫芦一起从房顶摔到了院子里的玉米堆上,所幸电葫芦没砸到他,玉米堆还有点缓冲作用,否则还不知道后果要多严重。
电动葫芦在使用过程中需要固定安装,那天他把电葫芦弄到房顶上,没有固定,而是自己踩着电葫芦想靠自身的重量压住电葫芦,同时起吊一袋玉米,结果就摔了下去。我说,你不知道这个电葫芦咋用吗,他说知道,但是家里收的玉米也不多,看着一袋玉米的重量也没多重,觉得自己踩住电葫芦应该问题不大,没想到…。
其实,这种情况下,我们要考察的系统结构又发生了变化,即这个时候系统是由“吊车+货物+人”构成的,我们要考察吊车可靠不可靠,必须考虑“吊车+货物+人”这样一个系统是否真实可信。显然,由于人的介入,引入了更多的不确定性,这个系统的真实可信程度打了折扣。
“没想到”、“没估计到”,这是有人参与的系统在运行过程中出现问题时经常听到说辞。其实,这也是一种不确定性,称之为认知不确定性。这种不确定性是由于人的知识或信息缺乏造成的,当然也可能由于人的疏忽、过于自信产生的。
研究可靠性问题,既要考虑随机不确定性,也要考虑认知不确定性。但认知不确定性却很难用概率来描述!
在确信可靠性理论中,我们采用了一种新的公理化数学——不确定理论,来处理这种认知不确定性。