众所周知,产品的可靠性是由设计决定的。但是,由于受到各种原因的影响,设计缺陷总是难免的,产品在研制阶段往往达不到用户的可靠性要求,因此必须开展可靠性增长活动。
必须指出,可靠性增长活动不是针对设计低劣的产品的,而是针对经过认真设计仍然由于某些技术原因达不到要求的产品,而且可靠性增长活动比可靠性设计活动所需的资源和时间都多。
可靠性增长可从多个不同的角度来看,早期有关可靠性增长的一些工作主要集中在管理方面。1970年Selby和Miller研制的可靠性计划与管理(RPM)模型是联系可靠性要求和实施计划的管理工具,可帮助确定所需样品数和设计方案通过增长过程的成熟时间,并可监测进展情况,评价对原计划进行调整的必要性。但大多数情况下提及可靠性增长这一话题时,讨论的重点都是可靠性增长试验。一般而言,为了证明设计的正确性以及设计中使用的模型和分析工具的有效性,试验是开发的标准、必要部分。对于可靠性增长试验,大量的工作被用于研制各种统计模型,以便计划和跟踪通过试验所取得的可靠性增长。由于试验费用很高,因此自然会把很多精力放在研制好的模型和注重可靠性增长过程上。我们知道最常用的模型是Duane模型。Duane的观点是把整个重点放在试验中发现失效,然后通过重新设计予以排除。在笔者参加的某次“可靠性与风险分析先进课题”系列专题会议会议上,分组讨论中有一组的主题是“可靠性增长的范围和目的”。会上讨论了把试验作为实现可靠性增长首选方法的状况。其中一位成员提出,象卫星这样的产品,由于成本高,供试验的物品有限,因而极少可能进行那种和可靠性增长有关的试验。对这种系统如何实现可靠性增长呢?为解决不用试验能否实现可靠性增长的问题,讨论小组对设计经过演变最终形成样品的过程进行了评审。一般来说,这是一个反复的过程。由于不同性能要求常相互矛盾,因而需要反复的设计过程;设计优化时满足了一个要求但可能另一个要求就得不到满足。要求间的平衡是艰苦的工作。不能同时进行所有的分析是需要进行反复的另一个原因。因此一次分析所带来的设计变更在下一次分析后有可能又要改变。随着这些反复过程,设计得到了完善。在设计过程中进行的某些分析直接涉及到设计的可靠性,因此设计的可靠性随着每次以分析评价为基础的设计变化而得到了提高。讨论小组用上述的推理过程确定了一个范围更广的可靠性增长定义:即最初设计的可靠性提高的过程。这种设计反复所带来的提高既可以以分析评价和评估为基础,也可以以试验结果(失效数)为基础。在理想情况下,当产品进入试验时,所有的缺陷都已经通过分析后的设计更改而予以消除。而实际则很少做得到,对在开发试验中发现的设计缺陷(即失效)仍需要进行一些设计变更。常用于可靠性增长过程的一种开发试验就是可靠性增长试验。许多初步设计都是由过去的设计外推而得;而有些则是全新的。两者在制作样品或实验模型进行试验之前以及在关键设计评审之前都要进行认真的研究推敲,即通过分析对设计进行评价和评估。有许多种可靠性分析可用于评价和评估产品的可靠性,包括失效模式和效应分析、故障树分析、潜通电路分析、最差情况分析和有限元分析。分析中发现初步设计中的弱点后,对设计进行更改,然后进行分析。我们将此设计—分析—再设计过程称为纯设计。这种反复的纯设计过程一般进行到设计者对设计达到某种满意程度为止,即设计者不经过样品试验,而是仅凭分析后认为再反复设计已没有多少价值时为止。显然,我们不想把有限的资源花在潜在回报很小的设计反复中,但如果过早停止纯设计过程,又会过分依赖开发试验过程来发现设计缺陷。对于象卫星这样的产品,要制作整个产品的样品和试验物品是非常昂贵的。可以制作分系统和关键元器件的试验物品,但很少对整个产品进行程度很高的试验。在极端情况下甚至产品的首次“全面”(full-up)试验要在发射时才进行。在这种情况下显然需要“全面”的纯设计过程。即使在制作试验物品和试验资金不成问题的时候,在完成设计过程之前就制作和试验硬件也是不明智的。如定义所述,理想的情况是有完美的纯设计过程,不需要试验来提高可靠性以满足要求。但分析工具、模型和工程判断并不完美,因而其结果也不会完美。因此在某种程度上,要填补知识和了解上的空白,开发试验总是需要的。在发现性能缺陷和失效时,要采取两种不同的措施。第一,工程师要检查其使用的模型和工具,对其进行修改、完善或改进。这样可从试验中获取经验,用改进后的工具和模型来改进下一个纯设计过程。第二,根据对试验数据分析获得的信息改进设计。对每个失效都进行全面分析。对下列有关失效的信息必须要记录: 失效发生的条件(环境、操作等)失效是如何发现的(现象)失效的效应实际使用中失效的可能后果。分析本身必须回答下述问题:潜在的失效机理是什么?在实际使用中再发生的概率是多少?应采取什么修改措施来防止再发生或最大程度降低失效的效应?如果确认需要对设计进行修改,那么在实行了修改和修改是有效的前提下可实现可靠性增长。这两个前提是很关键的。以计划变化为依据来作判断是有风险的;必须把变化真正结合到系统或设备中,并验证这些变化在改正问题上的有效性。前面的讨论都是把纯设计过程和设计—试验过程当作依次发生的独立过程,但实际上两个过程往往有部分重叠,不过纯设计阶段确实要在所有的试验之前就开始进行。可靠性增长试验仅仅是开发试验中的一种。传统上是用一特殊的试验或系列试验作为专门的可靠性增长试验,对试验中出现的失效要进行分析,并找出修改措施防止或减缓失效再次发生的影响。进行这类试验的时间和资源是有限的。一个开发项目还要进行许多其他的开发试验,包括功能、环境和验证试验。实际上可靠性增长过程的基本原则并不排斥对这些开发试验中出现的失效进行分析。增长过程要取决于失效源的发现和及时修正。如果可以合理收集数据,对失效进行全面分析,那么各种类型的试验都是失效信息的潜在来源。能对各种开发试验的失效进行分析,以验证设计和设计中使用的工具和模型,这是非常重要的。利用各种开发试验的失效数据来估计可靠性水平会有一定困难。结合非类似试验的数据在统计上是复杂的问题还没有得到解决。要避免这一问题,方法之一就是利用为工程目的(即验证设计和设计中使用的工具和模型)而进行的所有试验的失效,可靠性估计则只以专门增长试验的数据为基础。增长试验的主要目的是验证设计和设计中使用的工具和模型。各公司经理主要是根据可靠性增长试验来确定是否符合合同规范的。这一在增长跟踪目的上的变化,部分原因在于取消了大部分的鉴定或验证试验。
而这一变化也改变了试验的方式。原先,失效并非一件“坏事”,因为它可向设计者提供有关设计充分程度的有价值的信息。通过设计—试验过程,设计者可对使用的工程和设计工具及模型进行改善,并改进设计。当可靠性增长试验被用于确定是否满足合同时,它就成了合格—不合格(pass-fail)试验,失效是不受欢迎的。有关某个失效是否“相关”或者某个事件是否真是失效的争论往往成为失效分析过程的常见部分。试验用于发现问题的初衷大打折扣,失去了试验的真正价值。
要保证不完全失掉试验的原目的,必须在试验开始之前确定好试验的基本原则。
专门的可靠性增长试验需要认真计划,以避免评价数据时出问题。下面主要讨论较为流行的Duane模型。但要注意的是已研制出了许多模型,有些在评价和跟踪上更优越(如AMSAA模型)。Duane模型由于假设MTBF和试验时间之间的关系在对数纸上是一条直线,因此在评价和跟踪上并不特别好。这种假设可简化计算,但也要求在失效后和试验继续之前马上进行设计修改(修正)。而在实际中,设计修改常常拖延至较方便和合理的时候,一次进行几个修改。尽管如此,Duane模型仍然是很有用的计划工具。