比较普遍的一个现象是:研发人员无一例外的同声谴责采购和工艺部门,对元器件控制不严,致使电路板入检合格率低、到客户现场后频频出毛病。并举出了诸多文献实例和专家发言来佐证自己的论断,并希望我也能随声附和几句,可以借此给相关物料和制造部门施加一点压力,但最后我让他们失望了。
我给下的结论无一例外都是怪到了研发的头上。并送给了研发弟兄们几个总结性观点:①在公司里,研发队伍已经足够强势,不必再由我添加压垮骆驼的那最后一根稻草;②产品的可靠性水平和研发的强势程度成反比;③电路设计错误和器件应用不当占了故障的八成因素。
举几个简单例子:
一个电解电容紧挨着散热片焊接的,与电解电容相关联的那部分电路参数容易漂,现象和结果就是机器参数不稳;绿色发光二极管的色调不一致,外观看起来不美观,发光管都有个波长的要求,即使都是绿光,波长的细微差别也会导致色差,而设计文件上并没对发光管的波长做出规定。某块电路工作不好,发现将PCB板信号线的一个电感换成磁珠就好了,于是就改了BOM 单,电路板上趴着个磁珠大肆生产了。常规理解看来,磁珠似乎和电感的特性是相同的,但事实上磁珠表现的是一个随频率变化的电阻特性,是消耗性的,而电感是储能特性,是储存性的削峰填谷。即使从实际结果来看,似乎更换器件后没问题,但其实并没有搞通真正的器件机理。病虽然莫名其妙的好了,但病毒的隐患仍在。 “宜将剩勇追穷寇,不可沽名学霸王”,毛主席教导我们,做电路要对电路和器件穷根究底。还有很多类似的问题,比如散热,似乎热设计只和机箱内温度有关,却忽视了一个致命的问题,温度系数,即使温度不够高到烫手的地步,温度的升高是否会导致温漂,温漂后的参数值是否会将器件的特征参数推到电路正常工作的边缘?比如降额,几乎所有工程师都说“我们降额了,基本降了50%,余量是足够的,这个问题肯定没有”。那么降额时,所有该降额的参数都降到了安全范围吗?同一类功能的器件,换了不同封装形式或生产工艺的时候,一样的降额系数能降出一样的效果来吗?在特定位置、特定电路下的器件,明确哪个特定参数该降的更大一点吗?还有电磁兼容、振动、可维修性、测试等等多方面的问题,知己知彼,百战不殆,在实际的考察中,发现既不知己、也不知彼的设计太多,不知己是不知道自己不知道什么,不知彼是不知道设计所面对的对象的诸多参数、条件、工艺、特性,而恰恰是由此引出了太多的技术问题。
“不知年之所加,气之盛衰,虚实之所起,不可以为工”,中医上要求,不了解患者的年、气、虚实,就不可以开药下方,中医做到了,他们不敢,他们的错误会导致人命,而我们为什么不了解电路和器件的情况下就可以做设计呢,难道仅仅是因为我们的错误不会死人?
电子可靠性的设计原则包括:RAMS定义与评价指标、电子设备可靠性模型、系统失效率的影响要素、电子产品可靠性指标、工作环境条件的确定、系统设计与微观设计、过程审查与测试、设计规范与技术标准。有人说了,设计原则就是绝对正确的废话,谁都会说,谁都不会用。通俗的翻译出来就是设计原则很难和实际设计建立直接的影响和联系。这一段主要是方法论,关于技术的方法.论,钱学森老人的伟大众所周知吧?但他的水平和优势是什么?电子、机械、软件、测试、管理?都不是,是系统方法.论和工程计算。当我们要决策一个电路的器件选型的时候,如果有一个基本公式,直接告诉了我们应该重视哪个指标,器件选型和电路设计还是一件难事吗?举个例子,一个插座电缆,上面要通过10A的电流,是用2根8A的导线并联分流好呢?还是用一根14A的电缆好呢?通过可靠性模型可以轻松得到答案。前段时间去青岛,参观了青啤的啤酒博物馆,看到了一个世纪前,德国的电机和日本的风扇,世纪后的今天仍然能正常工作,令人艳羡不已。系统失效率的影响要素可以告诉您这个结果的答案,放在今天,德国、日本和我们一样,也造不出耐一个世纪的电机和风扇。这些都是系统方法.论和工程计算可以帮助解决的问题,钱老走了,他的智慧和思维需要有人继续传承下去,我能做的是传播钱老的思想,希望有更多的人参与进来,更广泛的理解和应用。电路可靠性设计规范包括降额设计(降额参数和降额因子)、热设计(热设计计算、热设计测试、热器件选型)、电路安全性设计规范、EMC设计、PCB设计(布局布线、接地、阻抗匹配、加工工艺)、可用性设计(可用性要素、用户操作分析、设计准则)、可维修性设计(可维修性等级、评估内容、设计方法)电路可靠性设计规范的一个核心思想是监控过程,而不是监控结果,举个最通俗的比方是,设计规范是怀孕过程的维护,保证优生。这些都是各前人多年经验的总结,按照这些具体的设计方法去做了,产品的可靠性隐患就会被排除了。比如热设计,按照热功率密度、热流密度的计算确定下来的散热方法,您就不必担心散热不够了;按照热阻和结温的计算方法,选定了风扇和散热片,只要有足够的余量,也不必担心自己是“盲人骑瞎马,夜半临深池”了。PCB的接地,这个似乎最简单又最复杂的问题,到底有没有一种放之四海而皆准的接地思路,让我们只有欢喜不再忧呢,答案是“有”。可用性好像对我们没太大影响,就好像我们去面试一样,影响我们面试成败的似乎是学历证书、工作经验等,但门牙上的韭菜叶子,会不会导致失败?按键的色彩、大小、按下去的手感和力度、键的形状、键的布局,显示的内容、显示的方法、显示的角度、显示的大小,跟门牙的干净程度有何区别?对于用户,有一个最通俗的说法:“界面即系统”。用户不晓得那么高深的理论和内部构造,内部的东西只要保证好用,剩下的就是外观的美妙了。尤其是新用户,外观更是决定购买与否的第一要素。大学里追女生,都是首选好看的吧?可维修性可就直接决定了金钱的花费,可维修性分三.级,现场级、办事处级、总部级,不同的级别,维修工具的价值、配套工具的多少、维修人员的水平、维修人员的人数、配件的充裕程度都是不一样的,试想一下,定义为“现场级”的维修等级,却有一个需要3个人才可以搬动下来的盖子,维修人员几人一组搭伴出差?定义为“办事处级”,却需要配备频谱仪、逻辑分析仪、示波器等高档仪器才可以维修,维修工具的成本将为几何?更遑论需要配套的诸多设施如水、电、气、其他设备了。可靠性测试包括标准符合性测试、边缘极限条件测试、容错性测试、HALT测试、破坏性测试、隐含条件测试、接口条件测试。和诸多技术人员沟通,都想做好可靠性设计,但普遍反映两点难题:一是缺乏经验,二是在家里测不出问题,到现场就有问题。缺乏经验的问题可以通过第二部分的方法解决,测试问题的解决就是通过本节了。测试的核心点是测试用例的设计,集中在两部分,一部分是尽量去模拟用户现场的最恶劣应用条件,一部分是针对可能的失效机理,人为增加破坏因素,激发出问题,找到薄弱点并改进之。但须注意,很多测试是具有一定程度破坏性的,需要分析下,经历过破坏性测试的机器是绝不能出厂应用的。元器件选型包括了选型的基本原则、系列元器件的分类、特性、选型指标、可靠性应用注意事项等,包括电容、电阻、二极管三极管、接插件、晶振、电控光学器件(光耦、LED)、AD/DA及运放、电控机械动作器件、能量转换器件(开关电源、电源变换芯片、变压器)、数字IC、保护器件(保险丝、磁环磁珠、压敏电阻、TVS管)、电源模块等。女孩子流行着一个口号,“干得好不如嫁得好”,虽然网上正反双方论战激烈,但一个事实谁也不能否认,女孩子最后的结局还真就是嫁得好比干得好的比例高的多得多。干得好是电路设计得好,嫁得好是器件选型选得好。同样是电容,钽电解和铝电解的区别、电解和瓷片的区别,线绕电阻和膜式电阻的区别,数字IC重点关注哪几个指标,保护器件的选择指标依据什么,谁都知道,保镖警卫变质可就惨了。我们就象厨师,我们不管种菜,但我们炒出来的菜的味道是要受菜、水、肥、气候等的影响的,不然就不会出现茅台镇的茅台、山西的汾酒、梅雨季节的臭豆腐等专属品了。同理,器件的制造工艺和其制造工艺所引出的器件特性都是需要我们了解并在应用中加以规避的。比如线绕电阻的电感量大、纸介电容的漏电流大、电容的ESR值对电路设计的影响、瓷片电容的耐温变率和耐震动的水平低、TVS耐浪涌电流小但反应时间快,磁环的效果取决于材料和装配,耐振动差等等。元器件失效机理和分析方法包括常见的失效机理、分析方法和工具。以上内容全都是如何防止电路工作不正常和防止器件坏,但智者千虑难免一失,一旦坏了,千万不要敬而远之,而应该如获至宝。开车的人都知道,哪里最能练出驾驶水平?高速公路不行,只有闹市和不良路况的时候。社会的发展就是一个发现问题解决问题的过程,出现问题不可怕,但频繁出现同一类问题是非常可怕的。器件失效的分析是基于一个基本的改进手段,“基于失效机理的预防措施”。问题发现了,把引起问题的要素规避了,形成了规范,大家以后设计都遵守了,问题自然不会再现了。比如,ESD的防护,很多公司都在做,做的方法包括加湿,但加湿可能会带来MSD的问题,如果通过I/V曲线测试,发现波峰焊载流焊后出现器件某些管脚对VCC、GND开路,那就要考虑MSD问题了,解决办法就是在焊接前加热几个小时,将潮气散发出去。
比如器件烧坏了,要检测一下是哪个管脚坏掉了,及坏掉的现象是什么,通过万用表、I/V曲线图示仪、示波器,高级点的外协找X射线透视下,判断出失效的机理,并顺藤摸瓜,找到那块与该管脚关联的电路,分析电路和工厂内的工艺过程,找到引起该失效机理的点并改进之。
提升可靠性的微观管理方法很简单,包括了三部分:软件工具、AAR、checklist。
按道理说,技术性内容不应该掺杂管理,但事实上管理是可以促进技术的,比如,公司里有人已经掌握了某个知识点,但别人不知道他会,管理上的措施可以将他知道的激发出来,并指导别人的设计实践,这样就相当于用非技术手段解决了技术问题。这部分的方法主要是针对开展可靠性工作的几个障碍实施的。障碍一是人容易犯懒,自己觉得差不多,找到指导性文件资料的代价有点大,觉得差不多就自顾自设计去了,软件工具的作用是降低技术沟通障碍;障碍二是技术水平经验不够,那就开展After Action Review(行动后反思),将每次发生的问题的起因、现象、改进方法等都总结出来,并通过软件工具共享之,我们一直在努力,每天都在提高,没经验又何惧,成长得快也是解决技术经验的手段;障碍三是一个人某一刻能想到的问题是会受限的,让一个高手评审某个设计,他评审时的状态会让他遗漏内容,checklist比较系统,既可以用于设计师自查,也可以用于评审专家参考,避免遗漏,既是低水平者很好的学习材料,又是高水平者的参考。
PS:本文由电子工程专辑专家博主“武晔卿”原创