您当前的位置:检测资讯 > 科研开发

芯片的可靠性设计

嘉峪检测网        2024-10-09 08:08

1、什么是芯片可靠性

 

可靠性的定义:产品在规定的条件下和规定的时间内,完成规定功能的能力。

因此出现功能故障或超出预期的性能退化都可以认为是出现了可靠性问题。为了理解不同时期器件失效发生的物理机理,可靠性工程中引入著名的“浴盆曲线”概念。

图1芯片失效浴盆曲线 

 

可靠性浴盆曲线反应了失效的一般规律。用车辆的使用情况来类比,车辆在使用的不同阶段也会表现出类似的失效规律。

 

早期阶段(磨合期):在车辆刚出厂并开始使用的初期,可能会遇到一些生产 缺陷或装配问题,例如发动机或变速箱故障。这些问题对应了芯片在使用初期由于器件生产的严重缺陷而导致的高失效率。

 

中期阶段(正常使用期):一旦车辆经过了磨合期并进行了必要的初期维护,就进入了一个相对稳定和可靠的使用阶段。在这一阶段,车辆一般只有偶发性的失效,例如轮胎扎钉,需要进行常规的保养和维修。这对应了芯片的使用中期,只有偶发性失效,这也是芯片的主要使用寿命期。

晚期阶段(老化退役期):随着车辆逐渐老化,关键部件开始出现磨损和老化,如发动机效率降低、零部件腐蚀等,失效率显著上升。这对应了芯片在使用晚期由于器件的正常退化而导致的高失效率。

通过类比,无论是车辆还是芯片,其寿命周期都可以分为早期、高失效率的磨合期;中期、低失效率的稳定期;以及晚期、高失效率的退役期。物理规律决定了老化失效无法避免,因此剔除早期的生产缺陷,尽量避免中期偶发性失效的影响,延长稳定期,使“浴盆变大”,是可靠性设计的主要目标。

 

2、芯片可靠性设计的意义

        

谈到可靠性的设计,需要先给大家介绍一个在安全领域的重要经验法则--海因里希法则(Heinrich's Law),该法则是关于工业生产安全乃至广泛行业安全管理的一个重要原理,由美国保险公司工程师赫伯特·威廉·海因里希提出。它强调了事故预防的重要性,指出在每一次严重事故背后,通常存在着一系列的轻微事故、未遂先兆和安全隐患的累积。具体来说,海因里希法则的内容可以概括为:

 

每一起严重的工业事故背后,平均有29起轻微事故;

 

每29起轻微事故背后,平均有300起未遂事件;

 

每300起未遂事件背后,平均有数百个安全隐患。

 

 

图2海因里希法则 

 

这个比例并非绝对固定的数字,而是用来形象地传达一个概念,即事故的发生不是孤立的,而是众多不安全因素累积的结果。在安全管理中,通过识别并解决这些小事故、未遂先兆和隐患,可以有效防止严重事故的发生。    

“海因里希法则”强调:在管理和控制层面,任何一个问题只要被发现,其解决所需的成本将随时间推移而不断增加,因此应在问题发生时及时解决,以降低成本和风险。具体到芯片领域,从芯片设计到制造、封装、测试、量产,越到芯片制造的后期阶段,发现问题和解决问题的成本就越高,不仅消耗大量的人力,物力和时间,甚至付出企业无法承受的代价。

因此,“可靠性是设计出来的,不是测试出来的”是高可靠芯片设计的重要理念。要交付满足高可靠性需求的芯片产品,必须要在设计之初就对芯片的可靠性加以考虑,并且将这一理念贯彻到制造工艺,系统架构,电路实现,仿真验证,封装选型以及量产测试的各个环节之中,而要实现这一点,需要我们对芯片的失效机制有充分的了解。                                               

 

3、芯片的失效机制           

 

通常情况下,一个完整的芯片产品是由实现核心功能的裸片(DIE)和提供物理保护及电气接口的封装两大部分组成,这两部分出现的可靠性问题都会导致芯片失效。

 

1、封装可靠性问题

封装是将DIE固定在一个载体上,通过金属线(引线键合)或其他先进技术(如Flip Chip)连接到外部的引脚或焊球,最后整个结构被包裹在塑料、陶瓷等保护材料中,便于运输和安装。封装的主要目的是保护脆弱的芯片DIE免受物理损伤、潮湿、静电和腐蚀等环境因素的影响,同时也要考虑散热性能、信号完整性以及适应不同的应用需求。封装的可靠性涉及多个方面,包括但不限于以下几点。

 

1)贴片的可靠性(Die Bond Reliability)问题

无论封装形式如何,在芯片封装的过程中通常需要将DIE固定到载体上,这一步骤为贴片。贴片的材料和工艺有很多种,而DIE以及贴片材料由于各自不同的材料特性,在工作条件下可能出现问题,导致芯片失效。

 

2)引线键合的可靠性(Wire Bond Reliability)问题

引线键合是封装中的常用方式,用来连接DIE表面电极到封装引脚。电极和引线间的结合处可能由于热应力的原因导致键合面出现疲劳而引起芯片失效。

 

图3不同温度下CU互连样品横截面应力诱生空洞失效FIB照片

a)150℃,b)200℃,c)250℃,d)300℃

 

3)水汽引发的可靠性问题

封装中的有机物高分子材料的特点是多孔性和亲水性,很容易在潮湿环境中吸附水分,封装内部的湿气会带来例如短路、分层以及高温下产生蒸汽而造成的"爆米花"失效等风险。

 

4)热应力引发的钝化层破裂

DIE表面通常会覆盖一层或多层致密的钝化层以防止湿气或移动离子等侵入DIE内部导致电性能失效。由于材料不同的热膨胀系数,在芯片工作的过程中由于温度的变化而产生的热应力可能引起钝化层发生断裂,进而导致芯片电性能失效。

 

封装可靠性问题还有很多,为了评估和保证封装可靠性,通常会进行一系列的试验,例如温度循环试验(Thermal Cycling)、高温存储试验(High Temperature Storage)等。通过这些测试,工程师可以验证封装设计的有效性,并针对发现的问题进行优化。

 

2、DIE内可靠性问题

这里主要介绍器件和金属互连线的可靠性问题,常见的失效机制有:TDDB、HCI、NBTI、EM等。

 

1)TDDB(Time Dependent Dielectric Breakdown,经时介质击穿)

TDDB是时间依赖型的介质击穿,是指绝缘介质材料(如MOS管的栅氧)在电场作用下产生缺陷,缺陷经过长时间的累积最终导致介质击穿的现象。TDDB会导致介质层短路,影响电路的功能进而造成芯片失效。

 

TDDB主要跟电压和温度相关,高压高温会更快地导致TDDB发生。在CMOS工艺中,影响TDDB的电压主要是Vgs/Vgd/Vgb,高压设计需要关注TDDB失效风险。

 

2)HCI(Hot Carrier Injection, 热载流子注入)

热载流子是指在半导体器件中,由于强电场作用或光激发等原因,获得了比热平衡状态更高动能的电子或空穴。MOS管沟道中的热载流子能直接注入或通过隧穿效应进入MOS管的栅氧化层,使MOS管的阈值电压Vth,跨导gm等参数发生漂移或退化的现象就是HCI效应。

 

MOS器件中的热载流子主要有沟道热载流子、衬底热载流子、漏雪崩热载流子、二次产生热电子,这些热载流子引发HCI效应的机理不同,会产生不同的退化特性,比如有些工艺的MOS管在低温下更容易退化,比如MOS管导通时存在HCI效应,关断时也可能存在HCI效应。

 

影响MOS管HCI效应的电压主要是Vgs和Vds。比如工艺中看到的18ud12类型的管子,说明该MOS栅氧耐压是1.8V,Vds的耐压是1.2V,该MOS管比普通管的沟道长度小,相同电压条件下HCI效应更明显,退化更快,为了保持一定的使用寿命,该MOS需要在更低的Vds电压下使用。

 

3)NBTI(Negative Bias Temperature Instability, 负偏压温度不稳定)

NBTI主要在PMOS中发生,是指在高温下对PMOS栅氧进行负向偏压,栅氧化层上的界面电荷陷阱被激活并捕获了空穴,这些空穴的累积导致PMOS管阈值电压负向漂移的现象。

 

NBTI过程是可逆的,当器件回到室温或栅极电压变为正偏时,NBTI可以部分恢复,但长时间的NBTI会导致永久性的性能退化。

 

4)EM(Electro-Migration, 电迁移)

EM是指在通电导体中,由于电流和温度的作用,电子的移动与金属离子产生碰撞,导致金属离子移位的现象。金属原子沿电子流方向迁移时,会在原有位置上形成空洞,同时在连接处容易形成金属原子堆积出现丘状突起,前者容易导致断路,后者容易引起相邻金属线间的短路。

图4 EM失效               

 

电迁移是一种微观现象,电迁移不明显时主要表现为一定的电阻增加,电路特性上不容易表现出来,芯片的可靠性验证较难覆盖到,需要在设计中考虑充分。

 

设计中,电迁移的影响通常可以通过电流密度来判断,电流密度大的地方电迁移特性会更明显,例如根据电流大小来确定互连金属线的宽度,再比如模拟射频电路中会碰到要求至少两个孔或单长孔,也是基于电迁移的考虑。

 

器件和金属互连线失效机制还有很多(如SM、BJT管可靠性等),每种失效都有一定的模型进行拟合,可以加强对失效机制的理解。在电路设计中,将这些特性考虑进去,提高电路的鲁棒性,增强电路的可靠性。

 

 

分享到:

来源:瓴钛科技