您当前的位置:检测资讯 > 科研开发

什么是容错技术

嘉峪检测网        2020-05-18 11:22

CPU芯片是现代信息技术的引擎,是数据处理的核心。我们生活中用到的电脑、智能手机、电视机、电冰箱、汽车……其中都有芯片的身影,它的质量直接关系到千家万户的日常生活。如今,芯片使用量正在呈指数级增长,对其质量的要求也越来越高。验证、测试和容错技术则是芯片质量保障的三道技术关卡。

 

计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。

 

所谓容错:就是容许错误,是指设备的一个或多个关键部分发生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。

 

错误一般分为两类:第一类是先天性的固有错误,如元器件生产过程中造成的错误、线路与程序在设计过程中产生的错误。这一类的错误需对其拆除、更换或修正,是不能容忍的。第二类是后天性的错误,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。

 

容错技术是提高系统可靠性的重要途径。常采用的容错方法有从形式上看可分为硬件容错和软件容错。

 

硬件容错就是以冗余的硬件来应对灾难。为使硬件容错得以实施,在系统设计时,就必须像“乐高”玩具那样,采用硬件模块化思路以增强系统的可扩充性和可维护性。当故障发生后,冗余的硬件便可立即挺身而出保障系统继续工作,而无需中断服务。硬件容错的缺点是成本较高。软件容错就是以冗余的软件来应对灾难。其优点是不依赖硬件,且灵活性和可移植性都较好,缺点是速度较慢。

 

当然,在实际使用时,既不会只用硬件容错,也不会只用软件容错,而是将它们搭配使用,取长补短,整体上实现性能和效益最大化。

 

从故障处理方式上看,容错又可分为:故障检测技术、故障屏蔽技术和动态冗余技术。

 

其中,故障检测技术,意在发现故障、定位故障。衡量检测技术的主要指标是检测覆盖率,即任意故障被检测到的概率。检测也包含诊断,而衡量诊断技术的指标是诊断分辨率,即故障定位的精确度。

 

故障屏蔽技术,其基本思想是:利用多个部件或系统,以固定的结构和运行方式,同时执行相同的功能;利用多个一致的结果,来屏蔽某些故障。不过,屏蔽只能用于应急,因为它受制于预先的静态配置,当故障积累到使屏蔽能力饱和时,屏蔽功能就会失效。比如,突然停电后,便可立即启动蓄电池,但由于蓄电池的持续时间有限,所以必须尽快修复交流电源。

 

动态冗余技术,它通过多模式的冗余(包括信息冗余、结构冗余、时间冗余和空间冗余等),为系统抵御灾难提供基础。动态冗余技术是借助快速响应的故障检测与诊断技术,来提高系统的可靠性,缩短故障的修复时间,增强系统的可用性。动态冗余技术可及时自动切换故障子系统或改变系统结构,阻止故障积累。动态冗余技术可以说是容错计算技术中最主要、最常用和最复杂的技术。

 

上述检测、屏蔽和冗余三项技术,其实是相辅相成的:检测发现并定位故障后,屏蔽就赶紧出来应急,最后冗余“以新换旧”,彻底解决问题。

 

分享到:

来源:Internet