[关键词]容错技术 可靠性 容错功能
随着现代工业技术的发展和计算机的普及,工业设备运行的安全性和可靠性越来越引起人们的重视,为了保证其安全、高效和可靠地运行,必须采用与之相适应的管理模式,容错技术为计算机系统提供了这样的能力:当计算机内部出现故障的情况下,计算机系统仍能正确工作。计算机容错技术是计算机系统可靠性提高的重要手段。
当系统内部有故障存在时,通过容错技术消除故障的影响,使系统最终仍能给出正确的结果。按照时间划分,故障可分为以下三种:永久性故障、间歇性故障和偶然性故障。永久故障是永远持续下去直至修复为止的故障。对硬件来说,永久性故障意味着不可逆的物理变异。对软件来说,这类故障也就是一个不可以自动恢复的错误状态。间歇性故障是短暂的,但却是断续的,它既有偶然性,又有不定期的重复性。如一个处于临界状态的电路输出时好时坏,而一个虚焊点就会引起这样的故障。偶然性故障出现是短暂的,且可能是非重复性的。常常由于环境的变换、电源方面的干扰、元器件性能的波动、软件的随机变换、电磁干扰等因素而引起。这样的故障有可能仅出现一次,或很长时间出现一次,但却可能造成数据错误,甚至系统瘫痪。
针对不同故障应采取不同的容错方法。容错技术能自动适时地检测并诊断出系统的故障,然后采取对故障的控制或处理的对策略。按照系统的失效响应阶段,可以把各种容错技术分成三种:故障检查、静态冗余、动态冗余。故障检测并不提供对故障的容忍,而是发生故障时给出一个警告。故障检测广泛应用于微型机和小型机之类的小系统中,其中一些已体现了简单的联机检测机理。严格地说,故障检测不是容错,它尽管检测了故障,但是不能容忍这些故障,不给出故障警告。动态冗余用于纠错码存储器或具有固定配置(即线路器件之间的逻辑连接保持不变)的多数表决冗余计算机之类的系统中。
根据不同情况,一个容错系统可经历以下阶段:(1)故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验和协议违章都可以用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行检测时设备不能进行有用的工作;联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和冗余校验;(2)故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域;(3)故障屏蔽:故障屏蔽技术把失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就属于故障屏蔽;(4)重试:在许多场合,对一个操作系统的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其如此;(5)诊断:对故障检测技术没有提供有关故障位置、性质的信息进行诊断;(6)重组:当检测出一个故障并判明是永久性故障时,重组系统的器件替换失效的器件或把失效的器件与系统的其他部分隔离开来,也可使用冗余系统,确保系统能力不降低;(7)恢复:经检测和重组后,必须消除错误效应。通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。这种恢复形式通常要后备文件、校验点和应用记录方法;(8)重启动:如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复就不可能实现。仅当系统未受任何破坏时,才能进行“热”重启,并从故障检测点恢复所有的操作。“热”重启相当于系统需要完全重新加载;(9)修复:即把诊断为故障的器件还原下来,修复也可以是联机进行的或者脱机进行的;(10)重构:对元件进行物理替换之后,把修复的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。
随着计算机硬件和网路的快速发展,容错计算机的系统开销逐渐降低,且纠错速度快。而软件方法实现的容错,对硬件不会提过高的要求。同时系统灵活,资源利用比较合理。更正检测、诊断将会采取人工智能的处理途径,以专家系统的各种智能工具来支持故障检测和诊断。利用专家的知识,借助推理机构,迅速而准确地提供诊断结果。系统的动态重构、故障恢复功能及神经元芯片等将被用到容错技术中来,都将在智能化的支持下得以实现。同时对电路内部的自检、自重构研究,可以解决电路本身及子系统的可靠性问题,将会出现容错的vls1芯片及可直接支持系统容错设计的可容错设计芯片,为系统设计者提供一个具有透明性的容错设计元器件。进入到芯片内部的容错技术的研究将成为容错研究的一大分支。
随着网路时代的到来,对于一个成功的电子商务系统来说,必须响应在线客户的需求并遵守服务的那个协议(sla),同时保护客户的隐私及电子商务系统安全正常运营。对于客户要求的响应程度及安全保护措施是一个基于internet的电子商务系统成功的必要条件,容错服务器就成为网络时代电子商务运营商首要选择。未来的智能化家庭都将拥有一个家庭数据中心,可提供全天候的服务,包括家庭安全、防盗和防煤气泄漏以及各种家用电器的控制,这个家庭数据中心也只有采用容错计算机才能担当。今后容错技术将同时在软件和硬件上得到发展,将会出现初级的容错软件的设计方法,应用软件方面的容错设计将会产生一些实用的工具,同时产生一个通用操作系统和硬件相结合的容错方法,走软硬结合的道路。系统容错设计将在分布式系统、cscw等方面出现新的容错设计方法。
参考文献:
[1]胡谋.计算机容错技术[m].北京:中国铁道出版社.
[2]杨孝宗.容错计算技术的提出和发展[j].电子和信息化.
[3]刘云龙,陈俊亮.基于数据流分析的软件容错策略[j].软件学报.
[4]flaviu christian,understanding fault-tolerant distributed systems[j].communicantions of acm.
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。