电源设备可靠性的研讨
本文所研讨的可靠性问题,适用于几乎所有的电子系统和机电一体化设备。电源设备尤其是交流电源设备,作为电子系统的基础部件,长期、稳定地保持正常工作能力尤为重要。美国贝尔实验室的研究报告指出:造成计算机等精密电子设备损坏的主要原因是电压的浪涌(surge),即短期(10ms左右)或长期的过电压,占全部损坏原因的45.3%。雷击占9.4%。引起设备工作不正常和误码的主要原因是电压过低(含短期脉动)(sags)占87%,以及脉冲尖峰干扰占9%。因而,世界上许多著名的制造商均有严格的场地供电标准,责成用户予以保证。
近年来,电源设备日趋复杂,元器件的品种和数量增加很快;使用环境也变得恶劣多样;而所服务的电子系统又越来越重要和昂贵。以交流参数稳压电源为例,已广泛地应用于车载、舰载、地面的军用装备,航空航天部门,铁路和交通的信号和通信系统等方面。电源需要日夜不停地连续运行,还要经受高、低温,高湿,冲击等考验。运行中往往不允许检修,或只能从事简单的维护。这一切就使得电源设备的可靠性研究,变得刻不容缓,十分重要了。其实,早在上世纪70年代,英国电气工程师学会发表的论文就指出:在提供军事通信的英国天网系统的设计研制中,中心课题首先是可靠性!
国际上,通用的可靠性定义为:在规定环境条件下,和规定的时间内,完成规定功能的能力。此定义适用于一个系统,也适用于一台设备或一个单元。由于故障出现的随机性质,用数学方式来描述可靠性,常用“概率”来表示。
从而,引出可靠度[R(t)]的定义:系统在规定环境条件下和规定时间内,完成规定功能的概率。
例如:对N个产品进行试验,每经过Δt的时间间隔检查一次,每次出故障的产品数为ni,则在T时间内的可靠度R(t)为:R(t)=[(N-)/N],可近似为:R(t)=(N-)/N
R(t)的数值范围为:0≤R(t)≤1。R(t)的值越接近于1,则表示可靠性越高。如系统有N个单元组成(串联方式),各单元的R(t)分别为R1(t),R2(t)……RN(t),则整个系统的RΣ(t)=R1(t)·R2(t)…RN(t)。可见,系统越复杂,可靠性越差。
1影响系统可靠性的因素
涉及系统可靠性的因素很多。目前,人们认识上的主要误区是把可靠性完全(或基本上)归结于元器件的可靠性和制造装配的工艺;忽略了系统设计对于可靠性的决定性的作用。据美国海军电子实验室的统计,整机出现故障的原因和各自所占的百分比如表1所列:
lim
Δt→0
N→∞
表1整机故障原因统计
故障原因 | 占总失效数的(%) |
---|---|
设计上的原因元器件质量上的原因操作和维护上的原因制造上的原因 | 40302010 |
2衡量系统可靠性的指标及其数学关系
2?1失效率λ
λ定义为:该种产品在单位时间内的故障数。即:
λ=dn/dt
相对于每一个依然正常工作的样品的失效率,
λ=(1/NS)·dn/dt
式中:NS为总试验品N,经过Δt时间以后,依然正常工作的样品数。
工程上,采用近似式。如果在一定时间间隔(t1-t2)内,试验开始时的正常工作的样品数为ns个,而经过(t1-t2)后出现的故障样品数为n个,则这一批样品中对于每一个正常样品的失效率λ为:
λ=n/[ns(t1-t2)]
失效率λ的数值越小,则表示可靠性越高。λ可以作为电子系统和整机的可靠性特征量,更经常作为元器件和接点等的可靠性特征量。其量纲为[1/h]。国际上常用[1/109h]称为[fit],作为λ的量纲。
例如,美国GE公司97F8000系列用于交流电源的金属化薄膜电容器的工作寿命为:100只电容器在工作60000h以后,95只电容器正常,5只电容器此期间有可能出现故障。则:
λ=n/〔ns(t1-t2)〕
代入ns=100,n=5,(t1-t2)=60000h,则有:
λ=0.83·10-6/h=830[fit]。
美国1974年颁布的标准工作条件下的元器件基本失效率如表2所列(供参考)。
2?2平均无故障工作时间MTBF
MTBF的定义为:电子系统无故障工作时间的平均值。
对于一批(N台)电子系统而言:MTBF=TI/N[h]
式中:TI—第i个电子系统的无故障工作时间[h];
N—电子系统的数量。
工程上,如一台整机,在试验时,总的试验时间为T,而出现了n次故障。出现故障进行修复,然后再进行试验(维修的时间不包括在总试验时间T内)。则:
MTBF=T/n[h]
MTBF数值越大,则表示该电子系统可靠性越高。MTBF的参考数据如表3所列:
表3MTBF的参考数据
电子系统名称 | MTBF/(h) |
---|---|
1978年集成彩色电视接收机(国际水平) | ≥2000 |
阿波罗宇宙飞船电子计算机 | (2~2.5)×104 |
英国天网卫星系统 | 1000 |
美国“泰康”远程导航设备(20世纪80年代) | 150 |
Simods数字频率合成器 | 10×104 |
T=60000h,100只受试电容共出现5只有故障,那么对于每只电容器来讲:
MTBF=100T/n=120×104h。
在此,必须明确不论是失效率λ,还是平均无故障工作时间MTBF,均为衡量设备或元器件可靠性的“概率”性的指标。切不可误解为对于上述电容器每只可以工作120万h以后才会出现故障。具体到某一只电容器,也可能一用就坏,更大的可能是工作60000h以后还是很正常。
2?3平均维修时间MTTR
MTTR的定义为:系统维修过程中,每次修复时间的平均值。即:
表2美国1974年颁布的标准工作条件下元器件失效率
元器件类型 | λ(fit) | |
---|---|---|
电阻器 | 固定薄膜 | 4 |
合成电位器 | 138 | |
线绕电位器 | 167 | |
电容器 | 纸介 | 70 |
铝电介 | 117 | |
可变陶瓷 | 393 | |
继电器 | 6 | |
半导体二极管 | 硅 | 20 |
齐纳 | 18 | |
半导体三极管 | 锗PNP | 56 |
锗NPN | 140 | |
硅PNP | 63 | |
硅NPN | 33 |
表4国际通信卫星系统有关R(t)参考数据
电子系统名称 | R(t)/(%) | |
---|---|---|
国际通信卫星Ⅲ号 | 地面站 | 99.7 |
天线 | 93.5 | |
电源 | 94.2 | |
国际通信卫星Ⅳ号转发器电子设备 | 连续工作2个月时 | 99.9 |
连续工作7年后 | 79.0 | |
供电系统国际水平 | 99.95 |
式中:ΔTI—第i次的修复时间[h]。
M—修复次数。
任何设备无论如何可靠,永远存在着维修的问题。所以MTTR总是越小越好。因而,实现方便快捷的维修或不停机维修有着重大的价值。
2?4有效度(可用度)A
A的定义为:电子系统使用过程中(尤其在不间断连续使用条件下)可以正常使用的时间和总时间的比例(通常以百分比来表示)。即:
A=MTBF/(MTBF+MTTR)
A值越接近于100%,表示电子系统有效工作的程度越高。
实际上,设备MTBF受到系统复杂程度,成本等多方面因素的限制,不易达到很高的数值。尽量缩短MTTR也同样可以达到增加A的目的。对于高失效率单元,采用快速由备份单元代替失效单元的冗余式设计,可以在MTBF不很高的情况,使MTTR接近于0,这样,也可以使A近于100%。
2?5可靠度R(t)
可靠度R(t)是衡量电子系统可靠性的最基本的指标。可从可靠度R(t)的定义中导出故障概率F(t)。即:
F(t)=1-R(t),或R(t)=1-F(t)。
可以看出,对于R(t)和F(t)来讲,其值均为时间量t的函数。极端来讲,t=0时,任何系统的R(t)=1,〔F(t)=0〕。在t=∞时,任何系统的R(t)=0,〔F(t)=1〕。R(t)和F(t)只有在指定的时间范围以内才有具体的意义。在实际使用中常用年可靠度P来表示。
年可靠度P的定义为:电子系统在规定的环境条件下,在1年的时间内,完成规定功能的概率。例如P=0.9,就说明系统在一年内有90%的可能不出现故障。(也即有10%的可能会出现故障)。如果在一个地点有10台同类设备,则平均1年会有1台设备可能需要进行维修。
国际通信卫星系统有关可靠度R(t)的参考数据如表4所列。
2.6失效率λ,平均无故障工作时间MTBF和可靠度R(t),故障概率F(t)之间的数学关系
依据λ,MTBF,R(t),F(t)的定义和基本数学表达式,经数学运算以后,可得出以下的相互数学关系(运算过程从略)。
(1)MTBF=1/λ或λ=1/MTBF,
即λ和MTBF互为倒数关系。
(2)R(t)=e-λt或R(t)=e-t/MTBF=1/et/MTBF,
即R(t)和λ之间为指数关系。
(3)F(t)=1-R(t)或R(t)=1-F(t),
这样,λ,MTBF,R(t)三个指标,可以通过上述换算,从一个量算出另两个量的对应数值。在不同的场合,以上三个指标都可能在衡量电子系统可靠性时交替使用。
3提高系统可靠性的途径
3?1认真从事系统可靠性的设计
电子系统的可靠性模型,大体上有以下三种形式:
(1)串联系统的可靠性模型
串联系统模型如图1所示。串联系统是指它的每一个元件对于系统的正常工作都是必须的,不可或缺的;任何一个元件的失效,将导致系统工作不正常。这是一种较常见和简单的系统。
如果系统有N种元件,每种元件的失效率为λi(i=1~N),则串联系统的总失效率:
λ?=n1λ1+n2λ2+……nNλN
总的无故障工作时间:
MTBF?=1/λ?=1/[n1λ1+n2λ2+……nNλN]
年可靠度:P=1/e8760·λ?=1/e8760/MTBFN。(因每年共8760h)。
例(1):优质的交流参数稳压电源单元的MTBF0=20万h,如果每台铁路信号屏用10只电源单元。则每屏交流电源部分的MTBF=MTBF0/10=2万h。相当于年可靠度P=0.645=64.5%。即年故障概率F=1-P=35.5%。也就是每台电源屏每年有35.5%的可能性需要维修。如果一个车站有10台信号屏,则每年有3~4台交流参数稳压电源单元有可能出故障,就是很正常的情况。这也和某部门有100台电源单元,大都连续工作的故障概率相仿。
图1串联系统模型
可见,虽然每单元交流参数稳压电源MTBF0=20万h,已经比其他类型的交流电源高了许多倍(其它类型电源MTBF往往只有数千h)。但处于连续工作条件下的串联系统模型的信号屏的可靠度并不十分令人满意。
(2)并联系统的可靠性模型
并联系统模型如图2所示。图中:U1,U2均可单独地实现系统的功能,而且U1,U2任何一个单元出现故障,将自动(或手动)和输入、输出端断开,同时接入另一个互为备份的单元。
显然,并联系统的任何一个单元的失效,均不会影响系统的功能,只有在二个单元均失效时,系统才不能正常工作。同理也可以N个单元并联构成一个系统。
其数学关系为:
故障概率:F(t)=F1(t)·F2(t)…FN(t)
若F1(t)=F2(t)…=FN(t)则可靠度:
R(t)=1-F(t)=1-[F1(t)]n
例(2):优质的交流参数稳压电源单元的MTBF0=20万h,每台铁路信号屏用10只电源单元。若每个电源单元有2台互为备份的电源构成并联系统。则每台电源的年可靠度:
P1=1/e8760/MTBF,P1=0.957
年故障概率F1=1-P1=0.043
所以,每个电源单元(2台互为备份的电源构成)的年故障率为:
F11=[F1]2=1.85×·10-3
每个电源单元的年可靠度:
P11=1-F11=1-[1-P1]2
=1-1.85×10-3=0.998=99.8%
每台铁路信号屏有10只电源单元,则每台信号屏的年可靠度:
P=(P11)10
=(0.998)10=0.98=98%,
即年故障概率F=1-P,为2%。
若一个车站有10台信号屏,则每年只有2%的可能性,会进行一次维修。与例(1)串联系统相比,故障概率降低了近18倍。
结论很明确,在每个单元的可靠性受各种限制不可能太高,而又要求系统具有很高的可靠度的情况下,采用并联系统代替串联系统是提高电子系统可靠性的根本方法。美国波音707飞机的发电机采用4台并联系统(用1备3),核电站的直流供电采用三台并联系统(用1备2),都是很好的例子。
并联系统的成本将高于串联系统,但为了保证必要的可靠性,花些代价是必须的也是值得的。
(3)混合系统可靠性模型
实际工程中,为了在成本和可靠性方面求得平衡,常常使用串联和并联混合系统。也就是对可靠度较低的单元采用并联系统,可靠度高的单元保持串联系统。模型如图3所示。
混合系统的可靠度:
R(t)=R1(t)·R2(t)·R3-2(t)·R4(t)
如果R1=R2=R4=0.99,R3=0.9
则R3-2=1-[1-R3]2,R3-2=0.99
R=R1·R2·R3-2·R4
=0.96=96%。(F=4%)。
假使,U3不用并联系统,则R=0.87=87%,(F=13%)。可见,两者可靠度的差别还是很明显的,故障率降低了3倍多。混合系统比串联系统可靠性高,比并联系统简单。
3.2改善电子系统的使用环境降低元器件的环境温度
电子系统的可靠性和使用环境如何有着极为密切的关系。元器件的失效率在不同的使用环境中和其基本失效率差别很大,通常应以环境系数进行修正。美国于上世纪70年代公布了不同元器件的环境系数数值。原有9种环境条件,现只列出较常用和有代表性的4种如下:
图2并联系统模型
图3混合系统模型
——GB:良好地面环境。环境引力接近于“0”,工程操作和维护良好。
——GF:地面固定式的使用环境。装在永久性机架上,有足够的通风冷却。由军事人员维修,通常在不热的建筑内安装。
——NS:舰船舱内环境。水面舰船条件,类似于GF。但要受偶然剧烈的冲击振动。
——GM:地面移动式和便携式的环境。劣于地面固定式的条件,主要是冲击振动。通风冷却可能受限制,只能进行简易维修。
上述环境条件下的环境系数πE如表5所列:
表5环境系数πE
元器件类型 | GB | GF | NS | GM | ||
---|---|---|---|---|---|---|
集成电路 | 0.2 | 1.0 | 4.0 | 4.0 | 说明:λp=λb·πE式中:
λp实际使用中的 失效率λb基本 失效率πE环境系数 | |
电位器 | 1.0 | 2.0 | 5.0 | 7.0 | ||
功率型薄膜电阻器 | 1.0 | 5.0 | 7.5 | 12.0 | ||
电容器 | 纸和塑料膜 | 1.0 | 2.0 | 4.0 | 4.0 | |
陶瓷 | 1.0 | 2.0 | 4.0 | 4.0 | ||
铝电介 | 1.0 | 2.0 | 12.0 | 12.0 | ||
变压器 | 1.0 | 2.0 | 5.0 | 3.0 | ||
继电器 | 军用 | 1.0 | 2.0 | 9 | 10 | |
下等质量 | 2.0 | 4.0 | 24 | 30 | ||
开关 | 0.3 | 1.0 | 1.2 | 5.0 | ||
接插件 | 军用 | 1.0 | 4.0 | 4.0 | 8.0 | |
下等质量 | 10 | 16 | 12 | 16 |
过高的环境温度对元器件的可靠性非常有害:
(1)半导体器件(含各种集成电路和二极管,三极管)
例如硅三极管以PD/PR=0.5设计(PD:使用功率,PR:额定功率),则环境温度对可靠性的影响,如表6所列。
表6环境温度对半导体器件可靠性的影响
环境温度Ta[℃] | 20 | 50 | 80 |
---|---|---|---|
失效率λ[1/109h] | 500 | 2500 | 15000 |
以UD/UR=0.6设计(UD:使用电压,UR:额定电压),则环境温度对可靠性的影响如表7所列。
表7环境温度对电容器可靠性的影响
环境温度Ta[℃] | 20 | 50 | 80 |
---|---|---|---|
失效率λ[1/109h] | 5 | 25 | 70 |
以PD/PR=0.5设计,则环境温度对可靠性的影响如表8所列。
表8环境温度对碳膜电阻器可靠性的影响
环境温度Ta[℃] | 20 | 50 | 80 |
---|---|---|---|
失效率λ[1/109h] | 1 | 2 | 4 |
可见,加强通风冷却十分有益于电子系统的可靠性。国内有些部门(如铁路)要求系统有很高的可靠性,又明令不许使用风扇进行强迫通风冷却。结果不仅设备成本提高,可靠性也难以真正保证,人为地造成了许多问题。其实,现在优质的风扇可以保证50000~60000h的使用寿命(相当于连续运行6年以上)。更换风扇比其他部件的维修也省力省时得多。只要在系统设计条件中,规定风扇即使不工作,设备依然可以长期正常运行。那么,加强通风冷却,绝对有利于可靠性,何乐而不为!
3?3减小元器件的负荷率是改善失效率的捷径
元器件实际工作中的负荷率和失效率之间存在着直接的关系。因而,元器件的类型,数值确定以后,应从可靠性的角度来选择元器件必须满足的额定值。如半导体器件的额定功率、额定电压、额定电流,电容器的额定电压,电阻器的额定功率等等。
(1)硅半导体器件
环境温度Ta=50℃,PD/PR对频率的影响如表9所列。
表9PD/PR对硅半导体器件失效率的影响
PD/PR | 0 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 |
---|---|---|---|---|---|---|---|---|
λ[1/109h] | 30 | 50 | 150 | 700 | 2500 | 7000 | 20000 | 70000 |
(2)电容器
英国曾发表电容器失效率λ正比于工作电压的5次方的资料,称为“五次方定律”,即λ∝U5。
当U=UR/2,
λ=λR/25=λR/32(λR为额定失效率)
当U=0.8UR=UR/1.25,
λ=λR/(1.25)5=λR/3.05
当电容器工作电压降低到额定值的50%时,失效率可以减小32倍之多。
(3)碳膜电阻器
环境温度Ta=50℃,美国于上世纪70年代实际使用的军品数据如表10所列。
表10PD/PR对碳膜电阻器失效率的影响
PD/PR | 0 | 0.2 | 0.4 | 0.6 | 0.8 | 1.0 |
---|---|---|---|---|---|---|
λ[1/109h] | 0.25 | 0.5 | 1.2 | 2.5 | 4.0 | 7.0 |
以上数据表明为了保证可靠性,必须减小元器件的负荷率。例如:美国“民兵”洲际导弹的电子系统规定元器件的负荷率为0.2。
实际使用中的经验数据为:
——半导体元器件负荷率应在0.3左右;
——电容器负荷率(工作电压和额定电压之比)最好在0.5左右,一般不要超过0.8;
——电阻器、电位器、负荷率≤0.5。
总之,对各种元器件的负荷率只要有可能,一般应保持在≤0.3。不得已时,通常也应≤0.5。
3?4简化电路,减少元器件的数量,尽量集成化,认真选用高可靠性的元器件,是提高可靠性的最基本思路
电子系统可靠度
R=R1·R2·R3……RN(0≤R≤1)。
电子系统的失效率
λ=n1·λ1+n2·λ2+n3·λ3……nN·λN.(λ≥0)
显然,元器件数量越多越不可靠。
假如每个元器件Ri=0.999,共有5000个元器件,则R=0.9995000=0.01,显然极不可靠。
若元器件数量减到1800个,则R=0.9991800=0.19。说明如能做到元器件减少64%,可靠度将增加19倍。
因而应尽量采用集成化的器件。如一只集成电路可以代替成千上万只半导体三极管和二极管等器件,从而极大地提高了可靠性。
还应注意到选用高可靠性的元器件类型和品质档次的重要意义。例如功能相似的电容器,云母介质的失效率就要比玻璃或陶瓷介质的低30倍左右。同类的元器件,不同品质档次,如军品和民品,上等质量和下等质量,在同样的功能和条件下,失效率也会差3~10倍,选用应慎之又慎。
可以说,在保证相同功能和使用环境的条件下,越简化的电路,越少的元器件,系统就越可靠。
例如:某公司1000VA高品质交流参数稳压电源,使用于GM环境条件(移动,车载,通风不理想,不便维修)。也能保证MTBF≥20万h。主要原因就是电路简单,元器件数量少。整台电源只包括:
——特种变压器1只
基本失效率为λ1=300×10-9/h。
——金属化薄膜电容器2只
基本失效率为λ0=830×10-9/h。
电容器负荷率为0.8。所以,
λ2=(830/3.05)×10-9/h。
——焊接点20个
基本失效率为λ3=5.7×10-9/h。
因而:λΣ=λ1+2λ2+20λ3
=[300+544+114]×10-9/h
=958×10-9/h。
使用于GM环境条件,平均πE=4,
λΣP=λΣ·πE=3832×10-9/h。
平均无故障工作时间
MTBF=1/λΣP=(1/3832)×109/h
=26×104h=26万h
≥20万h。
年可靠度:P=1/eλΣP·8760=0.967=96.7%
故障率:F=1-P=3.3%
公司长期生产实践的统计数字也证明,该类电源的MTBF≥20万h。
当然,使用在其他环境条件,可靠性会更好。
3?5重视元器件的老化工作减少系统的早期失效率
元器件、设备、系统的失效率在整个使用寿命中并非是恒定不变的常数,通常存在着如图4所示的“浴盆曲线”。
(1)早期通常早期失效率会比稳定期的失效率高得多。造成失效的原因是元器件制造过程中的缺陷和装机的差错或不完善的连接点或元器件出厂时漏检的不合格产品混入所致。因而一定要先使设备运行一个时期,进行老化,使早期失效问题暴露在生产厂老化期间。给用户提供的是已进入稳定期的可靠产品。
图4失效率与时间的关系曲线
老化的时间,日本的民用产品(如电视机)一般不小于8h。而美国宇宙飞船规定每个元器件装上飞船之前老化50h,装上飞船以后,又老化250h,共300h。以淘汰有隐患的元器件,保证工作可靠性。实际工作中,对可靠性要求较高的设备老化时间确定在20~50h较为合适。
(2)稳定期此时失效率λ近于常数,用作正常使用期。也可根据失效率λ来预算设备的其他可靠性指标。通常,在较好的使用环境中,如果一旦出现故障能得到及时和正确的维修,则电子系统的稳定期应不短于6~8年。
(3)磨损期设备使用的寿命末期,由于元器件的材料老化变质,或设备的氧化腐蚀、机械磨损、疲劳等原因造成。失效率λ将逐步增加,进入不可靠的使用期。磨损期出现的具体时间,受各种因素影响,很不一致。设计合理,元器件质量选择较严,环境条件不太恶劣的设备磨损期出现的时间会晚得多。
4结论
保证设备的可靠性是一个复杂的涉及广泛知识领域的系统工程。只有给予充分的重视和认真采取各种技术措施,才会有满意的成果。其基本点为:
(1)高可靠度的复杂系统,一定要采用并联系统
的可靠性模型。系统内保有足够冗余度的备份单元,可以进行自动或手动切换。如果功能上允许,冷备份单元切换,较热备份单元切换,更能保证长期工作的可靠性。
(2)任何电子系统都不可能100%地可靠。设计
中应尽量采用便于离机维修的模块式结构,并预先保留必要数量(通常为5%)的备件。以便尽量缩短平均维修时间MTTR。使有效度A近于100%。
(3)加强通风冷却,改善使用环境是成倍提高可
靠性的最简便和最经济的方法。
(4)简化电路,减少元器件的数量,减轻元器件的
负荷率,选用高可靠的元器件是保证系统高可靠的基础。
(5)重视设备老化工作,减少系统早期失效率。
相信,通过精心设计,认真生产,严格质检,及时维修,完全可以使电子系统(含电源设备)达到十分接近于100%的可靠度。满足国防,科研,工业等各方面的需求,并进而走向世界。