Tiempo Medio Entre Fallas Explicacion y Standares

13

Click here to load reader

Transcript of Tiempo Medio Entre Fallas Explicacion y Standares

Page 1: Tiempo Medio Entre Fallas Explicacion y Standares

Tiempo medio entre fallas: explicación y estándares

Informe interno N° 78

Por Wendy Torell

y Victor Avelar

Page 2: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

2

Resumen ejecutivo El tiempo medio entre fallas (MTBF) es un término de confiabilidad que se utiliza con

demasiada ligereza en muchas industrias y, en algunas, su uso ya es abusivo. Con el correr

de los años, el significado original de este término fue modificándose, y ahora causa

confusión y cinismo. En gran medida, el MTBF se basa en supuestos; por eso, la definición

de falla y una mirada atenta a estos detalles cobran vital importancia para lograr una

interpretación correcta. En este informe se explican las complejidades y los errores

subyacentes del MTBF, y los métodos disponibles para calcular este valor.

Page 3: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

3

Introducción El tiempo medio entre fallas (MTBF) se ha utilizado por más de 60 años como fundamento para varias

decisiones. Con el correr de los años, se desarrollaron más de 20 métodos y procedimientos para

predecir la vida útil de los productos. Por lo tanto, no resulta extraño que el MTBF sea un tema central en

eterno debate. Un área en particular en la que esto se hace evidente es el diseño de infraestructuras de

misión crítica que albergan equipos informáticos y de telecomunicaciones. Cuando apenas unos minutos

de inactividad pueden afectar en forma negativa el valor de mercado de una empresa, es crucial que la

infraestructura física que sustenta este entorno de red sea confiable. Sin una sólida comprensión del

MTBF, es posible que no se alcance el objetivo de confiabilidad de la empresa. En este informe se explican

con ejemplos todos los aspectos del MTBF, con la intención de simplificar la complejidad y esclarecer los

errores.

¿Qué es una falla? ¿Cuáles son los supuestos? Estos interrogantes deben responderse de inmediato cuando se analiza cualquier valor de MTBF. Sin las

respuestas a estas preguntas, el análisis carece prácticamente de valor. Muchas veces se cita el MTBF sin

ofrecer una definición de falla. Esta práctica no solo induce a errores, sino que carece de utilidad alguna.

Sería similar a promocionar el rendimiento del combustible en un automóvil expresado en “millas por

tanque” sin definir la capacidad del tanque en litros o galones. Para despejar esta ambigüedad, se podría

argumentar que existen dos definiciones básicas para las fallas:

1) Finalización de la capacidad de un producto en su conjunto para realizar la función requerida.1 2) Finalización de la capacidad de cualquier componente individual para realizar la función requerida,

pero sin la finalización de la capacidad de un producto en su conjunto para funcionar.2

Mediante los siguientes dos ejemplos se ilustra cómo un modo de falla en particular podría clasificarse o

no como falla, según la definición que se elija.

Ejemplo 1:

Si falla un disco redundante en un sistema RAID, la falla no impide que el sistema RAID cumpla la función

requerida de proporcionar datos críticos en ningún momento. Sin embargo, la falla del disco impide que un

componente del sistema de discos realice la función requerida de proveer capacidad de almacenamiento.

Por lo tanto, según la definición 1, no se trata de una falla pero, según la definición dos, sí constituye una

falla.

1 IEC-50 2 IEC-50

Page 4: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

4

Ejemplo 2:

Si falla el inversor de un sistema UPS y el sistema UPS conmuta al modo de bypass estático, la falla no

impide que el sistema UPS cumpla la función requerida, que es alimentar a la carga crítica. Sin embargo,

la falla del inversor impide que un componente del sistema UPS realice la función requerida de proveer

energía acondicionada. Al igual que en el ejemplo anterior, se trataría de una falla solo de acuerdo con la

segunda definición. Si existieran tan solo dos definiciones, la determinación de las fallas sería bastante

sencilla. Lamentablemente, cuando está en juego la reputación de un producto, el asunto es casi tan

complicado como el MTBF en sí. En realidad, existen más de dos definiciones de fallas; de hecho, la

cantidad es infinita. Según el tipo de producto, los fabricantes pueden tener diversas definiciones de fallas.

Los fabricantes que se preocupan por la calidad aplican un control de procesos a todos los modos de

fallas, lo cual, entre otros beneficios, elimina los defectos de los productos. Por lo tanto, se necesitan

preguntas adicionales que definan el concepto de falla con precisión.

¿Se considera falla una mala aplicación por parte del cliente? Los diseñadores podrían haber omitido

factores humanos y así surgiría la tendencia de los usuarios a aplicar mal el producto. ¿Se consideran

fallas las caídas de carga que ocasiona el técnico del distribuidor? ¿Es posible que el diseño del producto

en sí aumente la probabilidad de fallas en un procedimiento de por sí riesgoso? Si fallara un indicador LED

de una computadora, ¿se consideraría falla aunque no haya afectado el funcionamiento de la

computadora? El desgaste natural de un insumo, por ejemplo, una batería, ¿se consideraría falla si

presentara anomalías en forma prematura? ¿Se consideran fallas los daños sufridos durante el

transporte? Podrían indicar una deficiencia en el diseño del embalaje. Es claro que la importancia de

definir una falla debe ser obvia y debe comprenderse antes de tratar de interpretar cualquier valor de MTBF.

Preguntas como estas son las que fijan los cimientos sobre los que pueden tomarse decisiones acerca

de la confiabilidad.

Se dice que los ingenieros nunca se equivocan; solo parten de supuestos erróneos. Lo mismo puede

decirse de aquellos que calculan los valores de MTBF. Es preciso basarse en supuestos para simplificar

el proceso de cálculo del MTBF. Sería virtualmente imposible recabar los datos para calcular un número

exacto. Sin embargo, todos los supuestos deben ser razonables. A lo largo de este informe, se describen

los supuestos que acostumbran a utilizarse para calcular el MTBF.

Definición de confiabilidad, disponibilidad, MTBF y MTTR El MTBF tiene incidencia tanto en la confiabilidad como en la disponibilidad. Antes de proceder a explicar

los métodos de cálculo del MTBF, es importante tener una idea sólida de estos conceptos. La diferencia

Page 5: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

5

entre confiabilidad y disponibilidad suele ignorarse y malinterpretarse. Alta disponibilidad y alta

confiabilidad a menudo van de la mano, pero no son términos que puedan utilizarse indistintamente.

Confiabilidad es la capacidad de un sistema o componente para desempeñar las funciones

requeridas en las condiciones establecidas por un determinado período de tiempo [IEEE 90].

En otras palabras, es la probabilidad de que un sistema o componente realice las funciones en forma

satisfactoria durante el tiempo que dure la misión especificada, sin presentar anomalías. La misión de una

aeronave es un ejemplo perfecto para ilustrar este concepto. Cuando una aeronave despega para cumplir

su misión, se tiene en cuenta un objetivo: completar el vuelo, según lo planeado, en forma segura (sin

fallas catastróficas).

Disponibilidad, por otra parte, es el grado de funcionalidad y accesibilidad que presenta el sistema

o componente cuando se lo necesita [IEEE 90].

Puede pensarse como la probabilidad de que el componente o sistema esté en condiciones para cumplir

con la función requerida en determinadas circunstancias y en determinado momento de un período. La

disponibilidad está determinada por la confiabilidad de un sistema y también por el tiempo de

recuperación ante una falla. Cuando los sistemas funcionan constantemente por períodos prolongados

(por ejemplo, un centro de datos de 10 años), las fallas son inevitables. Suele contemplarse la

disponibilidad porque, al producirse una falla, la variable crítica pasa a ser la rapidez con la que el sistema

pueda recuperarse. En el ejemplo del centro de datos, contar con un diseño de sistemas confiable es la

variable más crítica pero, al producirse una falla, el factor más importante debe ser que los equipos

informáticos y los procesos de la empresa se reactiven y funcionen lo más pronto posible para reducir al

mínimo el tiempo de inactividad.

El MTBF o Tiempo medio entre fallas constituye una medición fundamental de la confiabilidad de un

sistema. Suele expresarse en unidades de horas. A mayor valor de MTBF, mayor confiabilidad presenta el

producto. La ecuación 1 ilustra esta relación.

= MTBFTiempo

edadConfiabili Ecuación 1

Unos de los errores más habituales acerca del MTBF es pensar que equivale a la cantidad de horas que

se espera que funcione el sistema antes de que falle, también denominada “vida operativa”. Sin embargo,

no es extraño ver valores de MTBF en el orden de los millones de horas, y sería poco razonable pensar que

el sistema podría funcionar constantemente por más de 100 años sin presentar una falla. La razón por la

que estos números suelen ser tan altos es porque se basan en la tasa de fallas del producto mientras aún

Page 6: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

6

está en el período de “vida útil” o “vida normal”, y se presupone que continuará con esta tasa por siempre.

Sin embargo, en esta etapa de la vida, el producto experimenta la menor (y constante) tasa de fallas. En

realidad, los modos de deterioro del producto limitarían la vida mucho antes que lo que expresa la cifra de

MTBF. Por lo tanto, no debe hacerse una correlación directa entre la vida operativa de un producto y la tasa

de fallas o MTBF. Es muy factible encontrar productos con un alto grado de confiabilidad (MTBF) y un bajo

nivel de vida operativa. Como ejemplo, pensemos en un ser humano:

La realidad es que los seres humanos no presentan tasas de fallas constantes. A medida que la gente

envejece, se producen más fallas (se deterioran). Por lo tanto, la única manera real de computar un valor

de MTBF que equivalga a la vida operativa sería esperar que toda la muestra poblacional de personas de

25 años llegara al término de la vida. De ese modo, podría calcularse un promedio de estos intervalos de

vida. La mayoría concordaría que el valor rondaría entre los 75 y 80 años.

Por eso, ¿cuál es el MTBF de las personas de 25 años? ¿80 u 800? ¡Los dos valores! Pero ¿como podría la

misma población presentar dos valores de MTBF tan dispares? Todo se debe a los supuestos.

Si el MTBF de 80 años refleja con mayor precisión la vida del producto (humanos, en este caso), ¿es el

mejor método? Es evidente que es más intuitivo. Sin embargo, existen muchas variables que limitan el

sentido práctico de utilizar este método con productos comerciales como los sistemas UPS. La mayor

limitación es el tiempo. Para poder hacerlo, toda la muestra poblacional debería fallar y, en el caso de

muchos productos, estaríamos hablando de un uso de 10 o 15 años. Además, aun si fuera razonable

esperar este período de tiempo antes de calcular el MTBF, habría problemas para rastrear los productos.

Por ejemplo, ¿cómo sabría el fabricante si los productos siguen en servicio, si están fuera de servicio y

nunca se lo han informado?

Se constituye una muestra poblacional con 500.000 seres humanos de 25 años

de edad.

En el curso de un año, se recaban datos sobre las fallas (muertes) de esa

población.

La vida operativa de esa población es de 500.000 x 1 año = 500.000 personas/

año.

A lo largo del año, fallaron (murieron) 625 personas.

La tasa de fallas es de 625 fallas / 500.000 personas/ año = 0,125%/ año.

El MTBF es la relación inversa a la tasa de fallas o 1/0,00125 = 800 años.

Si bien los seres humanos de 25 años presentan valores de MTBF altos, la

expectativa de vida (vida operativa) es mucho más corta y no existe una

correlación.

Page 7: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

7

Por último, incluso si todo esto fuera posible, la tecnología avanza a tal velocidad que, en el momento en

que se pudiera calcular el valor, ya no tendría utilidad alguna. ¿Quién querría el valor de MTBF de un

producto que ya ha sido reemplazado por varias generaciones de actualizaciones tecnológicas?

MTTR, o tiempo medio de reparación (o recuperación), es el tiempo que se espera que un sistema tarde

en recuperarse ante una falla. Este valor puede incluir el tiempo necesario para diagnosticar el problema,

para que el técnico se acerque a la instalación y para reparar físicamente el sistema. Al igual que el MTBF,

el MTTR se expresa en unidades de horas. Como puede apreciarse en la ecuación 2, el MTTR incide en la

disponibilidad, pero no en la confiabilidad. A mayor MTTR, peor es el sistema. Para simplificar, si un

sistema tarda más en recuperarse ante una falla, tendrá menor disponibilidad. La fórmula que se detalla a

continuación ilustra cómo la disponibilidad general de un sistema se ve afectada tanto por el MTBF como

por el MTTR. Si aumenta el MTBF, aumenta la disponibilidad. Si aumenta el MTTR, disminuye la

disponibilidad.

)(idadDisponibil

MTTRMTBFMTBF

+= Ecuación 2

Para que las ecuaciones 1 y 2 sean válidas, debe partirse de un supuesto básico al analizar el valor de

MTBF de un sistema. A diferencia de los sistemas mecánicos, muchísimos de los sistemas electrónicos

no están compuestos por partes móviles. Como consecuencia, suele aceptarse que los componentes o

sistemas electrónicos presentan tasas de fa llas constantes durante la vida útil operativa. La figura 1,

denominada “curva en forma de bañera” de la tasa de fallas, ilustra el origen de este supuesto de que la

tasa de fallas es constante, según ya se mencionó. El "período operativo normal" o “período de vida útil" de

esta curva es la etapa en la que un producto está en uso concreto. Entonces se mide la calidad del

producto con respecto a una tasa de fallas constante en relación con el tiempo. En esta etapa el origen de

las fallas puede incluir defectos no detectables, bajos factores de seguridad en el diseño, tensión aleatoria

mayor de la esperada, factores humanos y fallas naturales. Con períodos holgados para pruebas de

envejecimiento de componentes por parte de los fabricantes, el mantenimiento adecuado y el reemplazo

proactivo de partes desgastadas, debería evitarse el tipo de curva rápida de deterioro que representa el

"período de desgaste". El análisis anterior brinda un panorama de los conceptos y las diferencias entre

confiabilidad y disponibilidad, y permite la interpretación adecuada del valor de MTBF. En la siguiente

sección, se analizan los distintos métodos de predicción del MTBF.

Page 8: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

8

Figura 1 – Curva en forma de bañera que ilustra la tasa de fallas constante

0

Tasade

fallas

Zona de tasa de fallasconstante

Períodoanticipadode fallas

Período operativonormal

Períodode

desgaste

Tiempo

Métodos de predicción y cálculo de valores de MTBF A menudo los términos “predicción” y “cálculo” se utilizan indistintamente; sin embargo, no es correcto. Los

métodos que predicen el MTBF calculan un valor basado únicamente en un diseño de sistema, en general,

realizado previamente en el ciclo vital del producto. Los métodos de predicción tienen utilidad cuando los

datos concretos son escasos o inexistentes, como en el caso del trasbordador espacial o nuevos diseños

de productos. De haber datos concretos suficientes, no deberían aplicarse los métodos de predicción. En

vez de estos, habría que recurrir a métodos que calculan el MTBF porque representan mediciones

concretas de las fallas. Los métodos que calculan el MTBF estiman un valor basado en una muestra de

sistemas similares observados, en general, realizados después de que se ha instalado una gran cantidad

de sistemas en entornos concretos. Los métodos de cálculo de MTBF son los más utilizados para valores

de MTBF, principalmente porque se basan en productos reales que están sometidos a uso concreto.

Todos estos métodos son de índole estadística, lo cual significa que brindan solo una aproximación al

verdadero valor de MTBF. Ningún método se estandariza en toda una industria. Por lo tanto, es vital que el

fabricante comprenda y seleccione el mejor método para la aplicación en cuestión. Los métodos que se

presentan a continuación, aunque no constituyen la lista completa, ilustran la amplitud de maneras en que

se puede obtener un valor de MTBF.

Métodos de predicción de confiabilidad

Los primeros métodos de predicción de confiabilidad surgieron en la década de 1940, gracias a un

científico alemán de apellido Von Braun y a un matemático alemán llamado Eric Pieruschka. Mientras

Page 9: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

9

intentaba mejorar diversos problemas de confiabilidad del cohete V-1, Pieruschka asistió a Von Braun en la

confección de un modelo de confiabilidad para su cohete y así se creó el primer modelo de confiabilidad

prospectivo moderno que se haya documentado. Luego, con el crecimiento de la industria nuclear, la NASA

aportó mayor madurez en el campo del análisis de confiabilidad. Hoy en día, contamos con numerosos

métodos para predecir el MTBF.

MIL-HDBK 217

Publicado por el ejército estadounidense en 1965, se creó el Manual Militar 217 con el fin de proporcionar

un estándar para el cálculo de la confiabilidad de equipos y sistemas electrónicos militares de modo de

incrementar la confiabilidad de los equipos que se diseñaran. Sentó las bases para comparar la

confiabilidad de dos o más diseños similares. El Manual Militar 217 también se denomina Mil Standard

217 o, simplemente, el 217. Según el 217, existen dos maneras de predecir la confiabilidad: la Predicción

por conjuntos y la Predicción por análisis del esfuerzo de las partes.

La Predicción por conjuntos suele utilizarse para predecir la confiabilidad de un producto en una etapa

inicial del ciclo de desarrollo a fin de obtener un cálculo de confiabilidad aproximado con respecto al

objetivo o especificación de confiabilidad. Se calcula una tasa de fallas contando los componentes

similares de un producto (por ejemplo, capacitores) y agrupándolos en los distintos tipos de componentes

(por ejemplo, condensadores de película). Luego, se multiplica la cantidad de componentes de cada

conjunto por una tasa de fallas genérica que se encuentra en el manual 217. Por último, se reúnen las

tasas de fallas de los distintos conjuntos de componentes para obtener la tasa de fallas final. Por

definición, este método presupone que todos los componentes están conectados en serie y requiere que

se calculen en forma separada las tasas de fallas para componentes no conectados en serie.

La Predicción por análisis del esfuerzo de las partes suele utilizarse mucho más tarde en el ciclo de

desarrollo del producto, una vez que el diseño de los circuitos y el hardware están a punto de entrar en

producción. Es similar al método por conjuntos, ya que implica una sumatoria de tasas de fallas. Sin

embargo, en este método, la tasa de fallas de cada uno de los componentes se calcula en forma individual

según los niveles de esfuerzo específicos a los que se someterá cada componente (por ejemplo,

humedad, temperatura, vibración, tensión). Para asignar los niveles de esfuerzo adecuados para cada

componente, deben documentarse y comprenderse a fondo el diseño del producto y el entorno esperado.

El método por esfuerzo suele arrojar una tasa de fallas inferior a la del método por conjuntos. Por el nivel

de análisis que exige este método, consume mucho tiempo en comparación con otros.

En la actualidad, rara vez se utiliza el método 217. En 1996, el ejército estadounidense anunció que debería

discontinuarse el uso del MIL-HDBK-217, ya que se había "comprobado que no era confiable y su uso

Page 10: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

10

podría arrojar predicciones de confiabilidad erróneas y equivocadas"3. El 217 se descartó por muchas

razones, la mayoría de las cuales están relacionadas con que la confiabilidad de componentes ha

experimentado grandes mejoras a tal punto que ya no es la causa principal de fallas en los productos. Las

tasas de fallas presentadas en 217 son más conservadoras (altas) que los componentes comercializados

en la actualidad. Una investigación minuciosa de las fallas en los productos electrónicos de hoy en día

revelaría que las fallas tenderían a producirse por mala aplicación (error humano), control de procesos o

diseño de producto.

Telcordia

El modelo Telcordia para predicción de confiabilidad surgió a partir de la industria de las

telecomunicaciones y logra imponerse gracias a una serie de modificaciones en el transcurso de los años.

En primer lugar, fue desarrollado por Bellcore Communications Research con el nombre de Bellcore como

método para calcular la confiabilidad de los equipos de telecomunicaciones. Si bien Bellcore se basa en el

manual 217, sus modelos de confiabilidad (ecuaciones) se modificaron en 1985 de modo de reflejar el

desempeño real de sus equipos de telecomunicaciones. La última versión de Bellcore fue la TR-332 N° 6,

de diciembre de 1997. Luego, SAIC adquirió Bellcore en 1997 y lo rebautizó Telcordia. La última versión del

Modelo de predicción Telcordia, SR-332 N° 1, se publicó en mayo de 2001 y ofrece una variedad de

métodos de cálculo, además de los del 217. En la actualidad, se sigue aplicando el método Telcordia

como herramienta de diseño de productos en esta industria.

HRD5

HRD5 es el Manual de datos de confiabilidad para componentes electrónicos (Handbook for Reliability

Data for Electronic Components) que se utiliza en sistemas de telecomunicaciones. Fue desarrollado por

British Telecom y se usa principalmente en el Reino Unido. Es parecido al 217 pero no abarca tantas

variables ambientales y confecciona un modelo de predicción de confiabilidad que contempla una amplia

variedad de componentes electrónicos, entre ellos, los de telecomunicaciones.

RBD (diagrama de bloques de confiabilidad)

El diagrama de bloques de confiabilidad o RBD es una herramienta de cálculo y de esquema

representativo utilizada para confeccionar modelos de confiabilidad y disponibilidad para sistemas. La

estructura de un diagrama de bloques de confiabilidad define la interacción lógica de las fallas dentro de

un sistema y no necesariamente la conexión lógica o física entre ellas. Cada bloque puede representar un

componente individual, un subsistema u otra falla representativa. El diagrama puede representar todo un

sistema o cualquier subconjunto o combinación del sistema que requiera un análisis de fallas,

confiabilidad o disponibilidad. También puede servir como herramienta de análisis para revelar el

3 Cushing, M., Krolewski, J., Stadterman, T., y Hum, B., 1996, "U.S. Army Reliability Standardization Improvement Policy and Its Impact", IEEE Transactions on Components, Packaging, and Manufacturing Technology, Parte A, Vol. 19, N° 2, pp. 277-278

Page 11: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

11

funcionamiento de cada elemento del sistema o el modo en que cada elemento puede afectar el

funcionamiento del sistema en su conjunto.

Modelo de Markov

El método de confección de modelos de Markov brinda la capacidad de analizar sistemas complejos, como

las arquitecturas eléctricas. Los modelos de Markov también se conocen como diagramas de espacio-

estado o gráficos de estado. El espacio-estado se define como un conjunto de todos los estados en los

que puede encontrase un sistema. A diferencia de los diagramas de bloques, los gráficos de estado

proporcionan una representación más precisa del sistema. El uso de gráficos de estado tiene en cuenta

las relaciones entre fallas de componentes y también diversos estados que los diagramas de bloques no

pueden representar, por ejemplo, el estado de una unidad UPS cuando funciona a batería. Además del

valor de MTBF, los modelos de Markov brindan una variedad de otras mediciones de los sistemas, entre

ellas, la disponibilidad, el valor de MTTR, la probabilidad de encontrarse en algún estado determinado en

determinado momento y muchas otras.

FMEA / FMECA

El FMEA (análisis de modo de fallas y consecuencias) es un proceso utilizado para analizar los modos de

fallas de un producto. Luego se usa esta información para determinar el impacto que tendría cada falla en

el producto, y así se logra un mejor diseño de producto. El análisis puede trascender esta función y asignar

un nivel de gravedad a cada modo de falla. En este caso, se lo denomina FMECA (análisis de modo de

falla, consecuencias y nivel de gravedad). El FMEA se construye desde abajo hacia arriba. Por ejemplo, en

el caso de un sistema UPS, el análisis parte del nivel de placas de circuitos y asciende hasta completar

todo el sistema. Además del uso como herramienta de diseño de productos, puede servir para calcular la

confiabilidad general del sistema. Puede resultar difícil obtener los datos de probabilidad de los distintos

componentes de los equipos, necesarios para los cálculos, en especial si se presentan en diversos

estados o modos operativos.

Árbol de fallas

El análisis de árbol de fallas es una técnica que desarrolló Bell Telephone Laboratories para realizar

evaluaciones de seguridad del Sistema de control de lanzamiento de misiles Minuteman. Después se

aplicó al análisis de confiabilidad. Los árboles de fallas pueden ser útiles para detallar la vía de una

circunstancia, ya sea en casos normales como de fallas, que derivan en una falla de los componentes o

evento no deseado que está en investigación (desde abajo hacia arriba). La confiabilidad se calcula

convirtiendo un árbol de fallas completo en un grupo de ecuaciones equivalentes. Se logra mediante la

aplicación del álgebra de eventos, que también se denomina álgebra booleana. Como el FMEA, los datos

probabilísticos para los cálculos pueden resultar difíciles de obtener.

Page 12: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

12

HALT

La técnica de prueba de vida acelerada (HALT) es un método utilizado para incrementar la confiabilidad

general de un diseño de producto. También se utiliza para establecer cuánto tarda un producto en alcanzar

el punto de quiebre, sometiéndolo a esfuerzos cuidadosamente medidos y controlados, como temperatura

y vibración. Se vale de un modelo matemático para calcular la cantidad de tiempo real que el producto

tardaría en fallar en el uso concreto. Si bien HALT sirve para calcular el valor de MTBF, la función principal

es mejorar la confiabilidad de diseños de producto.

Métodos para el cálculo de confiabilidad

Método de predicción por elementos similares

Este método ofrece un medio rápido para calcular la confiabilidad basado en datos históricos de

confiabilidad de un elemento similar. La eficacia de este método depende mayormente de la similitud entre

el equipo nuevo y el existente, del cual se tienen datos concretos. Debe existir similitud entre los procesos

de fabricación, entornos operativos, funciones y diseños de los productos. En productos que evolucionan

con el tiempo, este método de producción es especialmente útil ya que aprovecha la experiencia concreta

del pasado. Sin embargo, deben investigarse con sumo cuidado las diferencias y quedar reflejadas en la

predicción final.

Método de medición de datos concretos

Este método se basa en la experiencia real de los productos. Quizá sea el más utilizado por los

fabricantes, ya que es parte integral del programa de control de calidad de la fábrica. Estos programas

suelen denominarse Gestión de crecimiento de confiabilidad. Al rastrear la tasa de fallas de productos en

uso concreto, los fabricantes pueden identificar y solucionar rápidamente los problemas e ir e liminando

defectos de los productos. Dado que se basa en fallas concretas, este método contempla modos de falla

que los métodos de predicción suelen excluir. El método consiste en rastrear una muestra poblacional de

nuevos productos y reunir los datos de l as fallas. Una vez recabados estos datos, se calculan los valores

de MTBF y la tasa de fallas. La tasa de fallas es el porcentaje de una población de unidades que se espera

que "fallen" en un año calendario. Además de utilizar estos datos para control de calidad, también se usan

para brindar a clientes y vendedores información acerca de la confiabilidad del producto y los procesos de

calidad. Al emplearse tanto entre los fabricantes, sirven de base para comparar valores de MTBF. Estas

comparaciones permiten que los usuarios evalúen las diferencias de confiabilidad relativa entre productos,

lo cual ofrece una herramienta para la toma de decisiones de compra o determinación de

especificaciones. Como en toda comparación, es fundamental que las variables críticas sean las mismas

en todos los sistemas que se comparen. De lo contrario, es probable que se tomen decisiones

equivocadas que podrían provocar un impacto económico negativo. Si desea más información sobre

comparación de valores relativos de MTBF, consulte el Informe interno N° 112 de APC, “Comparaciones

eficaces de valores MTBF para infraestructuras de centros de datos”.

Page 13: Tiempo Medio Entre Fallas Explicacion y Standares

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento parcial o total de esta publicación, en cualquier sistema de recuperación de cualquier tipo, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-0

13

Conclusiones MTBF es una sigla “de moda” que se acostumbra utilizar en la industria informática. Se publican cifras sin

comprender qué expresan en realidad. Si bien el MTBF es un indicador de confiabilidad, no representa la

vida operativa que se espera de un producto. Por último, los valores de MTBF carecen de sentido sin una

definición de falla y con supuestos poco razonables o ausentes.

Referencias 1. Pecht, M.G., Nash, F.R., “Predicting the Reliability of Electronic Equipment”, Proceedings of the IEEE,

Vol. 82, N° 7, julio de 1994

2. Leonard, C., “MIL-HDBK-217: It’s Time to Rethink It”, Electronic Design, 24 de octubre de 1991

3. http://www.markov-model.com

4. MIL-HDBK-338B, Electronic Reliability Design Handbook , 1 de octubre de 1998

5. IEEE 90 – Institute of Electrical and Electronics Engineers, IEEE Standard Computer Dictionary: A

Compilation of IEEE Standard Computer Glossaries. New York, NY: 1990

Acerca de los autores:

Wendy Torell es Ingeniero en Disponibilidad en la planta de APC en W. Kingston, Rodhe Island. Brinda

asesoramiento a los clientes respecto de los enfoques científicos sobre disponibilidad y prácticas de

diseño para optimizar la disponibilidad de los entornos de los centros de datos. Recibió el título de

Bachelor en Ingeniería Mecánica del Union College, en Schenectady, NY. Wendy cuenta con una

certificación de la ASQ en el campo de la ingeniería en confiabilidad.

Victor Avelar es Ingeniero en Disponibilidad en APC. Es el responsable de proveer asesoramiento y

análisis sobre la disponibilidad para las arquitecturas eléctricas y el diseño de los centros de datos de los

clientes. Victor recibió el título de Bachelor en Ingeniería Mecánica del Rensselaer Polytechnic Institute en

1995 y es miembro de ASHRAE y la American Society for Quality.