Una breve introducción a la tolerancia a fallas

Última actualización: 2021-10-26
4.6
(23)
Resumen: Tolerancia a fallas significa la capacidad del sistema para continuar funcionando ininterrumpidamente, incluso si falla uno o más de sus componentes. En este artículo, daremos una introducción más detallada a la tolerancia a fallas.

Definición de tolerancia a fallas

La tolerancia a fallas se refiere a la propiedad que permite que el sistema continúe funcionando correctamente incluso cuando algunos de sus componentes fallan. En otras palabras, la tolerancia a fallas significa cómo un sistema operativo (SO) responde y permite que el hardware o el software funcionen incorrectamente y fallen.

La capacidad del sistema operativo para recuperar y tolerar fallas se puede manejar mediante software, hardware o una solución combinada que aproveche los equilibradores de carga. Algunos sistemas informáticos utilizan múltiples sistemas de tolerancia a fallas duplicados para manejar las fallas con elegancia, lo que se denomina red tolerante a fallas.

La computación tolerante a fallas incluye varios niveles de tolerancia:

  • Tel nivel mas bajo:La capacidad de responder a un corte de energía.
  • Un paso adelanteo nivel de fortalecimiento:La capacidad de usar el sistema de respaldo inmediatamente si falla un sistema.
  • Nivel mejorado:Cuando un disco falla, los discos reflejados lo reemplazan inmediatamente. Este nivel ofrece funcionalidad a pesar de fallas parciales del sistema o degradación esperada, en lugar de una falla inmediata y pérdida de funcionalidad.
  • Nivel alto:Varios procesadores colaboran para escanear los datos y la salida para detectar errores y luego corregirlos de inmediato.

Los sistemas tolerantes a fallas utilizan componentes de respaldo que reemplazan automáticamente los componentes defectuosos para garantizar que no se produzcan interrupciones en el servicio.

  • Los sistemas de hardware tienen el mismo sistema operativo de respaldo o uno equivalente. Es tolerante a fallas que un servidor con el mismo servidor tolerante a fallas refleje todas las operaciones en una copia de seguridad y se ejecute en paralelo. Al eliminar un solo punto de falla, la tolerancia a fallas de hardware en forma redundante puede hacer que cualquier componente o sistema sea más seguro y confiable.
  • Sistemas de software respaldados por otras instancias de software. Por ejemplo, si los usuarios replican la base de datos de clientes continuamente, y si la primera base de datos se cierra, las operaciones en la base de datos primaria se pueden redirigir automáticamente a la segunda.
  • Si las fuentes alternativas pueden asumir el control automáticamente durante los cortes de energía, la energía redundante puede ayudar a evitar fallas del sistema y garantizar que no se pierdan los servicios.

CulpaTtoleranciaTtécnicas

  1. Replicación:Proporciona múltiples instancias idénticas del mismo sistema o subsistema, tareas o solicitudes directas a todas las instancias en paralelo y selecciona los resultados correctos según el arbitraje.
  2. Computación inconsciente de fallas:Permite que los programas informáticos continúen ejecutándose a pesar de los errores, que se pueden aplicar en diferentes contextos.
  3. Pastoreo de recuperación:Es una técnica ligera que permite a los programas de software recuperarse de errores fatales.
  4. Cortacircuitos:Este patrón de diseño es una técnica para prevenir fallas catastróficas en sistemas distribuidos.

RequisitosDe tolerancia a fallas

Los siguientes son los requisitos de características principales para la tolerancia a fallas:

  1. No hay un solo punto de falla:Si el sistema falla, debe continuar funcionando durante la reparación sin interrupción.
  2. Aislamiento de fallas del componente defectuosos:En caso de falla, el sistema debe poder aislar la falla del componente en cuestión. Esto requiere la adición de mecanismos de detección de fallas dedicados que existen solo para el aislamiento de fallas. La recuperación de un estado de falla requiere la clasificación de fallas o componentes defectuosos
  3. Contención de fallas para prevenirla propagacióndel fracaso:Algunos mecanismos de falla pueden causar fallas en el sistema por la propagación de fallas al resto del sistema. El "transmisor no autorizado" es un ejemplo de tal falla que conduce a una comunicación legítima en el sistema y causa una falla completa del sistema. Un transmisor malintencionado o un componente defectuoso debe aislarse para proteger el firewall del sistema u otros mecanismos.
  4. Disponibilidad de modos de reversión.

DisadvantagesDe tolerancia a fallas

  • Costo.
  • Componentes inferiores.
  • Interferencia con la detección de fallas en otro componente.
  • Interferencia con la detección de fallas del mismo componente.
  • Reducción de la prioridad de corrección de fallas.
  • Prueba de dificultad.

Ejemplos deDe tolerancia a fallas

A veces, la tolerancia a fallas de hardware requiere que las piezas dañadas se eliminen y se reemplacen con piezas nuevas mientras el sistema aún está en funcionamiento. Estos sistemas implementados con una sola copia de seguridad se denominan tolerancia de un solo punto y representan la gran mayoría de los sistemas tolerantes a fallas.

La tolerancia a fallas tiene éxito en las aplicaciones informáticas. Los equipos en tándem construyen todo su negocio en esos equipos, que utilizan una tolerancia de un solo punto para crear sus sistemas ininterrumpidos, que se recuperan en años.

Una arquitectura a prueba de fallas también puede incluir software de computadora, como la replicación a través de procesos.

Los formatos de datos también se pueden diseñar para que se degraden de forma natural. Por ejemplo, HTML está diseñado para ser compatible con versiones posteriores, lo que permite a los navegadores web que no los entienden sin dejar el documento inutilizable ignorar las nuevas entidades HTML.

¿Qué tan útil fue esta publicación?

¡Haz clic en una estrella para calificarla!

Puntuación media 4.6 / 5. Recuento de votos: 23

¡No hay votos todavía! Sé el primero en calificar esta publicación.

Artículo anterior

What’s New in Bitwar HEIC Converter for Mac V2.0.0 Resumen: Tolerancia a fallas significa la capacidad del sistema para continuar funcionando ininterrumpidamente, incluso si uno o más de ...

Siguiente artículo

Quick Fix: The Volume Does Not Contain A Recognized File System Error Resumen: Tolerancia a fallas significa la capacidad del sistema para continuar funcionando ininterrumpidamente, incluso si uno o más de ...

Acerca de Bitwar Data Recovery

3 pasos para recuperar más de 500 tipos de documentos, fotos, videos, audios y archivos eliminados, formateados o perdidos de diversos escenarios de pérdida de datos.

Más información

Artículos destacados

    Artículos relacionados