Uma breve introdução à tolerância a falhas

Last Updated: 2021-10-26
4,8
(5)
Resumo: Tolerância a falhas significa a capacidade do sistema de continuar a operar ininterruptamente, mesmo se um ou mais de seus componentes falharem. Neste artigo, daremos uma introdução mais detalhada à tolerância a falhas.

Definição de tolerância a falhas

A tolerância a falhas refere-se à propriedade que permite que o sistema continue a funcionar corretamente mesmo quando alguns de seus componentes falham. Em outras palavras, tolerância a falhas significa como um sistema operacional (SO) responde e permite mau funcionamento e falha de hardware ou software.

A capacidade do sistema operacional de recuperar e tolerar falhas pode ser tratada por meio de software, hardware ou uma solução combinada que aproveita balanceadores de carga. Alguns sistemas de computador usam vários sistemas de tolerância a falhas duplicados para lidar com falhas normalmente, o que é chamado de rede tolerante a falhas.

A computação tolerante a falhas inclui vários níveis de tolerância:

  • To nível mais baixo:A capacidade de responder a uma falha de energia.
  • Um passo à frenteou nível de fortalecimento:A capacidade de usar o sistema de backup imediatamente se um sistema falhar.
  • Nível avançado:Quando um disco falha, os discos espelhados assumem imediatamente o controle. Este nível oferece funcionalidade apesar das falhas parciais do sistema ou degradação esperada, em vez de uma interrupção imediata e perda de funcionalidade.
  • Alto nível:Vários processadores colaboram para varrer os dados e gerar a saída para detectar erros e, em seguida, corrigi-los imediatamente.

Os sistemas tolerantes a falhas usam componentes de backup que substituem automaticamente os componentes com falha para garantir que nenhuma interrupção ocorra no serviço.

  • Os sistemas de hardware têm o mesmo sistema operacional de backup ou equivalente. É tolerante a falhas que um servidor com o mesmo servidor tolerante a falhas espelhe todas as operações em um backup e seja executado em paralelo. Ao eliminar um único ponto de falha, a tolerância a falhas de hardware de forma redundante pode tornar qualquer componente ou sistema mais seguro e confiável.
  • Sistemas de software com backup de outras instâncias de software. Por exemplo, se os usuários replicarem o banco de dados do cliente continuamente e se o primeiro banco de dados for fechado, as operações no banco de dados principal podem ser redirecionadas automaticamente para o segundo.
  • Se fontes alternativas podem assumir automaticamente durante falhas de energia, a energia redundante pode ajudar a evitar falhas do sistema e garantir que os serviços não sejam perdidos.

CulpaToleranceTtécnicas

  1. Replicação:Ele fornece várias instâncias idênticas do mesmo sistema ou subsistema, tarefas ou solicitações diretas para todas as instâncias em paralelo e seleciona os resultados corretos com base na arbitragem.
  2. Computação alheia a falhas:Ele permite que os programas de computador continuem em execução apesar dos erros, que podem ser aplicados em diferentes contextos.
  3. Pastoreamento de recuperação:É uma técnica leve que permite que os programas de software se recuperem de erros que de outra forma seriam fatais.
  4. Disjuntor:Este padrão de design é uma técnica para evitar falhas catastróficas em sistemas distribuídos.

RequisitosDe tolerância a falhas

A seguir estão os requisitos de características primárias para tolerância a falhas:

  1. Nenhum ponto único de falha:Se o sistema falhar, ele deve continuar a operar durante o reparo sem interrupção.
  2. Isolamento de falha para o componente com falhas:Em caso de falha, o sistema deve ser capaz de isolar a falha do componente em questão. Isso requer a adição de mecanismos de detecção de falhas dedicados que existem apenas para isolamento de falhas. A recuperação de um estado de falha requer classificação de falhas ou componentes com defeito
  3. Contenção de falhas para prevenira propagaçãodo fracasso:Alguns mecanismos de falha podem causar falhas no sistema pela propagação de falhas para o resto do sistema. O “transmissor invasor” é um exemplo de falha que leva à comunicação legítima no sistema e causa a falha completa do sistema. Um transmissor malicioso ou componente com falha precisa ser isolado para proteger o firewall do sistema ou outros mecanismos.
  4. Disponibilidade de modos de reversão.

DesvantagensDe tolerância a falhas

  • Custo.
  • Componentes inferiores.
  • Interferência com detecção de falha em outro componente.
  • Interferência com detecção de falhas do mesmo componente.
  • Redução da prioridade de correção de falhas.
  • Dificuldade do teste.

ExemplosDe tolerância a falhas

Às vezes, a tolerância a falhas de hardware exige que as peças danificadas sejam removidas e substituídas por novas peças enquanto o sistema ainda está funcionando. Esses sistemas implementados usando um único backup são chamados de tolerância de ponto único e representam a grande maioria dos sistemas tolerantes a falhas.

A tolerância a falhas é bem-sucedida em aplicativos de computador. A Tandem Computers constrói todo o seu negócio nesses computadores, que usam uma tolerância de ponto único para criar seus sistemas ininterruptos, que se acumulam com o passar dos anos.

Uma arquitetura à prova de falhas também pode incluir software de computador, como replicação por meio de processos.

Os formatos de dados também podem ser projetados para degradar naturalmente. Por exemplo, o HTML é projetado para ser compatível com versões futuras, permitindo que os navegadores da web que não os entendem, sem tornar o documento inutilizável, ignorem novas entidades HTML.

Quão útil foi esta postagem?

Clique em uma estrela para avaliá-la!

Classificação média4,8/ 5. Contagem de votos:5

Nenhum voto até agora! Seja o primeiro a avaliar esta postagem.

Artigo Anterior

O que há de novo no Bitwar HEIC Converter for Mac V2.0.0 Resumo: Tolerância a falhas significa a capacidade do sistema de continuar a operar ininterruptamente, mesmo se um ou mais dos ...

Artigo seguinte

Correção rápida: o volume não contém um erro de sistema de arquivos reconhecido Resumo: Tolerância a falhas significa a capacidade do sistema de continuar a operar ininterruptamente, mesmo se um ou mais dos ...

Sobre a recuperação de dados Bitwar

3 etapas para recuperar mais de 500 tipos de documentos, fotos, vídeos, áudios e arquivos excluídos, formatados ou perdidos de vários cenários de perda de dados.

Saber mais

Artigos Quentes

    Artigos relacionados