Uma breve introdução à tolerância a falhas

Last Updated: 2021-10-26
4.6
(23)
Summary: Tolerância a falhas significa a capacidade do sistema de continuar a operar ininterruptamente, mesmo se um ou mais de seus componentes falharem. Neste artigo, daremos uma introdução mais detalhada à tolerância a falhas.

Definição de tolerância a falhas

A tolerância a falhas refere-se à propriedade que permite que o sistema continue a funcionar corretamente mesmo quando alguns de seus componentes falham. Em outras palavras, tolerância a falhas significa como um sistema operacional (SO) responde e permite mau funcionamento e falha de hardware ou software.

A capacidade do sistema operacional de recuperar e tolerar falhas pode ser tratada por meio de software, hardware ou uma solução combinada que aproveita balanceadores de carga. Alguns sistemas de computador usam vários sistemas de tolerância a falhas duplicados para lidar com falhas normalmente, o que é chamado de rede tolerante a falhas.

A computação tolerante a falhas inclui vários níveis de tolerância:

  • To nível mais baixoA capacidade de responder a uma falha de energia.
  • Um passo à frenteou nível de fortalecimentoA capacidade de usar o sistema de backup imediatamente se um sistema falhar.
  • Nível avançado:Quando um disco falha, os discos espelhados assumem imediatamente o controle. Este nível oferece funcionalidade apesar das falhas parciais do sistema ou degradação esperada, em vez de uma interrupção imediata e perda de funcionalidade.
  • Alto nívelVários processadores colaboram para varrer os dados e gerar a saída para detectar erros e, em seguida, corrigi-los imediatamente.

Os sistemas tolerantes a falhas usam componentes de backup que substituem automaticamente os componentes com falha para garantir que nenhuma interrupção ocorra no serviço.

  • Os sistemas de hardware têm o mesmo sistema operacional de backup ou equivalente. É tolerante a falhas que um servidor com o mesmo servidor tolerante a falhas espelhe todas as operações em um backup e seja executado em paralelo. Ao eliminar um único ponto de falha, a tolerância a falhas de hardware de forma redundante pode tornar qualquer componente ou sistema mais seguro e confiável.
  • Sistemas de software com backup de outras instâncias de software. Por exemplo, se os usuários replicarem o banco de dados do cliente continuamente e se o primeiro banco de dados for fechado, as operações no banco de dados principal podem ser redirecionadas automaticamente para o segundo.
  • Se fontes alternativas podem assumir automaticamente durante falhas de energia, a energia redundante pode ajudar a evitar falhas do sistema e garantir que os serviços não sejam perdidos.

CulpaToleranceTtécnicas

  1. ReplicaçãoEle fornece várias instâncias idênticas do mesmo sistema ou subsistema, tarefas ou solicitações diretas para todas as instâncias em paralelo e seleciona os resultados corretos com base na arbitragem.
  2. Computação alheia a falhasEle permite que os programas de computador continuem em execução apesar dos erros, que podem ser aplicados em diferentes contextos.
  3. Pastoreamento de recuperaçãoÉ uma técnica leve que permite que os programas de software se recuperem de erros que de outra forma seriam fatais.
  4. Disjuntor:Este padrão de design é uma técnica para evitar falhas catastróficas em sistemas distribuídos.

RequisitosDe tolerância a falhas

A seguir estão os requisitos de características primárias para tolerância a falhas:

  1. Nenhum ponto único de falhaSe o sistema falhar, ele deve continuar a operar durante o reparo sem interrupção.
  2. Isolamento de falha para o componente com falhas:Em caso de falha, o sistema deve ser capaz de isolar a falha do componente em questão. Isso requer a adição de mecanismos de detecção de falhas dedicados que existem apenas para isolamento de falhas. A recuperação de um estado de falha requer classificação de falhas ou componentes com defeito
  3. Contenção de falhas para prevenira propagaçãodo fracassoAlguns mecanismos de falha podem causar falhas no sistema pela propagação de falhas para o resto do sistema. O “transmissor invasor” é um exemplo de falha que leva à comunicação legítima no sistema e causa a falha completa do sistema. Um transmissor malicioso ou componente com falha precisa ser isolado para proteger o firewall do sistema ou outros mecanismos.
  4. Disponibilidade de modos de reversão.

DisadvantagesDe tolerância a falhas

  • Custo.
  • Componentes inferiores.
  • Interferência com detecção de falha em outro componente.
  • Interferência com detecção de falhas do mesmo componente.
  • Redução da prioridade de correção de falhas.
  • Dificuldade do teste.

ExemplosDe tolerância a falhas

Às vezes, a tolerância a falhas de hardware exige que as peças danificadas sejam removidas e substituídas por novas peças enquanto o sistema ainda está funcionando. Esses sistemas implementados usando um único backup são chamados de tolerância de ponto único e representam a grande maioria dos sistemas tolerantes a falhas.

A tolerância a falhas é bem-sucedida em aplicativos de computador. A Tandem Computers constrói todo o seu negócio nesses computadores, que usam uma tolerância de ponto único para criar seus sistemas ininterruptos, que se acumulam com o passar dos anos.

Uma arquitetura à prova de falhas também pode incluir software de computador, como replicação por meio de processos.

Os formatos de dados também podem ser projetados para degradar naturalmente. Por exemplo, o HTML é projetado para ser compatível com versões futuras, permitindo que os navegadores da web que não os entendem, sem tornar o documento inutilizável, ignorem novas entidades HTML.

How useful was this post?

Click on a star to rate it!

Average rating 4.6 / 5. Vote count: 23

Nenhum voto até agora! Seja o primeiro a avaliar esta postagem.

Previous Article

What’s New in Bitwar HEIC Converter for Mac V2.0.0 Summary: Fault tolerance means the ability of the system to continue to operate uninterruptedly, even if one or more of...

Next Article

Quick Fix: The Volume Does Not Contain A Recognized File System Error Summary: Fault tolerance means the ability of the system to continue to operate uninterruptedly, even if one or more of...

About Bitwar Data Recovery

3 Steps to get back 500+ kinds of deleted, formatted or lost documents, photos, videos, audios, archive files from various data loss scenarios.

Learn More

Hot Articles

Related Articles

90% OFF