Sistemas de alta disponibilidade

Visão geral

Os sistemas de alta disponibilidade são usados para minimizar o risco de falha de todo o sistema causado pela falha de um componente individual (SPOF, ponto único de falha). Esses sistemas baseiam-se geralmente em sistemas redundantes individuais, ou seja, vários sistema idênticos com dados idênticos são operados em paralelo. Um desses sistemas individuais é o sistema principal que os usuários normalmente acessam. Outro sistema é o sistema de backup. Se o sistema principal falhar, o sistema de backup assume automaticamente. A causa da falha é irrelevante, por exemplo, sejam causas repentinas e imprevisíveis como problemas de hardware ou atividades de manutenção planejadas.

Para identificar um erro, poderá ser usada uma mensagem específica de monitoramento do sistema (por exemplo, o protocolo S.M.A.R.T. para identificar erros do disco rígido). Este procedimento é complementado por consultas frequentes do sistema que exigem uma resposta correta. Este tipo de consultas é chamado de pulsações. As pulsações podem estar ativas em vários níveis do sistema, como consultas de aplicativo específicas (por exemplo,  pings de aplicativo) ou monitoramento dos recursos de sistema, por exemplo, monitoramento do hardware. Os erros ocorrem quando ocorre uma mensagem de erro do sistema ou se não houver resposta a uma pulsação. O sistema de reserva assume automaticamente e é enviada uma mensagem para o administrador do sistema.

Depois da comutação para o sistema de backup, o erro no sistema principal pode ser analisado e corrigido. Quando o erro é corrigido, o sistema principal pode assumir novamente após a sincronização dos dados. Os sistemas de alta disponibilidade se distinguem entre duas estratégias de espera ativa e espera passiva.

A espera ativa significa que, em caso de falha, um sistema permanece disponível mesmo durante uma sessão ativa. Os usuários não notam quando o sistema principal falha e um sistema de backup é ativado. A alternância para o sistema de backup ocorre sem atrasos e sem interrupções das sessões do usuário ativo. Esta estratégia é usada principalmente em sistemas críticos, por exemplo, quando a segurança e integridade do público geral estão ameaçadas.

Se o sistema principal falhar, a espera passiva em contrate com a espera ativa proporciona uma determinada extensão de tempo durante a qual o sistema de backup é ativado e o sistema alterna para a operação do sistema de backup. Durante a fase de alternância o sistema não está disponível. Isso significa que não é certo que as sessões de usuário ativas serão retomadas quando o sistema está novamente disponível após a alternância para o sistema de backup.

Sistema de alta disponibilidade PPM

O PPM é um aplicativo analítico que importa dados, calcula-os e depois os salva em um esquema do banco de dados. O sistema de banco de dados usado deve assegurar a integridade dos dados. Você pode restaurar um status de sistema específico em qualquer momento, importando os dados de referência novamente. O PPM ele mesmo não suporta critérios de alta disponibilidade ou conceitos de computação adaptáveis, tal como o restauro de uma sessão interrompida entre o servidor PPM e o cliente. Todavia, você pode implementar cenários indiretamente nos quais pode alternar entre o sistema principal e um sistema de backup existente. Contudo, você precisa aceitar um determinado tempo de inatividade durante o qual o sistema PPM está indisponível (espera passiva).

É recomendado um conceito de sistema de 3 níveis para configurar esse sistema de alta disponibilidade PPM. Isso significa que o servidor de banco de dados usado pelo PPM é transferido para um sistema independente que já preenche os critérios de alta disponibilidade. Geralmente, os fabricantes de bancos de dados oferecem versões de alta disponibilidade dos seus produtos. Os outros componentes do sistema PPM são instalados e operados em ainda outro sistema.

Arquive o sistema PPM em intervalos regulares conforme descrito no capítulo Arquivamento. Em caso de falha do sistema PPM, proceda conforme descrito no capítulo Restauro para um novo sistema com propriedades de hardware comparáveis.