Überblick
Hochverfügbarkeitssysteme werden eingesetzt, um das Risiko eines Gesamtsystemausfalls, bedingt durch Ausfall einer einzelnen Komponente (SPOF, Single-Point-Of-Failure), zu minimieren. Solche Systeme beruhen i.d.R. auf redundanten Einzelsystemen, d. h. mehrere gleichartige Systeme mit identischem Datenbestand werden parallel betrieben. Eines dieser Einzelsysteme ist das Hauptsystem, auf das im Normalfall von den Anwendern zugegriffen wird. Ein weiteres System ist das Reservesystem. Fällt das Hauptsystem aus, wird automatisch auf das Reservesystem umgeschaltet. Dabei spielt es keine Rolle, ob der Ausfall durch eine plötzliche, nicht vorhersehbare Ursache (z. B. Hardware-Defekt) oder durch geplante Wartungsaktivitäten verursacht wurde.
Zur Feststellung eines Fehlers kann eine bestimmte Meldung des System-Monitoring verwendet werden (z. B. das S.M.A.R.T.-Protokoll zum Erkennen von Festplattenfehlern). Ergänzt wird dieses Verfahren durch regelmäßige Systemanfragen, die korrekt beantwortet werden müssen. Diese Art der Anfragen nennt man auch Heartbeats. Heartbeats können auf verschiedenen Systemebenen aktiv sein, bspw. bestimmte Applikationsanfragen (z. B. application pings) oder Systemressourcenüberwachung, wie z. B. Hardware-Monitoring. Der Fehlerfall tritt beim Auftreten einer Systemfehlermeldung oder beim Ausbleiben der Antwort auf ein Heartbeat ein. Automatisch wird in diesem Fall auf das Reservesystem umgeschaltet und eine Nachricht an den Systemadministrator verschickt.
Nach Umschalten auf das Ersatzsystem kann der Fehler des Hauptsystems analysiert und behoben werden. Wenn der Fehler behoben ist, kann nach Synchronisation des Datenbestandes wieder auf das Hauptsystem umgeschaltet werden. Hochverfügbarkeitssysteme unterscheiden die beiden Strategien Hot-Standby und Cold-Standby.
Hot-Standby bedeutet, dass ein System im Fehlerfall nach außen immer ohne Unterbrechung auch während einer aktiven Sitzung verfügbar bleibt. Wenn das Hauptsystem ausfällt und ein Ersatzsystem aktiviert wird, merkt der Anwender nichts von diesem Vorgang. Die Umschaltung auf das Ersatzsystem erfolgt verzögerungsfrei und mit Beibehaltung aktiver Anwendersitzungen. Diese Strategie wird überwiegend für sogenannte mission critical Systeme eingesetzt, bei denen z. B. Sicherheit der Allgemeinheit und Gesundheit von Menschen bedroht sind.
Im Gegensatz zu Hot-Standby erlaubt Cold-Standby bei Ausfall des Hauptsystems eine bestimmte Zeitspanne, währenddessen das Reservesystem aktiviert wird und die Umschaltung auf das Reservesystem erfolgt. Während der Umschaltungsphase ist das System nicht verfügbar. Das bedeutet auch, dass nicht garantiert ist, dass aktive Anwendersitzungen wieder aufgenommen werden können, wenn das System nach Umschalten auf das Ersatzsystem wieder zur Verfügung steht.
PPM Hochverfügbarkeitssystem
PPM ist eine analytische Applikation, die Daten importiert, berechnet und in einem Datenbankschema speichert. Die Integrität der Daten muss vom verwendeten Datenbanksystem gewährleistet werden. Durch erneutes Einlesen der Nutzdaten lässt sich ein bestimmter Systemzustand jederzeit wiederherstellen. PPM selbst unterstützt direkt weder Hochverfügbarkeitskriterien noch Adaptive Computing-Konzepte, wie die Wiederherstellung einer unterbrochenen Sitzung zwischen PPM-Server und -Client. Indirekt lassen sich aber Szenarien realisieren, in denen zwischen dem Hauptsystem und einem vorhandenen Reservesystem umgeschaltet werden kann. Dabei sind aber jedoch bestimmte Ausfallzeiten in Kauf zu nehmen, in denen das PPM-System nicht verfügbar ist (Cold-Standby).
Zur Einrichtung eines solchen PPM-Hochverfügbarkeitssystems empfiehlt sich die 3-Ebenen-Systemkonzeption. Das heißt, der von PPM verwendete Datenbankserver wird in ein eigenständiges System ausgelagert, das bereits Hochverfügbarkeitskriterien entspricht. In der Regel bieten die Hersteller von Datenbanken für ihre Produkte auch Hochverfügbarkeitsversionen an. Die übrigen Komponenten des PPM-Systems werden auf einem weiteren System installiert und betrieben.
Archivieren Sie in regelmäßigen Abständen wie im Kapitel Archivierung beschrieben das PPM-System. Bei einem Ausfall des PPM-Systems verfahren Sie für ein neues System mit vergleichbaren Hardware-Eigenschaften wie im Kapitel Rücksichern beschrieben.