Service-Monitoring

Service-Monitoring ist eine Systemsoftware, die Messwerte von IT Diensten, deren Servern, Hostrechnern und Rechnernetze überwacht. Service-Monitoring kann unterschiedliche Systemressourcen, aber auch die Geschäftslogik der Anwendung selbst, überwachen. So werden kritische Systemlasten und Zustände vor einem potentiellen Ausfall festgestellt und ermöglichen Gegenmaßnahmen, indem Dienste skaliert oder Softwarefehler debugged werden.

Service-Monitoring dringt unterschiedlich tief in die IT-Komponenten ein:[1]

Black-Box-Monitoring
Überwacht das von extern sichtbare Verhalten einer Anwendung, so wie es ein Benutzer sehen würde.
White-Box-Monitoring
Überwacht Metriken die von der Anwendungen selbst dem Service-Monitoring angeboten werden.

Bereiche

Service-Monitoring kann unterschiedliche Bereiche von IT Services überwachen:

Infrastruktur
die Systemressourcen der IT-Infrastruktur wie Prozessorauslastung, Load, RAM Auslastung, Speicherkapazität von Festplatten oder Fehlerraten.
Netzwerk
Netzwerke und deren Hardware (z. B. Server, Router, Switches) und Dienste (z. B. DNS, DHCP), Datenverkehr, Latenz, Timeouts.
Systemsoftware
Systemsoftware wie Web-, Mail-, Datenbankserver, Verzeichnisdienst oder Message Broker
Application Monitoring
Es kann aber auch die Geschäftslogik der Anwendung selbst überwacht werden. So können anwendungsspezifisch Anzahl und Dauer von Prozessen gemonitored werden. Beispielsweise kann die Anzahl oder Steigerung von laufenden Geschäftsprozessen, die Dauer bestimmter Funktionalitäten oder die aktuelle Benutzerzahl überwacht werden.

Zusätzlich können Service-Monitoring-Systeme durch Traceing Fehler auch über Bereichsgrenzen hinweg in Zusammenhang setzen.

Schnittstelle

Grafana-Dashboard mit InfluxDB und Prometheus (Software) etc. als Datenquellen.

Die Messwerte werden lang- oder kurzfristig gespeichert und zur Zeitreihenanalyse graphisch in einer Weboberfläche für einzelne Messwerte oder in einem Dashboard gesammelt, dargestellt.

Beim überschreiten von mehreren definierten Schwellenwerten werden Alerts ausgelöst. Die Schwellwerte sind nach Kritikalität, ähnlich Log-Levels, abgestuft. Beispielsweise wird bei Festpattenpazität von 80 % eine Warnung, bei 95 % eine kritische Warnung, ausgelöst. Administratoren oder Dienstbetreiber können mit E-Mail, SMS oder Instant Messaging benachrichtigt werden, um proaktiv eingreifen zu können. So lange Alerts aktiv sind, werden diese in einer Weboberfläche angezeigt und es können regelmäßige Wiederholungen versendet werden. Wenn der auslösender Schwellenwert wieder im Normbereich liegt, kann dieses ebenfalls als Benachrichtigung versendet werden.

Liste von Monitoring-Software

Einzelnachweise

  1. sre.google/ - Monitoring Distributed Systems

Auf dieser Seite verwendete Medien

Beispiel Grafana Dashboard .png
Autor/Urheber: NicoAsbach, Lizenz: CC BY-SA 4.0
Grafana Dashboard