Availability & Performance Monitoring

Table of Contents

Eigenes Monitoring

Zur Überwachung des Betriebszustandes unserer Computer gibt es bereits einige fertige beziehungsweise selbstgeschriebene Überwachungstools:

Lokale Suche nach Engpässen

Lokal können diverse Parameter “life” beobachtet werden:

  • sar
  • glances
  • latencytop (ben. root)
  • powertop (ben. root)
  • collectl bietet die Möglichkleit, mit einigermaßen hoher Samplerate (1 Hz) gleichzeitig viele Metriken zu erfassen und direkt an ein Storage- und Grafik-System wie z.B. Graphite weiterzuleiten.
  • dstat (vereinheitlichter Ersatz für vmstat, iostat und ifstat)
/usr/bin/dstat --time --sys --cpu --mem --page --swap --net --disk --load --proc --top-cpu --top-mem --top-io --top-bio --top-latency
Kategorie aggregiert stat. aggregiert dyn. per Prozess dyn.
CPU uptime mpstat htop, top
Memory free vmstat htop
Disk IO   iostat -d sudo iotop
Netzwerk /sbin/ifconfig ifstat, iptraf, ntop sudo iftop, sudo nethogs

Monitoring durch den ZID (NAGIOS, Icinga)

Weiter interessante Metriken

Für die weitere Überwachung wären noch einige zusätzliche Metriken nützlich:

  • Temperatur im ServerRaum und in den Racks (selberschreiben oder http://www.digitemp.com/ anpassen und in den Webserver integrieren
  • Ladezustand der großen USV (fällt weg)
  • Temperaturen innerhalb der Computer - vor allem Server, aber auch Workstations wären interessant: CPU, Mainboard/System, Festplatten. Das wäre vermutlich über ein Plugin für Ganglia (http://ganglia.sourceforge.net/gmetric/) am einfachsten zu realisieren. Zuätzlich nötige Software: lmsensors, mbmon, hddtemp.
  • Lüfterdrehzahlen (lmsensors + Ganglia)

Software

in Verwendung

nicht evaluiert

FTRACE

Vorspiel

mount -t debugfs none /sys/kernel/debug

SystemTap

Sleeping Beauties
Some threads, including kernel threads, sometimes go to sleep (in “D” state) for too long. Wouldn’t it be nice to find out what they are doing?

Author: Andreas Hirczy

Created: 2017-11-08 Mit 18:19

Validate XHTML 1.0