User Tools

Site Tools


long_ago:monitoring

Monitoring - aber bitte richtig

Da gibt da ein etwas größeres Unternehmen, nennen wir es Unternehmen-A. Das hatte (und hat) eine Software im Einsatz, die von einer Firma - nennen wir sie Firma-B - unserer Unternehmensgrupe kommt. Für den Betrieb der Software benötigt man eine Datenbank, hier war es der Firebird Server1). Der sollte, das war die Vorgabe von Firma-B, unter Linux laufen. Ich wurde mit hinzugezogen, da es eine etwas größere Umgebung werden sollte und ich etwas mehr Erfahrung mit solchen Umgebungen habe.

Ich ließ mir erstmal von den Projektleitern des Unternehmes-A und der Firma-B alle Unterlagen geben, um mir einen Eindruck darüber zu verschaffen was die da verzapft haben. Denn - ich wurde, wie üblich - erst hinzugerufen als alles schon geplant war und es an die Umsetzung gehen sollte. Also den ganzen Sermon durchgearbeitet, mich mit der IT von Unternehmen-A unterhalten, wollte ein paar Sachen richtigstellen, beziehungsweise klarstellen. Dumm nur, das ich nicht studiert habe. Mein Gesprächspartner war ein studierter Informatiker - und ich, so kam es mir vor, nur irgendein Fuddel. Nun gut, damit wurde das halt ein sehr formales Gespräch, bei dem ich jeglichen Versuch eines lockeren Umgangstones rigoros unterbunden hatte. Man mochte sich…

Irgendwann ging es dann um den Datenbank-Server, Partitionsgrößen, RAM, CPU-Kerne, was zu monitoren ist und so weiter. Aufgrund des geschätzten Wachstums hatte ich denen gesagt die Partition für die Datenbank sollte erstmal 100 GB haben, die Partition für das Backup 200 GB - damit man für Wartungsarbeiten auch mal ein wenig Platz zum spielen hat. Zu monitoren sind RAM, CPU und freier Platz auf der Partition mit der Datenbank.

Das System wurde getestet, lief anscheinend auch alles, ich habe nichts mehr von Unternehmen-A oder dessen IT gehört. Bis ich dann eines morgens gerade ins Büro gekommen bin und mein Firmenhandy Alarm klingelte. Ein Blick, Telefonnummer von unserer Firma-B - der Supporter, der Unternehmen-A hauptsächlich betreute. Gespräch angenommen “Hallo kleiner Dilettant, du musst sofort mit in die Telco, bei Unternehmen-A brennt die Hütte, die bekommen lauter Fehler, können nichs speichern!” “Ok, geht los, lass mich noch kurz'nen Kaffee organisieren und den Rechner hochfahren. Kannst du bitte schon mal den Zugriff auf den DB-Server herstellen?” “Habe ich schon, muss das mit dem Kaffee echt sein” “Ja!” Rechner gestartet, angemeldet, kurz in die Kaffeeküche, 'nen Eimer Kaffee eingeschenkt, Headset auf - ab in die Telco. Höre ich gerade den o.g. studierten Informatiker - völligst am freidrehen. Wir wären ja alle unfähig und so…, faselte irgendwas von Entschädigung für den Umsatzverlust.

Kollege hatte mir zwischendrin die Zugangsinformationen für den DB-Server rübergeschickt - die Partition für die Datenbank war bis zum Stehkragen voll. Hmmm, strange, ich hatte denen gesagt das Monitoring sollte bei 20% freiem Platz warnen und bei 10% Alarm schlagen. Außerdem war die Partition nur halb so groß wie ich vorgeschlagen hatte. FunFun… Bin dann mal kurz in die var/log-Ecke abgebogen und mir das auth.log angeschaut. Da stand dann oben als fast erster Eintrag <Zeitstempel> <Source IP> Monitoring-User "Access denied, wrong password"

Das wiederholte sich bis an das Ende des auth.log… kurz geschaut, gab noch auth.log.1 bis aut.log.5 - für jeden Monat ein Logfile. Also mal kurz ins auth.log.5 - also das älteste - geschaut, was sehe ich da auf den ersten Zeilen? Richtig - Monitoring-User darf nicht rein.

Mir von allem Screenshots gemacht, Mikro aktiviert und mich kurz geräuspert. Damit hatte ich die Aufmerksamkeit auf meiner Seite - “Meine Herren, ich schicke jetzt eine Mail an alle hier versammelten Teilnehmer. Wenn alle die Mail empfangen haben, werden wir darüber sprechen was passiert ist - und warum.” Mail versendet, ich hörte bei einigen das Pling für eine neu eingetroffene Mail. “Haben alle die Mail erhalten? Wunderbar, machen wir es kurz und schmerzlos. A) die Größe der Partition für die Datenbank entspricht nicht dem was ich vorgeschlagen habe - macht aber nichts, weil B) liebe IT von Unternehmen-A - ihr habt da ein klitzekleines Problem mit dem Monitoring, und das seit mehr als einem Monat” Ich hörte nur noch ein Aufstöhnen und das Abmeldesignal wenn jemand die Telco verlässt. War dann die IT von Unternehmen-A. Bei den anderen Teilnehmern von Unternehmen-A herrschte betretenes Schweigen.

Zu Unternehmen-A und deren IT habe ich noch so 2-3 Sachen auf Lager…

1)
Es wurde damals die Version 2.1 eingesetzt. Der fehlte noch die Funktion selbstständig die Arbeit einzustellen wenn es keinen Platz mehr für die Datenbank gibt. Da konnte es dann auch passieren das die Datenbank beschädigt wird, indem sie ihren eigenen Header überschreibt. Das wurde erst mit Version 2.5 behoben.
long_ago/monitoring.txt · Last modified: 2024-01-10 12:18 by kleiner-dilettant