Tag: opsview

opsview: The table ‘nagios_servicechecks’ is full

mein opsview hat die tage wieder mal gestreikt. ich erinnerte mich, doch irgendwo schonmal was aufgeschrieben zu haben. in den entwuerfen meines blogs bin ich fuendig geworden. wie man am datum der logeintraege sehen kann, ists schon ein paar tage her. ich hab das ganze mal aktualisiert und voila.. da isses:

####

heute morgen hat mein nagios bzw. opsview seinen dienst quittiert. im logfile waren solche eintraege zu finden:

[2015/04/12 02:09:45] [import_ndologsd] [FATAL] Error for 1428796429.397065 in handle_SERVICECHECKDATA: Insert failed: The table ‘nagios_servicechecks’ is full
[2015/04/12 02:09:45] [import_ndologsd] [WARN] Failed to import 1428796429.397065
[2015/04/12 02:09:45] [import_ndologsd] [FATAL] Error for 1428796433.896315 in handle_SERVICECHECKDATA: Insert failed: The table ‘nagios_servicechecks’ is full
[2015/04/12 02:09:45] [import_ndologsd] [WARN] Failed to import 1428796[2015/04/12 07:38:50] [nrd] [WARN] 2015/04/12-07:38:50 Server closing!

ok, die mysql datenbank ist 22GB gross und die tabelle ‘nagios_servicechecks’ hat rund 60 millionen eintraege. was der limitierende faktor war, konnte ich auf die schnelle nicht rausfinden. normalerweise sollten in dieser tabelle nur daten von einer woche vorgehalten werden. also in mysql den befehl ausfuehren:

DELETE FROM nagios_servicechecks WHERE start_time <= '2014-07-01 00:00:00';

ursache: fehlende cronjobs! bei der letzten migration auf einen anderen server sind die entsprechenden crontab eintraege fuer den nagios user "verloren" gegangen.
dieser cronjob sollte fuer den user nagios eingerichtet sein:

11 4 * * * . /usr/local/nagios/bin/opsview_master_housekeep

nagios, opsview, otrs, iphone und so

wie manche mitbekommen haben, bin ich in bezug auf smartphones (zumindest vorruebergehend) auf die dunkle seite der macht gewechselt und habe mir ein iphone zugelegt.

ab und zu brauche ich ein nagios und ein otrs, was ich nun auch endlich statt mit dem browser auch als app auf dem handy benutzen kann. fuer den blackberry gibts komischerweise nichts gescheites fuer nagios. ausserdem bin ich von nagios abgekommen und nutze nun opsview zur ueberwachung von servern. fuer opsview gibts mittlerweile auch eine android app, aber ich hab jetzt momentan kein android phone mehr. fuers iphone gibts den inag ngios viewer, welcher uebrigens noch den charme hat, dass nicht direkt aufs nagios bzw. opsview zugegriffen wird. das funktioniert naemlich ueber ein stueck php, welches man auf irgendeinen webserver installiert, der zugriff auf die nagios logs etc hat. der zugriff wird ueber einen key, basicauth und ssl abgerundet. ok, die app kostet 11,99 euro, aber gut gepflegt und das geld wert.

hier ein paar screenshots zur tactical overview, services und dem eventlog (anklicken zum vergroessern):

und dann noch die geniale otrs iphone app, welche uebrigens kostenlos ist. die einzige vorraussetzung ist das installierte iphone handle auf dem otrs server. endlich bequem tickets bearbeiten, ohne dafuer die weboberflaeche auf einem viel zu kleinen bildschirm bemuehen zu muessen… (anklicken zum vergroessern)

jetzt fehlt nur noch ein iphone mit einem richtigen akku.

opsview updated failed

auf meinem quasi frischen nagios server ist gleich das erste update auf die nase gefallen.

Preparing to replace opsview-core 3.13.0.6479-1squeeze1 (using .../opsview-core_3.13.1.6691-1squeeze1_all.deb) ...
Environment not set - have you run 'su - nagios'?
invoke-rc.d: initscript opsview, action "stop" failed.
dpkg: warning: subprocess old pre-removal script returned error exit status 2
dpkg - trying script from the new package instead ...
Environment not set - have you run 'su - nagios'?
invoke-rc.d: initscript opsview, action "stop" failed.
dpkg: error processing /var/cache/apt/archives/opsview-core_3.13.1.6691-1squeeze1_all.deb (--unpack):
 subprocess new pre-removal script returned error exit status 2
configured to not write apport reports
                                      Nagios already running
invoke-rc.d: initscript opsview, action "start" failed.
dpkg: error while cleaning up:
 subprocess installed post-installation script returned error exit status 2
Errors were encountered while processing:
 /var/cache/apt/archives/opsview-core_3.13.1.6691-1squeeze1_all.deb
E: Sub-process /usr/bin/dpkg returned an error code (1)

mit ein bischen suchen habe ich auch bald eine loesung gefunden. das problem war, dass die datei .profile im home des user nagios nicht komplett war. scheinbar hat das bei der urspruenglichen installation nicht hingehauen. so kriegt man das wieder auf die reihe:

echo "test -f /usr/local/nagios/bin/profile && . /usr/local/nagios/bin/profile" >> ~nagios/.profile
chown nagios:nagios ~nagios/.profile