damits ueberhaupt mal irgendwie gemonitored wird, habe ich die ceph-nagios-plugins von github installiert.
damit die nagios plugins als user nagios ausgefuehrt werden duerfen, erstellt man einen extra keyring:
ceph auth get-or-create client.nagios mon 'allow r' > /etc/ceph/ceph.client.nagios.keyring
die check_ceph_* plugins kommen in meinem falle (weil opsview statt plain nagios) nach /usr/local/nagios/libexec/
die einzelnen commands muessen dem opsview agent bekannt gemacht werden, in dem man (exemplarisch) folgendes in die datei /usr/local/nagios/etc/nrpe_local/override.cfg schreibt:
command[check_ceph_health]=/usr/local/nagios/libexec/check_ceph_health $ARG1$
ansonsten kommts zu diesem fehler:
NRPE: Command ‘check_ceph_health’ not defined
und damit der user nagios auch darauf zugreifen darf, muss der keyring mit berechtigungen und entsprechendem besitzer versehen werden.
chmod 660 /etc/ceph/ceph.client.nagios.keyring
chown ceph.ceph /etc/ceph/ceph.client.nagios.keyring
den user nagios noch in die gruppe ceph aufnehmen:
usermod -a -G ceph nagios
eine besonderheit noch, da ich ceph von der proxmox installation verwende. die ceph.conf unterhalb von /etc/pve darf nur vom user root und der gruppe www-data gelesen werden. daher nehme ich den user nagios noch in die www-data gruppe auf.
usermod -a -G www-data nagios
ansonsten kommts zu so einem fehler:
Error initializing cluster client: PermissionDeniedError(‘error calling conf_read_file’,)
und damits greift, noch einmal den opsvie agent neu starten.
/etc/init.d/opsview-agent restart
und funktioniert… hier die beispiel benachrichtigungen:
Thanks for this article. Very interesting and that what i searched for. Do you also use “check_ceph_osd”. That seems not to work because of no reed rights in /etc/pve.
Do you also have trouble with that?
no… i dont’t use that.