Projet

Général

Profil

Supervision et Log » Historique » Version 40

Version 39 (Mehdi Abaakouk, 08/09/2015 14:16) → Version 40/43 (Laurent GUERBY, 08/09/2015 14:23)

h1. Supervision et Log

{{>toc}}

h2. Présentation

La supervision utilise nagios, pnp4nagios et check_mk sur la machine "nagios.tetaneutral.net":http://nagios.tetaneutral.net
"check_mk":http://mathias-kettner.de/check_mk.html est à la fois:
* un outils qui génère la configuration de nagios
* une "commande" au sens nagios.
* une interface Web 2.0
pnp4nagios est un grapher des perfdatas de nagios, et il est intégré parfaitement à l'interface de check_mk
La gestion des logs s'effectue avec rsyslog sur la machine ttnnlog

La configuration et les scripts nagios sont versionnés ici:
<pre>
git clone git@git.tetaneutral.net:nagios nagios
</pre>

h2. Ajouter un machine à la supervision

Dans le fichier /etc/check_mk/main.mk ajouter dans le tableau "all_hosts" le nom de la vm suivie de tags comme ceci:

<pre>
nomdelavme|vm|ssh-2222|smtp|http
nomdelamahcine|phy|ssh-22|https|imaps
</pre>

Les fameux tag permet d'associé la machine à des check de services, des hostgroups et des servicesgroups
Par défaut seul le ping est effectué.
On peut ensuite étendre rapidement les checks avec les contrôles système.
Pour ceci il faut installé un agent sur la machine superviser, soit check-mk-agent, soit net-snmp.

h2. Installation rapide de check-mk-agent:

sur la machine, c'est automatiquement fait avec puppet.

sur nagios:

<pre>
check_mk -II nommachine && check_mk -O
</pre>

h2. Remonter d'alert a partir des fichiers de log

Sur puppet on peut modifier le fichier https://chiliproject.tetaneutral.net/projects/git-tetaneutral-net/repository/puppetmaster/revisions/master/entry/manifests/files/check-mk-agent-logwatch.cfg.erb
comme ceci:

<pre>
/var/log/messages
# Patterns are indented with one space are prefixed with:
# C: Critical messages
# W: Warning messages
# I: ignore these lines (OK)
# The first match decided. Lines that do not match any pattern
# are ignored
C Fail event detected on md device
I mdadm.*: Rebuild.*event detected
W mdadm\[
/data/www/*/*/syslog /data/www/*/*/kern.log
C Panic
C Oops
</pre>

Puis sur la machine nagios, dans le cas ou un nouveau fichier est ajouté:

<pre>
cmk -II mon machine
cmk -O
</pre>

h2. Fichier de configuration de check_mk

Les fichiers de configuration sont dans /etc/check_mk/
Le fichier principal est main.mk, la liste des contacts se trouve dans conf.d/contacts.mk
Les fichiers conf.d/autogen_*.mk sont générer par le script update_vm_parents_and_update_automap.sh
Il génère la liste des vm qui ne sont pas pressente dans main.mk avec les dépendances avec leurs nodes du cluster avec l'api d'openstack
Il génère aussi la map automap pour nagvis (/usr/local/nagvis/etc/Automap.cfg
Il est exécute toutes les 20 minutes

h2. Voir le diff entre la conf nagios et la page Architecture du Wiki

<pre>
/etc/check_mk/diff-nagios-wiki.sh
</pre>
Le script contrôle le VLAN admin et le 91.224.149.128/25.

h2. Configuration d'un nuc (ou autre linux) utilisé pour tunnel ADSL

Sur le nuc:

<pre>
$ apt-get install puppet
$ puppet agent --enable
$ puppet agent --server puppet.tetaneutral.net --certname=flambere.tunnel --pluginsync -vt
info: Creating a new SSL certificate request for flambere.tunnel
info: Certificate Request fingerprint (md5): 3F:E2:E2:14:B3:24:52:51:9D:DE:87:33:E8:2A:BB:7B
Exiting; no certificate found and waitforcert is disabled

</pre>

Sur la machine puppet dans le fichier /etc/puppet/manifests/nodes/adsl-tunnel.pp ajouter:

<pre>
node "flambere.tunnel" {
$puppet_certname="flambere.tunnel"
class{'tsf_nuc':}
}
</pre>

Puis taper:
<pre>
$ puppet ca sign flambere.tunnel
Notice: Signed certificate request for flambere.tunnel
Notice: Removing file Puppet::SSL::CertificateRequest flambere.tunnel at '/var/lib/puppet/ssl/ca/requests/flambere.tunnel.pem'
"-----BEGIN CERTIFICATE-----XXXXXXXXXXXXXXXXX\n-----END CERTIFICATE-----\n"
</pre>

Retourner sur le nuc et faire:

<pre>
$ puppet agent --server puppet.tetaneutral.net --certname=flambere.tunnel --pluginsync -vt
</pre>

Sur la machine nagios ajouter le host avec son ip:

<pre>
all_host = [
...
"flambere.tunnel|noipv6|noapt|adsltunnel",
...
]

ipaddresses['flambere.tunnel'] = '10.0.12.2'
</pre>

Puis taper:

<pre>
cmk -II flambere.tunnel && cmk -O
</pre>



h2. Configuration checkmk sur openwrt

Installer et configurer xinetd/check_mk_agent sur le router

<pre>
opkg update
opkg install xinetd
</pre>

Puis sur la machine nagios:

<pre>
scp /etc/check_mk/client-plugins/openwrt/check_mk_agent 10.0.50.2:/usr/bin/check_mk_agent
scp /etc/check_mk/client-plugins/openwrt/xinetd.d_check_mk 10.0.50.2:/etc/xinetd.d/check_mk
</pre>

Attention la ligne only_from de /etc/xinetd.d/check_mk est a mettre a jour manuelle si changement d'ip nagios

Sur le router

<pre>
/etc/init.d/xinetd restart
</pre>

De nouveau sur la machine nagios ajouter le router dans main.mk:

<pre>
all_host = [
...
"banyuls.tunnel|noipv6|adsltunnel",
...
]

ipaddresses['banyuls.tunnel'] = '10.0.50.2'

</pre>

Et taper:

<pre>
cmk -II router_openwrt && cmk -O
</pre>



h2. Installation de nucnagios:

Faire la préparation puppet (à partir la conf de l'ancien nagios)

<pre>
nucnagios $ puppet agent -vt --certname nucnagios.tetaneutral.net --pluginsync --server puppet.tetaneutral.net
puppet $ puppet ca sign nucnagios.tetaneutral.net
nuxnagios $ puppet agent -vt --certname nucnagios.tetaneutral.net --pluginsync --server puppet.tetaneutral.net
</pre>

*PNP4NAGIOS n'est temporairement pas dans jessie, d'ou le backport du package de jessie*
<pre>
root@nucnagios:~# mkdir pnp4nagios
root@nucnagios:~# cd pnp4nagios/
root@nucnagios:~/pnp4nagios# dget http://http.debian.net/debian/pool/main/p/pnp4nagios/pnp4nagios_0.6.24+dfsg1-4.dsc
dget: retrieving http://http.debian.net/debian/pool/main/p/pnp4nagios/pnp4nagios_0.6.24+dfsg1-4.dsc
...
dpkg-source: info: applying adjust-template-path
dpkg-source: info: applying privacy-warning
dpkg-source: info: applying config_instances
dpkg-source: info: applying install_opts
dpkg-source: info: applying hardening
root@nucnagios:~/pnp4nagios# cd pnp4nagios-0.6.24+dfsg1/
root@nucnagios:~/pnp4nagios/pnp4nagios-0.6.24+dfsg1# dpkg-checkbuilddeps
dpkg-checkbuilddeps: Unmet build dependencies: autotools-dev dh-autoreconf quilt rrdtool python-jsmin
root@nucnagios:~/pnp4nagios/pnp4nagios-0.6.24+dfsg1# apt-get install autotools-dev dh-autoreconf quilt rrdtool python-jsmin
...
root@nucnagios:~/pnp4nagios/pnp4nagios-0.6.24+dfsg1# dch --local ~ttnn1+ --distribution jessie-backports "jessie-backports"
root@nucnagios:~/pnp4nagios/pnp4nagios-0.6.24+dfsg1# dpkg-buildpackage -us -uc
dpkg-buildpackage: source package pnp4nagios
dpkg-buildpackage: source version 0.6.24+dfsg1-4~ttnn1+1
dpkg-buildpackage: source distribution jessie-backports
dpkg-buildpackage: source changed by root <root@nucnagios.tetaneutral.net>
dpkg-buildpackage: host architecture amd64
dpkg-source --before-build pnp4nagios-0.6.24+dfsg1
...
root@nucnagios:~/pnp4nagios/pnp4nagios-0.6.24+dfsg1# cd ..
root@nucnagios:~/pnp4nagios# dpkg -i pnp4nagios-bin_0.6.24+dfsg1-4~ttnn1+1_amd64.deb pnp4nagios_0.6.24+dfsg1-4~ttnn1+1_all.deb pnp4nagios-web_0.6.24+dfsg1-4~ttnn1+1_all.deb pnp4nagios-web-config-nagios3_0.6.24+dfsg1-4~ttnn1+1_all.deb
# ignorer les erreurs
root@nucnagios:~/pnp4nagios# apt-get install -f
</pre>
*FIN PNP4NAGIOS*

Préparation et installtion de la conf de checkmk

<pre>
$ rm -rf /etc/check_mk/
$ rm -f /etc/nagios3/conf.d/*nagios2*
$ git clone git@git.tetaneutral.net:nagios /etc/check_mk

Les sources de check mk doivent être télécharger ici: http://mathias-kettner.com/check_mk_download_source.html (Ne surtout pas prendre "The Check_MK Editions" Or "Cee" qui se trouve ailleurs sur le site)

$ wget http://mathias-kettner.com/download/check_mk-1.2.6p10.tar.gz
$ ln -sf /etc/check_mk/root_DOTcheck_mk_setup.conf /root/.check_mk_setup.conf # Copie de la configuration de checkmk
$ tar -xf check_mk-1.2.6p10.tar.gz
$ cd check_mk-1.2.6p10
$ ./setup.sh --yes
# Si rien apparait c'est bon.
$ cd /etc/check_mk
$ ./createlinks.sh
Stopping nagios3 (via systemctl): nagios3.service.
Stopping smokeping (via systemctl): smokeping.service.
$ cd clients-plugins
$ ./install_plugins.sh
</pre>

A partir de l'ancien nagios, copies des anciennes données

<pre>
/etc/init.d/nagios3 stop
/etc/init.d/somkeping stop
/etc/init.d/apache2 stop
cd /nagiosdata/
for i in var_*; do rsync --progress --delete -a -e 'ssh -p2222' $i/ nucnagios:/nagiosdata/$i/ ; done
</pre>

Sur le nouveau nagios, démarrage de nagios/apache/checkmk

<pre>
usermod -a -G nagios www-data
/etc/init.d/apache2 restart
cmk -R
</pre>

Ensuite sur la machine puppet changer les IPs autorisé à faire du checkmk

Puis sur le DNS faire pointer nagios sur les ips de nuc nagios.

h2. pingall

Liste validee au bout de 7 jours, pour forcer :
cmk -II pingall ; cmk -O

<pre>
/etc/check_mk/pingall.cache
/etc/check_mk/client-plugins/cmk_plugins/pnp-templates/check_mk-pingall.php
/etc/check_mk/client-plugins/cmk_plugins/agents/pingall
/etc/check_mk/client-plugins/cmk_plugins/checks/pingall
/etc/check_mk/pingall.conf
</pre>



h2. Liens vers outils de visualisation des logs

- http://logstash.net/
- http://kibana.org/