Différences

Ci-dessous, les différences entre deux révisions de la page.

--- sysadmin [2020/01/31 17:07] – [Surveillance système] lpieri
+++ sysadmin [2020/01/31 17:34] – [Gestion des utilisateurs] lpieri
@@ Ligne 100: / Ligne 100: @@
   * Les permissions qui lui sont attribuées directement
   * Toutes les permissions si il est **Grafana Admin**
+===== Gestion des alarmes =====
+Comme expliqué plus haut, les alarmes sont gérées par AlertManager.
+AlertManager récupère les alertes remontées par Prometheus et les dispatche au personnes concernées. Il est aussi capable de mettre en silence certaines alertes et d'en regrouper d'autres pour ne pas inonder les boites de réception. Par exemple : l’hébergeur subit une coupure d’électricité, toutes les instances ne fonctionnent plus. Si une alerte doit être déclenchée à chaque fois qu'une instance n'est plus accessible, alors Alermanager n'enverra qu'un e-mail indiquant toutes les instances inaccessibles.
+[[https://blog.debugo.fr/tuto-monitoring-prometheus-partie-4-alertmanager/|Installation et configuration d'AlertManager]]
+Le fichier de configuration global d'AlertManager se trouve **/etc/alertmanager/alertmabager.yml**, il contient :
+  * les informations de connexions au serveur smtp
+  * la liste des destinataires des alertes
+  * la configuration du silence et du regroupement des alertes
+La configuration des alertes en elle-mêmes est rédigée dans le dossier **/etc/prometheus/alerting_rules/*_rule.yml**. La convention veut que les fichiers des règles portent le nom du groupe auxquels ils appartiennent puis **_rule.yml**.
+Dans ces fichiers sera décrit :
+  * le groupe
+  * le nom de l'alerte
+  * la requête prometheus qui va identifier le comportement déclenchant l'alerte
+  * le temps avant que l'alerte soit déclenchée
+  * un label pour identifier la sévérité de l'alerte (page, warning, high, critical...)
+  * un sommaire et une description : c'est ce qu'on retrouvera dans la notification
+Plusieurs alertes peuvent-être configurées dans un même fichier, à condition qu'elles fassent parties du même groupe.
+alertes ont déjà été configurées :
+  * une alerte si le serveur dev n'est plus accessible pendant plus d'une minute.
+  * une alerte si le disque du serveur dev possède moins de 5% de capacité libre pendant plus de une minute.
+**Attention !** A chaque de fois qu'un fichier d'alerte est créé, il faut vérifier :
+  * que les droits du fichier sont prometheus:prometheus
+  * que le fichiers est correctement construit avec la commande **promtool check rules path/to/the/rule**
+  * relancer prometheus avec **sudo systemctl restart prometheus**