La chasse aux métriques : comment j ai monitoré mon homelab comme un pro
Je vais être honnête : pendant longtemps, mon serveur fonctionnait un peu au feeling. “Tiens, Plex rame un peu aujourd’hui” — suivi de 15 minutes à ssh-er partout, à checker les logs, à grogner contre le kernel. Jusqu’au jour où j’ai décidé qu’il était temps de METTRE DES CHIFFRES sur tout ça.
Résultat : une stack de monitoring complète, avec des graphes partout, des alertes qui me préviennent quand un disque va claquer, et un tableau de bord qui me permet de briller en société.
Le trio gagnant : Prometheus + Grafana + Alertmanager
J’ai tout mis sur des containers Docker, évidemment. Parce que l’époque où on installait des paquets à la main sur le système, c’est fini.
- Prometheus récupère les métriques de tous mes services
- Grafana affiche des dashboards magnifiques
- Alertmanager m’envoie des notifications si quelque chose cloche
Le tout tourne sereinement sur le réseau br0 de mon Unraid, avec des IPs statiques parce que j’aime quand tout est bien rangé.
Les exporters : TOUT monitorer
J’ai fini par installer des exporters pour absolument tout ce qui bouge sur le serveur :
Disques et système :
- Node Exporter — CPU, RAM, réseau, filesystems. La base.
- SMART Exporter — l’état de santé de mes disques, les températures, les heures de fonctionnement. Mes disques SAS Seagate à 30000h ? Sous surveillance.
- cAdvisor — les métriques de tous mes containers Docker en temps réel
Applications :
- Plex Exporter — sessions actives, transcodes, bibliothèque, bande passante
- qBittorrent Exporter — torrents en cours, ratio, vitesse download/upload
- PostgreSQL Exporter — ma base Nakama
- MySQL Exporter — ma base WordPress
- OneDev Exporter — mon Git server
Sécurité et réseau :
- Geo Exporter — une carte des attaques en temps réel (oui, j’ai ça)
La purge du printemps
En Mai 2026, j’ai fait un grand ménage. J’avais pas mal de doublons qui traînaient — le plugin natif prometheus_node_exporter d’Unraid qui faisait double emploi avec mon container Docker, et un smartctl-exporter officiel qui n’était même pas scrappé par Prometheus. Supprimés.
J’en ai profité pour passer les intervalles de scrape de 1h à 15mn pour le SMART, histoire d’être alerté plus vite si un disque commence à montrer des signes de faiblesse.
Les alertes qui sauvent
J’ai configuré Alertmanager avec des règles qui surveillent :
- SMART failed — si un disque passe en failed, je suis prévenu direct
- Reallocated sectors — signe avant-coureur de la mort d’un disque
- Température excessive — au-delà de 50°C, je reçois une notification
- Container restart — si un container crash et redémarre, je le sais
Le tableau de bord ultime
Grafana m’affiche tout ça sur des dashboards magnifiques :
- SMART Disk Health — la santé de tous mes disques en un coup d’œil
- Immich — l’usage de ma galerie photo
- qBittorrent — l’activité torrent en live
Le tout accessible tranquillement depuis mon navigateur.
Et la suite ?
Je compte ajouter des alertes sur l’espace disque (parce que certains de mes disques XFS sont à 99%… oui, je sais, il faut que je fasse du ménage), et peut-être un exporter pour suivre la consommation électrique.
Mais le plus important : maintenant, quand quelqu’un me dit “ton serveur est lent”, je peux sortir un graphique et dire “non, regarde, tout va bien, c’est ta connexion” 😎