22H34 - 30 OCT 2024

by Tyleo Dv. Delaware

Share

Hier soir, 22h34.

Ma supervision Tianji se déclanche et m'alerte que les ports 80-443 d'Avalon, mon serveur central, viennent de tomber.

Celà n'arrive jamais. Même si la gateway zoraxy cluster s'était stoppée. Jamais. Si les ports sont tombés, alors c'est plus grave qu'un contenaire Docker en chute.

Je tente un SSH vers Avalon, la réponse ? Permission Denied. Non... Permission Denied (Public Key). SSHD est corrompu.

J'utilise mes dernières cartes :

  1. Proxmox VE : J'essai de démarrer un shell, erreur : /bin/bash not found.
  2. Cockpit : Partie StorageD, le disque 1 est OFFLINE.

Je me connecte alors au CA OVH (Console d'Administration d'OVHCloud) et initialise l'IPMI-KVM. J'ouvre la session, et je vois un message marqué 115 fois : "BlockID Corrupted Filesystem" (quelques chose de proche)

Une seule solution : le PRA. Je connais les classiques, mais celui ci, c'est le PRA général.

Toutes les données sur Avalon vont être perdues. Rien ne se monte.

Alors, j'actionne le dernier levier après avoir vérifié le dernier backup, il date d'il y a 1h50~ et les machines virtuelles d'hier soir.

Je lance la réinstallation automatique OVHCloud vers Debian 12.

Serveur réinitialisé, j'opère les configurations de sécurité :

Et enfin, j'installe Rsync.

Je me connecte alors a Orion, serveur de sauvegarde Proxmox Backup Server (PBS) qui stocke aussi les données via Rsync. J'avais tout prévu : Un script, déjà prêt pour inverser la sauvegarde temporairement et rétablir les données sur Avalon. Ca a durer 5 heures.

Une fois terminé, je reconfigure Cron pour la sauvegarde initiale et régulière via Rsync (synchro). Je vérifie l'intégrité : Tout est parfait.

Je réinstalle Proxmox VE et la sous couche Proxmox BS, puis connecte Orion (PBS) sur Proxmox VE (Avalon) et débute la procédure de rétablissement :

  1. Démarrer les services Docker frontaux : Gateway HTTP/S, VPN, Dokemon et enfin mon chéri Navidrome.
  2. Restaurations des CT de Production Applicatives et Base de Données (PABD) : Celà prend 1 minute et 34 secondes environ pour 6Go. Pas mal.

Les services repartent d'eux-mêmes. N'oubliez jamais restart: always ou restart: unless-stopped.

Incident terminé, 14h ce jour.

Conclusions :

  1. Particulier, Professionnel, Entreprise, même cotée en bourse, le PRA est une OBLIGATION et peut sauver des données, et dans certains cas, bien plus.
  2. Le sentiment de risquer de tout perdre, un travail de 5 années, c'est vraiment très flippant. Puis le cerveau m'a dit "Un seul mot : Orion."
  3. Rsync, c'est suffisant pour un particulier comme une entreprise. On peut même faire de l'incrémental !
  4. restart: always

C'était le récit de mon premier gros Incident infrastructurel. Merci d'avoir lu !

Technologiquement,
Tyleo Dv. Delaware