Incendie OVH Cloud : sauvegarde des serveurs

Les faits

Le 10 mars 2021 au réveil, la radio annonce un incendie dans le data center d'OVH Cloud à Strasbourg.
Je me suis dit que c'était bizarre parce que je n'avais pas reçu d'alerte depuis ma surveillance des services. En effet, nous avons un programme de surveillance de tous nos services en production, qui vérifie leur état toutes les 5 minutes et qui envoie des SMS en cas d'indisponibilité. La première analyse m'indique rapidement que le serveur de surveillance est concerné par l'incident actuel. C'est donc pour ça que nous n'avons pas reçu d'alerte => on va certainement ajouter un contrôle externe de notre processus de surveillance.

Ce scénario, d'un incendie dans un datacenter, est le scénario type qu'on aborde lors de la rédaction d'un contrat en se disant que ça n'arrivera pas... Et bien si, ça peut arriver !

La période était déjà chargée et nous voilà à devoir traiter cet incident majeur sans attendre !

Mon premier bilan fait état de 8 serveurs hors service :

  • 4 serveurs de production pour nos clients
  • 1 serveur de production interne sur lequel tournait la surveillance et quelques outils internes (git, crm interne, ...)
  • 3 serveurs de développement

Cela représente environ 60 sites Internet/applications Web en production.

Après avoir vu les premières photos montrant un immeuble entièrement détruit (SBG2), je commence par chercher dans quels bâtiments sont les différents services impactés.
Photo incendie OVH Cloud @SDIS67
Photo @SDIS67

Et nous voilà en train de faire l'inventaire de nos serveurs et de leurs zones d'hébergement qui, jusqu'alors, ne nous importaient peu (SBG1, SBG2, SBG3, ...).

À ce stade, nous avions un espoir de retrouver nos serveurs à plus ou moins longue échéance.

Pendant ce temps, j'ai fait le bilan de nos sauvegardes hors site. Histoire de se rassurer ou de se faire peur... Parce que, un dispositif de sauvegarde aussi bon soit-il, peut vous lâcher quand vous en avez besoin. Mais non, à priori, tout va bien et nous avons nos sauvegardes externalisées.

Pour rappel, nous avons pour nos serveurs chez OVH Cloud, nous disposons de 2 types de sauvegardes :

  • une sauvegarde sur site avec une recopie de disque locale
  • une sauvegarde externe réalisée sur le matériel en photo ci-dessous (un raspberry pi 3 et un disque 8 To USB) avec une rétention de 30 jours.

Backup hors site OVH Cloud - @BreizhDigital
@BreizhDigital - Matériel pour les sauvegardes hors site d'hébergement = simple mais efficace

Voilà donc la situation pendant cette matinée du 10 mars 2021. Nous avions alors 2 solutions :

  • attendre la remise en route des bâtiments non impactés pour éviter d'avoir à reconstruire toute l'architecture de serveurs HS
  • reconstruire des serveurs et restaurer les sauvegardes pour remettre à nouveau en ligne les services indisponibles de nos clients

La question étant de connaître le délai pour redémarrer les parties du datacenter non détruites.

C'est là que la communication en temps réel d'Octave Klaba sur Twitter nous a bien été utile. Je tiens à saluer son courage et le travail de ses équipes. Ce genre de situation de crise majeure est très difficile à vivre et la prise en charge d'une communication en temps réel délicate. Mais Octave Klaba a bien géré avec une information concise mais précise autant que possible.

Choix du scénario de restauration des sauvegardes

Vu le délai de remise en service annoncé (pas avant, au mieux, le début de la semaine suivante), nous avons décidé de nous lancer dans la reconstruction de nouveaux serveurs pour y restaurer les sites et services sauvegardés grâce à notre système higtech ;-) décrit ci-dessus.
Nous avons alors communiqué à nos clients impactés ce choix de remettre en fonction leurs services dès que possible sans attendre la remise en route hypothétique de nos serveurs.

Priorité à la remise en ligne des services de nos clients

Dès ce mercredi noir, nous avons donc commandé 4 serveurs pour remplacer les serveurs de production qui étaient détruits ou éteints.

Voici les opérations réalisées :

  • installation et mise à jour du système Linux
  • installation de la couche logicielle nécessaire aux services (Apache, Php et ses modules, Mysql)
  • restauration des sauvegardes externalisées (fichiers et bases de données)
  • paramétrage de chaque site web
  • changement de l'adresse dans le DNS de chaque domaine si nécessaire (sauf pour les plus récents pour lesquels nous utilisons une adresse IP flottante)
  • vérification du fonctionnement du site /service Web

À 3h30 le jeudi 11 mars, soit MOINS DE 24H APRES notre constat d'incident, nous avions rétabli la situation pour la soixantaine de sites /services impactés par cet incendie du datacenter d'OVH Cloud à Strasbourg.


Ce que nous en avons appris

Voici ce que l'on peut tirer de cette expérience :

  • la destruction d'un datacenter n'est pas qu'une légende urbaine servant à faire peur lors de la rédaction d'un contrat
  • avoir fait de l'ingénierie sur des systèmes Unix pendant 5 ans de mon parcours et avoir passé 24 ans dans un groupe bancaire, avec ses règles de sécurité et de reprise d'activité, est bien une valeur ajoutée appréciée en période de crise
  • la technologie de sauvegarde n'a pas besoin d'être très évoluée avec des programmes et du matériel qui valent chers. Il suffit qu'elle soit adaptée et efficace : chez Breizh Digital, il s'agit juste d'un raspberry pi à moins de 100 euros et un gros disque dur USB qui font le job pour une sauvegarde hors site pouvant pallier à la disparition totale de l'hébergeur.
  • il est important communiquer pour informer et rassurer

Et voici ce que nous allons ajouter à notre réponse à ce genre d'événements, pour être encore plus efficace :

  • nous allons ajouter un contrôle de notre processus de surveillance pour être alerté lorsque la surveillance ne surveille plus
  • la nouvelle architecture Cloud le permettant, nous allons mettre notre sauvegarde "online" dans un datacenter distant pour reconstruire nos serveurs encore plus rapidement

Une fois nos environnements de production rétablis, nous avons remis en route nos autres environnements :

  • d'abord les environnements de tests et développement
  • puis nos outils internes et en particulier notre dépôt de codes (git) ainsi que la surveillance

Ils témoignent

Voici quelques retours de nos clients :

 

Vous avez perdu vos sites, applications et données dans cet incendie ?

Faites appel à des professionnels qui sauvegardent vos données comme il faut, nous proposons de l'infogérance pour les agences qui n'ont pas les compétences en interne :

Contactez-nous

Auteur : Ivan Travais - Breizh Digital

  • Partagez :