Tout ce que vous avez toujours voulu savoir sur les mises à jour de datacenters mais que vous n'avez jamais osé demander

Un task force de notre équipe IT de Munich a restructuré le datacenter Retarus SEC1, situé dans la ville de Secaucus dans le New Jersey dans la semaine du 4 au 8 mars 2024. C’est la technologie de réseau ultramoderne EVPN/VXLAN sur la base de switches Arista séries 7050X3 et 7280R3 et de câblage optique qui a été mise en place, et ce, sans aucune interruption de services. Le meilleur dans tout ça : nos clients ne s’en sont même pas rendu compte.

Ce genre d' »opération à cœur ouvert » doit bien sûr être préparée avec un planning très détaillé et une précision d’horloger. Uwe Geuss, Director Operations, qui fait lui-même partie de ce task force, nous donne plus de détails :

EVPN/VXLAN : remplacement de switches au sein du centre de données sans interruption des opérations

Les switches sont au cœur de chaque centre de données. Ils régissent le flux de données tout en garantissant que les informations soient transmises en toute fluidité. Une mise à niveau de cette infrastructure est d’une importance capitale pour garder un train d’avance dans la course à l’innovation et ainsi maximiser les performances de notre centre de données.

Pourquoi avoir changer d’infrastructure de réseau ?

Le développement galopant des technologies, les exigences de plus en plus strictes en matière de performances réseau et le besoin en capacités supérieures ne sont que quelques exemples des raisons pour lesquelles nous avons opté pour le remplacement de notre infrastructure de switches. Grâce à la mise en place de commutateurs Arista performants et à la technologie EVPN/VXLAN, nous sommes en mesure d’obtenir, entre autres, une bande passante supérieure, des périodes de latence écourtées et une bien meilleure flexibilité.

7050X3 Series
Description	Arista 7050X3 Series fixed configuration leaf and spine switches
Switching Throughput	6.4 Terabits/sec
Maximum Forwarding Rate	2 Bpps
40/100G Interfaces	Up to 32
10/25G Interfaces	Up to 128

1ère étape : Tout est dans la planification

Avant de commencer toute procédure de remplacement, une planification précise a été essentielle. Cette première phase comprend une analyse de l’infrastructure actuelle au sein du datacenter, une évaluation du flux de données de nos clients et la planification des étapes nécessaires au changement. Une planification détaillée permet de minimiser les temps d’arrêt et garantit une transition fluide, ce qui est indispensable pour nos clients.

La configuration des périphériques réseau a été préparée au préalable dans Ansible, de sorte à garantir que la restructuration à proprement parler s’effectue de manière uniforme la plus automatisée possible et soit vérifiée plusieurs fois dans nos phases de contrôle qualité.

Préalablement aux étapes de travail en elles-mêmes, une phase de PoC d’un an et demi avait déjà eu lieu, au cours de laquelle plusieurs fabricants ont dû s’assurer que la nouvelle infrastructure de réseau réponde à nos exigences strictes en vigueur.

2ème étape : Processus de remplacement

Le remplacement à proprement parler de l’infrastructure de switches représente une procédure complexe nécessitant une coordination minutieuse. Cette étape inclut le transfert de serveurs, le renouvellement de cartes réseau au sein des systèmes existants, l’installation de nouveau matériel de commutation de même que la configuration et le retrait physique des anciens switches. Le passage à une tout autre technologie à savoir la technologie de réseau EVPN/VXLAN a dû s’accompagner de restructurations les plus complètes au niveau de l’aspect logique du réseau. Une équipe expérimentée dans les domaines de Networks, Infrastructure Services, Application Management et Data Center a donc été le garant du bon déroulement des opérations.

3ème étape : Testing, testing, testing

Suite au remplacement complet de l’infrastructure, une procédure de test intégrale est décisive. Via la simulation de divers cas de figure, il est possible de s’assurer que les nouveaux switches satisfont l’ensemble des exigences et fonctionnent en toute fiabilité. Cette étape permet de réduire au maximum le risque d’erreurs et de pannes dans le cadre d’un fonctionnement régulier.

4ème étape : Documentation et formation

Une documentation détaillée de la nouvelle configuration est essentielle afin de faciliter les tâches de maintenance à prévoir. Par ailleurs, l’équipe IT Operations doit être formée en conséquence afin de pouvoir se familiariser avec la nouvelle infrastructure et de réagir promptement en cas de besoin.

J’aimerais revenir sur la première et la deuxième étape afin de décrire plus en détail les activités qu’elles incluent.

Planification

La planification a porté sur deux points : les serveurs et le réseau.

Au niveau du matériel réseau, il s’agissait de déterminer quels systèmes devaient être transférés physiquement dans le centre de données et quelles cartes réseau devaient être remplacées en raison des nouvelles exigences.

Il fallait ensuite noter à quel switch et à quel port de switch chaque serveur sera connecté à l’avenir. Cela était nécessaire pour pouvoir déjà préparer à l’avance la configuration des switches.

Dans le même temps, il a fallu définir dans quel ordre actualiser les systèmes, car nous ne pouvions déconnecter qu’une petite partie des dispositifs du réseau au cours des opérations.

Pour finir, nous avons pu entreprendre la planification opérationnelle des équipes IT à l’aide de ces informations. En effet, pour chaque système, un Application Manager devait d’abord interrompre les services puis un Infrastructure Engineer devait faire des modifications côté système d’exploitation. Le serveur a ensuite été modifié physiquement dans le centre de données. Le système a ensuite été redémarré, reconfiguré, remis en service côté service, puis testé.

La planification réseau se concentre sur toutes les mesures avant, pendant et après le remplacement physique qui doivent être prises au niveau de l’infrastructure réseau d’un point de vue physique et logique.

Pour ce faire, nous avons procédé comme suit :

Préparation initiale : toutes les mesures pouvant être prises à l’avance n’ayant pas d’influence sur les opérations en cours, par exemple l’automatisation des processus de configuration via Ansible ou l’interconnexion de nouveaux switches sans qu’ils soient encore intégrés dans l’infrastructure existante
Intégration de la nouvelle infrastructure de switches dans la structure réseau existante
Transfert des connexions Internet et de centres de données de l’ancien environnement de commutation au nouveau
Actualisation / transfert des configurations de pare-feu sur la nouvelle infrastructure
Transfert des zones de pare-feu (DMZ) dans le nouvel environnement
Mise en ordre en termes de configuration et déconnexion de l’ancienne structure
Tests de redondance et de relais de tous les composants du réseau

Le plan complet de restructuration de réseau comprenait huit chapitres avec au total plus de 300 étapes. Ces étapes ont été réalisées par quatre spécialistes réseaux, de sorte que le principe des « quatre yeux » soit toujours possible. Durant la mise en œuvre, tous les collègues concernés ont participé à des réunions au cours desquelles chaque étape a été présentée de manière claire et sans équivoque. Il nous a ainsi été possible d’éviter les malentendus et d’optimiser la coordination des différentes activités.

Conclusion : L’avenir en ligne de mire

L’évolution de l’infrastucture des commutateurs ne constitue pas seulement une avancée technologique, mais également une stratégie pour maîtriser les défis à venir. Grâce à une planification minutieuse, l’intervention de personnel compétent et la réalisation d’une phase de tests complète, les entreprises peuvent s’assurer que leur centre de données soit prêt face aux exigences de l’ère numérique moderne.

Pour conclure, voici une petite anecdote : même la planification la plus minutieuse est bien entendu inutile si vous n’avez pas accès au centre de données. C’est exactement ce qui est arrivé récemment à nos collègues, le 3 mars, même si leurs cartes d’accès disposaient de tous les droits nécessaires. En plein week-end, le service de sécurité externe ne pouvait malheureusement pas faire grand-chose. Grâce à l’intervention d’un ami de confiance, l’équipe a pu entrer dans le data center, le lundi à trois heures et demie du matin ! Parfois, c’est « celui que l’on connait » qui est le plus précieux…

Finalement, la mission a pu réussir grâce au travail commencé le lundi à 3H45 et s’étant terminé le mercredi à 14H. Et ça aura été sportif : D’après la smartwatch de Uwe Geuss, pas moins de 8 600, 12 600 et 9 600 pas ont été comptabilisés respectivement sur ces trois jours de travail acharné. Les deux autres membres de l’équipe n’ont pas été moins investis. Les trois collègues ont même trouvé le temps d’installer une caméra au préalable afin de préparer une vidéo en timelapse. Bien entendu, nous n’allons pas vous en priver :

https://vimeo.com/922434442/510e4fa986?share=copy

Il existe diverses raisons pour lesquelles Retarus a toujours géré ses propres date center et services et continue de cette manière, sans avoir recours aux hyperscalers. Nous assumons nos responsabilités en toute conscience concernant le « stack » en entier, du rack aux carriers en passant par les serveurs et les logiciels. C’est pourquoi nous démarrons avec une cage vide, de l’air froid et une alimentation électrique. Pour tout ce qui est la création de valeur, nous nous en occupons nous-mêmes, pour le bénéfice et dans le meilleur intérêt de nos clients.