Tutto quello che hai sempre voluto sapere sull’aggiornamento di un data center, ma non hai mai osato chiedere

Tutto quello che hai sempre voluto sapere sull’aggiornamento di un data center, ma non hai mai osato chiedere

Nella settimana dal 4 all’8 marzo 2024, una task force del team IT di Monaco di Baviera ha riorganizzato il data center SEC1 di Retarus a Secaucus, nel New Jersey, applicandovi la più moderna tecnologia di rete EVPN/VXLAN, basata su switch Arista delle serie 7050X3 e 7280R3, e sul cablaggio ottico. Il tutto durante le operazioni in corso. La cosa migliore è che i nostri clienti non si sono accorti di nulla!

Ovviamente, questo tipo di “intervento a cuore aperto” andava pianificato in anticipo. Il nostro Director Operations Uwe Geuss, anche lui membro di questa task force, si era annotato a tal proposito quanto segue:


EVPN/VXLAN – Sostituzione degli switch durante il funzionamento di un data center

Gli switch sono il fulcro di ogni data center, poiché controllano il traffico di dati e garantiscono che le informazioni fluiscano senza intoppi tra i vari componenti. L’aggiornamento di questa infrastruttura è fondamentale per tenere il passo con le tecnologie in continua evoluzione e massimizzare le prestazioni del data center.

Perché sostituiamo la nostra infrastruttura di rete?

Il rapido sviluppo delle tecnologie, le crescenti esigenze in termini di prestazioni della rete e la necessità di una maggiore capacità sono solo alcuni dei motivi per cui abbiamo deciso di sostituire l’infrastruttura di switch. Utilizzando sia switch di Arista più moderni e più potenti, sia la tecnologia EVPN/VXLAN, possiamo ottenere, tra l’altro, una maggiore larghezza di banda, tempi di latenza più bassi e una maggiore flessibilità.

7050X3 Series
DescriptionArista 7050X3 Series fixed configuration leaf and spine switches
Switching Throughput6.4 Terabits/sec
Maximum Forwarding Rate2 Bpps
40/100G InterfacesUp to 32
10/25G InterfacesUp to 128

Fase 1 – La pianificazione è tutto

Era essenziale, prima di procedere alla sostituzione fisica, elaborare una pianificazione dettagliata. Qui rientrano un’analisi dell’infrastruttura attuale del data center, una valutazione del traffico dei clienti e la pianificazione delle fasi necessarie per la sostituzione. Una pianificazione puntale, infatti, riduce al minimo i tempi di inattività e garantisce una transizione senza intoppi, essenziale per la soddisfazione dei clienti.

La configurazione dei dispositivi di rete è stata preparata con Ansible, in modo da garantire che il passaggio effettivo fosse standardizzato, controllato più volte e automatizzato per quanto possibile.

Le fasi di lavoro vere e proprie sono state precedute da una fase PoC durata un anno e mezzo, durante la quale diversi produttori hanno dovuto soddisfare gli elevati requisiti di Retarus per la nuova infrastruttura di rete.

Fase 2 – Il processo di sostituzione

L’effettiva sostituzione dell’infrastruttura di switch in loco è un processo complesso che richiede uno scrupoloso coordinamento. Si tratta di spostare i server, sostituire le schede di rete nei sistemi esistenti, installare il nuovo hardware di switch e configurare e rimuovere fisicamente i vecchi switch. Il passaggio alla tecnologia di rete EVPN/VXLAN, completamente diversa, ha comportato sostanziali modifiche a livello logico della rete. Un team di esperti dei reparti Networks, Infrastructure Services, Application Management e Data Center ha assicurato che tutto si svolgesse senza intoppi.

Fase 3 – Testare, testare e ancora testare

Una volta sostituita completamente l’infrastruttura, è vitale effettuare test approfonditi. Simulando vari scenari, è possibile garantire che i nuovi switch soddisfino tutti i requisiti e che funzionino in modo affidabile durante la produzione. Questa fase riduce al minimo il rischio di errori e guasti durante il regolare funzionamento.

Fase 4 – Documentazione e formazione

Per facilitare i futuri interventi di manutenzione è fondamentale una documentazione accurata della nuova configurazione. Inoltre, il personale di IT Operations deve essere adeguatamente formato, in modo che acquisisca dimestichezza con la nuova infrastruttura e possa reagire rapidamente in caso di necessità.

È opportuno dedicare maggiore attenzione alle fasi 1 e 2 e descrivere le attività in modo più dettagliato.

Pianificazione

La pianificazione è stata suddivisa in due aree, ossia hardware dei server e rete.

Per quanto riguarda l’hardware dei server, si è trattato di determinare quali sistemi sarebbero stati fisicamente trasferiti nel data center e quali schede di rete avrebbero dovuto essere sostituite in virtù dei nuovi requisiti.

Inoltre, è stato determinato lo switch e la porta dello switch a cui il rispettivo server sarà collegato in futuro. Ciò era necessario per poter preparare in anticipo la configurazione dello switch.

Allo stesso tempo, è stata definita anche la sequenza dei sistemi da aggiornare, dato che durante il funzionamento abbiamo potuto scollegare dalla rete solo un numero ridotto di dispositivi.

Infine, grazie a queste informazioni abbiamo potuto pianificare l’impiego dei collaboratori. Per ogni sistema, prima un Application Manager ha dovuto arrestare i servizi e poi un Infrastructure Engineer ha dovuto apportare modifiche al sistema operativo. Il server è stato quindi ricostruito fisicamente nel data center. Il sistema è stato poi riavviato, riconfigurato, rimesso in funzione e testato dal punto di vista dei servizi.

La pianificazione della rete, a sua volta, si è concentrata su tutte le attività prima, durante e dopo la conversione fisica che dovevano essere eseguite sull’infrastruttura di rete fisica e logica.

Abbiamo seguito questo ordine:

  • Preparativi iniziali, cioè tutte le attività che possono essere svolte in anticipo senza avere un impatto diretto sulle operazioni in corso, come l’automazione dei processi di configurazione con Ansible o la connessione dei nuovi switch tra loro senza integrarli nell’infrastruttura esistente
  • Integrazione della nuova infrastruttura di switch nel tessuto di rete esistente
  • Conversione delle connessioni Internet e del data center dal vecchio al nuovo ambiente di switch
  • Aggiornamento/trasferimento delle configurazioni del firewall alla nuova infrastruttura
  • Trasferimento delle zone firewall (DMZ) al nuovo ambiente
  • Riordino della configurazione e disconnessione del vecchio fabric
  • Test di ridondanza e failover per tutti i componenti della rete

L’intero piano di riorganizzazione della rete prevedeva otto passaggi, con oltre 300 singole fasi. Queste fasi sono state eseguite da quattro esperti di rete, in modo che potesse essere garantito sempre il principio dei quattro occhi. Durante l’attuazione, tutti i colleghi coinvolti hanno partecipato a una call congiunta in cui è stata comunicata chiaramente ogni fase. Questo ci ha permesso di evitare malintesi e di ottimizzare il coordinamento delle varie attività.

Conclusione: orientamento verso il futuro

La sostituzione dell’infrastruttura di switch in un data center non è solo un progresso tecnologico, ma anche una mossa strategica per affrontare le sfide del futuro. Tramite un’attenta pianificazione, personale competente e test accurati, le aziende possono essere sicure che il loro data center sia pronto per le esigenze della moderna era digitale.


Un piccolo aneddoto finale: la pianificazione può essere quanto più accurata possibile, ma non serve a molto se non si riesce ad accedere al data center. Ed è questo che è successo ai nostri colleghi il 3 marzo, nonostante le loro schede di accesso disponessero di tutte le autorizzazioni necessarie. Purtroppo, durante il fine settimana il servizio di sicurezza esterno non era stato in grado di intervenire. Grazie all’intervento personale di un buon amico in una posizione analoga, il team è stato in grado di accedere alla gabbia di Retarus alle tre e mezza del mattino di lunedì. A volte basta conoscere le persone giuste…

Nel complesso, la riorganizzazione ha avuto luogo dal lunedì al mercoledì, dalle 03:45 alle 14:00 ora locale. Ed è stato una prova fisica non da poco: in quei tre giorni, infatti, lo smartwatch del collega Geuss ha contato rispettivamente 8600, 12.600 e 9600 passi. Gli altri due membri del team hanno coperto distanze simili. I tre hanno comunque trovato il tempo di montare una telecamera per realizzare un filmato in time-lapse, che potete vedere a questo link:

Sono tanti i motivi per cui Retarus ha sempre gestito e continua a gestire i propri servizi in modo autonomo e non si affida a hyperscaler. Ci assumiamo deliberatamente la responsabilità dell’intero “stack”, dal rack ai server e al software fino ai carrier. Proprio per questo motivo, acquistiamo dai fornitori di data center solo una gabbia vuota con alimentazione e aria fredda. Ci occupiamo noi stessi del resto del valore aggiunto, a vantaggio della soluzione complessiva e dei nostri clienti.

Tags: //

Invia commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *