Alles, was Sie immer schon über ein Data Center Upgrade wissen wollten, aber nie zu fragen wagten

Eine Task-Force aus München hat das Retarus-Data-Center SEC1 in Secaucus, New Jersey, in der Woche vom 4. bis 8. März 2024 auf die state-of-the-art Netzwerktechnologie EVPN/VXLAN, basierend auf Arista-Switchen der 7050X3- und 7280R3-Serie, sowie auf optische Verkabelung umgebaut. Im laufenden Betrieb. Und das Beste: Unsere Kunden haben davon rein gar nichts mitbekommen.

So eine „Operation am offenen Herzen“ will natürlich generalstabsmäßig geplant sein. Unser Director Operations Uwe Geuss, selbst Teil der erwähnten Task Force, hat dazu mal was aufgeschrieben:

EVPN/VXLAN – Switch-Austausch im laufenden Betrieb im Rechenzentrum

Switches bilden das Herzstück jedes Rechenzentrums, da sie den Datenverkehr steuern und sicherstellen, dass Informationen reibungslos zwischen den verschiedenen Komponenten fließen. Ein Upgrade dieser Infrastruktur ist von entscheidender Bedeutung, um mit den sich ständig weiterentwickelnden Technologien Schritt zu halten und die Leistungsfähigkeit des Rechenzentrums zu maximieren.

Warum tauschen wir unsere Netzwerkinfrastruktur?

Die rasante Entwicklung von Technologien, steigende Anforderungen an die Netzwerkleistung und der Bedarf an höherer Kapazität sind nur einige der Gründe, warum wir uns für den Austausch der Switch-Infrastruktur entschieden haben. Durch den Einsatz moderner, leistungsfähigerer Switches von Arista und der Technologie EVPN/VXLAN können wir unter anderem eine höhere Bandbreite, niedrigere Latenzzeiten und stark erhöhte Flexibilität erreichen.

7050X3 Series
Description	Arista 7050X3 Series fixed configuration leaf and spine switches
Switching Throughput	6.4 Terabits/sec
Maximum Forwarding Rate	2 Bpps
40/100G Interfaces	Up to 32
10/25G Interfaces	Up to 128

Schritt 1: Planung ist alles

Bevor wir mit dem physikalischen Austausch begonnen haben, war eine gründliche Planung unerlässlich. Diese umfasst eine Analyse der aktuellen Infrastruktur im Data Center, eine Bewertung des Kunden-Traffics und die Planung der notwendigen Schritte für den Austausch.Eine detaillierte Planung minimiert Ausfallzeiten und gewährleistet einen reibungslosen Übergang, was für die Zufriedenheit unserer Kunden unerlässlich ist.

Die Konfiguration der Netzwerkgeräte wurde vorab in Ansible vorbereitet, so dass die eigentliche Umstellung garantiert einheitlich, mehrfach qualitätsgeprüft und soweit automatisiert wie möglich von statten gehen konnte.

Den eigentlichen Arbeitsschritten vorausgegangen war bereits eine 1,5 Jahre dauernde PoC-Phase, in der mehrere Hersteller den hohen Anforderungen von Retarus an die neue Netzwerkinfrastruktur gerecht werden mussten.

Schritt 2: Der Austauschprozess

Der eigentliche Austausch der Switch-Infrastruktur vor Ort ist ein komplexer Prozess, der sorgfältige Koordination erfordert. Er beinhaltet den Umzug von Servern, Erneuerungen von Netzwerkkarten in bestehenden Systemen, das Installieren der neuen Switch-Hardware sowie die Konfiguration und das physische Entfernen der alten Switches. Die Umstellung auf die komplett andere Netzwerktechnologie EVPN/VXLAN brachte umfangreichste Umstellungen auf der logischen Ebene des Netzwerks mit sich. Ein erfahrenes Team von Experten aus den Bereichen Networks, Infrastructure Services, Application Management und Data Center war hierbei der Garant für einen reibungslosen Ablauf.

Schritt 3: Testing, Testing, Testing

Nach dem vollständigen Austausch der Infrastruktur ist umfangreiches Testing von entscheidender Bedeutung. Durch die Simulation verschiedener Szenarien kann sichergestellt werden, dass die neuen Switches allen Anforderungen gerecht werden und im produktiven Betrieb zuverlässig funktionieren. Dieser Schritt minimiert das Risiko von Fehlern und Ausfällen im Regelbetrieb.

Schritt 4: Dokumentation und Schulung

Eine gründliche Dokumentation des neuen Setups ist entscheidend, um zukünftige Wartungsarbeiten zu erleichtern. Außerdem müssen die IT-Operations-Mitarbeiter entsprechend geschult werden, damit sie mit der neuen Infrastruktur vertraut sind und im Bedarfsfall schnell reagieren können.

Auf die Schritte 1 und 2 möchte ich noch genauer eingehen und die Aktivitäten detaillierter beschreiben.

Planung

Die Planung wurde in die Bereiche Server-Hardware und Netzwerk aufgeteilt.

Bei der Server-Hardware ging es darum, welche Systeme physikalisch im Rechenzentrum umgezogen werden und welche Netzwerkkarten aufgrund der neuen Anforderungen getauscht werden müssen.

Zusätzlich wurde festgehalten, mit welchem Switch und an welchem Switch-Port der jeweilige Server zukünftig verbunden wird. Dies war notwendig, um bereits vorab die Switch-Konfiguration vorbereiten zu können.

Gleichzeitig wurde auch die Reihenfolge der zu aktualisierenden Systeme definiert, da wir im laufenden Betrieb immer nur einen kleinen Teil der Geräte vom Netz nehmen konnten.

Last, but not least konnten wir anhand dieser Informationen auch die Einsatzplanung der Mitarbeiter vornehmen. Denn für jedes System musste zunächst ein Application Manager die Services stoppen und dann ein Infrastruktur-Engineer betriebssystemseitig Änderungen vornehmen. Im Rechenzentrum wurde der Server dann physisch umgebaut. Anschließend wurde das System wieder hochgefahren, neu konfiguriert und serviceseitig wieder in den Betrieb genommen und geprüft.

Die Netzwerkplanung wiederum fokussiert sich auf alle Aktivitäten vor, während und nach dem physikalischen Umbau, die physisch und logisch an der Netzwerkinfrastruktur vorgenommen werden müssen.

Wir sind hierzu wie folgt vorgegangen:

Initiale Vorbereitungen – alle Aktivitäten, die ohne direkten Einfluss auf den laufenden Betrieb im Voraus erledigt werden können, wie zum Beispiel die Automatisierung von Konfigurationsprozessen durch Ansible oder das Verbinden neuer Switches untereinander, ohne sie bereits in die bestehende Infrastruktur zu integrieren
Eingliedern der neuen Switch-Infrastruktur in die bestehende Netzwerk-Fabric
Umstellen der Internet- und Datenzentren-Verbindungen von der alten auf die neue Switch-Umgebung
Aktualisieren/Übertragen der Firewall-Konfigurationen auf die neue Infrastruktur
Überführen der Firewall-Zonen (DMZen) in die neue Umgebung
Aufräumen in der Konfiguration und Abkoppeln der alten Fabric
Redundanz- und Failover-Tests für alle Netzwerkkomponenten

Der gesamte Plan für den Netzwerkumbau umfasste acht Kapitel mit mehr als 300 Einzelschritten. Diese Schritte wurden von vier Netzwerkexperten durchgeführt, sodass stets ein Vier-Augen-Prinzip möglich war. Während der Umsetzung waren alle beteiligten Kollegen gemeinsam in einem Call, in dem jeder Schritt klar und deutlich kommuniziert wurde. So konnten wir Missverständnisse vermeiden und die Koordination der verschiedenen Aktivitäten optimieren.

Fazit: Die Zukunft im Blick

Der Austausch der Switch-Infrastruktur in einem Data-Center ist nicht nur ein technologischer Fortschritt, sondern auch ein strategischer Schachzug, um die Herausforderungen der Zukunft zu meistern. Mit einer sorgfältigen Planung, kompetentem Personal und gründlichem Testing können Unternehmen sicherstellen, dass ihr Rechenzentrum bereit ist für die Anforderungen der modernen digitalen Ära.

Eine kleine Anekdote zum Schluss: Selbst die gründlichste Planung nützt natürlich nichts, wenn man gar nicht erst ins Rechenzentrum hineinkommt. Genau das ist unseren Kollegen am 3. März passiert, obwohl ihre Zugangskarten eigentlich mit allen nötigen Rechten ausgestattet waren. Der externe Security-Dienst konnte da am Wochenende leider auch nicht weiterhelfen. Dank einer persönlichen Eskalation an einen guten Bekannten in entsprechender Position wurde das Team am Montag um halb vier morgens bereits erwartet und der Zutritt zum Retarus-Cage war sichergestellt. Manchmal hilft einfach nur Vitamin B …

Insgesamt ging der Umbau von Montag bis Mittwoch jeweils von 03:45 bis 14 Uhr Ortszeit über die Bühne. Und er war durchaus sportlich: Für die drei Tage hat die Smartwatch des Kollegen Geuss 8600, 12.600 und 9600 Schritte gezählt; die beiden anderen Team-Mitglieder waren ähnlich viel unterwegs. Die drei haben sogar anfangs noch die Zeit gefunden, eine Kamera für einen Zeitraffer-Film zu montieren. Den möchten wir Ihnen an dieser Stelle natürlich nicht vorenthalten:

Es sind vielfältige Gründe, warum Retarus seine Services immer schon selbst betrieben hat und betreibt und nicht auf Hyperscaler setzt. Wir übernehmen ganz bewusst die Verantwortung für den kompletten „Stack“ vom Rack über die Server und Software bis hin zu den Carriern. Genau deswegen beziehen wir bei Rechenzentrums-Anbietern nur einen leeren Cage mit Strom und kalter Luft. Die übrige Wertschöpfung übernehmen wir selbst – zum Wohle der Gesamtlösung und unserer Kunden.