Entre el 4 y el 8 de marzo, un grupo de trabajo del equipo IT de Múnich ha actualizado el centro de datos de Retarus SEC1 en Secaucus (Nueva Jersey, EE. UU.) a la tecnología de red de última generación EVPN/VXLAN –basada en conmutadores Arista de las series 7050X3 y 7280R3–, así como a cableado óptico. Todo ello manteniendo el funcionamiento. Y lo mejor de todo: nuestros clientes no lo han notado en absoluto.
Naturalmente, una “operación a corazón abierto” de este calado debe estar planificada al más alto nivel. Nuestro Director Operations, Uwe Geuss, que formó personalmente parte del mencionado grupo de trabajo, ha elaborado el siguiente informe al respecto:
EVPN/VXLAN – Sustitución de los conmutadores durante el funcionamiento del centro de datos
Los conmutadores son el elemento clave de cualquier centro de cálculo, ya que controlan el tráfico de datos y garantizan que la información fluya sin contratiempos entre los distintos componentes. La actualización de esta infraestructura reviste una vital importancia, para adaptarse al ritmo de las tecnologías en constante desarrollo y maximizar el rendimiento del centro de datos.
¿Por qué sustituimos nuestra infraestructura de red?
El vertiginoso avance de las tecnologías, los crecientes requisitos en cuanto al rendimiento de la red, y la necesidad de una mayor capacidad son solo algunos de los motivos que nos llevaron a tomar la decisión de sustituir la infraestructura de conmutadores. La utilización de los conmutadores de Arista –más modernos y potentes– y de la tecnología EVPN/VXLAN nos permite, entre otras cosas, aumentar el ancho de banda, acortar los tiempos de latencia e incrementar en gran medida la flexibilidad.
7050X3 Series | |
Description | Arista 7050X3 Series fixed configuration leaf and spine switches |
Switching Throughput | 6.4 Terabits/sec |
Maximum Forwarding Rate | 2 Bpps |
40/100G Interfaces | Up to 32 |
10/25G Interfaces | Up to 128 |
Paso 1: La planificación lo es todo
Antes de empezar a considerar los aspectos físicos, fue imprescindible llevar a cabo una planificación meticulosa. Esta fase incluyó un análisis de la infraestructura actual en el centro de datos, una evaluación del tráfico de clientes y una planificación de los pasos necesarios para la sustitución. Un plan detallado minimiza los tiempos de inactividad y garantiza una transición fluida, aspecto indispensable para la satisfacción de nuestros clientes.
La configuración de los dispositivos de red se preparó con antelación en Ansible, para garantizar que la sustitución propiamente dicha pudiera tener lugar de manera uniforme, con la realización de múltiples comprobaciones de calidad y del modo más automatizado posible.
Los pasos a dar venían precedidos por una fase previa, de año y medio de duración, de pruebas de concepto, durante la cual varios fabricantes tuvieron que cumplir los exigentes requisitos planteados por Retarus respecto a la nueva infraestructura de red.
Paso 2: El proceso de sustitución
La sustitución propiamente dicha de la infraestructura de conmutadores local es un proceso complejo que requiere una coordinación minuciosa. Abarca el traslado de servidores, renovaciones de tarjetas de red en sistemas existentes, instalación de nuevo hardware de conmutación, así como la configuración y retirada física de los antiguos conmutadores. El cambio a la tecnología de red EVPN/VXLAN, completamente distinta, supuso adaptaciones de enorme alcance en el nivel lógico de la red. En esta etapa, un equipo altamente experimentado en los campos de Networks, Infrastructure Services, Application Management y Data Center desempeñaron un papel clave para garantizar que todo funcionara sin complicaciones.
Paso 3: Pruebas y más pruebas
Tras la sustitución completa de la infraestructura, es crucial llevar a cabo pruebas exhaustivas. Mediante la simulación de diversos escenarios, se puede garantizar que los nuevos conmutadores cumplan todos los requisitos y funcionen de manera fiable en el modo productivo. Esta fase minimiza el riesgo de errores y fallos durante el funcionamiento regular.
Paso 4: Documentación y formación
Una minuciosa documentación de la nueva configuración es esencial para facilitar futuros trabajos de mantenimiento. Además, debe impartirse la formación pertinente a los empleados de IT Operations, para que estén familiarizados con la nueva infraestructura y puedan reaccionar con agilidad en caso necesario.
Me gustaría ahondar en los pasos 1 y 2 para describir con mayor detalle las actividades:
Planificación
La planificación se dividió en dos áreas: el hardware de los servidores y la red.
Por lo que respecta al hardware de los servidores, se trataba de determinar qué sistemas debían trasladarse físicamente en el centro de datos y qué tarjetas de red debían sustituirse debido a los nuevos requisitos.
Asimismo, se estableció con qué conmutador y a qué puerto se conectaría en el futuro el respectivo servidor. Esto era necesario para poder preparar con antelación la configuración de los conmutadores.
Al mismo tiempo, se definió también la secuencia de los sistemas a actualizar, ya que durante el funcionamiento solo se podría desconectar de la red una pequeña parte de los dispositivos.
Por último, pero no por ello menos importante, pudimos basarnos en esta información para planificar también los recursos de personal, puesto que un Application Manager debía detener primero los servicios de cada sistema para que un Infrastructure Engineer pudiera introducir cambios a nivel del sistema operativo. A continuación, se realizó la conversión física del servidor en el centro de datos. Posteriormente, se reinició y reconfiguró el sistema, se puso de nuevo en servicio operativo y se realizaron las comprobaciones necesarias.
A su vez, la planificación de la red se centra en todas las actividades que deben llevarse a cabo a nivel físico y lógico en la infraestructura de la misma antes, durante y después de la conversión física.
Para ello, procedimos de la siguiente manera:
- Preparativos iniciales: todas aquellas actividades que pueden llevarse a cabo previamente sin influir directamente en el funcionamiento, como la automatización de procesos de configuración mediante Ansible o la interconexión de nuevos conmutadores antes de integrarlos en la infraestructura existente
- Integración de la nueva infraestructura de conmutadores en el tejido de la red existente
- Traslado de las conexiones de Internet y del centro de datos desde el antiguo entorno de conmutadores al nuevo
- Actualización/transferencia de las configuraciones de cortafuegos a la nueva infraestructura
- Transferencia de las zonas de cortafuegos (DMZ) al nuevo entorno
- Limpieza en la configuración y desconexión de la antigua estructura
- Pruebas de redundancia y de conmutación por error para todos los componentes de la red
El plan completo de reconstrucción de la red constó de ocho etapas y de más de 300 pasos individuales. Éstos fueron llevados a cabo por cuatro expertos en redes, de modo que se pudo aplicar en todo momento el “principio de los cuatro ojos”. Durante la implementación, todos los involucrados participaron en una llamada grupal en la que se comunicaba claramente cada paso. Esto nos permitió evitar malentendidos y optimizar la coordinación de las diversas actividades.
Conclusión: La mirada puesta en el futuro
La sustitución de la infraestructura de conmutadores en un centro de datos no solo es un avance tecnológico sino también un movimiento estratégico para superar los retos futuros. Mediante una planificación minuciosa, personal competente y pruebas exhaustivas, las empresas pueden garantizar que su centro de datos está preparado para afrontar los desafíos de la era digital moderna.
Una pequeña anécdota para concluir: ni tan siquiera la planificación más meticulosa sirve de nada si uno no puede acceder al centro de datos. Eso es exactamente lo que le pasó a nuestros colegas el 3 de marzo, pese a que sus tarjetas de acceso incorporaban de hecho todos los permisos necesarios. Desafortunadamente, tampoco el servicio de seguridad pudo ayudarles durante el fin de semana. Gracias a una petición personal a un contacto de confianza con el cargo apropiado, se pudo garantizar –a las tres y media de la madrugada del lunes– el acceso del equipo a la jaula de Retarus. En ocasiones, la clave es tener buenos contactos…
La actualización se llevó a cabo entre el lunes y el miércoles, desde las 03:45 hasta las 14:00 horas. Y fue bastante exigente físicamente: durante los tres días, el reloj inteligente de Uwe Geuss contabilizó 8.600, 12.600 y 9.600 pasos respectivamente, mientras que los otros dos miembros del equipo recorrieron distancias similares. Antes de empezar, los tres tuvieron incluso tiempo de montar un dispositivo de grabación para capturar un vídeo a cámara rápida que, naturalmente, no hemos podido resistirnos a mostrar aquí:
Son muchos los motivos por los cuales Retarus siempre ha operado sus propios servicios en lugar de recurrir a hiperescaladores. Asumimos de manera plenamente consciente la responsabilidad sobre todo el conjunto: desde el bastidor, los servidores o el software hasta los carriers. Precisamente por ello, tan solo adquirimos de nuestros proveedores de centros de datos una jaula vacía con electricidad y refrigeración. Nosotros mismos nos encargamos del resto de la creación de valor, en beneficio de la solución global y de nuestros clientes.