El pasado 19 de septiembre me enfrenté a uno de esos momentos que todo administrador de sistemas teme: la reparación de un RAID degradado. Lo que comenzó como una rutina más en la gestión de un servidor HP ProLiant MicroServer Gen10 con AMD Opteron X3216 y 8GB de RAM, terminó siendo una odisea llena de sorpresas, frustraciones y, finalmente, alivio. A continuación os cuento cómo fue esa jornada en la que aprendí que no todo es lo que parece, especialmente cuando se trata de RAIDs y servidores.
El servidor que dejó de responder
Todo comenzó cuando me di cuenta de que el ordenador con IP 192.168.10.6, encargado de realizar las copias de seguridad, no respondía al ping. Mi primer pensamiento fue: "¿Habrá fallado el RAID?". Me dirigí rápidamente a la sala de máquinas del IES Zaidín-Vergeles, en la planta baja junto a los servidores Dell de la Junta, y me encontré con que el servidor no arrancaba. El RAID 10, compuesto por 4 discos S-ATA de 2TB, parecía estar dando problemas. Lo curioso es que yo estaba convencido de que el servidor contaba con un RAID hardware, y que el comando mvcli
(parte del software Marvell_MSU_Linux_v4.1.0.2032.zip) me alertaría en caso de degradación. Pero no fue así. El servidor simplemente dejó de funcionar sin previo aviso.
La búsqueda del menú RAID perdido
Con un nuevo disco S-ATA de 2TB en mano, me preparé para reparar el RAID. Lo que no sabía era que esta tarea iba a ser más complicada de lo esperado. Resulta que para acceder a la utilidad de configuración RAID, es necesario presionar la tecla F11 durante el arranque. Pero aquí surgió el primer problema: el monitor tardaba tanto en detectar la señal que no podía ver el mensaje de "Press F11 to setup". Pasé varios minutos (que se me hicieron horas) intentando adivinar cual de las tecla F1 a F12 había que presionar. Finalmente, tras varios intentos fallidos, logré acceder a la BIOS y, desde allí, a la herramienta de administración RAID.
La reparación y el alivio final
Una vez dentro de la utilidad RAID, el proceso de reparación fue relativamente sencillo. Reemplacé el disco fallido por el nuevo, reconstruí el RAID y, tras unos minutos de tensa espera, el servidor volvió a la vida. Lo mejor de todo: no se perdió ni un solo byte de información. El RAID 10 cumplió su promesa de redundancia y tolerancia a fallos, aunque no sin antes ponerme a prueba. Aquí os dejo una galería de fotos de la reparación del RAID.
Al final del día, el servidor quedó operativo y los datos a salvo. Aunque el proceso fue estresante, también fue una valiosa lección en la gestión de sistemas. Así que, si alguna vez te encuentras frente a un RAID degradado y un servidor que no coopera, recuerda: respira profundo, mantén la calma y, sobre todo, no olvides consultar el manual y presionar F11 a tiempo!
Member discussion: