Correva la seconda decade del 2007 quando SeFlow lanciò il servizio di VPScube v.2 portando dietro a se speranze, prestazioni, costi contenuti, e tanta voglia di rivoluzionare l’ hosting. Il servizio prese subito piede e vedemmo quintuplicare in poche settimane le macchine programmate per il lancio del servizio. Ogni macchina è dotata di un’ ottimo livello di failure tollerance, con hard disk hot swap in raid 10, alimentatori ridondati e rete interna gigabit per migrazioni “lampo” in caso di necessità.
Proprio ieri sera, parlando su msn con un cliente, notavo come, fino ad allora, la somma di uptime di tutti i nodi era pari al 99,9%. Quell’ 1% perso per strada era semplicemente dovuto agli aggiornamenti notturni che abbiamo eseguito con l’ uscita di centos 5.1 che ci ha permesso di increementare e migliorare le prestazioni e la stabilità del sistema con le nuove versioni del software di virtualizzazione, tale modifica, ovviamente, ha richiesto un riavvio, in orario notturno di tutte le macchine. Sembra quasi che “me la sia cercata”, infatti ieri sera ho speso ottime parole, stracolme di orgoglio per non aver avuto alcun downtime non programmato dalla nascita del servizi, non sapendo che la jella fosse pronta a colpire.
Ore 7.18, il telefono del lavoro squilla e ancora frastornato da quell’ orrenda suoneria che prima o poi deciderò di cambiare, vengo folgorato da 6 parole che mi rimbombano nella testa cariche di paura: <<sig. Berlonghi, abbiamo un problema coi vps….>,dopo qualche secondo di smarrimento mi faccio spiegare la situazione. Una macchina attivata proprio 2 giorni prima al riavvio mostra il fatidico messaggio di errore
“Operating system not found….”
Il bios del controller raid da un failure hardware su 3 dei 4 hard disk presenti.
Inizialmente penso ad uno scherzo, come è possibile che una macchina con 3 giorni di vita riesca a folgorare contemporaneamente 3 hard disk?
Liquido il tecnico di primo livello che mi ha contattato per sentire il mio collega “jo” che ritengo un’ ottimo sistemista ed è lui di turno in quel momento, con voce tremolante mi conferma la triste realtà. in 2 minuti netti mi vesto, cambio lavo, faccio colazione (una briosche che passa direttamente dal freezer alla mia bocca) e sfidando qualsiasi autovelox presente sulla ovest mi presento in farm e constato la triste realtà: oggi 17 gennaio 2008 c’è stato il primo downtime di un nodo dei vps SeFlow! (prima o poi doveva succedere, anche se speravo in un poi millenario!! ). Smonto la macchina e mi arriva una vampata di odore di bruciato che mi fa capire subito quale sia il problema. A quel punto prendo gli hard disk, li metto sotto una nuova macchina e la faccio partire, l’ output mi mostra qualsiasi tipo di errore esistente sulla faccia della terra sul filesystem e capisco che quel *bellissimo* alimentatore Zippy Emacs ridondanto, pagato 5 giorni prima la bellezza di 400euro (iva esclusa) in barba a tutte le protezioni decantate si era portato con se anche gli hard disk. Avvio così un live cd (ovviamente ubuntu ndr.), monto l’ array come secondario (gli array dei 3ware possono essere montati come semplici filesystem lvm) e inizio a prelevare i dati dei singoli vps. Ore 14.20 riesco a salvare tutti i dati, mi sento un’ entità quasi superiore, stacco gli hard disk, lancio la macchina, il sistema riparte… Per sicurezza faccio fare un check del filesystem delle vps, ci vuole un pò, ma vista la sfortuna che mi ha assillato voglio essere sicuro. Ad un certo punto il messaggio tanto agoniato
“Filesystem marked clean…”
Tra i miei colleghi parte la ola, i vps tornano a rispondere al ping…
Berlonghi 1 sfortuna 0
!!!!!!
Contatto i clienti (per fortuna il server essendo nuovo erano solo 8), mi scuso, loro son rincuorati e comunico che lo SLA offerto verrà “personalizzato”. Mi raduno con i commerciali e arrivo ad una conclusione: upgrade gratuito con raddoppio di numero di CPU disponibili per tutti a tempo indeterminato!. Lo comunico ai clienti, il più felice sembra essere un cliente che ha preso una vps da 2cpu che ora se ne trova 4….
Guardo le risorse consumate dalle vps dopo l’ upgrade gratuito e penso “Per fortuna sono sfighe che capitano una volta nella vita….”
… o forse no?
p.s. se i dati non fossero stati recuperati ci sarebbero stati i backup aggiornati a 4 ore prima
Matteo Berlonghi