Failover

Un gruppo di continuità che si rompe, il guasto elettrico che arriva fino ai server, un nodo VMware KO, gli switch dello storage che si resettano… un evento da 5 secondi con conseguenze per oltre 10 ore tra fermo macchine e ripristino. Questa è una vera “breve storia triste” che ci introduce al tema del failover.

Nell’informatica, il failover è il passaggio ad un server, sistema, componente hardware o rete ridondante oppure in standby, immediatamente dopo un guasto o anomalia del precedente server, sistema, componente hardware o rete attiva.

Ho visto moltissimi sistemi di failover progettati sulla carta e poi implementati, ma ben pochi li ho visti funzionare al momento del bisogno.

Vediamo alcuni degli errori più comuni.

Documentazione non aggiornata

Il più classico degli errori: il sistema iniziale nasce ben progettato, poi il tempo passa e si fanno delle aggiunte. Queste appendici sono connesse di fretta, non documentate e fuori dal contesto del failover. Al primo guasto, con un vero e proprio “effetto domino”, viene compromesso l’intero sistema.

La ridondanza costa

Non è sufficiente avere “il server di backup”, si ha veramente idea di quante cose vadano ridondate? Gli alimentatori dei server per esempio: per averne uno dobbiamo aspettare minimo 4 ore, tempo durante il quale il server è spento. Gli switch? Magari si è comprato il modello più recente, della marca più nota con tutti i personal computer collegati. Però ce n’è solo uno… un guasto e sono di nuovo tutti fermi.

Certo la ridondanza costa e non si può raddoppiare tutto. Bisogna scegliere ed avere ben chiaro cosa si lascia fuori, magari le componenti meno a rischio. Un esempio? Abbiamo 2 gambe, 2 braccia, 2 occhi, 2 orecchie, 2 mani, 2 polmoni… per altre cose invece c’è un unico esemplare!

Alè portiamo tutto nel Cloud…

…e poi magari abbiamo una sola connessione ad Internet e nessuna rete di backup!

2 nodi VMware e 1 storage

Il vMotion consente di spostare “a caldo” una macchina virtuale da un server all’altro, una tecnologia ideale per il failover. Con 2 nodi funzionanti è possibile bilanciare il carico di lavoro (DRS), in caso di guasto di uno dei 2 tutte le VM vengono spostate sul nodo superstite (HA).

Ma cosa vuol dire spostare una VM? Significa spostarne solo la capacità di elaborazione. I dati rimangono nello stesso posto e spesso queste soluzioni sono mono-storage. Se si guasta lo storage è tutto fermo, con o senza vMotion.

vCenter virtualizzato

Il vCenter è il software tramite il quale VMware concretizza le proprie tecnologie più sofisticate, come ad esempio il bilanciamento del carico tra i nodi. Ma se il vCenter è virtualizzato ed il nodo sul quale in quel momento è in esecuzione ha un guasto, cosa succede?

Alcuni servizi continuano a funzionare, altri si interrompono. Ho visto operatori IT con esperienza andare in crisi perché non riuscivano a collegarsi su VMware senza vCenter, ignorando come svolgere le operazioni di base ad esempio con SSH direttamente sul nodo.

Il backup nello stesso luogo

Avere 2 server è una buona base di partenza, ma se possibile vanno messi in luoghi diversi e distanti. La stessa sala server può essere soggetta ad eventi esterni: guasto elettrico, ambientale, intrusione, furto… rendendo inutile la ridondanza.

Un solo Active Directory

Ridondare l’hardware non basta! La grande maggioranza dei servizi condivide l’autenticazione e il DNS con il server di Active Directory. Se ce n’è uno solo (o peggio due ma sullo stesso nodo) in caso di guasto nulla potrà più autenticarsi ed a tutti sarà negato l’accesso. Senza DNS le registrazioni fatte per nome non funzionano, compromettendo altre funzionalità.

Confondere le strategie

Il failover può essere realizzato con ridondanza, storage replicato, backup incrementali, software come Veeam, tecnologie applicative come il log-shipping di SQL Server… ci sono molteplici strategie, ognuna con i suoi pro ed i suoi contro.

La certezza è che non esiste una soluzione unica per tutti i tipi di guasto, un buon sistema è fatto da un mix di strategie. L’errore comune è confonderle o non ricordarsi come i sistemi lavorino insieme per garantire l’alta affidabilità.

 

Chiama subito per maggiori informazioni +39 0113473770
oppure lasciaci i tuoi recapiti e sarai contattato il prima possibile:



 

Lascia un commento