Failover senza toccare il DNS: il dividendo dell'L2
Cambiare i record DNS in emergenza è la cosa più stressante di un DR L3. Con un L2 tunnel non serve, perché l'IP è lo stesso.
TL;DR
Cambiare i record DNS in emergenza è la cosa più stressante di un DR Layer 3: TTL, propagazione, cache di sistema, bug applicativi. Con un L2 tunnel non serve, perché l'IP della VM ricoverata è lo stesso del primario.
Il problema del DNS in emergenza
In un DR Layer 3 standard:
- la VM cloud ottiene un IP nuovo (es. 10.99.0.50);
- i record DNS interni vanno aggiornati (
erp.local A 10.99.0.50); - il TTL precedente resta in cache fino alla scadenza (15 min - 24h);
- alcuni client hanno cache locale aggressiva;
- alcune app fanno DNS lookup solo all'avvio e tengono l'IP in cache.
Risultato: nei 30-90 minuti dopo il fail-over, alcuni client funzionano, altri no, in modo apparentemente random. È la peggior esperienza per i sistemisti in emergenza.
I tre tipi di cache DNS
Cache del resolver
I server DNS interni (Active Directory DNS, BIND, ecc.) cachano risposte. TTL configurato. Solitamente 1-4 ore.
Cache del sistema operativo
Windows: cache fino a TTL. Linux: con nscd o systemd-resolved, configurabile. macOS: aggressivo.
Cache applicativa
Le app Java, .NET, Python con configurazione default cachano DNS per la durata della JVM/processo. Restart dell'app = lookup nuovo. Senza restart = ostinata sul vecchio IP.
Il workaround del TTL basso
Una pratica diffusa: tenere TTL DNS interno bassi (5-15 min) per le risorse critiche. Aiuta, ma:
- carica i resolver con più query;
- non risolve la cache delle app;
- richiede rigorosa policy di gestione DNS.
Funziona, ma è fragile.
Il vantaggio L2
Con tunnel L2 il problema non esiste:
- l'IP della VM ricoverata è lo stesso del primario;
- i client trovano l'IP in cache: corretto;
- le app con IP cablato: continuano a funzionare;
- nessuna modifica DNS necessaria.
Tempo speso per risolvere problemi DNS in emergenza: zero.
Quando comunque serve il DNS
Anche con L2 tunnel, alcuni casi richiedono DNS:
- servizi pubblici (es. webmail, VPN aziendale verso l'esterno) — l'IP pubblico cambia, quindi DNS pubblico va aggiornato;
- failover fra datacenter Sefthy diversi (caso raro);
- migrazioni planificate.
FAQ
Posso disabilitare il TTL aggressivo dei client?
Sì, ma è un workaround fragile e impatta le performance. Meglio usare L2.
Le app cloud-native (web app moderne) hanno il problema?
Meno, perché si appoggiano a service discovery dinamico. Ma per app legacy il problema è reale.
Quanto si risparmia in RTO?
In media 15-45 minuti, dipende dal mix di app legacy.
Per il pillar L2, L2 tunnel per il DR. Per le legacy, L2 e applicazioni legacy.
Vuoi vedere Sefthy in azione?
Stesso IP, stessa subnet, RTO in minuti. Provalo gratis per 7 giorni o parla con un nostro specialista.