aankondigingen:2021:c2021d14-netwerkverstoring-202110

C2021D14 Netwerkverstoring 14 oktober 2021

Verstoring: Netwerkverstoring 14 oktober 2021

Beste klant/collega,

(Is dit bericht niet goed leesbaar? Bekijk dan de online versie.)

Wij vragen aandacht voor het volgende:

  1. Netwerkverstoring 14 oktober 2021

In de nacht van 13 op 14 oktober heeft er een verstoring plaatsgevonden waardoor websites in het appcluster om 2:17AM ongeveer 45 seconden niet bereikbaar zijn geweest. Sites die in CHP draaien hebben geen impact gehad.

Wat is er gebeurd?

Zoals eerder uitgelegd zijn er in deze periode werkzaamheden aan het netwerk om een hogere beschikbaarheid te kunnnen garanderen.

Een onderdeel van die werkzaamheden is dat twee virtualisatie clusters kruislings over beide datacenters aangesloten worden, om zo beter bestand te zijn tegen uitval van de netwerkapparatuur in een van beide datacenters.

Het plan daarbij was om eerst alle workload te verplaatsen naar één van de twee virtualisatieclusters, dan het andere virtualisatiecluster (wat op dat moment niets doet) anders aan te sluiten en vervolgens een vergelijkbare actie te doen voor het andere virtualisatiecluster. Het migreren van workload tussen de virtualisatieclusters (“VMWare live migration”) is transparant voor de gebruikers en kan dus zonder impact gebeuren.

Echter, door een menselijke fout in de communicatie is één van de twee virtualisatieclusters anders aangesloten, vóórdat de workload verplaatst was naar het andere virtualisatiecluster.

Tijdens het aansluiten heeft dat cluster even zonder netwerk gezeten en dat heeft zich vertaald in het niet beschikbaar zijn van een aantal websites.

Wat was de impact?

De eigenlijke webservers, applicatieservers en database servers draaien niet op bovengenoemde virtualisatieclusters. Dus die hebben geen impact gehad. Maar! De loadbalancers, die het inkomende verkeer verdelen over de webservers draaien er wèl op. Normaal zijn de loadbalancers dubbel uitgevoerd; op elk cluster draait er een, zodat mocht er een heel cluster uitvallen de loadbalancer op het andere cluster het werk kan overnemen.

Echter, in dit geval draaiden alle loadbalancers nog op 1 cluster (omdat het andere eerder cluster leeggehaald was om daar zonder impact netwerkonderhoud aan te kunnen plegen). Dus toen het cluster waar de loadbalancers op draaide anders aangesloten werd waren alle loadbalancers in 1 klap weg. Dit heeft ongeveer 30-45 sec geduurd. Daarna kwam het netwerkverkeer weer op gang en draaide alles weer verder zoals het zou moeten.

Wat hebben we hiervan geleerd?

Met excuus aan eventuele Belgische lezers:

Op een dag rijdt er een Nederlander door België en ziet hij twee Belgen.
De eerste graaft een geul en de tweede gooit hem weer dicht!
Hierop vraagt de Nederlander wat ze doen.
De Belgen zeggen dat ze aan het kabels leggen zijn maar dat degene die normaal gesproken de kabels legt ziek is!

Zo ook hier. De kabel-legger (= degene die normaal de workload tussen de virtualisatieclusters zou verplaatsen) was ziek. Er was een inval kabel-legger, maar die had even niet zo op het vizier waar en wanneer welke kabels precies gelegd zouden worden. Dus zo kon het voorkomen dat de kabel-gravers vrolijk aan het werk gingen, zonder dat er een kabel-legger bezig was.

Deze storing is veroorzaakt door onvoldoende communicatie tussen de twee betrokken teams (team IAAS, o.a. verantwoordelijk voor de netwerkaansluitingen en team Hosting&Streaming, o.a. verantwoordelijk voor het verplaatsen van de workloads tussen de virtualisatieomgevingen) Hoewel er al veel communicatie is, blijkt dat dit altijd nog beter kan.

Concreet hebben we de volgende verbeterpunten afgesproken

  • Voortaan wordt vantevoren gechecked of een virtualisatiecluster wel echtleeg is voordat er onderhoud aan wordt gepleegd.
  • Acties die tijdens kantooruren uitgevoerd kunnen worden (zoals onderhoud aan een leeg virtualisatiecluster) worden bij voorkeur tijdens kantooruren uitgevoerd, zodat er meer ogen op zijn om vantevoren te kijken of de actie ook echt wel uitgevoerd kan worden.

Bereikbaarheid

Team Hosting&Streaming is gedurende het onderhoud via de normale kanalen bereikbaar. Zie de contact pagina

  • aankondigingen/2021/c2021d14-netwerkverstoring-202110.txt
  • Last modified: 2024/04/16 07:59
  • by 127.0.0.1