C2021D14 Verstoring Appcluster 18 oktober 2021

Beste klant/collega,

(Is dit bericht niet goed leesbaar? Bekijk dan de online versie.)

Wij vragen aandacht voor het volgende:

Verstoring Appcluster 18 oktober 2021

Het zal weinigen zijn ontgaan dat we vanmorgen last hadden van een flinke verstoring aan het Appcluster, met als gevolg problemen voor veel op die omgeving gehoste websites en applicaties. Deze storing is afgelopen nacht rond 4:30 uur ontstaan na de aangekondigde netwerkwijziging waarbij per abuis dubbele ID’s zijn uitgegeven. Mijn welgemeende excuses voor de overlast die daardoor is ontstaan. In onderstaande tekst proberen we duidelijkheid te schetsen over de oorzaak, de gevolgen en de vervolgstappen.

Oorzaak (technisch)

Het probleem werd veroorzaakt door de opzet van de nieuwe aggregatielaag van team IaaS. Deze nieuwe netwerklaag bestaat uit een 8-tal switches over 2 datacenters heen, ieder switch is een individueel onderdeel en door gebruik te maken van EVPN/VXLAN kunnen deze individuele switches zich als een gezamenlijke switch presenteren richting servers, storage en andere infrastructuurcomponenten.

Om dit te kunnen doen wordt er gebruik gemaakt van een identifier (ID), de ethernet-segmenet-identifier (ESI). Deze code zorgt ervoor dat een fysieke poort op een van de aggregatieswitches weet welke poorten er nog meer horen tot de logische interface (poort-channel, 802.3ad bond) die de poort vormt.

Door misinformatie is er vanuit gegaan dat de combinatie van logische interface-naam (bijvoorbeeld: ae15) en ESI voldoende uniek zou moeten zijn om een poort succesvol aan te sluiten. Echter is, al eerder, gebleken dat dit niet het geval is. Voor grote delen van de configuratie is dit aangepast, maar helaas is dat voor dit systeem over het hoofd gezien.

Door een dubbel gebruik van de ESI is er een situatie ontstaan waarbij de core-switches van NPO dachten dat een mac-adres op een andere poort leefde, met als resultaat dat het verkeer hier de verkeerde richting op gestuurd werd. In dit specifieke geval speelt daarbij mee dat de core-switches dachten dat het systeem aangesloten was op dezelfde poort als de storage. Met als resultaat dat dit systeem de onderliggende storage niet meer kon benaderen.

Omdat de impact van deze netwerkchange op voorhand zeer minimaal werd geacht en de monitoring tool bij een voorgaande, gelijkende wijziging onderuitging, had team Hosting & Streaming de monitoringdiensten (Nagios) in downtime gezet. Daardoor werd het team niet tijdig op de hoogte gebracht van de verstoring.

Gevolg en oplossing

Rond 7 uur vanochtend kreeg team Hosting & Streaming de eerste meldingen over niet-werkende websites, waarbij duidelijk werd dat applicaties hun databases niet konden bereiken. Omdat de oorzaak in eerste instantie niet duidelijk was en de oplossing niet voorhanden, heeft H&S een spoedmigratie gedaan van alle databases op de defecte omgeving naar een nog wel werkende omgeving. Rond 9:50 uur waren daardoor de grootste problemen voorbij.

Volgende stappen

In de nacht van dinsdag op woensdag, zullen we alle hostingdiensten migreren van Datacenter 1 naar Datacenter 2. Daarna kunnen we de omgeving in Datacenter 1 migreren naar de nieuwe aggregatielaag. Hier volgt nog een aankondiging voor.

Geleerde lessen

Binnen team IaaS is afgesproken om de ESI te koppelen aan de logische interface die behoort tot de ESI, daarbij worden alleen nieuwe en nog niet in gebruik zijnde logische interfaces gebruikt. Dit om te voorkomen dat dit probleem zich in de toekomst opnieuw voordoet. Daarnaast zal er onderzocht worden of het uitgeven van ESI's geautomatiseerd kan worden, zodat human error als factor wordt uitgesloten;
Voortaan zullen diensten bij voorbaat gemigreerd worden als er werkzaamheden aan de netwerklaag plaatsvinden (zie vervolgstap);
Monitoring moet zodanig worden ingericht dat verstoringen n.a.v. geplande wijzigingen wel gemeld worden en/of we plannen een handmatige check.

We hopen dat bovenstaand bericht voldoende duidelijkheid geeft over de gebeurtenissen. Bij vragen zijn we uiteraard bereikbaar.

Bereikbaarheid

Team Hosting&Streaming is gedurende het onderhoud via de normale kanalen bereikbaar. Zie de contact pagina

C2021D14 Verstoring Appcluster 18 oktober 2021

Verstoring: Verstoring Appcluster 18 oktober 2021

Verstoring Appcluster 18 oktober 2021

Oorzaak (technisch)

Gevolg en oplossing

Volgende stappen

Geleerde lessen

Bereikbaarheid

NPO Hosting en Streaming