aankondigingen:2021:c2021d14-netwerkverstoring3-202110

C2021D14 Verstoring Netboot 20 oktober 2021

Na de vorige aankondiging, verwachtten we niet weer met eenzelfde soort bericht over de brug te moeten komen. Maar toch: Op 20 oktober 2021 hebben we last gehad van een verstoring rond het middaguur, die begon rond 12:02 en eindigde rond 12:08. Enkele omgevingen hebben er langer last van gehad en behoefden een herstart alvorens ze weer naar behoren werkten. Deze storing was het gevolg van de aangekondigde netwerkwijziging waarbij packets in een loop belandden en de routing engine overbelast raakte. Wederom onze excuses voor de overlast die daardoor is ontstaan. Hieronder proberen we duidelijkheid te schetsen over de oorzaak, de gevolgen en de vervolgstappen.

Het probleem werd veroorzaakt door de het omzetten van een voor productie vrij gemaakt blade enclosure naar de nieuwe aggregatielaag van team IaaS. Deze nieuwe netwerklaag bestaat uit een 8-tal switches over 2 datacenters heen, ieder switch is een individueel onderdeel en door gebruik te maken van EVPN/VXLAN kunnen deze individuele switches zich als een gezamenlijke switch presenteren richting servers, storage en andere infrastructuurcomponenten. Tijdens het omzetten van de uplink van het enclosure is er verkeer op een switch korte tijd looped geraakt, wat daarna er voor gezorgd heeft dat er veel verkeer/mac adressen geflood werd door het netwerk. Hierna heeft de RE (routing engine) protection ingegrepen op de core router door verkeer met de bestemming naar de RE te droppen. Hierdoor zijn er ook onderbrekingen geweest op andere systemen.

Deze verstoring zorgde ervoor dat het gehele Appcluster plat lag, evenals de loadbalancers van de overige clusters binnen Netboot (en daarmee in essentie het gehele cluster, want als er geen traffic meer in kan dan doet het niet veel meer).

Om 12:08 werd de wijziging teruggedraaid en was de storing vrijwel direct opgelost. Een aantal applicatieserver instances startten niet vanzelf meer op en hebben we handmatig herstart om 12:38 uur.

  • Team IAAS en Team Hosting & Streaming gaan de resterende werkzaamheden

voor de implementatie van de nieuwe aggregatielaag gezamenlijk onder de loep nemen en een draaiboek maken.

  • We plannen een nieuw tijdstip voor de werkzaamheden. Daar zal nog over

gecommuniceerd worden.

We hopen dat bovenstaand bericht voldoende duidelijkheid geeft over de laatste gebeurtenissen. Bij vragen zijn we uiteraard bereikbaar.

Bereikbaarheid

Team Hosting&Streaming is gedurende het onderhoud via de normale kanalen bereikbaar. Zie de contact pagina

  • aankondigingen/2021/c2021d14-netwerkverstoring3-202110.txt
  • Last modified: 2024/04/16 07:59
  • by 127.0.0.1