aankondigingen:2020:c2020d20-verstoring-agv-storage-onderhoud-202011

C2020D20 Storage Onderhoud

Verstoring als gevolg van storage onderhoud

Beste klant/collega,

(Is dit bericht niet goed leesbaar? Bekijk dan de online versie.)

Wij vragen aandacht voor het volgende:

  1. Verstoring als gevolg van storage onderhoud

In de nacht van 16 op 17 november 2020 heeft een geplande storage test helaas tot een onvoorziene verstoring in de NPO webhosting omgeving geleid. Veel diensten zijn als gevolg van de test gecrashed waardoor websites onbereikbaar werden. De storing heeft geduurd van 2:15h tot +/- 4:00h.

Wat is er gebeurd

De bedoeling van de test was om de uitval van een datacenter te simuleren. Daarvoor zijn de fileservers overgeschakeld van het ene, naar het andere datacenter. Hoewel die overschakeling op zich goed verlopen is, was het zo dat tijdens de overschakeling alle filesystemen tijdelijk actief geweerd werden van de clients. Dit was onvoorzien en had tot gevolg dat alle databases, elastic search instances en andere zaken die persistent storage gebruiken gecrashed zijn.

Deze zijn direct na de test weer gestart, maar omdat het veel instanties waren heeft dat bij elkaar bijna 2 uur geduurd. Gedurende die tijd zijn een groot aantal websites minder of niet beschikbaar geweest vanwege afhankelijkheden op databases e.d.

En nu?

Inmiddels draait alles weer, maar gaan ons beraden op vervolgstappen. Blijkbaar is de communicatie tussen onze leverancier en ons niet helder genoeg geweest, waardoor voor ons vantevoren niet duidelijk was dat dit een mogelijk gevolg kon zijn.

Bij deze bieden we onze excuses aan voor de overlast.

Een root cause analysis van dit incident is beschikbaar.

  • aankondigingen/2020/c2020d20-verstoring-agv-storage-onderhoud-202011.txt
  • Last modified: 2024/04/16 07:59
  • by 127.0.0.1