aankondigingen:2020:a2020d04-storing-upload-sites-20200225

Differences

This shows you the differences between two versions of the page.


aankondigingen:2020:a2020d04-storing-upload-sites-20200225 [2024/03/07 17:08] (current) – created - external edit 127.0.0.1
Line 1: Line 1:
 +~~META:
 +title = A2020D04: Storing upload sites 25 feb 2020
 +~~
 +{{htmlmetatags>
 +metatag-keywords=(storing upload-sites.omroep.nl)
 +metatag-og:title=(Storing upload-sites 25 feb 2020)
 +metatag-og:description=(
 + In de avond van 25 februari 2020, tussen 17:00h en 20:35h is er
 + een storing geweest op upload-sites.omroep.nl, waardoor FTP
 + verkeer tussen 18:37h en 20:35h niet mogelijk was. Gevolg was
 + dat uploaden over FTP naar het appcluster in dit tijdsinterval
 + problemen ondervonden heeft. De websites zelf hebben geen last
 + ondervonden.
 + )
 +}}
 +====== A2020D04: Storing upload-sites 25 feb 2020 ======
 +Beste klant/collega,
 +
 +(Is dit bericht niet goed leesbaar? Bekijk dan de [[|online versie]].)
 +
 +gisteravond, 25 februari 2020, tussen 17:00h en 20:35h is er een storing
 +geweest op upload-sites.omroep.nl, waardoor FTP verkeer tussen 18:37h en
 +20:35h niet mogelijk was. Gevolg was dat uploaden over FTP naar het appcluster
 +in dit tijdsinterval problemen ondervonden heeft. De websites zelf hebben
 +geen last ondervonden.
 +
 +Het probleem werd veroorzaakt door een foutieve failover van de software
 +(genaamd "keepalived") die juist bedoeld is om diensten highly available
 +te laten zijn...
 +
 +De storing is het gevolg geweest van een aantal opeengestapelde
 +zaken die samen tot een soort "perfect storm" hebben geleid:
 +  - In december 2019 is een aanpassing in de keepalived failover scripts gedaan om locking te verbeteren in het geval dat er een failover en een failback event heel kort op elkaar volgen. Bij die aanpassing is een bug in de locking geintroduceerd. Bij testen is deze bug helaas niet opgemerkt, omdat deze zich pas manifesteert na een tweede failover (failover+failback+failover). In het testen is alleen een scenario met een failover + failback getest.
 +  - In de nacht van 11 op 12 februari is er netwerkonderhoud geweest, waarbij een core router ge-upgrade is. Voorafgaand aan dit onderhoud zijn alle diensten gemigreerd naar het datacenter waar het onderhoud geen impact had, na afloop zijn de diensten weer eerlijk verdeeld over beide datacenters.
 +  - In het reguliere software onderhoud van 17--20 februari is de HA software (keepalived) ge-upgrade naar een iets nieuwere versie. Het lijkt dat deze versie gevoeliger is voor packet loss, maar op dat moment wisten we dat nog niet
 +  - Vorige week woensdag (19 februari) is er onderhoud geweest op een van de hosting firewalls. Deze systemen zijn qua netwerk dubbel aangesloten en kunnen kiezen via welk interface ze verkeer uitsturen. Na het onderhoud wordt verkeer over een ander interface uitgestuurd dan daarvoor. Dat zou op zich geen verschil moeten maken, behalve dat dit interface net wat meer packet loss laat zien dan het oorspronkelijke interface. (packet loss vindt plaats in alle netwerken en is normaal gesproken geen reden tot ongerustheid)
 +
 +Vervolgens is dit allemaal bij elkaar gekomen:
 +  - Tussen de twee datacenters was nu iets meer packetloss dan voorheen
 +  - Er draaide een software versie die hier iets gevoeliger was dan voorgeen
 +  - De HA componenten van upload-sites draaiden verdeeld over de twee datacenters, zodat de packet loss van toepassing was.
 +  - Met als gevolg dat de HA software op enig moment z'n counterpart niet meer zag en het tijd vond voor een failover
 +  - Even later zag deze z'n counterpart weer wel -> failback
 +  - Maar even later toch weer niet -> failover
 +  - En toen werd de bug uit december 2019 actief waardoor deze failover faalde en de ftp server van upload-sites niet meer op gebracht werd
 +
 +Het repareren hiervan heeft relatief lang geduurd omdat op het moment
 +van de storing nog niet duidelijk was wat er nou precies allemaal aan de
 +hand was. Pas toen dat duidelijk werd kon het probleem verholpen worden.
 +
 +In de tussentijd zijn de volgende maatregelen genomen om herhaling te
 +voorkomen:
 +  * De locking bug in het failover script is opgelost
 +  * De betreffende HA componenten draaien tijdelijk in hetzelfde datcenter
 +
 +Verder is nog in onderzoek waarom de nieuwere versie van keepalived nu
 +gevoeliger lijkt te zijn voor packet loss en aan de netwerk kant is in
 +onderzoek hoe het kan dat ook netwerkstromen die helemaal niet via de bewuste
 +firewall lopen toch meer last van packet loss lijken te hebben.
 +
 +We hopen je op deze manier voldoende geinformeerd te hebben,
 +
 +het NPO Hosting team.