aankondigingen:2021:c2021d18-jaarlijkse-reboot-ronde

C2021D18: Software updates november 2021

Aankondiging: Jaarlijkse reboot ronde hosting servers

Beste klant/collega,

(Is dit bericht niet goed leesbaar? Bekijk dan de online versie.)

Wij vragen aandacht voor het volgende:

  1. Jaarlijkse reboot ronde hosting servers

Regelmatig sturen wij aankondigingen over stukjes applicatie of middelware software die ge-update wordt, denk aan Apache, PHP, MySQL, enz. Deze applicatiesoftware ligt bovenop een OS laag (die overigens ook regelmatig ge-update wordt, maar omdat dat de applicaties niet raakt melden we dat iha niet) en de OS laag ligt weer bovenop een stuk software dat een “kernel” heet. Deze kernel is de schakel tussen de hardware van een server (CPU, memory, disken, netwerk) en alle diensten die op die server draaien, zoals web-, applicatie- en databaseservers.

Zo'n kernel is ook maar gewoon een stuk software en kan dus net zo goed bugs bevatten. Ook van dit stuk software komen regelmatig nieuwe versies uit. Bij “gewone” software is het zo dat om de nieuwe versie actief te maken, de oude versie gestopt en de nieuwe gestart moet worden. Dat is bijvoorbeeld de reden dat we database updates vaak 's nachts uitvoeren, want tussen het stoppen en het starten zit een klein moment dat zo'n database even niet beschikbaar is.

Hetzelfde geldt in essentie voor een kernel update. De oude kernel moet gestopt worden om een nieuwe te kunnen starten. Echter, in tegenstelling tot “gewone” software is er een reboot van de betrokken server nodig om een nieuwe kernel actief te kunnen maken.

Van tijd tot tijd komt het voor dat er zulke ernstige fouten (met name op security gebied) in de kernel gevonden worden, dat wij genoopt zijn om direct in te grijpen en meteen een aantal reboots in te plannen. Maar het kan ook voorkomen dat er gedurende langere tijd geen ernsitge fouten gevonden worden. In die situatie zitten we nu. Er zijn het afgelopen jaar geen zeer ernstige fouten gevonden, maar wel heel veel kleinere fouten. Aangezien al die kleine fouten ook opstapelen voeren wij elke 6 tot 12 maanden een reboot ronde uit op ons gehele serverpark, om zo een hoge stabiliteit op het serverpark te kunnen garanderen.

Alle hosting servers van het on-premise platform (o.a. het appcluster, maar ook andere clusters die voor mediastreaming, DNS, mail en nog andere zaken zorgen; collectief noemen we dit “de netboot omgeving”) worden gereboot. Allemaal? Nou, bijna allemaal. De primaire servers van het appcluster zijn in oktober, bij het toen uitgevoerde netwerkonderhoud al gereboot. Dus die hoeven nu niet meer.

Bijna overal kunnen we door middel van loadbalancing of andere vormen van High Availability ervoor zorgen dat het rebooten van een losse server geen impact op de dienstverlening heeft. Dit, omdat er andere servers klaarstaan om op zo'n moment het relevante stukje dienstverlening over te nemen.

Er zijn echter een paar plekken waar dit om technische redenen niet 100% mogelijk is. Deze benoemen we hieronder:

  • upload servers van appcluster (upload-sites.omroep.nl) en testcluster (upload-testsites.omroep.nl): bestaande logins worden verbroken. Wel kan er meteen opnieuw weer ingelogged worden. Om de overlast hiervan te minimaliseren kiezen we ervoor het onderhoud aan de upload servers buiten kantoortijden uit te voeren.
  • alle diensten in het testcluster worden 10-30 sec onderbroken
  • de diensten in het appclcluster zouden in principe ook onderbroken worden, maar dat is nu dus niet van toepassing omdat de servers waar deze diensten op draaien al eerder gereboot zijn.

Omdat er in het gros van de gevallen geen impact op de dienstverlening is of omdat het (in het geval van het testcluster) geen productie betreft worden deze reboots gedurende kantoortijden uitgevoerd.

De planning van de reboots is als volgt:

week datum tijd wat
46 maandag 15 november 9:00–17:00 testcluster servers
46 maandag 15 november 20:00–21:00 testcluster upload servers
46 dinsdag 16 november 9:00–17:00 appcluster loadbalancers, mailrelay, NTP, DNS slaves
46 dinsdag 16 november 20:00–21:00 appcluster upload servers
46 dinsdag 16 november 9:00–17:00 DNS resolvers
47 maandag 22 november 9:00–17:00 streaming servers tranche 1
47 woensdag 24 november 9:00–17:00 audio encoders
47 donderdag 25 november 9:00–17:00 streaming servers tranche 2
48 maandag 29 november 9:00–17:00 streaming servers tranche 3

Team Hosting&Streaming is gedurende al het onderhoud via de normale kanalen bereikbaar. Zie de contact pagina.

  • aankondigingen/2021/c2021d18-jaarlijkse-reboot-ronde.txt
  • Last modified: 2024/04/16 07:59
  • by 127.0.0.1