De redactie van ISP Today vroeg mij twee weken geleden of één van mijn collega’s of ik een stukje wilde schrijven over brandpreventie en brand in een datacenter. In 2008 hebben wij een brand meegemaakt in ons datacenter BIT-2A, dus ik dacht wel met het onderwerp uit de voeten te kunnen. Ik had niet kunnen vermoeden dat ik twee dagen later een sloot nieuwe ervaring met brand in een datacenter zou opdoen.
Door Wido Potters
Op donderdag 9 oktober 2014 om 00.45 uur volgt op een brandmelding vanuit ons datacenter BIT-2B een automatische brandblussing. In die nacht wordt het incident op onze site gemeld, een dag later volgt een incidentrapport en een paar dagen later een weblog met beelden. Ondanks onze pogingen om zo open en helder mogelijk te communiceren, zijn er toch nog een aantal vragen bij ons binnen gekomen. De belangrijkste ervan worden in dit artikel beantwoord.
Twee branddetectiesystemen
BIT gebruikt een tweetal branddetectiesystemen in zijn datacenters. Het VESDA-systeem triggert vooralarmen naar onze storingsdienstengineers. Het VIEW-systeem triggert ook vooralarmen naar onze storingsdienstengineers. Op ieder van die vooralarmen volgt een visuele inspectie van de ruimte. Als twee of meer sensoren van het VIEW-systeem roetdeeltjes detecteren, wordt er automatisch groot alarm geslagen. Storing op een enkele sensor kan dus geen onterechte blussing triggeren.
“BIT gebruikt een tweetal branddetectiesystemen in zijn datacenters
Tot een aantal jaren geleden was ons VIEW-systeem niet in staat om met voldoende zekerheid roetdeeltjes te detecteren als de koelinstallatie nog aan stond. Destijds moest de koelinstallatie afgeschakeld worden zodat er minder wind in de ruimte was. Als er binnen een aantal minuten roet gedetecteerd werd, werd de blusinstallatie ingeschakeld. Als er geen roet gedetecteerd werd, werd de koelinstallatie terug ingeschakeld. Door de sterk verbeterde VIEW-systemen is het afschakelen van koeling gelukkig niet meer nodig.
Blusgasinstallatie
Bij een groot alarm worden onze storingsdienst-engineers ingeschakeld, de brandweer wordt gealarmeerd en de blusinstallatie wordt geactiveerd. Bij activatie van de blusinstallatie gaat een alarm af in de ruimte waar de brand gedetecteerd is. Bezoekers hebben zodoende dertig seconden de tijd om die ruimte te verlaten. Na die dertig seconden zal de blusinstallatie de gasflessen legen in de ruimte. De gasflessen staan onder druk van zo’n 300 bar en er wordt met ongeveer 60 bar druk geleegd in de ruimte. Binnen een minuut zijn de flessen leeg.
Het legen van de gasflessen in de ruimte zorgt ervoor dat het zuurstofniveau in de ruimte daalt naar onder de 15 procent. Dat is voldoende om een brand te laten doven, maar is ook voldoende zuurstof voor mensen om zonder blijvende schade in te overleven. Als er geen aparte maatregelen worden genomen blijft de ruimte gedurende minimaal een uur op een laag zuurstofniveau. Hierdoor kan de brand in die periode niet opnieuw aanwakkeren.
Op de verschillende videobeelden is te zien hoe een dergelijke blussing in zijn werking gaat en hoe adequaat brandweer en medewerkers van BIT hier op inspelen.
De brandweer rukt uit na zo’n blussing en zal een speciaal aanvalsplan raadplegen. Eén van de zaken die in dat aanvalsplan is vastgelegd, is dat er niet met water of poeder geblust hoeft te worden in de serverruimtes van BIT. Er worden dus geen slangen uitgerold. De brandweer controleert feitelijk alleen of er slachtoffers in de ruimte zijn en of de brand succesvol geblust is. Na een eerste controle door de brandweer mogen ook BIT-medewerkers met perslucht de ruimte in. Hierbij wordt gepoogd de brandhaard te vinden en eventuele schade op te nemen. Tot onze frustratie duurde het bij een blussing in 2008 lang voordat de brandweer de ruimte voor onze medewerkers vrij gaf. Er moest gewacht worden totdat het zuurstofpeil weer in orde was. Na die blussing heeft BIT zelf perslucht aangeschaft en medewerkers ermee getraind, zodat vrijwel direct na een blussing we zelf de ruimte in kunnen.
Na de blussing
Het gebruikte gas is een mengsel van stikstof en argon. Dit mengsel is onschadelijk voor mens, milieu en hardware. De apparatuur in de ruimte blijft in principe dan ook gewoon functioneren. Onze ervaring leert echter dat er wel problemen optreden met harde schijven. Het aantal problemen en de omvang ervan is gelukkig wel beperkt. De blussing heeft een kortstondige afkoeling van de ruimtetemperatuur tot gevolg, daarnaast komt er nogal wat geluid vrij. Beide gevolgen kunnen ertoe leiden dat harde schijven in storing gaan. Een powercycle van de apparatuur lost deze problemen over het algemeen weer op. In een aantal gevallen ziet een RAID controller een disk ook na de powercycle nog als defect, het handmatig overrulen van deze status lost deze problemen op. Slechts een handvol machines heeft permanente schade aan de schijven.
De schade aan apparatuur wordt overigens niet door BIT gedekt. Bij het aangaan van het contract wijzen wij onze klanten er expliciet op dat ze hun eigen apparatuur dienen te verzekeren (als ze dat willen). BIT neemt wel de rekening op zich voor de kosten van het hervullen van de gasflessen en de arbeid van BIT-medewerkers. Deze kosten worden dus niet verhaald op de eigenaar van de apparatuur die de brandblussing heeft veroorzaakt.
“We hebben vaker de vraag gekregen of het middel (de blussing) niet erger is dan de kwaal (de brand)
Het opnieuw vullen van de flessen duurt helaas enige tijd. Er zijn in Nederland slechts drie vulstations, ieder met beperkte capaciteit. In de periode dat de flessen nog niet terug zijn van het vullen, blijft personeel op locatie aanwezig. De brandmeldinstallatie functioneert normaal na een blussing. Zou die installatie dus een brandmelding geven voor dezelfde ruimte, dan wordt die brand door het aanwezige personeel met CO2 blussers geblust.
Zoals gezegd blijft er kans op schade aan met name harde schijven bij een blussing. We hebben vaker de vraag gekregen of het middel (de blussing) niet erger is dan de kwaal (de brand). Dat kan in sommige gevallen zo zijn, ja. Maar dat weet je niet vooraf. Vooraf kan je niet weten of een kortsluiting/brandje uit zichzelf dooft. En je weet ook niet hoe snel een brand om zich heen grijpt. Daarom kiezen wij ervoor om altijd automatisch te blussen bij een melding van twee of meer sensoren.
Openheid en communicatie
Bovenstaande is hoe wij bij BIT omgaan met brandmeldingen en blussingen. In andere datacenters kan die afweging anders gemaakt worden en die afweging kan van allerlei zaken afhankelijk zijn waaronder beschikbare technologie of risico-inschatting. Een afweging die bij veel datacenters en IT-bedrijven in het algemeen sowieso vaak anders gemaakt wordt dan bij BIT, is de openheid en transparantie waarmee over storingen, incidenten en fouten gecommuniceerd wordt. Wij geloven in volledige openheid, ook als we een keer een (stomme) fout gemaakt hebben. Fouten benoemen we en we proberen oplossingen te verzinnen die dergelijke fouten in de toekomst moeten voorkomen. Helaas zie ik andere IT-bedrijven op dat gebied andere keuzes maken. Fouten worden verzwegen, incidenten en storingen worden achter logins gezet. Dat doet onze branche geen goed. Velen kijken naar onze branche met argwaan en bezien IT als een noodzakelijk kwaad, IT-consultants worden zowaar nog slechter beoordeeld.
We krijgen unaniem alleen maar positieve reacties op die openheid. Laat de angst niet regeren, probeer het ook eens en laat je versteld staan.
Wido Potters is werkzaam bij BIT (Het artikel is eerder gepubliceerd op ISP Today)