6 recomandări pentru a ține sub control riscurile operaționale într-un Data Center

Controlul riscurilor operaționale în centrele de date e o luptă continua, în care presa nu consemnează îndeobște decât “înfrângerile”. Microsoft, Google, Amazon, Equinix sunt exemple notorii ale faptului că downtime-urile sunt inevitabile și nu iartă pe nimeni. Dar Data Centerele au la dispoziție un arsenal vast de arme și strategii pentru a-și asigura victoria pe termen lung.

Ca în orice război de uzură, erorile umane sunt una dintre principalele cauze ale “înfrângerilor”. Analizele post-downtime arată că intervențiile tehnicienilor din centrele de date sunt responsabile pentru aproape un sfert din cazuri (24%), situându-se pe locul doi în ierarhia cauzelor care duc la încetarea temporară a activității unui Data Center (după problemele generate de bateriile UPS-urilor).

Incriminarea factorului uman nu este însă decât vârful vizibil al asibergului. Pentru că, înainte de a trage orice concluzie și – mai ales – pentru a identifica corect cauzele și măsurile de corijare necesare, trebuie făcută o analiză la nivel operațional care să detalieze procedurile și metodologiile utilizate.

Pornind din acest punct, am trecut succint în revistă cele mai “populare” recomandări ale experților pentru a ține sub control riscurile operaționale într-un Data Center.

  • Documentarea schimbărilor efectuate. În numeroase cazuri, downtime-urile atribuite factorului uman se datorează nerespectării unor proceduri standardizate. Sau inexistenței acestora. De exemplu, un studiu Netwrix arată că 57% dintre tehnicieni realizează modificări ale configurațiilor fără a le documenta. Și că 40% dintre Data Centere nu au nicio formă de control asupra schimbărilor efectuate. Privite din această perspectivă, erorile umane devin astfel o problemă de management și practică operațională. (E adevărat, “inculpații” invocă justificat lipsa timpului necesar pentru a documenta fiecare schimbare efectuată. Ceea ce aduce în discuție nivelul de încărcare și mută problema în zona resurselor umane.)
  • Definirea procedurilor operaționale pentru situațiile de urgență. Este în strânsă legătură cu prima recomandare, dar e un alt demers “birocratic” pe care puține Data Centere și-l asumă de bună voie. Subiectul Emergency Operating Procedures (EOPs) este vast și bine documentat în literatura de specialitate, acoperind principalele categorii de riscuri cu care se confruntă centrele de date. Este necesară însă realizarea unei librării EOPs personalizate, adaptate cerințelor și problemelor specific fiecărui Data Center, dacă nu doriți să reinventați roata de fiecare dată când vă confruntați cu un eveniment critic. Și mai ales atunci când vreți să respectați și valorificați o serie de bune practici validate deja.
  • Testarea și exersarea procedurilor. Oricât de bine ar fi documentată librăria EOPs, nu are nicio valoare dacă personalul operațional nu este familiarizat cu ea. Modalitatea cea mai sigură de a vă consolida capacitatea operațională este prin teste și simulări periodice ale scenariilor de risc din librăria EOPs. Ceea ce, într-un Data Center cu un nivel de încărcare ridicat, nu este deloc ușor. Însă este necesar dacă doriți să căpătați “fluență” operațională și să depistați din timp orice posibile sincope care pot apărea într-o situație reală.
  • Pregătirea personalului operațional. Ca și în cazul testării și exersării, și procesul de training al personalului este unul delicat din cauza nivelului de încărcare. Însă trebuie realizat chiar și într-o variantă simplificată – nu puteți lăsa totul pe seama “învățarii la fața locului” atunci când este vorba de un downtime neplanificat și când obiectivul principal este repunerea în funcțiune cât mai rapidă a anumitor facilități.
  • Monitorizarea bateriilor UPS și a generatoarelor diesel. Nu mai este o problemă de HR și/sau de management, ci strict tehnică. Cele două componente sunt printre principalele puncte nevralgice ale oricărui centru de date. În ” ierarhia downtime”, bateriile echipamentelor UPS sunt responsabile de 29% din cazuri, iar generatoarele de 10%. Prin urmare, un sistem de monitorizare în timp real a stării de sănătate a bateriilor este o componentă critică, la fel de important ca programul de înlocuire a celor care nu mai corespund cerințelor. Și generatoarele diesel necesită o atenție deosebită, fiind nevoie de teste de acceptanță periodice, verificarea stării combustibilului, a filtrelor, a timpului de pornire, a switch-urilor automate sau automate de reconectare etc. Este un domeniu în care colaborarea strânsă cu vendorii de astfel de soluții, cum este Tema Energy, este mai mult decât necesară.
  • Stabilirea și executarea unui program de mentenanță. Medicina a demonstrat că este mai ușor să previi decât să tratezi boala. Procedurile de mentenanță într-un Data Center sunt însă delicate, pentru că există riscul de “Maintenance-Induced Failure”, fenomen cauzat de intervențiile inutile asupra echipamentelor, care pot genera erori soldate cu disfuncționalități majore. Prin urmare, trebuie stabilite nivelurile și frecvențele minime și maxime de inverventie pe fiecare categorie de echipamente, ceea ce necesită competențe avansate. Așa că și în acest caz colaborarea strânsă cu vendorii se impune ca o prioritate. Mai ales că trebuie să vă planificați și asigurați și necesarul de componente disponibile.

Menținerea unui nivel de disponibilitate ridicat într-un centru de date impune un proces de “ajustare” continuă. Care poate fi simplificat și facilitat de partenerii cu compente reale în acest domeniu, cum este Tema Energy. Un deceniu și jumătate de experiență, certificările și implementările realizate deja, precum și partenerii de renume reprezintă garanții solide în acest sens.