Globalna awaria OVH – listopad 2017

Awarie, Hosting • 25 maj 2022 • 5 min. czytania

Lider hostingu we Francji i jeden z największych graczy na rynku europejskim OVH musiał zmagać się z wielką awarią. Wszystko wydarzyło się 9 listopada 2017 roku, gdy w jednej chwili setki tysięcy serwisów internetowych w Europie zostało wyłączonych. To konsekwencja dwóch potężnych usterek w centrach danych OVH zlokalizowanych we francuskich Strasburgu i Roubaix. Jak to się skończyło?

Problemy w Strasburgu

Większa i poważniejsza w skutkach awaria miała miejsce w Strasburgu. To tam 9 listopada o godzinie 7:32 trzy centra danych zostały pozbawione prądu, a sytuacja ta trwała 4 godziny. Problem dotyczył centrów: SBG1, SBG2 oraz SBG4. Infrastruktura OVH w Strasburgu zasilana była wówczas przez jednego dostawcę prądu, a usterka jednego z dwóch kabli o mocy 20 MVA sprawiła, że wyłączono zasilanie energetyczne dla całego systemu. Uszkodzenie kabla zasilającego nie było winą OVH i doszło do niego poza terenem należącym do firmy. Taka sytuacja nie miałaby negatywnego wpływu na działanie serwisów internetowych, gdyby odpowiednio zadziałały rozwiązania awaryjne. W tym wypadku są to agregaty prądotwórcze. Tak się jednak nie stało, ponieważ urządzania normal-emergency motorised nie uruchomiły procedury.

Co ciekawe, według przedstawicieli francuskiego potentata zaledwie na pół roku przed wystąpieniem awarii, przeprowadzono rutynowe testy i symulacje. Wówczas wszystko zadziałało prawidłowo. Nie do końca wiadomo, dlaczego tym razem tak się nie stało, a skutki awarii centrów danych OVH były dotkliwe.

Czy za problemy odpowiada budowa kontenerowa?

Centra danych w Strasburgu powstały na bazie innowacyjnego systemu kontenerowego. Władze OVH zdecydowały się na eksperyment, a budowa kontenerowa wiązała się ze znacznie niższymi kosztami oraz szybszą budową całej konstrukcji. Niestety po czasie okazało się to mało efektywne i ostatecznie francuska firma hostingowa porzuciła pomysł budowy nowych centrów danych w ten sposób. Nie jest wykluczone, że wpływ na wystąpienie awarii i jej skalę miał ten eksperyment.

Wyłączenie wszystkich usług – klienci bez dostępu przez 48 godzin

Awaria w Strasburgu miała wymiar globalny. Wyłączone zostały:

usługi VPS;
chmura publiczna;
chmura prywatna;
chmura hybrydowa.

Choć problem z dostawą prądu do centrum danych trwał około 4 godzin, to jednak usuwanie usterek i ponowne uruchomienie usług trwało dłużej. Wielu klientów straciło dostęp do: serwisów internetowych, poczty i swoich zasobów nawet na 48 godzin. Musiało to mieć wpływ na codzienne funkcjonowanie wielu podmiotów gospodarczych i klientów indywidualnych w Europie, zwłaszcza tych, którzy oferują swoje usługi w sieci lub jest ona głównym kanałem sprzedaży.

Awaria światłowodu w Roubaix

Na domiar złego dla OVH, równolegle do usterki w Strasburgu wystąpiła awaria sieci światłowodowej w Roubaix. Choć miała ona mniej negatywne skutki, to jednak również wprowadziła wiele niedogodności dla klientów francuskiej firmy. W wyniku błędu oprogramowania sieć łącząca centrum danych z Roubaix z innymi zlokalizowanymi w: Brukseli, Frankfurcie, Londynie, Amsterdamie i Paryżu. Cała awaria trwała około 2,5 godziny, a w jej wyniku utracono konfiguracje ustawień na sprzęcie sieciowym, co powodowało liczne problemy z połączeniem.

Pomogło ręczne przywrócenie ustawień

W przypadku awarii w Roubaix wystarczyło ręczne przywrócenie konfiguracji na karcie, dzięki czemu dotychczasowe połączenia z francuskiego centrum danych z zagranicznymi lokalizacjami zostały przywrócone. Dla przykładu klienci z Polski korzystający z możliwości centrum w Roubaix, odzyskali kontrolę i dostęp do swoich usług już w ciągu kilku godzin. Wydaje się, że z perspektywy czasu największe niedogodności dotyczyły opóźnienia w wysyłce maili, co zaburzyło funkcjonowanie wielu firm w perspektywie kilku dni po awarii. Ponadto z powodu błędu w oprogramowaniu nie działały usługi backupu.

Reakcja władz OVH – za co można je pochwalić?

Warto bliżej przyjrzeć się temu, jak zareagowało kierownictwo OVH na niespodziewane i duże problemy. Bezsprzecznie trzeba przyznać, że od początku awarii władze francuskiej firmy hostingowej postawiły na transparentną komunikację. Założyciel firmy Octave Klaba informował na bieżąco otoczenie o przyczynach awarii, skutkach oraz etapie wprowadzanych napraw. Postawienie na szczerość w takiej sytuacji to duży plus i działanie zupełnie odmienne do tego, z którym mieliśmy do czynienia rok wcześniej podczas problemów polskiej Grupy Adweb.

Godne podkreślenia jest również to, że przedstawiciele firmy OVH nie uciekali od odpowiedzialności mimo tego, że teoretycznie mogły być ku temu podstawy. Ostatecznie zawiódł sprzęt, a wcześniejsze regularnie przeprowadzane testy nie wykazywały żadnych negatywnych symptomów. Dzięki zaangażowaniu pracowników OVH różnego szczebla usterkę udało się naprawić stosunkowo szybko, dzięki czemu zminimalizowano straty firmy oraz jej klientów. W procesie udział wzięło wiele osób, a latające taksówki przywoziły najlepszych specjalistów z całej Francji. Za to firmę należy pochwalić.

Co może budzić wątpliwości?

Są jednak aspekty, które mogą budzić pewne wątpliwości w zakresie działania władz OVH. Wydaje się, że awarii można było uniknąć, ponieważ już wcześniej zgłaszano zastrzeżenia co do działania systemu zasilania przy kontenerach. Na początku awarii mieliśmy do czynienia także z małym chaosem informacyjnym, który udało się w porę okiełznać. Kolejnym zastrzeżeniem ekspertów jest to, że testy mogłyby być przeprowadzane ze zdecydowanie większą częstotliwością i w ten sposób można było wyłapać usterki. Jest to jednak tylko gdybanie, ponieważ usterka mogła nie dawać niepokojących oznak do samego końca. Oczywiście duże wątpliwości budziło także tanie budowanie centrum danych w oparciu o system kontenerowy, co niestety zawiodło.

Przykład OVH pozwolił jednak wielu dostawcom usług hostingowym na wyciągnięcie wniosków. Ponadto odbiorcy usług dostali potwierdzenie tego, że warto mieć backup w infrastrukturze rozproszonej u minimum dwóch niezależnych od siebie dostawców hostingu. W ten sposób minimalizuje się negatywne skutki potencjalnych awarii. Dodatkowo każdy z klientów powinien dokładnie zapoznać się z certyfikatami i opiniami konkretnych centrów danych, które stoją za usługami w chmurze. Dokładna analiza pomoże w wybraniu godnego zaufania dostawcy, który będzie mniej narażony na globalne i lokalne awarie.

Artykuł przygotowany na podstawie materiałów autorstwa Marcina Zmaczyńskiego pochodzących z poprzedniej wersji serwisu HostingNews.pl.