9 listopada w godzinach porannych OVH, lider hostingu we Francji, który od wielu miesięcy intensywnie rozwija swoje usługi chmury obliczeniowej w Europie, zaliczył potężne, dwie niezależne awarie wszystkich swoich usług zlokalizowanych w części centrów danych we Francji w Roubaix i w Strasburgu. Przez kilka godzin, setki tysięcy serwisów w ogóle nie działało w całej Europie, także w Polsce. Choć awaria nie dotknęła bezpośrednio centrum danych OVH w Warszawie, to jednak, jak się okazało, spora część polskich serwisów jest zlokalizowanych we Francji.


Ważniejsza i bardziej dotkliwa awaria wystąpiła w Strasburgu o godzinie 7:32 rano. Awaria prądu dotknęła 3 centra danych / SBG1 SBG2 i SBG4/ zlokalizowanych w Strasburgu i trwała 4 godziny. Centra  danych w Strasburgu są zasilane dwoma osobnymi kablami o łącznej mocy 20 MVA, ale tylko od jednego dostawcy prądu. Uszkodzeniu uległ jeden z kabli, co spowodowało przerwę w zasilaniu całego centrum danych. W takiej sytuacji standardowo i automatycznie powinny włączyć się agregaty prądotwórcze. Niestety tak się nie stało. W/g CEO OVH, winę za to ponoszą urządzenia NSM / normal-emergency motorised/ , które nie zadziałały i nie aktywowały agregatów. Nie wiadomo dlaczego.

 

 

Jednocześnie zostało powiedziane, że ostatnia symulacja tego typu awarii, była robiona w maju 2017 czyli ponad pół roku temu i testy nie wykazały żadnych nieścisłości, choć powinny. Octave Klaba tłumaczy, że jedną z przyczyn awarii może być fakt, że dwa z centrów danych w Strasburgu zostały zbudowane w systemie kontenerowym, który był swego rodzaju eksperymentem, jeśli chodzi o szybką budowę tanich centrów danych. Niestety ten rodzaj budowy, okazał się mało wydajny i został ostatecznie porzucony przez OVH.

 

 

Ta awaria prądu wyłączyła wszystkie usługi, które znajdowały się w  w/w centrach danych w Strasburgu. Mówimy więc tutaj zarówno o tanich usługach VPS jak i o  droższych usługach jak chmura publiczna, hybrydowa czy prywatna, które maja wysokie SLA. Warto nadmienić, że choć sama awaria czyli brak prądu trwały ponad 3,5 godziny to reaktywowanie usług trwało znacznie dłużej i niektórzy klienci OVH, byli bez dostępu do swoich przez prawie 48 godzin. Uszkodzenie jednego z kabli, wystąpiło poza terenem centrum danych, jak wskazuje zdjęcie, tak więc nie ma w tym winy OVH. Pełny opis zdarzenia opisany przez Octave Klaba znajdziecie TUTAJ

 


Druga niezależna awaria wystąpiła w centrum danych w Roubaix  i dotyczyła sieci światłowodowej, która łączy centrum danych w Roubaix z punktami pozwalającymi na połączenie z innymi sieciami, zlokalizowanymi w Paryżu, Frankfurcie, Amsterdamie, Londynie oraz Brukseli. Źródłem problemu był błąd oprogramowania na sprzęcie sieciowym, który spowodował utratę konfiguracji i trudności z połączeniem. Awaria ta  trwała ponad 2,5 godziny.

Ta awaria nie była tak dramatyczna jak ta w Strasburgu. Po ręcznym przywróceniu konfiguracji karty, połączenia z centrami danych poza Francją, zostały przywrócone. Klienci z Polski, których dotknęła ta awaria odzyskali dostęp do swoich usług w ciągu kilku godzin. Niestety były spore opóźnienia w wysyłce maili w związku z tą awarią, a jak wiadomo usługi pocztowe, są zawsze ważne dla każdej firmy. Ponieważ pozostałe centra danych zostały odcięte w wyniku awarii oprogramowania na karcie, nie zadziałały także usługi backupu, jeżeli były zlokalizowane w w/w centrach danych w OVH. Pełny opis tej awarii opisany został TUTAJ


 

Awaria może się zdarzyć każdemu dostawcy usług, dlatego SLA nigdy nie jest na 100%. OVH miał jednak zarówno trochę pecha jak i sporo w tym winy samego OVH, do czego zresztą przyznał się sam prezes firmy.  Jakie wnioski można z tego wyciągnąć?

Za co plus?

 

+ Transparentność to podstawa w przypadku awarii. Na pewno należy pochwalić pełną transparentność założyciela OVH Octave Klaba, który na bieżąco informował o przyczynach awarii i postępach w przywracaniu usług. Takie szczere podejście zawsze procentuje w dłuższej perspektywie, bo awaria może się zdarzyć każdemu dostawcy.


 

+ Odpowiedzialność na barkach OVH. Firma wzięła na siebie odpowiedzialność za awarie. Częściowo winę za awarie ponosi sprzęt, który okazał się wadliwy, jednak OVH nie przerzuca odpowiedzialności  na sprzęt, trafnie wykazując, że regularne testy powinny pokazać błędne działanie sprzętu wcześniej, ale nic nie wykazały.

 


Wszystkie ręce na pokład– awaria OVH to dobry pokaz pełnej mobilizacji firmy, gdzie w szybkim tempie rozpoczęto prace naprawcze a latające taksówki zwoziły techników OVH z różnych stron Francji, by jak najszybciej naprawić awarię i przede wszystkim przywrócić usługi.


Za co minus?

„OVH mądre po szkodzie”. Plan naprawczy przygotowany zaraz po incydentach i publicznie opublikowany w postaci krótkich postów jest dość dziwnym krokiem biorąc pod uwagę, że nie do końca wiadomo, co konkretnie było przyczyną tych awarii i brakuje czasu na spokojną analizę, a podane plany naprawcze liczone są w milionach EUR. Z drugiej strony o niektórych problemach, np niedotrzymania standardów co do zasilania, czy systemu kontenerowego OVH dla DC w Strasburgu, wiedziano już wcześniej, przed awarią. Innymi słowy awarii można było spokojnie uniknąć.


Zawiodły procedury i ich częstotliwość. Ostatnie testy/symulacje w przypadku awarii w Strasburgu, były robione w maju 2017 czyli pół roku. Nie wiadomo, kiedy były zaplanowane kolejne, ale częstotliwość wyjątkowo niska, biorąc pod uwagę jak ważna jest procedura automatycznego uruchamiania agregatorów w przypadku braku zasilania. W tym przypadku mówimy o centrum danych i ewentualnie o  braku dostępu do swoich usług online, ale wyobraźmy sobie taki przypadek w szpitalu lub elektrowni jądrowej lub innym strategicznym obiekcie. Testy tak newralgicznych elementów, powinny być traktowane priorytetowo, a z tego co widać po prostu nie były.


Taniej nie zawsze znaczy dobrze. Eksperymentalne kontenerowe centra danych, który miały zmniejszyć koszty budowania nowych DC i zwiększyć mobilność, okazały się niewypałem. Wniosek jednak jest taki, że nie na wszystkim warto i można oszczędzać. Z drugiej strony warto eksperymentować. Szkoda tylko, że zamknięcie niewydajnej infrastruktury następuje dopiero po tak poważnej awarii.


Nie można być liderem bez prądu. OVH ma bardzo ambitne plany by stać europejskim liderem usług w chmurze, który będzie wyznaczał nowe standardy. Trzeba przyznać, że firma ma bardzo jasną wizję tego w jakim kierunku zmierza i jest to pozytywny aspekt. Jednak ostatnie awarie mocno nadszarpneły wizerunek lidera pod kątem jakości usług. Nie chodzi nawet o sam fakt wystąpienia awarii, tylko o powód awarii. Nie działające przełączniki i agregatory prądotwórcze to  naprawdę spory krok w tył w budowaniu wizerunku wysokiej jakości usług.


 

 Awaria OVH pokazała namacalnie, że warto mieć backup w infrastrukturze rozproszonej czyli być co najmniej u dwóch niezależnych dostawców. Trzymanie środowiska produkcyjnego i backupu u jednego dostawcy, może nie wystarczyć. Firmy, które podczas awarii miały wykupiony backup w OVH i znajdował się on w centrach danych, w których była awaria lub tych centrach danych, które zostały odcięte od sieci z powodu awarii karty optycznej, nie miały dostępu do swoich usług, pomimo wykupionej usługi backupu.

Warto też pamiętać, że za każdą chmurą stoi centrum danych. Choć pojęcie chmury wskazuje na rozproszoność danych trzeba pamiętać, że za każdą chmurą stoi konkretne centrum danych lub centra danych i ich infrastruktura. Jeżeli myślimy o chmurze prywatnej, warto sprawdzić certyfikaty i opinię o konkretnym centrum lub centrach danych, gdzie będzie znajdować się nasza usługa. Chmura nie funkcjonuje w próżni.

Jakie będzie podsumowanie końcowe tej awarii? Czekamy na oficjalną informację ze strony OVH. Awaria została już naprawiona, wszystkie lub prawie wszystkie usługi zostały przywrócone, czas na wyciągnięcie wniosków, które będą cenne nie tylko dla OVH, ale dla całej branży, bo jednak lepiej uczyć się na cudzych błędach.


 

 

 

13 thoughts on “Globalna awaria OVH – krajobraz po bitwie

  1. „Centra danych w Strasburgu są zasilane dwoma osobnymi kablami o łacznej mocy 20 kvm”
    zmieńcie na „przyłączem o napięciu 20kV (kilo Volt, czyli 20 000V)”

    1. Nie, wystarczy przeczytać tweeta założyciela OVH, 20MVA. Oznacza to mega wolto ampery, chodzi o moc którą potrafią wytrzymać te kable.

  2. Masz świetny styl pisania, świetne podsumowanie. Oby tylko wyciągnęli nauczkę z tej awarii, a ideałem byłoby gdyby wszystkie firmy z branży wyciągnęły.

  3. „Centra danych w Strasburgu są zasilane dwoma osobnymi kablami o łacznej mocy 20 kvm, ale tylko od jednego dostawcy prądu. Uszkodzeniu uległ jeden z kabli, co spowodowało przerwę w zasilaniu całego centrum danych.”

    Nie bardzo rozumiem – co ma ten jeden kabel (przewód zasilający) do awarii skoro powinna zadziałać dostawa prądu drugim?

    „Ostatnie testy/symulacje w przypadku awarii w Strasburgu, były robione w maju 2017 czyli pół roku. Testy tak newralgicznych elementów, powinny być traktowane priorytetowo, a z tego co widać po prostu nie były.”

    A może to nie częstotliwość a zakres / scenariusze testów były błędne i analiza słabych punktów zastosowanych rozwiązań zasilania obiektu / zasilania gwarantowanego? Patrz moje pytanie dlaczego awaria jednego przewodu zasilającego (podobno kabel jest potoczne;) ) spowodowała niedostępność zasilania pomimo, że był drugi kabel?

  4. Nic nie napisali o przyczynach uszkodzenia kabla zasilającego, ta dziura w ziemi wykopana została przed czy już po awarii ? Zastanawiające że 2 rzekomo niezależne awarie wystąpiły równocześnie. No a że w tym pośpiechu podczas akcji znaleźli czas na selfie przy samolocie, dbają o swój PR

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *