WebHostingTalk



nazwa.pl

Raport Beyond.pl na temat awarii

0

Jak wszyscy wiemy dnia 4 czerwca nastąpiła awaria w serwerowni Beyond. Nie działy stronytakie jak natemat.pl, e-prawnik, czy PayU.pl, natomiast na zapytanie ping nie odpowiadała cała infrastruktura e24cloud.com. Było jasne, że to awaria Beyond.pl. – najnowocześniejszego centrum danych w Polsce. Z powodzeniem dzień 4 czerwca 2012 można nazwać czarnym poniedziałkiem w polskim internecie.  O przebiegu awarii, wnioskach oraz zmianach poniżej.

 

Przebieg awarii

O godzinie 7:08 technicy rozpoczęli comiesięczne testy zasilania, polegało to na odłączeniu zasilania zewnętrznego. Zasilanie całego obiektu przejął poprawnie agregat prądotwórczy. Przez dosłownie chwilę wszystkie parametry były w normie, aż do godziny 7:12, gdzie został zauważony nieprawidłowy stan jednej z dwóch linii zasilających dla zasilaczy UPS – podjęto decyzję o przerwaniu testu. Chwilę później, gdy w pełni zostało przywrócone zasilanie z zewnątrz, nastąpiła awaria automatyki sterującej, co skutkowało automatycznym odcięciem zasilania dla serwerowni. Sterownik odłączył agregat, jednak nie załączył zasilania z zewnątrz. Wyłączniki obsługujące zasilanie z zewnątrz sugerowały, że zasilanie może być częściowe – na jedną fazę. Baterie UPS natychmiast przeszły w stan pracy i zaczęły podtrzymywać zasilanie serwerów. W tym momencie elektryk będący w serwerowni podjął decyzję o wyłączeniu trybu automatycznego i przejściu na tryb ręczny., podjęto również decyzję o wymianie wyłącznika. Wymianę rozpoczęto około 7:30, w trakcie tych prac nie można było podać zasilania na rozdzielnie elektryczne. Po zakończeniu wymiany wyłącznika obsługa z powodzeniem przywróciła zasilanie w trybie ręcznym.

Wnioski

System zasilania Beyond został zaprojektowany z uwzględnieniem najwyższych wymagań w zakresie odporności na awarie. Potwierdzeniem tego jest choćby fakt bez awaryjnej pracy przez 1732 dni. W tym przypadku przyczyną przerw w dostępności zasilania była awaria układu automatycznego sterownia rozdzielniami elektrycznymi, awaria jednego z głównych wyłączników układu oraz nieprecyzyjne dane na temat długości pracy na bateriach – system wskazywał 25 minut, w rzeczywistości było to 15 minut. Na przebieg awarii wpłynął również czynnik ludzki, tak skomplikowana awaria wywołała dużo stresu, co wpłynęło na szybkość podejmowania konkretnych decyzji.

Zmiany, zmiany i jeszcze raz zmiany

W przypadku takich awarii można wyciągnąć wnioski, aby więcej się nie pojawiały. W tym przypadku Beyond rozbuduje sygnalizatory obecności faz w głównej rozdzielni. Testy instalacji będą częściej przeprowadzane w trybie ręcznym. Zostanie rozbudowany program szkoleń o dodatkowe prace na rozdzielni. Aktualnie są projektowane rozdzielnie, które pozwalają na wymienianie wyłączników w czasie rzeczywistym.

Źródło: Własne / Beyond.pl

Chmura tagów

5 odpowiedzi na „“Raport Beyond.pl na temat awarii””

  1. Bartek Z pisze:

    wpłyną[Ł] również,

    skomplikowana awaria wywołała dużo stresu, co wpłynęło na ortografię

  2. Komzo pisze:

    Spodziewałem się raportu, a nie shorta :)

  3. Komzo pisze:

    Spodziewałem się raportu, a nie shorta :)

Dodaj komentarz