Wielka awaria internetu. Tym razem winny jest Microsoft

Jeśli dziś po południu próbowaliście zalogować się do różnych usług w internecie, to bardzo prawdopodobne, że mieliście problemy.

Strony ładowały się podejrzanie wolno, pojawiały się błędy lub czas na połączenie po prostu upływał. Winowajcą okazuje się globalna awaria jednej z kluczowych usług chmurowych Microsoftu – Azure Front Door (AFD). Zdarzenie rozpoczęło się około godziny 16:00 UTC (czyli 17:00 naszego czasu) i dotknęło zarówno klientów biznesowych Microsoftu, jak i wewnętrzne usługi firmy.

Czym w ogóle jest Azure Front Door?

Aby zrozumieć skalę problemu, musimy najpierw wyjaśnić, czym jest ta usługa. W najprostszych słowach, Azure Front Door (AFD) to inteligentny „bramkarz” lub „recepcjonista” dla nowoczesnych aplikacji internetowych. Gdy wpisujesz adres strony lub uruchamiasz aplikację, która korzysta z AFD, Twoje zapytanie nie trafia od razu prosto do serwera firmy (który może być np. w USA). Zamiast tego łączysz się z najbliższym geograficznie punktem Microsoftu (np. w Europie), a AFD kieruje Cię najszybszą możliwą trasą do właściwego serwera aplikacji. Usługa działa też jak tarcza, chroniąc aplikację przed atakami hakerskimi czy nagłymi skokami popularności (przeciążeniem). Z tego rozwiązania korzystają tysiące firm na całym świecie, aby ich serwisy działały szybko i bezpiecznie dla użytkowników na wszystkich kontynentach.

Dzisiejsza awaria sprawiła, że ten „bramkarz” przestał poprawnie kierować ruchem. Skutki były natychmiastowe: użytkownicy na całym świecie zaczęli zgłaszać opóźnienia, błędy i problemy z ładowaniem stron. Co gorsza, awaria dotknęła… sam Microsoft. Jak donosi firma, problemy z dostępem wystąpiły nawet w panelu zarządzania chmurą Azure – czyli w miejscu, z którego administratorzy zarządzają swoimi usługami. Okazało się, że on również polegał na usłudze Front Door. Microsoft musiał w trybie awaryjnym „ominąć” własną zepsutą usługę, aby przywrócić administratorom dostęp do panelu. Nie działa też platforma Xbox.

Co poszło nie tak?

Microsoft szybko zdiagnozował problem. Jak czytamy w oficjalnym komunikacie, przyczyną nie był atak hakerski, lecz „niezamierzona zmiana w konfiguracji”. Mówiąc prościej: ktoś w firmie Microsoft przez pomyłkę wprowadził błędne ustawienie, które zdestabilizowało całą globalną usługę. W momencie publikacji tego artykułu (na podstawie komunikatu 19:24 naszego czasu), proces naprawczy jest w toku. Microsoft zdecydował się na „twardy” reset – przywraca ostatnią znaną, poprawnie działającą konfigurację usługi. Wdrożenie poprawki ma potrwać około 30 minut od publikacji komunikatu, a klienci powinni już widzieć pierwsze oznaki poprawy. Jednocześnie Microsoft tymczasowo zablokował administratorom możliwość wprowadzania jakichkolwiek własnych zmian w konfiguracji, aby nie zakłócać procesu naprawczego.

Czytaj dalej poniżej

Dzisiejsze zdarzenie to doskonały przykład, jak bardzo współczesny internet jest systemem naczyń połączonych. Awaria jednej, zdawałoby się, niewidocznej dla użytkownika usługi w chmurze, może wywołać efekt domina i unieruchomić tysiące serwisów, z których korzystamy na co dzień.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *