Kanada: Katastrofa w systemie sieci teleinformatycznej
Felieton ten ukazal się w CRN 2022/8
Na podstawie doniesień zza oceanu postaram się opisać poważną awarię sieci teleinformatycznej jednego z trzech wiodących operatorów kanadyjskich.
8 lipca o godz. 2:27 w nocy inżynierowie kanadyjskiego operatora Rogers Communications rozpoczęli szósty etap procesu modernizacji rdzenia infrastruktury teleinformatycznej obsługującej sieci komunikacji bezprzewodowej i szerokopasmowej dla ponad 10 milionów abonentów. Po 4:43 rano zauważono coraz większe zakłócenia ruchu w sieci oraz niezwyczajne przeciążenia ruterów. Abonentów zaskoczyły głuche telefony komórkowe i przewodowe oraz brak dostępu do internetu i telewizji, jak też niedziałające karty debetowe. Nic, co korzystało z sieci Rogersa, nie działało poprawnie. Szczególnie niepokojący był brak możliwości skorzystania z numeru awaryjnego 911, służącego do wzywania karetek, straży pożarnej, policji…
Dostępu do internetu i kontaktu z firmą zostali pozbawieni również pracujący zdalnie inżynierowie operatora. Rozpoczęli więc przełączanie się na sieci innych operatorów, co było częścią planu awaryjnego z 2015 roku, kiedy to specjaliści Rogersa dostali zapasowe karty SIM oraz konta internetowe do zewnętrznych usługodawców. Jednak przypomnienie sobie haseł oraz konieczność przejścia dwustopniowej autoryzacji, w tym poprzez (właśnie upadłą!) sieć Rogersa było trudne. Pozostało im jak najprędzej udać się fizycznie do centrum firmy. W końcu udało się o katastrofie powiadomić też CTO firmy, który bawił akurat w Portugalii i rozpoczął gorączkowe starania o powrót do Toronto. Uzasadnione stało się pytanie, dlaczego przy tak poważnej operacji serwisowej nie było go na miejscu? No cóż, odpowiedź nie była dla niego korzystna i zarząd Rogersa szybko wymienił go na kogoś innego.
Początkowo przyjmowano, że przyczyną problemów jest jakiś cyberatak, o czym zawiadomiono też konkurencyjnych operatorów. Ci jednak stwierdzili, że z ich punktu widzenia to sieć Rogersa ma poważne kłopoty z obsługą protokołu BGP, między innymi wycofuje prefiksy adresowe, zanika ruch wychodzący, a wchodzący – tylko czasem przyjmowany – znika w zapętleniach. Okazało się, że to w trasowaniu w sieci Rogersa tkwi przyczyna tej awarii. Obaj konkurencyjni operatorzy zaoferowali przejęcie obsługi abonentów Rogersa przez własne sieci, ale technicznie okazało się to niemożliwe, gdyż scentralizowana baza danych użytkowników była z powodu tej awarii niedostępna.
Oczywiście rozpoczęto poszukiwanie pierwotnej przyczyny awarii. O 3:20 w nocy Rogers „ćwierkał” na Twitterze (ciekawe, jak pozbawieni sieci abonenci mogli to przeczytać…), że ich zespół techniczny intensywnie pracuje nad przywróceniem serwisów sieci – a to znaczy, że jeszcze nic konkretnego nie wiedzieli. Dwie godziny później zakomunikowali, że dalej próbują rozwiązać problem oraz obiecali abonentom rabaty na usługi. Swoją drogą potem okazało się, że będzie to firmę Rogers kosztować w IV kwartale 150 milionów dolarów kanadyjskich.
O 9:52 wieczorem poinformowano, że Rogers rozpoczyna przywracanie usług telefonii komórkowej. Widać inżynierowie znaleźli już przyczynę w skrypcie wprowadzonym do ruterów. Operator wykorzystuje rutery od różnych dostawców i w przypadku jednego z typów wprowadzony skrypt spowodował usunięcie filtrów trasowania zapobiegających zatłoczeniu ruterów, co spowodowało ich „zatkanie” i „zablokowanie” sieci. O 7:01 rano w sobotę 9 lipca usługi sieci były już dostępne dla większości jej użytkowników, ale sieć odzyskała pełnię funkcjonalności dopiero pod koniec weekendu.
Zaraz po tym dyrektor generalny Rogersa zapowiedział i wycenił rozdzielenie sieci na sieć obsługi komunikacji bezprzewodowych oraz sieć komunikacji przewodowych na 250 milionów dolarów kanadyjskich, a także, dla poprawienia niezawodności, zapowiedział inwestycje rzędu 10 miliardów w ciągu 3 lat – na testowanie i nadzór, oczywiście z wykorzystaniem sztucznej inteligencji. Ta deklaracja skierowana do klientów Rogersa była też istotna dla uspokojenia regulatora oraz agencji rządowych, którzy zażądali śledztwa w sprawie awarii. Rogers planuje wkrótce przejąć innego, mniejszego operatora, a po takiej awarii może obawiać się o brak zgody.
A czego nas powinna nauczyć ta katastrofa systemu sieci teleinformatycznej?
Poniżej pięć nasuwających się wniosków.
- Po pierwsze, procedura modernizacji i modyfikacji systemu, nawet łącznie z wpisywaniem pojedynczych linii skryptów powinna być najpierw wdrożona i dokładnie przetestowana na drugim, w mniejszej skali, ale identycznym funkcjonalnie i wykorzystującym tego samego typu elementy systemie z testowym obciążeniem. A tu chyba zastosowano zasadę „wdróż dzisiaj, napraw jutro”.
- Po drugie, tworzenie mega, a nawet giga systemu konsolidującego w sobie wszystkie potrzebne funkcje znacząco utrudnia jego administrowanie i naraża go na „upadek” nawet z powodu drobnego lokalnego błędu w oprogramowaniu lub awarii urządzenia, ewentualnie wskutek cyberataku. Lepszym rozwiązaniem jest utworzenie rodziny (grona, klastra) systemów wyposażonych w potrzebne funkcjonalności, nawet wzajemnie redundantne i dobrze ze sobą skomunikowane.
- Po trzecie, w przypadku istotnej operacji modernizacji systemu większość inżynierów powinna być fizycznie obecna w centrum komputerowym, dysponując bezpośrednim połączeniem z modyfikowanym systemem. Inżynierowie pracujący zdalnie, obserwując zewnętrzne, z punktu widzenia użytkownika, działanie systemu muszą mieć jednocześnie niezależny kontakt z centrum.
- Po czwarte, specjaliści pracujący zdalnie oraz zwykli użytkownicy oraz firmy korzystające z systemu teleinformatycznego jednego operatora powinni zapewnić sobie też dostęp do takiego systemu u innego operatora, weryfikując często poprawność działania tej opcji (nawiasem mówiąc, jutro idę przenieść numer jednej z moich komórek do innego operatora, bo dotychczas wszystkie są u tego samego).
- Po piąte, warto dla każdego takiego systemu opracować zasady jego zarządzania i odtwarzania w sytuacji całkowitego lub lokalnego braku zasilania (u mnie na przykład dostęp do internetu znika nawet po chwilowym zaniku zasilania i dopiero po zgłoszeniu awarii jest prawie natychmiast przywracany).
Zapewne dla grona czytelników pisma CRN są to stwierdzenia dobrze znane. Natomiast CTO Rogersa chyba tego nie wiedział i dlatego wyleciał z intratnej posady. Tym bardziej, że Rogers miał już podobną awarię rok wcześniej…
Dziękuję Markowi Nowickiemu z Kanady za dostarczenie informacji zawartych w tekście, a Zbyszkowi Bieleckiemu za cenne komentarze z miejsca zdarzenia.