Globalna awaria systemów teleinformatycznych, której byliśmy świadkami w lipcu bieżącego roku, jak w soczewce skupiła problemy z daleko posuniętą zależnością wielu sektorów gospodarki od tego samego oprogramowania. Za problemy odpowiadała głównie wadliwa aktualizacja wypuszczona przez firmę CrowdStrike, co doprowadziło do awarii systemu Windows. Teraz przedsiębiorstwo opublikowało raport, który przybliża nam kulisy wydarzeń z tamtego dnia.

Firma CrowdStrike opublikowała szczegółowy raport z wydarzeń, do których doszło 19 lipca bieżącego roku. Globalna awaria systemów teleinformatycznych doprowadziła wtedy do paraliżu wielu branż.

Awaria z 19 lipca bieżącego roku, która objęła systemy teleinformatyczne w różnych częściach świata, zapisze się niewątpliwie w historii. Nigdy wcześniej nie mieliśmy do czynienia z tak dużymi problemami w działaniu rozmaitych sektorów gospodarki naraz. Raport, który opublikowała firma CrowdStrike jest efektem między innymi licznych pozwów sądowych, z którymi musi się ona aktualnie mierzyć. Ma to też pomóc w uniknięciu podobnych problemów w przyszłości. Opisano w nim zasady działania oprogramowania CrowdStrike Falcon, którego głównym celem jest identyfikacja i neutralizacja cyberzagrożeń. Rozwiązanie bazuje na wykorzystaniu sensorów AI i uczenia maszynowego do zwalczania tego typu zjawisk. Sensory i modele sztucznej inteligencji są oczywiście nieustannie aktualizowane. Problemy, które sparaliżowały systemy na całym świecie mają swoje źródło w lutym 2024 roku, kiedy to wprowadzono do oprogramowania szablony mechanizmów IPC (interprocess communication mechanisms), które definiowane są przez 21 pól parametrów wejściowych. W lipcu dokonano zaś omyłkowo aktualizacji, która składała się z zaledwie 20 pól. To doprowadziło do wystąpienia globalnej awarii Microsoft Windows.

Oczywiście można postawić pytanie, dlaczego aktualizacja składająca się ze zbyt małej liczby pól parametrów danych przeszła przez testy firmy CrowdStrike. Błąd nie został wykryty, ponieważ systemy weryfikujące dane są zaprogramowane na obsługę 21 pól, nawet jeśli któreś z nich nie są w danym przypadku wykorzystywane. W uproszczeniu można powiedzieć, że algorytmy nie były wyczulone na obecność zaledwie 20 pól parametrów. Mechanizmy testujące błędnie zarejestrowały obecność 21. parametru jako wartości niejednoznacznej, podczas gdy nie było jej w ogóle. Niewątpliwie mamy zatem tutaj do czynienia z poważnym niedopatrzeniem w procesie testowania, które zemściło się po publicznym wypuszczeniu aktualizacji 19 lipca. Sensor w oprogramowaniu CrowdStrike Falcon próbował dokonać inspekcji 21. parametru, ale nie odnotował jego obecności, co doprowadziło do awarii. Firma CrowdStrike wdrożyła już odpowiednie kroki zaradcze w zakresie swoich procedur testujących, które mają zapobiec wystąpieniu podobnych problemów w przyszłości.

