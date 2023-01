Raptem kilka dni temu miał miejscy spory wyciek danych usług Yandex. Rosyjsko-holenderskie przedsiębiorstwo potwierdza, że upublicznione repozytoria rzeczywiście pochodzą od nich. Jednak otwarcie przyznają, że są one już nieaktualne i nie doszło przy tym do żadnego naruszenia prywatnych danych osobowych, ponieważ takie dane nie wchodzą w ich skład. Czego można się dowiedzieć z dostępnych plików?

Wyciek danych z Yandex ujawnił wiele ciekawych danych, w tym pierwsze od lat informacje o tym, według jakich zasad wyszukiwarki pozycjonują strony w wynikach wyszukiwania. Jednak skala jest dużo większa.

Yandex jest największą firmą technologiczną, w tym dostawcą najpopularniejszej wyszukiwarki w Rosji. Na świecie pod względem udziałów zajmuje 4 miejsce. Mówimy więc o naprawdę dużym graczu na rynku dostawców usług. Tym bardziej że firma cały czas poszerza swoją ofertę. Kilka dni temu świat obiegła informacja, że na hakerskim forum "BreachForums", zostały upublicznione repozytoria o łącznej wadze 44,7 GB. Całość można pobrać za pośrednictwem magnetycznego linku, przy użyciu dowolnego programu do torrentów. Wszystkie pliki datowane są na 24 lutego 2022 roku. Mimo że pochodzą one z zeszłego roku, dają nam pewien wgląd w to, jak działają usługi dotyczące wyszukiwarki i nie tylko.

Cała lista plików wchodzących w skład torrenta, dostępna jest w serwisie GitHub. Jeden z nich to dokumentacja, która zawiera 1922 czynniki mające wpływ na to, jak pozycjonowana jest strona w wynikach wyszukiwania. Na dysku Google dostępny jest plik z angielskimi komentarzami (oryginalny, jak łatwo się domyślić, posiada je w języku rosyjskim). Rozpatrując całość, można zobaczyć, że Yandex ma bardzo dużo wspólnego z innymi wyszukiwarkami. Tak więc może nam pomóc lepiej zrozumieć, na jakiej zasadzie działają wyszukiwarki internetowe i co biorą pod uwagę, wyświetlając wyniki. Użytkownik Twittera Alex Buraks stworzył wątek, w którym analizuje cały dokument.

You probably heard about Yandex, it’s the 4th biggest search engine by market share worldwide. Yesterday proprietary source code of Yandex was leaked.



The most interesting part for SEO community is: the list of all 1922 ranking factors used in the search algorithm



[THREAD] pic.twitter.com/6x82AAmbON — Alex Buraks (@alex_buraks) January 27, 2023

Można się z niej dowiedzieć, że Yandex podobnie do Google, korzysta z algorytmu PageRank. Czym on jest? Parafrazując Wikipedię, jest to "Metoda, która nadaje indeksowanej stronie wartość liczbową, oznaczająca jej jakość". Kolejnym czynnikiem, z którego korzysta jest "pesymizacja". Prawdopodobnie oznacza to, że gdy jakaś witryna jest określona tym czynnikiem, jej PageRank spada do zera. Wyszukiwarka obserwuje też zachowanie użytkownika - jak szybko ktoś klika w dany link, czy dłużej zastanawia się nad treścią, w jakim tempie przewija wyniki itd. Wydajność strony ma również wpływ na jej pozycję. O wiele więcej opisanych czynników, można znaleźć na stronie RussianSearchNews. "Ten włam do Yandex'u jest najbardziej interesującą rzeczą, jaka przytrafiła się w temacie SEO od lat" - pisze Martin MacDonald.

The Yandex hack is probably the most interesting thing to have happened in SEO in years. — Martin MacDonald (@searchmartin) January 27, 2023

Co jeszcze można wyczytać z plików, wchodzących w skład repozytoriów? Okazuje się, że wyciekły również kody źródłowe różnych usług. Według strony ArseniyShestakov są to po kolei: "Wyszukiwarka i Bot Indeksujący, Maps, Alice (asystent Google), Taxi (Uber), Direct (Google Ads), Mail, Disk, Market (Amazon), Travel (Booking), Yandex360 (Google Workspace), Cloud, Pay (Stripe) oraz Metrika (Google Analitycs)" - w nawiasach umieszczone są ich bardziej znane odpowiedniki. Z całego tego nieszczęścia, my jako użytkownicy końcowi, będziemy mogli lepiej zrozumieć, jak działają poszczególne usługi. Liczba informacji, jakie można uzyskać z tych zeszłorocznych danych, jest naprawdę ogromna.

Źródło: Twitter, GitHub, RussianSearchNews, ArseniyShestakov, WebMarketi