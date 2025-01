Jak zapewne wiemy, modele "sztucznej inteligencji" do odpowiedniego działania potrzebują pewnego zbioru danych, który określa się mianem bazy treningowej. Dzięki temu mogą się one na niej szkolić - podobnie jak ludzie. Jako że prawo nie uregulowało jeszcze wielu kwestii związanych z tą szybko rozwijającą się dziedziną, to większość obecnych modeli została przeszkolona na podstawie danych z internetu. Pojawiła się jednak sposobność, aby uniemożliwić im pozyskiwanie danych ze stron WWW. Metoda okazuje się banalnie prosta.

Google udostępniło sposób, dzięki któremu każdy właściciel strony WWW może niejako zabronić modelom SI szkolić się na danych, które są na niej zawarte. Metoda ta nie wpływa jednak na indeksowanie przez roboty.

Pokrótce zostanie omówiony schemat funkcjonowania wyszukiwarki oraz indeksowania stron. Dla zaznajomionych w temacie - można przejść do kolejnego akapitu. Dzisiejszy internet w głównej mierze opiera się na firmie Google, a zasadniczo na jej produkcie - wyszukiwarce. To dzięki niej możemy szybko znaleźć jakąkolwiek stronę "w sieci". Jednak aby wyszukiwarka spełniała swoją rolę, musi posiadać bazę innych stron. Za ten proces odpowiedzialne są tzw. roboty. Mówiąc bardzo ogólnikowo, skanują one nową stronę, która następnie jest indeksowana i dzięki temu można ją znaleźć w wyszukiwarce Google. Właściciele stron WWW mogą sobie nie życzyć, aby taki proces miał miejsce - wystarczy wtedy, że w głównym katalogu na stronie WWW utworzony zostanie plik robots.txt, który będzie zawierał określone reguły. Można oczywiście zabronić indeksowania konkretnego miejsca, a nie tylko całej strony.

Jak wspomniano we wstępie, dzisiejsze modele językowe, a co za tym idzie chatboty pokroju ChatGPT, czy też Google Bard, korzystały z zasobów internetowych bez pozwolenia i dzięki temu nabywały wiedzy. Do tej pory nie było dostępnego rozwiązania, które mogłoby je powstrzymać. Google jednak postanowiło dodać odpowiednią funkcję nazwaną Google-Extended. Dzięki niej w prosty sposób można uniemożliwić chatbotowi Google Bard oraz platformie uczenia maszynowego Vertex AI, aby zbierały dane z naszej strony i się na nich szkoliły. Co jednak najważniejsze, zmiana ta nie wpłynie na indeksowanie naszej strony w wyszukiwarce Google, ani nie zmieni jej pozycji w wynikach wyszukiwania. W celu zablokowania wspomnianym usługom dostępu wystarczy w pliku robots.txt dodać następujące dwie linijki:

User-agent: Google-Extended

Disallow: /

Sporym minusem może okazać się jednak fakt, że metoda ta nie zadziała na wszystkie obecne modele oraz usługi powiązane ze sztuczną inteligencją. Natomiast nawiązując do działań podjętych przez Google, można sądzić, że tyczy się to obecnie prowadzonych spraw sądowych przeciwko gigantowi. Firma Alphabet zapewne chce pokazać, że prywatność danych jest dla niej priorytetowa, choć udowodnienie tego faktu będzie niezmiernie trudne. Tym bardziej spoglądając na ostatnie wydarzenia, które miały miejsce - w wyszukiwarce można było znaleźć linki do prywatnie udostępnionych konwersacji z Bardem...

