Możesz zabezpieczyć swoją stronę WWW przed byciem pożywką dla AI. Google udostępniło nowe narzędzie
Jak zapewne wiemy, modele "sztucznej inteligencji" do odpowiedniego działania potrzebują pewnego zbioru danych, który określa się mianem bazy treningowej. Dzięki temu mogą się one na niej szkolić - podobnie jak ludzie. Jako że prawo nie uregulowało jeszcze wielu kwestii związanych z tą szybko rozwijającą się dziedziną, to większość obecnych modeli została przeszkolona na podstawie danych z internetu. Pojawiła się jednak sposobność, aby uniemożliwić im pozyskiwanie danych ze stron WWW. Metoda okazuje się banalnie prosta.
Google udostępniło sposób, dzięki któremu każdy właściciel strony WWW może niejako zabronić modelom SI szkolić się na danych, które są na niej zawarte. Metoda ta nie wpływa jednak na indeksowanie przez roboty.
Google Bard - prywatne fragmenty rozmów z chatbotem są dostępne dla wszystkich. Firma pracuje nad rozwiązaniem
Pokrótce zostanie omówiony schemat funkcjonowania wyszukiwarki oraz indeksowania stron. Dla zaznajomionych w temacie - można przejść do kolejnego akapitu. Dzisiejszy internet w głównej mierze opiera się na firmie Google, a zasadniczo na jej produkcie - wyszukiwarce. To dzięki niej możemy szybko znaleźć jakąkolwiek stronę "w sieci". Jednak aby wyszukiwarka spełniała swoją rolę, musi posiadać bazę innych stron. Za ten proces odpowiedzialne są tzw. roboty. Mówiąc bardzo ogólnikowo, skanują one nową stronę, która następnie jest indeksowana i dzięki temu można ją znaleźć w wyszukiwarce Google. Właściciele stron WWW mogą sobie nie życzyć, aby taki proces miał miejsce - wystarczy wtedy, że w głównym katalogu na stronie WWW utworzony zostanie plik robots.txt, który będzie zawierał określone reguły. Można oczywiście zabronić indeksowania konkretnego miejsca, a nie tylko całej strony.
Sztuczna Inteligencja nie radzi sobie ze sztuczną inteligencją. Narzędzia do rozpoznawania AI nie działają dobrze
Jak wspomniano we wstępie, dzisiejsze modele językowe, a co za tym idzie chatboty pokroju ChatGPT, czy też Google Bard, korzystały z zasobów internetowych bez pozwolenia i dzięki temu nabywały wiedzy. Do tej pory nie było dostępnego rozwiązania, które mogłoby je powstrzymać. Google jednak postanowiło dodać odpowiednią funkcję nazwaną Google-Extended. Dzięki niej w prosty sposób można uniemożliwić chatbotowi Google Bard oraz platformie uczenia maszynowego Vertex AI, aby zbierały dane z naszej strony i się na nich szkoliły. Co jednak najważniejsze, zmiana ta nie wpłynie na indeksowanie naszej strony w wyszukiwarce Google, ani nie zmieni jej pozycji w wynikach wyszukiwania. W celu zablokowania wspomnianym usługom dostępu wystarczy w pliku robots.txt dodać następujące dwie linijki:
User-agent: Google-Extended
Disallow: /
Sporym minusem może okazać się jednak fakt, że metoda ta nie zadziała na wszystkie obecne modele oraz usługi powiązane ze sztuczną inteligencją. Natomiast nawiązując do działań podjętych przez Google, można sądzić, że tyczy się to obecnie prowadzonych spraw sądowych przeciwko gigantowi. Firma Alphabet zapewne chce pokazać, że prywatność danych jest dla niej priorytetowa, choć udowodnienie tego faktu będzie niezmiernie trudne. Tym bardziej spoglądając na ostatnie wydarzenia, które miały miejsce - w wyszukiwarce można było znaleźć linki do prywatnie udostępnionych konwersacji z Bardem...
Powiązane publikacje

YouTube Premium Lite - nowy plan pozbawia serwis większości reklam, a jest znacznie tańszy od YouTube Premium
83
YouTube to nowa telewizja - twierdzi Google. Prawie 20-letni serwis jest popularniejszy na TV niż na smartfonach
64
Reklamy dotarły na Threads. Chwilowo zobaczą je tylko wybrane osoby, ale z czasem trafią do wszystkich użytkowników
28
Insbuy – nowatorska aplikacja, która otwiera nowe możliwości sprzedażowe dla osób streamujących treści
22