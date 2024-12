Zespół badaczy z firmy Meta opracował nowy punkt odniesienia do oceny możliwości asystentów AI, takich jak model językowy GPT-4 od OpenAI. Zespół, w skład którego wchodzi "ojciec chrzestny AI" i główny naukowiec Mety, Yann LeCun, wymyślił egzamin o nazwie GAIA, który składa się z 466 pytań, które są "koncepcyjnie proste dla ludzi, ale stanowią wyzwanie dla najbardziej zaawansowanych SI".

Wyniki mówią same za siebie: ludzcy respondenci byli w stanie poprawnie odpowiedzieć na 92 procent pytań, podczas gdy Chat GPT-4, nawet wyposażony w kilka ręcznie wybranych wtyczek, uzyskał marne 15 procent. Zgodnie z opublikowaną przez zespół tabelą wyników GAIA, nawet niedawno wydany GPT-4 Turbo firmy OpenAI uzyskał mniej niż dziesięć procent. Sądząc więc po obecnych standardach, obecne modele sztucznej inteligencji od OpenAI są... nadal dość głupie. Nie jest jednak jasne, jak radziły sobie konkurencyjne duże modele językowe, takie jak Llama 2 firmy Meta lub Bard firmy Google.

Warto jednak przypomnieć, że OpenAI pracuje nad systemem Q* (Q-Star), który ma możliwości niedostępne dotychczas użytkowanym modelom. System nie tylko uczy się, ale wykazuje też oznaki zrozumienia problemów matematycznych. Choć rozwiązywanie zadań matematycznych (gdzie jest tylko jedna prawidłowa odpowiedź) wydaje się analogiczną funkcją do tej, którą posiadają chociażby kalkulatory, to mechanizm działania jest tutaj całkowicie odmienny. Q* bowiem na bieżąco uczy się i wykazuje oznaki zrozumienia określonych problemów. To oznacza znacznie większe możliwości niż te, które posiadają obecnie wykorzystywane modele.

Źródło: futurism