Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国
 

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o?

Natan Faleńczyk | 14-11-2024 09:35 |

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o?Sztuczna inteligencja jest przedstawiana dziś jako rozwiązanie niemal uniwersalne, które ma się sprawdzić nie tylko do generowania obrazów i wideo, ale i pomóc w skomplikowanych problemach, czy też w zadaniach domowych z różnych przedmiotów. Obecne testy wskazują, że modele AI radzą sobie całkiem dobrze w różnych dziedzinach, takich jak matematyka. Jednak nowy test, który sprawdza umiejętności na wyższym poziomie, pokazuje, że na tym polu AI wypada przeciętnie.

Według wielu testów możliwości sztucznej inteligencji plasują się na wysokim poziomie. Natomiast nowy test, który ma trudniejsze zadania z matematyki do wykonania, pokazał, że modele AI mają przed sobą jeszcze dużo pracy.

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [1]

Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet

Instytut badawczy Epoch AI postanowił stworzyć test o nazwie FrontierMath, aby sprawdzić możliwości modeli AI w dziedzinie matematyki na poziomie eksperckim. Co ważne, sztuczna inteligencja miała do rozwiązania zadania, które nie były publicznie dostępne, więc nie mogła się wcześniej na nich szkolić. Zadania są na tyle trudne, że ich rozwiązanie zajmuje ekspertom od wielu godzin do nawet kilku dni. Dotychczasowe testy, takie jak MMLU, czy też GSM-8k wskazywały, że modele AI są w stanie rozwiązać zdecydowaną większość zadań. Natomiast FrontierMath ukazuje zupełnie inną wizję - żadna odsłona sztucznej inteligencji, w formie dużych modeli językowych, nie rozwiązała ich więcej niż 2%.

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [2]

Badacze z Google DeepMind i biochemik otrzymują Nagrodę Nobla. Sztuczna inteligencja okazała się rewolucyjna

Przetestowano kilka modeli AI, z których najlepiej wypadły Gemini 1.5 Pro oraz Claude 3.5 Sonnet - to właśnie im udało się rozwiązać niemal 2% trudnych zadań matematycznych. Pozostałe modele wypadły jeszcze gorzej, a trzeba zaznaczyć, że wśród nich znalazła się wersja zapoznawcza najbardziej zaawansowanego modelu o1 od OpenAI. FrontierMath pozwala sztucznej inteligencji używać środowiska opartego na języku programowania Python, gdzie może ona pisać i wykonywać dany kod. Jak widać, modele AI mają jeszcze sporo do nadrobienia, jeśli chodzi o trudniejsze zadania z dziedziny matematyki. Można wspomnieć, że w następnych miesiącach Epoch AI ma zamiar udostępnić więcej przykładowych zadań ze zbioru testowego.

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [3]

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [4]

Źródło: Epoch AI, Semantic Scholar
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 44

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.