Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o?
Sztuczna inteligencja jest przedstawiana dziś jako rozwiązanie niemal uniwersalne, które ma się sprawdzić nie tylko do generowania obrazów i wideo, ale i pomóc w skomplikowanych problemach, czy też w zadaniach domowych z różnych przedmiotów. Obecne testy wskazują, że modele AI radzą sobie całkiem dobrze w różnych dziedzinach, takich jak matematyka. Jednak nowy test, który sprawdza umiejętności na wyższym poziomie, pokazuje, że na tym polu AI wypada przeciętnie.
Według wielu testów możliwości sztucznej inteligencji plasują się na wysokim poziomie. Natomiast nowy test, który ma trudniejsze zadania z matematyki do wykonania, pokazał, że modele AI mają przed sobą jeszcze dużo pracy.
Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet
Instytut badawczy Epoch AI postanowił stworzyć test o nazwie FrontierMath, aby sprawdzić możliwości modeli AI w dziedzinie matematyki na poziomie eksperckim. Co ważne, sztuczna inteligencja miała do rozwiązania zadania, które nie były publicznie dostępne, więc nie mogła się wcześniej na nich szkolić. Zadania są na tyle trudne, że ich rozwiązanie zajmuje ekspertom od wielu godzin do nawet kilku dni. Dotychczasowe testy, takie jak MMLU, czy też GSM-8k wskazywały, że modele AI są w stanie rozwiązać zdecydowaną większość zadań. Natomiast FrontierMath ukazuje zupełnie inną wizję - żadna odsłona sztucznej inteligencji, w formie dużych modeli językowych, nie rozwiązała ich więcej niż 2%.
Badacze z Google DeepMind i biochemik otrzymują Nagrodę Nobla. Sztuczna inteligencja okazała się rewolucyjna
Przetestowano kilka modeli AI, z których najlepiej wypadły Gemini 1.5 Pro oraz Claude 3.5 Sonnet - to właśnie im udało się rozwiązać niemal 2% trudnych zadań matematycznych. Pozostałe modele wypadły jeszcze gorzej, a trzeba zaznaczyć, że wśród nich znalazła się wersja zapoznawcza najbardziej zaawansowanego modelu o1 od OpenAI. FrontierMath pozwala sztucznej inteligencji używać środowiska opartego na języku programowania Python, gdzie może ona pisać i wykonywać dany kod. Jak widać, modele AI mają jeszcze sporo do nadrobienia, jeśli chodzi o trudniejsze zadania z dziedziny matematyki. Można wspomnieć, że w następnych miesiącach Epoch AI ma zamiar udostępnić więcej przykładowych zadań ze zbioru testowego.
Powiązane publikacje

Chińscy inżynierowie rzekomo uszkodzili maszynę litograficzną ASML DUV podczas próby inżynierii wstecznej
66
Naukowcy z Rice University opracowali błyskawiczną metodę recyklingu magnesów neodymowych. Trwa sekundy zamiast dni
25
Polskie firmy RECTANGLE i EXATEL zostały wybrane przez agencję kosmiczną EUSPA do aktualizacji systemu nawigacji Galileo
10
AMD na OCP Global Summit 2025 pokazało broń przeciwko NVIDII. Helios z GPU Instinct i CPU EPYC to przyszłość centrów danych
36







![Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [1]](/image/news/2024/11/14_wyzszy_poziom_matematyki_jest_dla_ai_zbyt_duzym_wyzwaniem_jak_wypadl_gemini_1_5_pro_claude_3_5_sonnet_i_gpt_4o_2.png)
![Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [2]](/image/news/2024/11/14_wyzszy_poziom_matematyki_jest_dla_ai_zbyt_duzym_wyzwaniem_jak_wypadl_gemini_1_5_pro_claude_3_5_sonnet_i_gpt_4o_1.png)
![Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [3]](/image/news/2024/11/14_wyzszy_poziom_matematyki_jest_dla_ai_zbyt_duzym_wyzwaniem_jak_wypadl_gemini_1_5_pro_claude_3_5_sonnet_i_gpt_4o_0.png)
![Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? [4]](/image/news/2024/11/14_wyzszy_poziom_matematyki_jest_dla_ai_zbyt_duzym_wyzwaniem_jak_wypadl_gemini_1_5_pro_claude_3_5_sonnet_i_gpt_4o_3.jpg)





