Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o?
Sztuczna inteligencja jest przedstawiana dziś jako rozwiązanie niemal uniwersalne, które ma się sprawdzić nie tylko do generowania obrazów i wideo, ale i pomóc w skomplikowanych problemach, czy też w zadaniach domowych z różnych przedmiotów. Obecne testy wskazują, że modele AI radzą sobie całkiem dobrze w różnych dziedzinach, takich jak matematyka. Jednak nowy test, który sprawdza umiejętności na wyższym poziomie, pokazuje, że na tym polu AI wypada przeciętnie.
Według wielu testów możliwości sztucznej inteligencji plasują się na wysokim poziomie. Natomiast nowy test, który ma trudniejsze zadania z matematyki do wykonania, pokazał, że modele AI mają przed sobą jeszcze dużo pracy.
Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet
Instytut badawczy Epoch AI postanowił stworzyć test o nazwie FrontierMath, aby sprawdzić możliwości modeli AI w dziedzinie matematyki na poziomie eksperckim. Co ważne, sztuczna inteligencja miała do rozwiązania zadania, które nie były publicznie dostępne, więc nie mogła się wcześniej na nich szkolić. Zadania są na tyle trudne, że ich rozwiązanie zajmuje ekspertom od wielu godzin do nawet kilku dni. Dotychczasowe testy, takie jak MMLU, czy też GSM-8k wskazywały, że modele AI są w stanie rozwiązać zdecydowaną większość zadań. Natomiast FrontierMath ukazuje zupełnie inną wizję - żadna odsłona sztucznej inteligencji, w formie dużych modeli językowych, nie rozwiązała ich więcej niż 2%.
Badacze z Google DeepMind i biochemik otrzymują Nagrodę Nobla. Sztuczna inteligencja okazała się rewolucyjna
Przetestowano kilka modeli AI, z których najlepiej wypadły Gemini 1.5 Pro oraz Claude 3.5 Sonnet - to właśnie im udało się rozwiązać niemal 2% trudnych zadań matematycznych. Pozostałe modele wypadły jeszcze gorzej, a trzeba zaznaczyć, że wśród nich znalazła się wersja zapoznawcza najbardziej zaawansowanego modelu o1 od OpenAI. FrontierMath pozwala sztucznej inteligencji używać środowiska opartego na języku programowania Python, gdzie może ona pisać i wykonywać dany kod. Jak widać, modele AI mają jeszcze sporo do nadrobienia, jeśli chodzi o trudniejsze zadania z dziedziny matematyki. Można wspomnieć, że w następnych miesiącach Epoch AI ma zamiar udostępnić więcej przykładowych zadań ze zbioru testowego.