Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o?

Natan Faleńczyk | 14-11-2024 10:35 |

Nauka i technika

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o? Sztuczna inteligencja jest przedstawiana dziś jako rozwiązanie niemal uniwersalne, które ma się sprawdzić nie tylko do generowania obrazów i wideo, ale i pomóc w skomplikowanych problemach, czy też w zadaniach domowych z różnych przedmiotów. Obecne testy wskazują, że modele AI radzą sobie całkiem dobrze w różnych dziedzinach, takich jak matematyka. Jednak nowy test, który sprawdza umiejętności na wyższym poziomie, pokazuje, że na tym polu AI wypada przeciętnie.

Według wielu testów możliwości sztucznej inteligencji plasują się na wysokim poziomie. Natomiast nowy test, który ma trudniejsze zadania z matematyki do wykonania, pokazał, że modele AI mają przed sobą jeszcze dużo pracy.

Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet

Instytut badawczy Epoch AI postanowił stworzyć test o nazwie FrontierMath, aby sprawdzić możliwości modeli AI w dziedzinie matematyki na poziomie eksperckim. Co ważne, sztuczna inteligencja miała do rozwiązania zadania, które nie były publicznie dostępne, więc nie mogła się wcześniej na nich szkolić. Zadania są na tyle trudne, że ich rozwiązanie zajmuje ekspertom od wielu godzin do nawet kilku dni. Dotychczasowe testy, takie jak MMLU, czy też GSM-8k wskazywały, że modele AI są w stanie rozwiązać zdecydowaną większość zadań. Natomiast FrontierMath ukazuje zupełnie inną wizję - żadna odsłona sztucznej inteligencji, w formie dużych modeli językowych, nie rozwiązała ich więcej niż 2%.

Badacze z Google DeepMind i biochemik otrzymują Nagrodę Nobla. Sztuczna inteligencja okazała się rewolucyjna

Przetestowano kilka modeli AI, z których najlepiej wypadły Gemini 1.5 Pro oraz Claude 3.5 Sonnet - to właśnie im udało się rozwiązać niemal 2% trudnych zadań matematycznych. Pozostałe modele wypadły jeszcze gorzej, a trzeba zaznaczyć, że wśród nich znalazła się wersja zapoznawcza najbardziej zaawansowanego modelu o1 od OpenAI. FrontierMath pozwala sztucznej inteligencji używać środowiska opartego na języku programowania Python, gdzie może ona pisać i wykonywać dany kod. Jak widać, modele AI mają jeszcze sporo do nadrobienia, jeśli chodzi o trudniejsze zadania z dziedziny matematyki. Można wspomnieć, że w następnych miesiącach Epoch AI ma zamiar udostępnić więcej przykładowych zadań ze zbioru testowego.

Źródło: Epoch AI, Semantic Scholar

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Implant mózgowy BrainGate2 pozwala sparaliżowanym mówić i śpiewać. Technologia UC Davis działa błyskawicznie i dokładnie

Doktorant MIT opracował system AI do odrestaurowania obrazów. Jest 66 razy szybszy od tradycyjnych metod konserwatorskich

Firma Billa Gatesa TerraPower dostała 650 mln USD od NVIDII i innych na budowę komercyjnego reaktora chłodzonego sodem

TSMC zapowiada CoPoS i PLP. Znacząca ewolucja, która pozwoli uzyskać więcej miejsca dla chipów

PCI-SIG finalizuje specyfikację PCI Express 7.0. Interfejs przygotowany jest na potrzeby systemów AI i cloud computing

Liczba komentarzy: 44

Komentarze:

Załaduj komentarze

Wyższy poziom matematyki jest dla AI zbyt dużym wyzwaniem. Jak wypadł Gemini 1.5 Pro, Claude 3.5 Sonnet i GPT-4o?

Według wielu testów możliwości sztucznej inteligencji plasują się na wysokim poziomie. Natomiast nowy test, który ma trudniejsze zadania z matematyki do wykonania, pokazał, że modele AI mają przed sobą jeszcze dużo pracy.

Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet

Badacze z Google DeepMind i biochemik otrzymują Nagrodę Nobla. Sztuczna inteligencja okazała się rewolucyjna

Powiązane publikacje

Implant mózgowy BrainGate2 pozwala sparaliżowanym mówić i śpiewać. Technologia UC Davis działa błyskawicznie i dokładnie

Doktorant MIT opracował system AI do odrestaurowania obrazów. Jest 66 razy szybszy od tradycyjnych metod konserwatorskich

Firma Billa Gatesa TerraPower dostała 650 mln USD od NVIDII i innych na budowę komercyjnego reaktora chłodzonego sodem

TSMC zapowiada CoPoS i PLP. Znacząca ewolucja, która pozwoli uzyskać więcej miejsca dla chipów

PCI-SIG finalizuje specyfikację PCI Express 7.0. Interfejs przygotowany jest na potrzeby systemów AI i cloud computing

Komentarze:

Test karty graficznej KFA2 GeForce RTX 5080 1-Click OC - Efektowne podświetlenie ARGB i regulowana podpórka w komplecie

Recenzja Soundcore Boom 3i. Pływający głośnik Bluetooth z dobrym basem, oświetleniem RGB i niezłym akumulatorem

Test obudowy komputerowej Corsair Frame 4000D RS - Przewiewna modułowa konstrukcja z kilkoma fajnymi udogodnieniami

Jaki komputer do gier kupić? Polecane zestawy komputerowe na lipiec 2025. Komputery gamingowe w różnych cenach

Test chłodzenia AiO MSI MAG CoreLiquid A13 360 - Niedrogi zestaw o dobrej wydajności z efektownym podświetleniem ARGB

Wielki powrót Linuksa w Polsce, a Windows 11 po raz pierwszy wyprzedza Windowsa 10. Zobacz nowe statystyki

ASML, Airbus i Mistral AI bezskutecznie proszą o wstrzymanie przepisów unijnych dotyczących sztucznej inteligencji

Chatboty Meta AI Studio otrzymają możliwość zapamiętywania historii rozmów i kontaktowania się z użytkownikami

CoMaps - darmowe mapy na Androida i iOS, które szanują prywatność użytkowników. Bez reklam i działają offline

The Fairphone (Gen. 6) jednym z najłatwiej naprawialnych smartfonów na świecie. Ile kosztują części zamienne?

Test wydajności DOOM: The Dark Ages - Path Tracing to piekielne wymagania sprzętowe. Porównanie wydajności i jakości grafiki

NVIDIA z totalną dominacją na rynku kart graficznych dla PC. Intel na tym rynku praktycznie nie istnieje

AMD Radeon RX 9070 XT - modele z pamięciami GDDR6 od Samsunga są trochę wolniejsze od tych z modułami od SK hynix

Jaki komputer do gier kupić? Polecane zestawy komputerowe na lipiec 2025. Komputery gamingowe w różnych cenach

Karty graficzne AMD Radeon RX 9000 w cenach blisko MSRP. Sytuacja architektury RDNA 4 wygląda już dużo lepiej

O portalu PurePC

Najważniejsze

Znajdź PurePC na