Elon Musk twierdzi, że Grok-4 to najinteligentniejsza AI świata. Niezależne testy pokazują zupełnie inną prawdę o jej możliwościach

Maciej Lewczuk | 14-07-2025 14:00 |

Oprogramowanie

Elon Musk twierdzi, że Grok-4 to najinteligentniejsza AI świata. Niezależne testy pokazują zupełnie inną prawdę o jej możliwościach Najnowszy model sztucznej inteligencji Grok-4 firmy xAI Elona Muska wzbudza sporo kontrowersji. Mimo że oficjalne benchmarki wskazują na przewagę nad konkurencją w wielu dziedzinach, niezależne testy ujawniają słabości tego systemu. Model, który ma kosztować nawet 300 dolarów miesięcznie bywa wyraźnie słabszy od konkurencji, w zależności od typu zadania. Czy faktycznie zasługuje on na miano najbardziej zaawansowanej AI na świecie?

Chatbot xAI Grok 4 pokazuje, że AI potrafi negocjować, ale pod presją łatwo traci przewagę. Nawet Gemini 2.5 Flash osiągnął lepsze wyniki od niego w dynamicznych wyzwaniach strategicznych.

Grok 4 debiutuje w cieniu skandalu. Czy nowy model xAI naprawdę przewyższa ChatGPT i Gemini w każdej dziedzinie?

Model Grok-4 firmy xAI osiąga obiecujące wyniki w testach sztucznej inteligencji. Podczas gdy oficjalne benchmarki pokazują jego dominację nad konkurencją, niezależne testy ujawniają poważne słabości w obszarach wymagających dynamicznej strategii i współpracy. Najnowszy produkt Elona Muska zajął jedynie piąte miejsce w Multi-Agent Step Race Benchmark, osiągając wynik 7,9 punktu TrueSkill, podczas gdy model o3 firmy OpenAI utrzymuje pierwszą pozycję z rezultatem 9,4 punktu. Test Multi-Agent Step Race Benchmark ocenia zdolność modeli AI do współpracy i strategicznego myślenia pod presją czasową, używając układanek z New York Times Connections. Wyniki sugerują, że Grok-4 może być zoptymalizowany pod kątem standardowych benchmarków akademickich, ale zawodzi w sytuacjach wymagających adaptacji i złożonego rozumowania w czasie rzeczywistym. To może oznaczać, że model nauczył się "na pamięć" danych treningowych zamiast rozwijać rzeczywiste zdolności analityczne.

Firma xAI reklamuje Grok-4 jako system osiągający wyniki na poziomie doktorskim we wszystkich dziedzinach akademickich. Model rzeczywiście imponuje w testach ARC-AGI-2, gdzie uzyskał 15,9 procent, czyli wynik znacznie przewyższający poprzednie osiągnięcia w tej kategorii. Jednak słabe rezultaty w testach strategicznych wskazują na ograniczenia w praktycznych zastosowaniach biznesowych i kreatywnych, gdzie wymagana jest elastyczność myślenia. Cennik nowych modeli budzi kontrowersje. Standardowy Grok-4 kosztuje 30 dolarów miesięcznie, podczas gdy wersja SuperGrok Heavy wymaga opłaty 300 dolarów miesięcznie. Jest to najdroższy model AI dostępny komercyjnie. Użytkownicy raportują jednak mieszane doświadczenia z systemem, szczególnie w kontekście niedawnych kontrowersji związanych z generowaniem nieodpowiednich treści przez poprzednie wersje chatbota.

Źródło: LechMazur (X), VraserX (X), WCCFTech

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Wpadka Microsoftu. Aktualizacja KB5066835 dla Windows 11 paraliżuje localhost i przerywa pracę deweloperów

Google Veo 3.1 z rozdzielczością 1080p i 8-sekundowymi klipami konkuruje z OpenAI Sora 2. Sprawdź, co faktycznie potrafi

Nowa polityka OpenAI. ChatGPT będzie mógł generować treści erotyczne po implementacji systemu weryfikacji wieku

Microsoft wreszcie pokazał własne AI. Generator obrazów MAI-Image-1 już atakuje konkurencję i zajmuje 9. miejsce w rankingu

LMDE 7 dostępne do pobrania. Czym różni się od Linux Mint i jaki jest cel istnienia tej dystrybucji? Zobacz krótkie omówienie

Liczba komentarzy: 22

Komentarze:

Załaduj komentarze

Elon Musk twierdzi, że Grok-4 to najinteligentniejsza AI świata. Niezależne testy pokazują zupełnie inną prawdę o jej możliwościach

Chatbot xAI Grok 4 pokazuje, że AI potrafi negocjować, ale pod presją łatwo traci przewagę. Nawet Gemini 2.5 Flash osiągnął lepsze wyniki od niego w dynamicznych wyzwaniach strategicznych.

Grok 4 debiutuje w cieniu skandalu. Czy nowy model xAI naprawdę przewyższa ChatGPT i Gemini w każdej dziedzinie?

Powiązane publikacje

Wpadka Microsoftu. Aktualizacja KB5066835 dla Windows 11 paraliżuje localhost i przerywa pracę deweloperów

Google Veo 3.1 z rozdzielczością 1080p i 8-sekundowymi klipami konkuruje z OpenAI Sora 2. Sprawdź, co faktycznie potrafi

Nowa polityka OpenAI. ChatGPT będzie mógł generować treści erotyczne po implementacji systemu weryfikacji wieku

Microsoft wreszcie pokazał własne AI. Generator obrazów MAI-Image-1 już atakuje konkurencję i zajmuje 9. miejsce w rankingu

LMDE 7 dostępne do pobrania. Czym różni się od Linux Mint i jaki jest cel istnienia tej dystrybucji? Zobacz krótkie omówienie

Komentarze:

Recenzja klawiatury Endorfy Thock V2 Wireless - Lepsze wrogiem dobrego? Co dodaje i poprawia nowsza wersja?

Test ASUS ROG Xbox Ally X - Premierowy test handheldu ASUS-a i Microsoftu w wersji z procesorem AMD Ryzen AI Z2 Extreme

Recenzja chłodzenia AiO XPG Levante II 360 - dość tanie, całkiem efektowne, jednak czy wystarczająco efektywne?

Test Battlefield 6 - Analiza jakości obrazu, wydajności DLSS 4 oraz wpływu Multi Frame Generation na opóźnienia systemowe

Recenzja Battlefield 6 - Electronic Arts ponownie na wojennej ścieżce. Czy nowa odsłona daje radę na wszystkich frontach?

Premiera HATOR ARC 3 i Darkside 3 (PRO) - nowa generacja foteli dla graczy, która łączy ergonomię i personalizację

Wymagania sprzętowe Vampire: The Masquerade-Bloodlines 2 PC. Do 4K i 240 FPS rekomendowany jest GeForce RTX 5080

Microsoft przenosi produkcję poza Chiny. Do 80 proc. komponentów od 2026 roku ma powstać w Azji Południowo-Wschodniej

ASUS ROG NUC Mini 9 - Nowa wersja niewielkiego komputera otrzyma procesor AMD Ryzen 9 9955HX3D

Wpadka Microsoftu. Aktualizacja KB5066835 dla Windows 11 paraliżuje localhost i przerywa pracę deweloperów

Test Battlefield 6 - Analiza jakości obrazu, wydajności DLSS 4 oraz wpływu Multi Frame Generation na opóźnienia systemowe

Ile potrzeba pamięci RAM do gier? Porównanie wydajności 16, 32 i 64 GB pamięci RAM - Czy więcej oznacza szybciej?

Test wydajności Battlefield 6 - Wymagania sprzętowe nie zabijają, ale graficznie również bez fajerwerków

Pudełko, sprzęt i dokumentacja - czy potrzeba czegoś więcej? Sony i Apple pokazują, że nie. W ślad za ładowarkami mogą iść przewody...

Pierwsze recenzje techniczne gry Silent Hill f pokazują moc Unreal Engine 5. Konsola PlayStation 5 ze skalowaniem z 360p

O portalu PurePC

Najważniejsze

Znajdź PurePC na