Elon Musk twierdzi, że Grok-4 to najinteligentniejsza AI świata. Niezależne testy pokazują zupełnie inną prawdę o jej możliwościach
Najnowszy model sztucznej inteligencji Grok-4 firmy xAI Elona Muska wzbudza sporo kontrowersji. Mimo że oficjalne benchmarki wskazują na przewagę nad konkurencją w wielu dziedzinach, niezależne testy ujawniają słabości tego systemu. Model, który ma kosztować nawet 300 dolarów miesięcznie bywa wyraźnie słabszy od konkurencji, w zależności od typu zadania. Czy faktycznie zasługuje on na miano najbardziej zaawansowanej AI na świecie?
Chatbot xAI Grok 4 pokazuje, że AI potrafi negocjować, ale pod presją łatwo traci przewagę. Nawet Gemini 2.5 Flash osiągnął lepsze wyniki od niego w dynamicznych wyzwaniach strategicznych.
Grok 4 debiutuje w cieniu skandalu. Czy nowy model xAI naprawdę przewyższa ChatGPT i Gemini w każdej dziedzinie?
Model Grok-4 firmy xAI osiąga obiecujące wyniki w testach sztucznej inteligencji. Podczas gdy oficjalne benchmarki pokazują jego dominację nad konkurencją, niezależne testy ujawniają poważne słabości w obszarach wymagających dynamicznej strategii i współpracy. Najnowszy produkt Elona Muska zajął jedynie piąte miejsce w Multi-Agent Step Race Benchmark, osiągając wynik 7,9 punktu TrueSkill, podczas gdy model o3 firmy OpenAI utrzymuje pierwszą pozycję z rezultatem 9,4 punktu. Test Multi-Agent Step Race Benchmark ocenia zdolność modeli AI do współpracy i strategicznego myślenia pod presją czasową, używając układanek z New York Times Connections. Wyniki sugerują, że Grok-4 może być zoptymalizowany pod kątem standardowych benchmarków akademickich, ale zawodzi w sytuacjach wymagających adaptacji i złożonego rozumowania w czasie rzeczywistym. To może oznaczać, że model nauczył się "na pamięć" danych treningowych zamiast rozwijać rzeczywiste zdolności analityczne.
Firma xAI reklamuje Grok-4 jako system osiągający wyniki na poziomie doktorskim we wszystkich dziedzinach akademickich. Model rzeczywiście imponuje w testach ARC-AGI-2, gdzie uzyskał 15,9 procent, czyli wynik znacznie przewyższający poprzednie osiągnięcia w tej kategorii. Jednak słabe rezultaty w testach strategicznych wskazują na ograniczenia w praktycznych zastosowaniach biznesowych i kreatywnych, gdzie wymagana jest elastyczność myślenia. Cennik nowych modeli budzi kontrowersje. Standardowy Grok-4 kosztuje 30 dolarów miesięcznie, podczas gdy wersja SuperGrok Heavy wymaga opłaty 300 dolarów miesięcznie. Jest to najdroższy model AI dostępny komercyjnie. Użytkownicy raportują jednak mieszane doświadczenia z systemem, szczególnie w kontekście niedawnych kontrowersji związanych z generowaniem nieodpowiednich treści przez poprzednie wersje chatbota.
Powiązane publikacje

Meta kupuje startup, który sklonuje twój głos w 30 sekund. Nowa era deepfake'ów czy przełom w komunikacji?
11
Windows 11 nauczy się naprawiać sam siebie. Microsoft ujawnia przełomową technologię Quick Machine Recovery
42
Terapeuta AI może ci zaszkodzić. Stanford ujawnia niepokojące fakty o chatbotach. Mogą popełniać o 1/3 więcej błędów niż ludzie
32
Co zamiast płatnego Microsoft Office? Pakiety biurowe na Windows, macOS i Linux. Zobacz 5 bezpłatnych alternatyw
151