Zavedení

Myslíte si, že Grok3 bude „koncovým bodem“ předtrénovaných modelů?

Elon Musk a tým xAI oficiálně spustili během živého streamu nejnovější verzi Groku, Grok3. Před touto událostí značné množství souvisejících informací spolu s Muskovým nepřetržitým propagačním humbukem zvýšilo globální očekávání ohledně Grok3 na nebývalou úroveň. Jen před týdnem Musk během živého streamu sebevědomě prohlásil, když komentoval DeepSeek R1: „xAI se chystá spustit lepší model umělé inteligence.“ Z dat prezentovaných živě vyplývá, že Grok3 údajně překonal všechny současné mainstreamové modely v benchmarkech pro matematiku, vědu a programování, přičemž Musk dokonce tvrdil, že Grok3 bude použit pro výpočetní úkoly související s misemi SpaceX na Mars a předpovídal „průlomy na úrovni Nobelovy ceny do tří let“. V současné době jsou to však pouze Muskova tvrzení. Po spuštění jsem otestoval nejnovější beta verzi Grok3 a položil klasickou záludnou otázku pro velké modely: „Který je větší, 9,11 nebo 9,9?“ Bohužel, bez jakýchkoli kvalifikátorů nebo označení, takzvaný nejchytřejší Grok3 stále nedokázal na tuto otázku správně odpovědět. Grok3 nedokázal přesně identifikovat význam otázky.

Tento test rychle upoutal značnou pozornost mnoha přátel a shodou okolností různé podobné testy v zahraničí ukázaly, že Grok3 se potýká se základními fyzikálními/matematickými otázkami typu „Která koule spadne první ze šikmé věže v Pise?“. Proto byl vtipně označen za „génia, který není ochotný odpovídat na jednoduché otázky“.

Grok3 je dobrý, ale není lepší než R1 nebo o1-Pro.

Grok3 v praxi zaznamenal „selhání“ v mnoha testech běžných znalostí. Během uvedení xAI na trh Musk předvedl použití Grok3 k analýze tříd postav a efektů ze hry Path of Exile 2, kterou podle svých slov často hraje, ale většina odpovědí, které Grok3 poskytl, byla nesprávná. Musk si tohoto zjevného problému během živého streamu nevšiml.

Tato chyba nejen poskytla další důkaz pro zahraniční uživatele internetu, aby se posmívali Muskovi za to, že „našel náhradu“ v hraní her, ale také vyvolala značné obavy ohledně spolehlivosti Grok3 v praktických aplikacích. U takového „génia“, bez ohledu na jeho skutečné schopnosti, zůstává jeho spolehlivost v extrémně složitých aplikačních scénářích, jako jsou například úkoly průzkumu Marsu, nejistá.

V současné době mnoho testerů, kteří získali přístup k Grok3 před několika týdny, a ti, kteří včera jen pár hodin testovali možnosti modelu, poukazují na společný závěr: „Grok3 je dobrý, ale není lepší než R1 nebo o1-Pro.“

Kritický pohled na „narušení Nvidie“

V oficiálně prezentované PPT během vydání se ukázalo, že Grok3 je v Chatbot Aréně „daleko napřed“, ale tento tým chytře využil grafické techniky: svislá osa na žebříčku zobrazovala pouze výsledky v rozmezí skóre 1400-1300, takže původní 1% rozdíl ve výsledcích testů se v této prezentaci jeví jako mimořádně významný.

Ve skutečných výsledcích modelového hodnocení je Grok3 pouze o 1–2 % napřed před DeepSeek R1 a GPT-4.0, což odpovídá zkušenostem mnoha uživatelů v praktických testech, které neshledaly „žádný znatelný rozdíl“. Grok3 překonává své nástupce pouze o 1–2 %.

Přestože Grok3 dosáhl vyššího skóre než všechny aktuálně veřejně testované modely, mnoho lidí to nebere vážně: koneckonců, xAI byla v éře Grok2 kritizována za „manipulaci se skóre“. Vzhledem k tomu, že žebříček penalizoval styl délky odpovědí, skóre se výrazně snížilo, což vedlo zasvěcené osoby z oboru k časté kritice fenoménu „vysokého skóre, ale nízké schopnosti“.

Ať už se jedná o „manipulaci“ s žebříčky, nebo o designové triky v ilustracích, odhalují xAI a Muskovu posedlost myšlenkou „vést skupinu“ v oblasti modelovacích schopností. Musk za tyto rozdíly zaplatil vysokou cenu: během uvedení na trh se chlubil použitím 200 000 GPU H100 (během živého streamu tvrdil, že použil „přes 100 000“) a dosáhl celkové doby trénování 200 milionů hodin. To vedlo některé k přesvědčení, že to představuje další významný přínos pro odvětví GPU, a k tomu, že dopad DeepSeeku na toto odvětví považovali za „pošetilý“. Někteří se domnívají, že budoucností trénování modelů bude pouhá výpočetní síla.

Někteří uživatelé internetu však porovnali spotřebu 2000 grafických procesorů H800 za dva měsíce potřebné k vytvoření DeepSeek V3 a vypočítali, že skutečná spotřeba energie Grok3 při tréninku je 263krát vyšší než u V3. Rozdíl mezi DeepSeek V3, který získal 1402 bodů, a Grok3 je necelých 100 bodů. Po zveřejnění těchto dat si mnozí rychle uvědomili, že za titulem Grok3 jako „nejsilnějšího na světě“ se skrývá jasný marginální užitný efekt – logika větších modelů generujících silnější výkon začala vykazovat klesající návratnost.

I přes „vysoké skóre, ale nízkou schopnost“ měl Grok2 k dispozici obrovské množství vysoce kvalitních dat z platformy X (Twitter) pro podporu použití. Při trénování Grok3 však xAI přirozeně narazila na „strop“, kterému OpenAI v současné době čelí – nedostatek prémiových trénovacích dat rychle odhaluje okrajovou užitečnost schopností modelu.

Vývojáři Grok3 a Musk jsou pravděpodobně první, kdo těmto faktům porozumí a důkladně je identifikuje, a proto Musk na sociálních sítích neustále zmiňuje, že verze, kterou uživatelé nyní používají, je „stále jen beta“ a že „plná verze bude vydána v nadcházejících měsících“. Musk se ujal role produktového manažera Grok3 a navrhuje uživatelům, aby v sekci komentářů poskytovali zpětnou vazbu k různým problémům, se kterými se setkali. Možná je nejsledovanějším produktovým manažerem na světě.

Přesto během jediného dne výkon Grok3 nepochybně vyvolal poplach u těch, kteří doufají, že se k trénování silnějších velkých modelů spoléhají na „masivní výpočetní sílu“: na základě veřejně dostupných informací od Microsoftu má OpenAI GPT-4 velikost parametrů 1,8 bilionu parametrů, což je více než desetkrát více než GPT-3. Zvěsti naznačují, že velikost parametrů GPT-4.5 by mohla být ještě větší.

S rostoucími velikostmi parametrů modelu prudce rostou i náklady na trénování. S přítomností Grok3 musí uchazeči jako GPT-4.5 a další, kteří chtějí i nadále „utrácet peníze“ za dosažení lepšího výkonu modelu prostřednictvím velikosti parametrů, zvážit strop, který je nyní jasně na dohled, a zvážit, jak ho překonat. V tuto chvíli Ilja Sutskever, bývalý hlavní vědec společnosti OpenAI, v prosinci loňského roku prohlásil: „Předtrénování, které známe, skončí,“ což se znovu objevilo v diskusích a podnítilo snahu najít skutečnou cestu pro trénování velkých modelů.

Iljův názor vyvolal v oboru poplach. Přesně předpověděl bezprostřední vyčerpání dostupných nových dat, což povede k situaci, kdy nelze výkon dále zvyšovat jejich sběrem, a přirovnal to k vyčerpání fosilních paliv. Naznačil, že „stejně jako ropa je i obsah generovaný člověkem na internetu omezeným zdrojem“. Podle Sutskeverových předpovědí bude mít příští generace modelů po předběžném trénování „skutečnou autonomii“ a schopnosti uvažování „podobné lidskému mozku“.

Na rozdíl od dnešních předtrénovaných modelů, které se primárně spoléhají na porovnávání obsahu (na základě dříve naučeného obsahu modelu), budou budoucí systémy umělé inteligence schopny se učit a zavádět metodologie pro řešení problémů způsobem podobným „myšlení“ lidského mozku. Člověk může dosáhnout základních znalostí v daném oboru pouze se základní odbornou literaturou, zatímco rozsáhlý model umělé inteligence vyžaduje miliony datových bodů k dosažení pouze té nejzákladnější vstupní účinnosti. I když se formulace mírně změní, nemusí být tyto základní otázky správně pochopeny, což ilustruje, že model se ve skutečnosti nezlepšil v inteligenci: základní, ale neřešitelné otázky zmíněné na začátku článku představují jasný příklad tohoto jevu.

Závěr

Pokud se však Grok3 skutečně podaří odhalit odvětví, že „předtrénované modely se blíží ke konci“, bude to mít kromě použití hrubé síly pro daný obor významné důsledky.

Možná, že až šílenství kolem Grok3 postupně ustane, budeme svědky dalších případů, jako je například Fei-Fei Liho, který uvedl „ladění vysoce výkonných modelů na konkrétní datové sadě za pouhých 50 dolarů“, což nakonec odhalí skutečnou cestu k AGI.

Najděte řešení kabelů ELV

Ovládací kabely

Pro kabely BMS, sběrnice, průmyslové a přístrojové kabely.

Klikněte zde

Strukturovaný kabelážní systém

Síť a data, optický kabel, propojovací kabel, moduly, čelní panel

Klikněte zde

Přehled výstav a akcí 2024

Čas zveřejnění: 19. února 2025

Testování „nejchytřejšího na světě“ Grok3

Zavedení

Grok3 je dobrý, ale není lepší než R1 nebo o1-Pro.

Kritický pohled na „narušení Nvidie“

Závěr

Ovládací kabely

Strukturovaný kabelážní systém

16.–18. dubna 2024, veletrh energetiky na Středním východě v Dubaji

16.–18. dubna 2024 Securika v Moskvě

9. května 2024 AKCE K UVÁDĚNÍ NOVÝCH PRODUKTŮ A TECHNOLOGIÍ v Šanghaji

22.–25. října 2024 SECURITY CHINA v Pekingu

19.–20. listopadu 2024 CONNECTED WORLD KSA