Testování „nejchytřejšího na světě“ Grok3

Aipu Waton Group (1)

Zavedení

Myslíte si, že Grok3 bude „koncovým bodem“ předškolených modelů?

Elon Musk a tým XAI oficiálně spustili nejnovější verzi Grok, Grok3, během živého přenosu. Před touto událostí zvýšilo značné množství souvisejících informací spojených s propagačním humpátem Muske 24/7 globální očekávání Grok3 na bezprecedentní úrovně. Jen před týdnem, Musk s jistotou uvedl během živého proudu, zatímco komentoval Deepseek R1, „Xai se chystá zahájit lepší model AI.“ Z prezentovaných údajů naživo, Grok3 údajně překonal všechny současné modely hlavního proudu v benchmarcích pro matematiku, vědu a programování, přičemž Musk dokonce tvrdil, že Grok3 bude použit pro výpočetní úkoly související s misemi MARS SPACEX, což předpovídá „průlom na úrovni Nobel Prize“. V současné době jsou to však pouze Muskova tvrzení. Po spuštění jsem testoval nejnovější beta verzi Grok3 a položil klasickou trikovou otázku pro velké modely: „Což je větší, 9.11 nebo 9.9?“ Bohužel, bez jakýchkoli kvalifikátorů nebo značek, takzvaný nejchytřejší Grok3 nemohl na tuto otázku správně odpovědět. Grok3 nedokázal přesně identifikovat význam otázky.

 

Tento test rychle upoutal od mnoha přátel značnou pozornost a náhodou různých podobných testů v zahraničí ukázaly, že Grok3 bojuje se základními fyzika/matematickými otázkami jako „Který míč nejprve padá z nakloněné věže Pisy?“ Byla tedy vtipně označena jako „genialita, která není ochotna odpovědět na jednoduché otázky“.

640

Grok3 je dobrý, ale není to lepší než R1 nebo O1-Pro.

Grok3 zažil „selhání“ na mnoha testech běžných znalostí v praxi. Během události Xai zahájení představil Musk pomocí Grok3 k analýze tříd charakteru a efektů z herní cesty Exile 2, o které tvrdil, že často hraje, ale většina odpovědí poskytnutých Grok3 byla nesprávná. Musk během živého proudu si tento zřejmý problém nevšiml.

 

Tato chyba nejen poskytla další důkazy o zámořských netizensů, aby zesměšňovali Musk za „nalezení náhradníka“ v hrách, ale také vyvolala významné obavy týkající se spolehlivosti Grok3 v praktických aplikacích. U takového „génia“ zůstává bez ohledu na jeho skutečné schopnosti, její spolehlivost v extrémně složitých aplikačních scénářích, jako jsou úkoly průzkumu Marsu, pochybují.

 

V současné době mnoho testerů, kteří dostali přístup k Grok před 3 týdny, a ti, kteří právě včera testovali modelové schopnosti na několik hodin, všichni poukazují na společný závěr: „Grok3 je dobrý, ale není to lepší než R1 nebo O1-Pro.“

640 (1)

Kritický pohled na „narušení NVIDIA“

V oficiálně prezentovaném PPT během vydání se ukázalo, že Grok3 je „daleko dopředu“ v aréně Chatbot, ale tato chytře používaná grafická techniky: svislá osa na žebříčku uvedená pouze v rozmezí skóre 1400-1300, což způsobuje, že původní 1% rozdíl ve výsledcích testů se v této prezentaci jeví výjimečně významný.

640

Ve skutečných výsledcích bodování modelu je GROK3 jen 1-2% před Deepseek R1 a GPT-4,0, což odpovídá zkušenostem mnoha uživatelů v praktických testech, které zjistily „žádný znatelný rozdíl“. Grok3 překročí své nástupce pouze o 1%-2%.

640

Přestože Grok3 skóroval vyšší než všechny v současné době veřejně testované modely, mnozí to neberou vážně: konec konců, Xai byl dříve kritizován za „manipulaci s skóre“ v éře Grok2. Když se styl délky odpovědi na délku trestního založení výrazně snížil a vedl zasvěcence v průmyslu často kritizovat jev „vysokých bodování, ale nízké schopnosti“.

 

Ať už prostřednictvím „manipulace s manipulací“ nebo designem v ilustracích odhalují posedlost Xai a Muska představou o „vedení balení“ v modelových schopnostech. Musk za tyto marže zaplatil strmou cenu: Během startu se chlubil tím, že během živého proudu používal 200 000 GPU H100 GPU (získal „přes 100 000“) a dosáhl celkové doby tréninku 200 milionů hodin. To vedlo k tomu, aby věřili, že to představuje další významný přínos pro průmysl GPU a považuje Deepseekův dopad na toto odvětví za „pošetilý“. Zejména někteří se domnívají, že naprostá výpočetní výkon bude budoucností výcviku modelu.

 

Někteří netizens však porovnávali spotřebu 2000 GPU H800 GPU za dva měsíce, aby vytvořili Deepseek V3, přičemž výpočet skutečné výcvikové spotřeby energie Grok3 je 263krát vyšší než spotřebu V3. Mezera mezi Deepseek V3, která získala 1402 bodů, a Grok3 je těsně pod 100 bodů. Po vydání těchto údajů si mnozí rychle uvědomili, že za titulem Grok3 jako „nejsilnějšího světa“ leží jasný mezní užitečný efekt - logika větších modelů generujících silnější výkon začala vykazovat snižující se výnosy.

640 (2)

I s „vysokým bodováním, ale nízkou schopností“, měl Grok2 obrovské množství vysoce kvalitních dat prvních stran z platformy X (Twitter), aby podporoval využití. Při školení GROK3 se však XAI přirozeně setkal s „stropem“, kterému OpenAI v současné době čelí - nedostatek prémiových dat tréninku rychle odhaluje mezní užitečnost schopností modelu.

 

Vývojáři Grok3 a Musk jsou pravděpodobně první, kdo tyto skutečnosti hluboce porozumí a identifikuje, a proto Musk na sociálních médiích neustále zmínil, že v verzi, kterou uživatelé nyní zažívají, je „stále jen beta“ a že „plná verze bude vydána v nadcházejících měsících“. Musk převzal roli produktového manažera Grok3, což naznačuje, že uživatelé poskytují zpětnou vazbu k různým problémům, se kterými se setkává v sekci komentářů.

 

Přesto, během jednoho dne, výkon Grok3 nepochybně zvýšil alarmy pro ty, kteří doufají, že se spoléhají na „masivní výpočetní sval“, aby trénovali silnější velké modely: Na základě veřejně dostupných informací společnosti Microsoft má GPT-4 velikost parametru 1,8 bilionu parametrů, vícekrát vyšší než GPT-3. Pověsti naznačují, že velikost parametru GPT-4,5 může být ještě větší.

 

Jak stoupají velikosti parametrů modelu, náklady na školení také stoupají. S přítomností společnosti Grok3 musí uchazeči jako GPT-4.5 a další, kteří chtějí pokračovat v „spalování peněz“, aby dosáhli lepšího modelu výkonnosti podle velikosti parametru, zvážit strop, který je nyní jasně v dohledu, a uvažuje o tom, jak jej překonat. V tuto chvíli Ilya Sutskever, bývalá hlavní vědec z OpenAI, dříve prohlásila loni v prosinci: „Předškolský trénink, který jsme obeznámeni, bude ukončit“, který se objevil v diskusích a vyvolával úsilí o nalezení skutečné cesty k tréninku velkých modelů.

640 (3)

Pohled Ilya zněl alarm v oboru. Přesně předvídal bezprostřední vyčerpání dostupných nových dat, což vede k situaci, kdy výkon nemůže být i nadále posílen získáváním dat a přirovnává jej k vyčerpání fosilních paliv. Uvedl, že „jako olej je obsah generovaný lidmi na internetu omezeným zdrojem.“ V předpovědích Sutskeveru bude mít příští generace modelů, post-pre-t-trénink, „skutečnou autonomii“ a schopnosti uvažování „podobné lidskému mozku“.

 

Na rozdíl od dnešních předem vyškolených modelů, které se primárně spoléhají na porovnávání obsahu (na základě dříve naučeného obsahu modelu), se budoucí systémy AI budou moci učit a vytvářet metodologie, aby vyřešily problémy způsobem podobným „myšlení“ lidského mozku. Člověk může dosáhnout základní znalosti u subjektu s pouze základní odbornou literaturou, zatímco velký model AI vyžaduje miliony datových bodů k dosažení pouze nejzákladnější efektivity základní úrovně. I když se formulace mírně změní, tyto základní otázky nemusí být správně pochopeny, což ukazuje, že model se ve inteligenci skutečně nezlepšil: základní, ale neřešitelné otázky uvedené na začátku článku představují jasný příklad tohoto jevu.

微信图片 _20240614024031.jpg1

Závěr

Pokud se však Grok3 podaří odhalit průmyslu, že „předem vyškolené modely se blíží ke svému konci“, což by mělo významné důsledky pro pole.

Možná, že po šílenství obklopující Grok3 postupně ustupuje, budeme svědky dalších případů, jako je příklad Fei-FEI LI „Vyladění vysoce výkonných modelů na konkrétním datovém souboru za pouhých 50 $“, nakonec objevující skutečnou cestu k AGI.

Najděte řešení kabelu ELV

Ovládací kabely

Pro BMS, Bus, Industrial, Instrumentation Cable.

Strukturovaný systém kabeláže

Síť a data, optický kabel, náplast, moduly, čelní deska

2024 Recenze výstav a událostí

16. dubna-18. 18. 2024 Střední východní energie v Dubaji

16. 18. 18. 18. 2024 Securika v Moskvě

9. května, 2024 Událost nových produktů a technologií v Šanghaji

22. října-25. 20. 2024 Zabezpečení Číny v Pekingu

19.-20. listopadu 2024 Connected World KSA


Čas příspěvku: únor-19-2025