Inngangur

Heldurðu að Grok3 verði „endapunkturinn“ fyrir fyrirfram þjálfaðar líkanir?

Elon Musk og xAI teymið kynntu opinberlega nýjustu útgáfuna af Grok, Grok3, í beinni útsendingu. Fyrir þennan viðburð höfðu töluverðar upplýsingar, ásamt kynningaráróðri Musk allan sólarhringinn, vakið alþjóðlegar væntingar fyrir Grok3 upp á fordæmalaust stig. Fyrir aðeins viku síðan sagði Musk af öryggi í beinni útsendingu þar sem hann tjáði sig um DeepSeek R1: „xAI er að fara að kynna betri gervigreindarlíkan.“ Samkvæmt gögnum sem kynnt voru í beinni útsendingu hefur Grok3 farið fram úr öllum núverandi almennum líkönum í viðmiðum fyrir stærðfræði, vísindi og forritun, og Musk fullyrti jafnvel að Grok3 verði notað í reikniverkefnum tengdum Marsleiðangri SpaceX og spáði „byltingum á Nóbelsverðlaunastigi innan þriggja ára.“ Hins vegar eru þetta aðeins fullyrðingar Musk í augnablikinu. Eftir útgáfuna prófaði ég nýjustu beta útgáfuna af Grok3 og spurði klassísku bragðspurningarinnar fyrir stór líkön: „Hvor er stærri, 9.11 eða 9.9?“ Því miður, án nokkurra skilyrða eða merkja, gat svokallaður snjallasti Grok3 samt ekki svarað þessari spurningu rétt. Grok3 tókst ekki að bera kennsl á merkingu spurningarinnar nákvæmlega.

Þetta próf vakti fljótt mikla athygli margra vina og tilviljunarkennt hafa ýmsar svipaðar prófanir erlendis sýnt að Grok3 á í erfiðleikum með grunn eðlisfræði-/stærðfræðispurningar eins og „Hvaða kúla dettur fyrst af halla turninum í Písa?“ Því hefur það verið kallað „snillingur sem er ekki tilbúinn að svara einföldum spurningum.“

Grok3 er gott, en það er ekki betra en R1 eða o1-Pro.

Grok3 upplifði „mistök“ í mörgum almennum þekkingarprófum í reynd. Á kynningarviðburði xAI sýndi Musk fram á hvernig Grok3 var notaður til að greina persónuflokka og áhrif úr leiknum Path of Exile 2, sem hann sagðist spila oft, en flest svörin sem Grok3 gaf voru röng. Musk tók ekki eftir þessu augljósa vandamáli í beinni útsendingu.

Þessi mistök veittu ekki aðeins erlendum netnotendum frekari sönnunargögn til að gera grín að Musk fyrir að „finna staðgengil“ í tölvuleikjum heldur vakti einnig verulegar áhyggjur varðandi áreiðanleika Grok3 í hagnýtum tilgangi. Fyrir slíka „snilling“, óháð raunverulegum getu hans, er áreiðanleiki hans í afar flóknum aðstæðum, svo sem könnunarverkefnum á Mars, enn í vafa.

Margir prófunaraðilar sem fengu aðgang að Grok3 fyrir nokkrum vikum, og þeir sem prófuðu líkanið í nokkrar klukkustundir í gær, benda allir á sameiginlega niðurstöðu: „Grok3 er gott, en það er ekki betra en R1 eða o1-Pro.“

Gagnrýnin sýn á „að raska Nvidia“

Í opinberlega kynntri PowerPoint kynningu við útgáfuna var sýnt fram á að Grok3 væri „langt á undan“ í spjallþjónsvettvanginum, en þar var notast við snjalla grafískar aðferðir: lóðrétti ásinn á stigatöflunni sýndi aðeins niðurstöður á bilinu 1400-1300, sem gerir það að verkum að upphaflegi 1% munurinn á prófunarniðurstöðum virðist einstaklega marktækur í þessari kynningu.

Í raunniðurstöðum líkansins er Grok3 aðeins 1-2% á undan DeepSeek R1 og GPT-4.0, sem samsvarar reynslu margra notenda í hagnýtum prófunum sem fundu „engan greinanlegan mun“. Grok3 er aðeins 1%-2% á undan arftaka sínum.

Þótt Grok3 hafi fengið hærri einkunn en allar opinberlega prófaðar gerðir núna, taka margir þetta ekki alvarlega: xAI hefur jú áður verið gagnrýnt fyrir „stigastjórnun“ á Grok2 tímabilinu. Þar sem stigataflan refsaði fyrir stíl svarlengdar, lækkuðu einkunnirnar verulega, sem leiddi til þess að sérfræðingar í greininni gagnrýndu oft fyrirbærið „há einkunn en lítil geta“.

Hvort sem um er að ræða „meðhöndlun“ á stigatöflum eða hönnunarbrögð í myndskreytingum, þá sýna þau xAI og áráttu Musks fyrir hugmyndinni um að vera „leiðandi“ í líkanagerð. Musk greiddi hátt verð fyrir þessa framlegð: við útgáfuna státaði hann sig af því að nota 200.000 H100 GPU-einingar (og fullyrti að þær væru „yfir 100.000“ í beinni útsendingu) og ná heildarþjálfunartíma upp á 200 milljónir klukkustunda. Þetta leiddi til þess að sumir töldu þetta vera annan verulegan ávinning fyrir GPU-iðnaðinn og að áhrif DeepSeek á greinina væru „heimskuleg“. Athyglisvert er að sumir telja að eingöngu reiknigeta verði framtíð líkanaþjálfunar.

Hins vegar báru sumir netverjar saman orkunotkun 2000 H800 skjákorta á tveimur mánuðum til að framleiða DeepSeek V3 og reiknuðu út að raunveruleg orkunotkun Grok3 við þjálfun væri 263 sinnum meiri en hjá V3. Munurinn á DeepSeek V3, sem fékk 1402 stig, og Grok3 er rétt undir 100 stigum. Eftir að þessi gögn voru birt gerðu margir sér fljótt grein fyrir því að á bak við titil Grok3 sem „sterkasta tækið í heimi“ leynist skýr jaðaráhrif nytsemi - rökfræðin um að stærri gerðir skili betri afköstum hefur farið að sýna minnkandi ávöxtun.

Jafnvel með „háa einkunn en litla getu“ hafði Grok2 mikið magn af hágæða gögnum frá fyrsta aðila frá X (Twitter) kerfinu til að styðja notkunina. Hins vegar, í þjálfun Grok3, rakst xAI náttúrulega á „þakið“ sem OpenAI stendur frammi fyrir núna - skortur á úrvals þjálfunargögnum afhjúpar fljótt jaðarnotkun getu líkansins.

Þróunaraðilar Grok3 og Musk eru líklega þeir fyrstu til að skilja og bera kennsl á þessar staðreyndir til fulls, og þess vegna hefur Musk ítrekað nefnt á samfélagsmiðlum að útgáfan sem notendur eru að upplifa núna sé „ennþá bara beta-útgáfa“ og að „full útgáfan verði gefin út á næstu mánuðum.“ Musk hefur tekið að sér hlutverk vörustjóra Grok3 og leggur til að notendur gefi ábendingar um ýmis vandamál sem koma upp í athugasemdunum. Hann gæti verið vörustjórinn sem flestir fylgdust með í heiminum.

Samt sem áður, innan dags, vakti afköst Grok3 án efa áhyggjur hjá þeim sem vonuðust til að reiða sig á „gríðarlegan reiknivélavöðva“ til að þjálfa sterkari stór líkön: byggt á opinberum upplýsingum frá Microsoft hefur GPT-4 í OpenAI færibreytustærð upp á 1,8 billjón færibreytur, meira en tífalt stærri en GPT-3. Sögusagnir benda til þess að færibreytustærð GPT-4.5 gæti verið enn stærri.

Þar sem stærðir líkanbreytanna hækka gríðarlega, hækkar þjálfunarkostnaðurinn einnig gríðarlega. Með nærveru Grok3 verða keppinautar eins og GPT-4.5 og aðrir sem vilja halda áfram að „brenna peningum“ til að ná betri frammistöðu líkansins með stærð breytunnar að íhuga þakið sem nú er greinilega í sjónmáli og íhuga hvernig hægt er að yfirstíga það. Á þessari stundu hafði Ilya Sutskever, fyrrverandi aðalvísindamaður hjá OpenAI, áður sagt í desember síðastliðnum: „Undirbúningsþjálfunin sem við þekkjum mun líða undir lok,“ sem hefur komið upp aftur í umræðum og hvatt til viðleitni til að finna réttu leiðina til að þjálfa stór líkön.

Sjónarmið Ilya hefur vakið mikla athygli í greininni. Hann sá fyrir með nákvæmni að ný aðgengileg gögn myndu klárast, sem leiddi til aðstæðna þar sem ekki er hægt að halda áfram að bæta afköst með gagnasöfnun, og líkti því við klárann jarðefnaeldsneyti. Hann benti á að „eins og olía er manngert efni á netinu takmörkuð auðlind.“ Í spám Sutskevers mun næsta kynslóð líkana, eftir forþjálfun, búa yfir „sönnu sjálfstæði“ og rökhugsunarhæfni „svipuðum og mannsheilinn“.

Ólíkt forþjálfuðum líkönum nútímans sem aðallega reiða sig á efnissamsvörun (byggt á efni líkansins sem áður hefur verið lært), munu framtíðar gervigreindarkerfi geta lært og komið á fót aðferðafræði til að leysa vandamál á svipaðan hátt og „hugsun“ mannsheilans. Maður getur náð grunnfærni í viðfangsefni með einungis grunnþekkingu í faglegum ritum, en stórt gervigreindarlíkan þarfnast milljóna gagnapunkta til að ná aðeins grunnþekkingu á byrjendastigi. Jafnvel þótt orðalagið sé breytt lítillega, gætu þessar grundvallarspurningar ekki verið rétt skildar, sem sýnir að líkanið hefur ekki raunverulega batnað í greind: grunn en óleysanlegu spurningarnar sem nefndar eru í upphafi greinarinnar eru skýrt dæmi um þetta fyrirbæri.

Niðurstaða

Hins vegar, umfram grimmd, ef Grok3 tekst í raun að sýna greininni að „forþjálfaðar gerðir eru að nálgast endalok sín“, þá myndi það hafa veruleg áhrif á sviðið.

Kannski, eftir að æðið í kringum Grok3 smám saman hjaðnar, munum við verða vitni að fleiri málum eins og dæmi Fei-Fei Li um að „stilla afkastamikil líkön á tilteknu gagnasafni fyrir aðeins $50“ og að lokum uppgötva hina sönnu leið að AGI.

Finndu ELV kapallausn

Stjórnsnúrar

Fyrir BMS, BUS, iðnaðar, tækjabúnaðarsnúru.

Smelltu hér

Skipulagt kapalkerfi

Net og gögn, ljósleiðari, tengisnúra, einingar, framhlið

Smelltu hér

Yfirlit yfir sýningar og viðburði 2024

Birtingartími: 19. febrúar 2025

Að prófa „snjallasta í heimi“ Grok3

Inngangur

Grok3 er gott, en það er ekki betra en R1 eða o1-Pro.

Gagnrýnin sýn á „að raska Nvidia“

Niðurstaða

Stjórnsnúrar

Skipulagt kapalkerfi

16.-18. apríl 2024, Orka í Mið-Austurlöndum í Dúbaí

16.-18. apríl 2024, Securika í Moskvu

9. maí 2024 KYNNINGARVIÐBURÐUR NÝJRA VÖRU OG TÆKNI í Sjanghæ

22.-25. október 2024, ÖRYGGISFÉLAG KÍNA í Peking

19.-20. nóvember 2024, CONNECTED WORLD KSA