Prófun „snjallasta í heimi“ Grok3

AIPU Waton hópur (1)

INNGANGUR

Telur þú að Grok3 verði „endapunktur“ fyrirfram þjálfaðra gerða?

Elon Musk og Xai teymið hófu nýjustu útgáfuna af Grok, Grok3, meðan á búfé. Fyrir þennan atburð vakti umtalsvert magn af skyldum upplýsingum, ásamt kynningar efla Musk allan sólarhringinn, á heimsvísu væntingar um Grok3 í fordæmalaus stig. Fyrir aðeins viku síðan sagði Musk með öryggi á meðan á búfé meðan hann tjáði sig um Deepseek R1, „Xai er að fara að koma af stað betri AI líkan.“ Af þeim gögnum sem kynnt voru í beinni útsendingu hefur GROK3 að sögn farið fram úr öllum núverandi almennum gerðum í viðmiðum fyrir stærðfræði, vísindi og forritun, þar sem Musk heldur jafnvel því fram að GROK3 verði notaður til reikniaðgerða sem tengjast MARS verkefnum SpaceX og spáir fyrir „byltingum á Nóbelsverðlaununum innan þriggja ára“. En þetta eru nú bara fullyrðingar Musk. Eftir að ég setti af stað prófaði ég nýjustu beta útgáfuna af Grok3 og setti upp klassíska bragðspurninguna fyrir stórar gerðir: "Hver er stærri, 9.11 eða 9.9?" Því miður, án nokkurra undankeppni eða merkinga, gat hinn svokallaði snjallasta Grok3 samt ekki svarað þessari spurningu rétt. Grok3 tókst ekki að bera kennsl á merkingu spurningarinnar nákvæmlega.

 

Þetta próf vakti fljótt talsverða athygli margra vina og tilviljun, ýmis svipuð próf erlendis hafa sýnt að Grok3 glímdi við grunneðlisfræði/stærðfræði spurningar eins og „Hvaða bolti fellur fyrst frá halla turninum í Písa?“ Þannig hefur það verið á gamansamlega merkt sem „snillingur sem vill ekki svara einföldum spurningum.“

640

Grok3 er gott, en það er ekki betra en R1 eða O1-Pro.

Grok3 upplifði „mistök“ í mörgum almennum þekkingarprófum í reynd. Meðan á XAI sjósetningarviðburðinum stóð sýndi Musk fram á að nota GROK3 til að greina persónuflokkana og áhrifin frá leikstígnum í Exile 2, sem hann sagðist spila oft, en flest svörin sem Grok3 lét í té voru röng. Musk meðan á búfé tók ekki eftir þessu augljósa máli.

 

Þessi mistök lögðu ekki aðeins fram frekari vísbendingar fyrir erlendu netizens til að hæðast að Musk fyrir að „finna staðgengil“ í leikjum heldur vakti einnig verulegar áhyggjur varðandi áreiðanleika Grok3 í hagnýtum forritum. Fyrir slíka „snilld“, óháð raunverulegri getu, er áreiðanleiki þess í afar flóknum notkunarsviðsmyndum, svo sem rannsóknarverkefnum Mars, áfram í vafa.

 

Sem stendur, margir prófendur sem fengu aðgang að Grok3 fyrir vikum og þeir sem bara prófuðu líkanagetuna í nokkrar klukkustundir í gær, benda allir á algenga niðurstöðu: "Grok3 er gott, en það er ekki betra en R1 eða O1-Pro."

640 (1)

Gagnrýnið sjónarhorn á „að trufla nvidia“

Í opinberlega kynntri PPT meðan á útgáfunni stóð var sýnt fram á að Grok3 var „langt á undan“ á Chatbot vettvangi, en þessi snjall notaði grafíska tækni: lóðrétta ásinn á topplistanum skráði aðeins niðurstöður í 1400-1300 stigasviðinu, sem gerði upphaflega 1% mun á niðurstöðum prófanna virðast einstaklega marktækur í þessari kynningu.

640

Í raunverulegum niðurstöðum líkansins er Grok3 aðeins 1-2% á undan Deepseek R1 og GPT-4.0, sem samsvarar reynslu margra notenda í hagnýtum prófum sem fundu „engan áberandi mun.“ Grok3 fer aðeins yfir eftirmenn sína um 1%-2%.

640

Þrátt fyrir að GROK3 hafi skorað hærra en allar opinberlega prófaðar gerðir, taka margir þetta ekki alvarlega: eftir allt saman hefur Xai áður verið gagnrýndur fyrir „stigameðferð“ á Grok2 tímum. Þegar stigatöflan refsaði stíl við svör við svörum minnkaði stigin mjög og leiddi innherja iðnaðarins til að gagnrýna oft fyrirbæri „mikils stigs en lítillar hæfileika.“

 

Hvort sem það er með „meðferð“ eða hönnunarbrellum á myndatöflu á myndskreytingum, sýna þau þráhyggju Xai og Musk með hugmyndina um „leiða pakkann“ í líkanagetu. Musk greiddi bratt verð fyrir þessi framlegð: meðan á upphafinu stóð hrósaði hann af því að nota 200.000 H100 GPU (fullyrti „yfir 100.000“ meðan á búfé) stóð) og náði 200 milljónum tíma. Þetta leiddi til þess að sumir trúðu því að það tákni aðra verulegan bless fyrir GPU iðnaðinn og íhugaði áhrif Deepseek á atvinnugreinina sem „heimskulega.“ Athygli vekur að sumir telja að hreinn reiknistyrkur verði framtíð fyrir líkanþjálfun.

 

Sumir netizens báru þó saman neyslu 2000 H800 GPU á tveimur mánuðum til að framleiða djúpseek V3 og reiknaði út að raunveruleg þjálfun orkunotkunar Grok3 sé 263 sinnum meiri en V3. Bilið milli Deepseek V3, sem skoraði 1402 stig, og Grok3 er tæplega 100 stig. Í kjölfar þess að þessi gögn voru gefin út gerðu margir fljótt grein fyrir því að á bak við titil Grok3 sem „sterkasta“ heims liggur skýr jaðarhrif - rökfræði stærri gerða sem skapa sterkari frammistöðu er farin að sýna minnkandi ávöxtun.

640 (2)

Jafnvel með „mikla stigagjöf en litla hæfileika“ hafði Grok2 mikið magn af hágæða gögnum fyrsta aðila frá X (Twitter) vettvangi til að styðja við notkun. Í þjálfun GROK3 rakst Xai þó náttúrulega á „loftið“ sem Openai stendur frammi fyrir - skortur á úrvals þjálfunargögnum afhjúpar skjótt jaðar gagnsemi getu líkansins.

 

Framkvæmdaraðilar Grok3 og Musk eru líklega þeir fyrstu til að skilja og bera kennsl á þessar staðreyndir djúpt, og þess vegna hefur Musk stöðugt minnst á á samfélagsmiðlum að notendur útgáfunnar upplifa núna er „enn bara beta“ og að „full útgáfa verður gefin út á næstu mánuðum.“ Musk hefur tekið að sér hlutverk vörustjóra Grok3 og bendir til þess að notendur veiti endurgjöf um ýmis mál sem upp koma í athugasemdahlutanum.

 

En innan dags vakti árangur Grok3 án efa viðvaranir fyrir þá sem vonast til að treysta á „gríðarlegan reiknivöðva“ til að þjálfa sterkari stórar gerðir: Byggt á opinberum tiltækum Microsoft upplýsingum hefur GPT-4 Openai færibreytustærð 1,8 milljarða breytur, meira en tífalt en af ​​GPT-3. Sögusagnir benda til þess að færibreytustærð GPT-4,5 gæti verið enn stærri.

 

Þegar líkan breytu stærðir svífa, er þjálfunarkostnaðurinn einnig að hækka. Með nærveru Grok3 verða keppinautar eins og GPT-4.5 og aðrir sem vilja halda áfram að „brenna peninga“ til að ná fram betri afköstum fyrirmyndar með breytustærð verður að huga að loftinu sem nú er greinilega í sjónmáli og hugleiða hvernig hægt er að vinna bug á því. Á þessari stundu hafði Ilya Sutskever, fyrrverandi aðal vísindamaður við Openai, áður lýst því yfir í desember síðastliðnum, „formenntunin sem við þekkjum mun koma til enda,“ sem hefur komið upp á ný í umræðum og hvatti til þess að viðleitni til að finna hina sönnu leið til að þjálfa stórar gerðir.

640 (3)

Sjónarmið Ilya hefur hljómað viðvörunina í greininni. Hann sá nákvæmlega fyrir yfirvofandi þreytu aðgengilegra nýrra gagna, sem leiddi til aðstæðna þar sem ekki er hægt að auka árangur með gagnaöflun og líkja því við þreytu jarðefnaeldsneytis. Hann gaf til kynna að „eins og olía, efni sem myndaðist af mönnum á Netinu er takmörkuð auðlind.“ Í spám Sutskever mun næsta kynslóð líkana, eftir PRE-þjálfun, búa yfir „raunverulegri sjálfstjórn“ og rökstuðningsgetu „svipað og heila manna.“

 

Ólíkt fyrirfram þjálfuðum líkönum nútímans sem fyrst og fremst treysta á innihaldssamsvörun (byggt á áður lærðu líkaninnihaldi), munu framtíðar AI-kerfi geta lært og komið á aðferðafræði til að leysa vandamál á þann hátt sem er í líkingu við „hugsun“ mannsins. Maður getur náð grundvallarhæfileikum í efni með bara grunn fagbókmenntir, en AI stór líkan krefst milljóna gagnapunkta til að ná aðeins grunnvirkni inngangsstigs. Jafnvel þegar orðalaginu er breytt lítillega er ekki heimilt að skilja þessar grundvallarspurningar rétt og sýna að líkanið hefur ekki raunverulega batnað í upplýsingaöflun: grundvallar en óleysanlegar spurningar sem nefndar eru í upphafi greinarinnar tákna skýrt dæmi um þetta fyrirbæri.

微信图片 _20240614024031.jpg1

Niðurstaða

Hins vegar, umfram skepna, ef Grok3 tekst örugglega að afhjúpa iðnaðinn að „fyrirfram þjálfaðar gerðir nálgast endalok þeirra,“ myndi það hafa verulegar afleiðingar fyrir sviðið.

Kannski eftir að æði umhverfis Grok3 hjaðnar smám saman, munum við verða vitni að fleiri málum eins og dæmi Fei-Fei Li um að „stilla afkastamikil líkön á tilteknu gagnapakka fyrir aðeins $ 50,“ að lokum að uppgötva hina sönnu leið til AGI.

Finndu Elv snúrulausn

Stjórna snúrur

Fyrir BMS, strætó, iðnaðar, tækjabúnað.

Skipulagt kaðallkerfi

Net og gögn, ljósleiðarasnúru, plástursnúrur, einingar, framhlið

2024 Sýningar og atburðir endurskoðun

Apr.16.-18, 2024 Mið-Austur-orka í Dubai

Apr.16.-18, 2024 Securika í Moskvu

9. maí, 2024 Nýjar vörur og tækni við viðburð í Shanghai

22. október, 2024 Öryggi Kína í Peking

Nóvember19-20, 2024 Connected World KSA


Post Time: Feb-19-2025