日韩人妻无码一区二区三区 ,亚洲欧洲无码av不卡在线,精品国产一区AV天美传媒

天行健配資馬斯克推最強(qiáng)Grok 4！人類(lèi)終極測(cè)試干翻OpenAI，包月費(fèi)超2千元

智東西

作者 | 李水青

編輯 | 心緣

智東西7月10日?qǐng)?bào)道，今日，馬斯克的AI公司xAI發(fā)布其最新旗艦大模型Grok 4和多智能體版本Grok 4 Heavy，并推出史上最貴的每月300美元（約合2153元人民幣）的AI訂閱計(jì)劃Super Grok Heavy。

在“人類(lèi)的最后考試”（Humanity’s Last Exam）中，Grok 4在無(wú)需“工具”的情況下取得了25.4%的準(zhǔn)確率，超過(guò)了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3（高版本）的21%。

配備“工具”的Grok 4 Heavy獲得44.4%的得分，優(yōu)于配備工具的Gemini 2.5 Pro的26.9%。

▲Grok 4在Humanity’s Last Exam測(cè)評(píng)中取得第一

“就學(xué)術(shù)問(wèn)題而言，Grok 4在各個(gè)學(xué)科上都比博士水平高，無(wú)一例外?！瘪R斯克在直播中說(shuō)，“有時(shí)，它可能缺乏常識(shí)，而且它還沒(méi)有發(fā)明新技術(shù)或發(fā)現(xiàn)新的物理學(xué)說(shuō)，但這只是時(shí)間問(wèn)題。”

▲埃隆·馬斯克在直播中發(fā)言

xAI還推出了迄今為止最昂貴的AI訂閱計(jì)劃——每月300美元的Super Grok Heavy。訂閱者可以搶先體驗(yàn)Grok 4 Heavy，并搶先體驗(yàn)新功能。這些新功能包括但不限于：將于8月推出的AI編碼模型，9月推出的多模態(tài)智能體，以及10月推出的視頻生成模型。

▲每月300美元的Super Grok Heavy正式推出

直播結(jié)束后，馬斯克在X上發(fā)文稱(chēng)：“你可以將整個(gè)源代碼文件剪切并粘貼到Grok上的查詢(xún)輸入框中，然后@Grok 4 會(huì)幫你解決，比Cursor更好用?！?/p>

▲馬斯克在社交平臺(tái)X上發(fā)言

除此之外，xAI推出了Grok 4 API。xAI的企業(yè)部門(mén)僅成立兩個(gè)月，但它計(jì)劃與超大規(guī)模企業(yè)合作，通過(guò)其云平臺(tái)提供 Grok。

近幾個(gè)月來(lái)，xAI不僅拿下100億美元最新融資，還收購(gòu)了社交平臺(tái)X，這也讓最新推出的Grok 4成為產(chǎn)業(yè)的關(guān)注焦點(diǎn)。Grok 4能否成為對(duì)打OpenAI計(jì)預(yù)告今夏推出的GPT-5的有力對(duì)手？讓我們來(lái)一起先睹為快。

一、Grok 4測(cè)評(píng)趕超OpenAI o3，馬斯克：科研能力強(qiáng)過(guò)人類(lèi)博士

馬斯克在直播中稱(chēng)，在人文、語(yǔ)言、數(shù)學(xué)、物理、工程等多個(gè)基準(zhǔn)測(cè)試中，Grok 4都取得了好成績(jī)?！坝行┤苏J(rèn)為AI不能推理，但Grok 4的推理能力可以超越人類(lèi)水平，比幾乎所有學(xué)科的研究生同時(shí)都聰明?！瘪R斯克說(shuō)。

xAI的研究人員稱(chēng)，Humanity’s Last Exam測(cè)試極具挑戰(zhàn)性，總共有2500個(gè)問(wèn)題，包括數(shù)學(xué)、自然科學(xué)、工程以及所有人文學(xué)科，問(wèn)題廣泛且都是博士甚至高級(jí)研究水平，Grok 4在這些問(wèn)題上可以得到很好的分?jǐn)?shù)。

Grok 4在無(wú)需“工具”的情況下，在“測(cè)試中獲得了25.4%的準(zhǔn)確率，超過(guò)了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3（高版本）的21%。馬斯克稱(chēng)，在學(xué)術(shù)問(wèn)題方面，Grok 4比每個(gè)學(xué)科的博士水平都要好，現(xiàn)在沒(méi)有例外。他預(yù)測(cè)Grok 4最快今年就能去發(fā)明新技術(shù)了，兩年之內(nèi)就能發(fā)現(xiàn)新物理學(xué)說(shuō)。

在GPQA、AIME25、LCB（Jan-May）、HMMT25等多項(xiàng)測(cè)評(píng)中，Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2測(cè)試中，Grok 4取得了新的最高得分，得分為16.2%。ARC-AGI-2測(cè)試是另一項(xiàng)高難度基準(zhǔn)測(cè)試，包含類(lèi)似謎題的問(wèn)題，要求AI識(shí)別視覺(jué)模式。Grok的得分幾乎是排名第二的商業(yè)AI模型Claude Opus 4得分的兩倍。

二、訓(xùn)練量級(jí)達(dá)到Grok 2 100倍，Grok 4將與人形機(jī)器人互動(dòng)

從Grok2到Grok 4，每一次迭代xAI都增加了一個(gè)數(shù)量級(jí)的訓(xùn)練，因此Grok 4的訓(xùn)練量級(jí)達(dá)到了Grok 2的100倍，這使得智力增長(zhǎng)非常顯著。

這是xAI第一次像預(yù)訓(xùn)練一樣擴(kuò)大訓(xùn)練規(guī)模。基于擁有10萬(wàn)塊H100 GPU的超級(jí)算力中心，訓(xùn)練主要包括兩種類(lèi)型：一個(gè)是從Grok 2到Grok 3到的預(yù)訓(xùn)練，一個(gè)是從Grok 3到Grok 4在推理中投入了大量的算力。

談及幕后，如圖所示，當(dāng)投入越來(lái)越多的訓(xùn)練算力，模型開(kāi)始逐漸變得越來(lái)越聰明，最終在沒(méi)有任何工具的情況下，解決了四分之一的Humanity’s Last Exam測(cè)試問(wèn)題。

接下來(lái)研發(fā)人員做的是向模型中添加工具功能。與Grok 3不同的是，研發(fā)人員使其更加本地化，將工具放入訓(xùn)練中，從而顯著提高了模型使用這些工具的能力。

馬斯克透露，今年晚些時(shí)候，Grok 4還將融合有限元分析、計(jì)算流體動(dòng)力學(xué)等更強(qiáng)大的工具進(jìn)行訓(xùn)練，將打造非常精確的物理模擬器，比如去做提供精確的黑洞模擬等任務(wù)。最終，Grok 4最大的區(qū)別在于，其將能夠通過(guò)人形機(jī)器人（如擎天柱）與現(xiàn)實(shí)世界互動(dòng)。

馬斯克說(shuō)，我們正處于智能大爆炸的開(kāi)端。我們需要確保AI是一個(gè)好的AI，安全最重要的事，AI需要最大限度地尋求真理。你可以把AI看作是超級(jí)天才的孩子，最終會(huì)比你聰明，但你仍然可以灌輸正確的價(jià)值觀并鼓勵(lì)它長(zhǎng)成想要的樣子。

除了計(jì)算之外，還有一個(gè)技術(shù)問(wèn)題是數(shù)據(jù)瓶頸。研發(fā)人員稱(chēng)，在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中，他們實(shí)際上已經(jīng)沒(méi)有可用來(lái)測(cè)試的問(wèn)題了，已有的問(wèn)題對(duì)AI來(lái)說(shuō)正在迅速變得微不足道。

但馬斯克稱(chēng)，最能出色判斷事物的就是現(xiàn)實(shí)。如果物理學(xué)是定律，最終其他一切都是建議。你不能打破物理。因此，我認(rèn)為對(duì)于AI的最終測(cè)試是現(xiàn)實(shí)。就像你發(fā)明一項(xiàng)新技術(shù)，比如改進(jìn)汽車(chē)或火箭，它有效嗎？現(xiàn)實(shí)才是最終的裁判。所以這將是一個(gè)圍繞現(xiàn)實(shí)的強(qiáng)化學(xué)習(xí)閉環(huán)。

三、現(xiàn)場(chǎng)演示：看論文進(jìn)行現(xiàn)實(shí)模擬，語(yǔ)音模式延遲減少一半

xAI研究員在直播中演示了Grok 4回答問(wèn)題的能力。

Grok 4的一大特點(diǎn)是能夠理解世界，并通過(guò)利用工具來(lái)解決難題。比如要求Grok 4生成兩個(gè)黑洞碰撞的可視化圖像，它有一些清晰的思考過(guò)程，比如，為了讓它真正可見(jiàn)，Grok 4考慮到通過(guò)海浪的形式擴(kuò)放它的規(guī)模。從思考過(guò)程看，Grok 4使用了搜索，從一堆鏈接中收集結(jié)果，參考了現(xiàn)有的現(xiàn)實(shí)世界數(shù)據(jù)，而且還閱讀了分析引力波模型的本科論文。

除此之外，xAI還演示了Grok 4解答數(shù)學(xué)問(wèn)題、創(chuàng)建一個(gè)基于X個(gè)帖子的時(shí)間線、查看Humanity’s Last Exam測(cè)試成績(jī)等問(wèn)題。

在多模態(tài)測(cè)試方面，Grok 4分?jǐn)?shù)略有下降。馬斯克坦言，Grok 4的基本弱點(diǎn)是它部分盲目地理解圖像生成偏好。Grok 4的多模態(tài)理解能力正在改進(jìn)，這些問(wèn)題將在幾周內(nèi)實(shí)現(xiàn)改善。

Grok 4的語(yǔ)音模式也進(jìn)一步更新，已將延遲減少了一半。Grok 4今天推出一系列更具自然性和韻律的新聲音，API版本也將發(fā)布。

四、推出Grok 4企業(yè)API，編程、多模態(tài)、視頻模型在路上

xAI的企業(yè)部門(mén)僅成立兩個(gè)月，但它正在通過(guò)其API發(fā)布Grok 4，已有各行業(yè)企業(yè)通過(guò)云平臺(tái)使用了Grok 4。

聚焦現(xiàn)實(shí)的自動(dòng)售貨機(jī)商業(yè)場(chǎng)景，xAI的客戶(hù)團(tuán)隊(duì)采用了大模型管理庫(kù)存、聯(lián)系供應(yīng)商，大多數(shù)模型在去進(jìn)行長(zhǎng)線任務(wù)時(shí)都很困難。但使用了Grok 4 API之后，團(tuán)隊(duì)獲得了令人印象深刻的結(jié)果。它設(shè)法運(yùn)行模擬的時(shí)間翻了一倍，得分也翻了一倍，前后能保持較強(qiáng)一致性。

聚焦AI創(chuàng)作游戲方面，Grok 4可以在4個(gè)小時(shí)內(nèi)制作的第一人稱(chēng)射擊游戲。制作游戲并不一定是對(duì)游戲的核心邏輯進(jìn)行編碼，而是去尋找所有資源、文件素材，以創(chuàng)建一個(gè)具有視覺(jué)吸引力的游戲。對(duì)于開(kāi)發(fā)人員來(lái)說(shuō)，你可以專(zhuān)注于核心開(kāi)發(fā)本身，讓Grok 4去整理所有資產(chǎn)，自動(dòng)化完成任務(wù)。

未來(lái)Grok 4將具有出色的視頻理解和改進(jìn)的工具使用能力，例如可以使用虛幻引擎生成藝術(shù)品模型，然后創(chuàng)建一個(gè)可在PC或手機(jī)上運(yùn)行的可執(zhí)行文件。xAI預(yù)計(jì)第一個(gè)真正優(yōu)秀的AI視頻游戲?qū)⒃诿髂瓿霈F(xiàn)。

除此之外，馬斯克透露，團(tuán)隊(duì)目前正在加大力度訓(xùn)練編碼模型，在未來(lái)幾周內(nèi)將推出一個(gè)專(zhuān)業(yè)的編碼模型。編碼任務(wù)展現(xiàn)了Grok 4的弱點(diǎn)，即多模態(tài)能力。就像透過(guò)玻璃瞇著眼睛看世界，看到所有模糊的特征，并試圖感知它。xAI將在下一代模型中看到的最直接改進(jìn)是，模型在理解圖像和音頻方面會(huì)能力逐步提高。

在視頻模型方面，xAI將在接下來(lái)三到四周開(kāi)始訓(xùn)練一個(gè)新的視頻模型，具備出色視頻生成和理解能力。

結(jié)語(yǔ)：搶發(fā)Grok 4，馬斯克對(duì)戰(zhàn)GPT-5

Grok 4在高難度測(cè)試中展現(xiàn)的“超越博士水平”的推理能力，在理解和解決復(fù)雜問(wèn)題方面邁出了關(guān)鍵一步。其通過(guò)工具加持實(shí)現(xiàn)的新能力，以及雄心勃勃的多模態(tài)與視頻生成路線圖，展現(xiàn)了xAI與即將發(fā)布的OpenAI GPT-5競(jìng)賽的決心。

在To B端落地，xAI正加速將Grok 4的能力從企業(yè)應(yīng)用到零售、游戲創(chuàng)作等領(lǐng)域。同時(shí)，馬斯克強(qiáng)調(diào)的“安全至上”與“尋求真理”的AI發(fā)展原則，以及對(duì)現(xiàn)實(shí)世界作為最終測(cè)試場(chǎng)的認(rèn)知，為這場(chǎng)席卷全球的智能爆炸提供了不可或缺的思考維度。

興盛網(wǎng)提示：文章來(lái)自網(wǎng)絡(luò)，不代表本站觀點(diǎn)。

久久久久久久久蜜桃,黄瓜视频APP视频免费观看 ,国产精品毛片大码女人,少妇愉情理伦片丰满丰满午夜

天行健配資馬斯克推最強(qiáng)Grok 4！人類(lèi)終極測(cè)試干翻OpenAI，包月費(fèi)超2千元

金鼎配資熱到46℃！北半球熱浪超長(zhǎng)待機(jī)，背后推手竟是它

壘富配資開(kāi)了眼，上映第137天《哪吒之魔童鬧海》日票房100萬(wàn)，將破159億_影片_收入_電影

股漲柜配資粉荷映畫(huà)檐，快來(lái)豫園九曲橋畔縱享夏日樂(lè)趣

巍巍配資于正勸孫菲菲放下糾葛，繼續(xù)鬧下去只會(huì)傷害自己，王陽(yáng)未受影響_于正在_網(wǎng)友_回應(yīng)

股漲柜配資粉荷映畫(huà)檐，快來(lái)豫園九曲橋畔縱享夏日樂(lè)趣

鑫贏智投破解科技企業(yè)融資痛點(diǎn) 成都農(nóng)商銀行成功發(fā)行15億元科技創(chuàng)新債券

財(cái)富加配資作家蘇童：11年，野心實(shí)現(xiàn)了嗎？_寫(xiě)作_作品_創(chuàng)作

壘富優(yōu)配睿創(chuàng)微納: 第三屆監(jiān)事會(huì)第十九次會(huì)議決議公告內(nèi)容摘要

金鼎配資熱到46℃！北半球熱浪超長(zhǎng)待機(jī)，背后推手竟是它

N配資上海黃金交易所：同意吸收泰康人壽成為會(huì)員

億盛資產(chǎn) 上海菜場(chǎng)紛紛變身“市集”？肯德基、Manner來(lái)市集開(kāi)店說(shuō)明什么

財(cái)富加配資作家蘇童：11年，野心實(shí)現(xiàn)了嗎？_寫(xiě)作_作品_創(chuàng)作

天行健配資馬斯克推最強(qiáng)Grok 4！人類(lèi)終極測(cè)試干翻OpenAI，包月費(fèi)超2千元

壘富優(yōu)配睿創(chuàng)微納: 第三屆監(jiān)事會(huì)第十九次會(huì)議決議公告內(nèi)容摘要

金鼎配資 熱到46℃！北半球熱浪超長(zhǎng)待機(jī)，背后推手竟是它

壘富配資 開(kāi)了眼，上映第137天《哪吒之魔童鬧海》日票房100萬(wàn)，將破159億_影片_收入_電影

股漲柜配資 粉荷映畫(huà)檐，快來(lái)豫園九曲橋畔縱享夏日樂(lè)趣

金鼎配資熱到46℃！北半球熱浪超長(zhǎng)待機(jī)，背后推手竟是它

壘富配資開(kāi)了眼，上映第137天《哪吒之魔童鬧海》日票房100萬(wàn)，將破159億_影片_收入_電影

股漲柜配資粉荷映畫(huà)檐，快來(lái)豫園九曲橋畔縱享夏日樂(lè)趣