中文字幕av一区二区,国产亚洲综合一区二区三区,日韩无套内射

Meta策略轉向后首個模型發布：部分指標超GPT-5.4，尚未全面領先

來源：第一財經作者：鄭栩彤2026-04-09 14:01

字號

超大

大

標準

小

當地時間4月8日，Meta發布多模態推理模型Muse Spark，標志著Meta AI策略轉型后的階段性成果。

“這是Meta Superintelligence Labs（超級智能實驗室）開發的首款Muse模型，也是我們從零開始對AI業務全面改造后的首個產品。為了支持進一步擴展，從研究到模型訓練、基礎設施建設，我們正對整個技術棧進行戰略投資。”Meta在一篇文章中介紹。

從模型表現看，Meta介紹，Muse Spark在多模態感知、推理、健康和代理（agentic）任務方面的表現具有競爭力。例如，在多模態基準測試CharXiv Reasoning中，Muse Spark思考模式得分為86.4，超過GPT-5.4的82.8和Gemini 3.1 Pro High的80.2，但在其他多個多模態基準測試中，其得分低于Gemini 3.1 Pro High。

Muse Spark的基準測試分數

在多項與推理能力相關的基準測試中，Muse Spark思考模式的部分得分超過Grok 4.2，但得分均低于Gemini 3.1 Pro High和GPT-5.4。與代理能力相關，Muse Spark思考模式DeepSearchQA測試得分74.8，超過Gemini 3.1 Pro High的69.7和GPT-5.4的73.6，在GDPval-AA Elo測試中的得分超過Gemini 3.1 Pro High和Grok 4.2，但在SWE-Bench Verified等四項基準測試中的得分接近或低于Opus 4.6、Gemini 3.1 Pro High和GPT-5.4。

從基準測試結果看，Muse Spark思考模式并未全面趕超谷歌和OpenAI的前沿模型，但在部分測試中的表現能與當前第一梯隊的模型“掰手腕”。能力更強的將是尚未上線的沉思模式。Meta透露，Muse Spark沉思模式在無工具Humanity’s Last Exam（人類終極考試）和FrontierScience Research（前沿科學研究）中得分超過Gemini 3.1和GPT-5.4 Pro。

去年Meta的AI策略經歷了轉向。先是去年4月Llama 4被質疑訓練測試集作弊、實際性能不及預期，Meta首席人工智能科學家楊立昆（Yann LeCun）又被質疑反對主流LLM路線、導致Meta在AI競爭中落后。多重刺激下，Meta對AI團隊進行了重組。去年6月，Meta以近150億美元的價格注資AI初創公司Scale AI，Scale AI創始人亞歷山大·王（Alexandr Wang）加入Meta，擔任超級智能實驗室負責人，Meta CEO扎克伯格隨即開啟AI人才爭奪戰，為超級智能實驗室招攬人才。去年底，在Meta戰略轉型中，楊立昆宣布將離職。

AI戰略的劇烈變動不僅涉及組織變動和人才流動，也涉及AI發展的方向。據楊立昆離職后透露，Meta管理層執著于穩妥、已被驗證的方案，將重點放在大語言模型開發上，而不認可一些新穎的創意。

無論如何，這場劇烈的AI策略轉向后，Muse Spark成為Meta拿出的第一個果實。此前Meta的Llama系列模型開源，而Muse Spark為閉源模型，新模型的推出也被外界視為Meta從開源到閉源的轉向。美股4月8日收盤，Meta股價上漲6.5%。

不僅在模型策略上進行了轉向，Meta在AI基礎設施投入方面也有大動作。Meta是AI基礎設施投入最激進的美國科技公司之一，Meta此前預告，2026年資本開支可能相比上一年翻一倍，預計在1150億美元至1350億美元之間。

不過，大模型競爭也趨于激烈，市場預計4月可能還會有多個新模型上線，Meta仍面臨競爭對手的挑戰。

雖然Muse Spark部分基準測試得分超過Anthropic的Opus 4.6，但Anthropic近期也取得新進展，該公司近日稱未發布的前沿模型Mythos Preview編碼能力達到了一個新的水準，有望重塑網絡安全領域。近日還有未經證實的市場傳言稱，OpenAI的GPT-6可能在4月推出。4月8日，DeepSeek也低調更新了對話界面，新增“快速模式”和“專家模式”選項，被解讀為可能是V4版本上線的前奏。

責任編輯：李志強