報告稱 Meta 的「Watermelon」模型在內部已達到 GPT-5.5 級表現

根據一份 Yellow.com 報告，Meta 似乎正在其與 OpenAI 的 AI 競賽中釋出新進展訊號。該報告稱，一款名為「Watermelon」的 Meta 內部模型已達到與「GPT-5.5」持平的表現，而這一訊息據稱是由 Alexandr Wang 向員工傳達的。

即使公開細節有限，這一據稱的里程碑仍然很重要。如果屬實，這表示 Meta 仍在其公開的 Llama 路線圖之外持續推進，並將下一代系統直接與頂級專有模型進行基準對比。對 AI 開發者與企業買家而言，關鍵問題不只是 Watermelon 是否在內部測試中與競品模型持平，而是 Meta 能否把這些進展轉化成開發者真正能使用、部署並信任的產品。

目前為止，公開證據仍然薄弱。可取得的來源是一則透過 Google News 連結顯示的 Yellow.com 文章，且在提供的材料中沒有全文。這意味著核心說法——Meta 的 Watermelon 追上了 GPT-5.5，且 Alexandr Wang 已將此事告知員工——應被視為一項據報的內部說法，而非經確認的產品發布或獨立驗證的基準結果。

目前被報導了什麼

這則新聞事件的核心相當直接，但範圍有限：Yellow.com 報導稱，Meta 的內部 AI 模型 Watermelon 已「追上」GPT-5.5，而 Alexandr Wang 已向 Meta 員工傳達了這一訊息。

然而，從現有證據來看，這項說法的多個部分仍不清楚。來源說明中沒有公布基準測試表，沒有技術論文，沒有發布貼文，也沒有 Wang 發言的直接逐字稿。同樣也不清楚「追上」究竟是指整體基準表現、特定推理任務、程式設計、多模態能力、成本效率，還是某種更狹窄的內部評估分類。

這種模糊性很重要。前沿模型的比較往往高度依賴測試選擇、推理設定、提示策略，以及比較重點是品質、速度還是經濟性。若缺乏這些細節，「追上 GPT-5.5」最好被理解為 Meta 對內部信心的一個方向性說法，而不是已定案的市場事實。

儘管如此，這份報導仍然值得注意，因為 Meta 仍是少數擁有足夠資本、基礎設施與研究深度，能大規模挑戰領先封閉模型實驗室的公司之一。任何顯示 Meta 認為自己正縮小與 OpenAI 差距的內部訊號，都與更廣泛的企業 AI、AI 代理與開發者工具競爭息息相關。

為什麼 Alexandr Wang 的據報角色格外引人注目

報導中提到 Alexandr Wang，讓這個故事多了一層意義。Wang 最廣為人知的是 Scale AI 的創辦人，而該公司與模型訓練資料、評估以及前沿模型基礎設施有著深度關聯。如果他正在向 Meta 員工談論內部模型進展，至少說明他與 Meta 如何評估自身競爭地位有一定程度的接近性。

但來源材料沒有解釋他發言的背景。文中沒有說明 Wang 是以正式領導角色、顧問角色，或是在更廣泛的全員大會中發言。這個區別很重要，因為內部士氣傳達與正式產品聲明並不相同。公司常會以相對性的方式向員工描述進展，但若要讓企業買家將其用於採購決策，則還需要更高程度的精確性。

就目前而言，報導中出現 Wang 應被視為一種嚴肅性的訊號，而不是對表現的獨立確認。就所提供的文章來看，其中並沒有來自 Scale AI、第三方實驗室或公開排行榜的基準證據。

這對 Meta 的 AI 路線圖可能意味著什麼

如果 Watermelon 是下一代模型的真實內部代號，這份報導暗示 Meta 可能正在開發超出目前 Llama 品牌可見範圍的系統。Meta 先前曾使用內部代號，而大型實驗室通常會在正式發布前很久就測試多個模型變體。

這點很重要，因為 Meta 在 AI 市場中的位置相當特殊。透過 Llama，它已成為開源權重模型基礎設施的主要供應者之一，為新創與企業提供了不同於 OpenAI 或 Anthropic 僅以 API 提供存取的替代方案。但開源權重的領先，並不自動意味著其在性能金字塔頂端已具明顯優勢。

如果 Meta 認為 Watermelon 已達到 GPT-5.5 級別的品質，策略問題就變成：它會將此能力作為未來 Llama 家族的一部分公開發布，還是僅作為 Meta 內部產品使用，或是透過企業合作夥伴選擇性釋出？每條路徑都會帶來不同後果。

公開發布將對企業 AI 與模型託管直接施壓。私人內部部署則可能在不立即改變外部開發者市場的情況下，強化 Meta 自家的消費者應用與廣告產品。有限存取的推出則可讓 Meta 在更廣泛分發前，先測試可靠性與安全性。

來源證據並未顯示 Meta 計畫採取哪條路徑。這也是為什麼該報導應被視為一個早期競爭訊號，而不是面向市場的產品公告。

證據、基準測試與仍待驗證之處

這則故事最需要謹慎之處在於證據品質。提供的資訊群組中，唯一來源是透過 Google News 查詢顯示的 Yellow.com，且來源說明中沒有全文。沒有附上的官方 Meta 材料，沒有基準圖表，也沒有 Watermelon 的公開技術文件。

因此，幾個核心點仍未被驗證：

首先，Watermelon 本身並未在來源材料中被公開記錄。它可能是內部代號、研究線，或某個模型變體，但目前提供的證據並未建立其規模、架構、模態、訓練資料範圍或預期用途。

其次，雖然 GPT-5.5 被點名為比較目標，但來源說明並未定義這項比較的基準依據。「追上」可能只是某個內部評分表上的持平，但在延遲、工具使用、幻覺率或程式設計可靠性方面仍落後。

第三，文章沒有提供來自獨立基準、客戶部署或公開 API 表現的外部驗證。因此，任何持平說法都應被視為與供應商相關的內部評估報導。

這並不代表該說法沒有意義。內部基準常常會預示產品發布。但對於正在 OpenAI、Anthropic、Meta 或其他模型供應商之間做選擇的開發者來說，缺乏可重現的證據是一項關鍵限制。

對 AI 開發者與企業買家的影響

即使細節稀少，這份報導仍指向一個更廣泛的現實：前沿模型競賽依然足夠接近，以至於一次強勁的發布就可能實質改變產品規劃。

對於基於 Llama 開發或關注 Meta 路線圖的開發者而言，更強的內部模型最終可能意味著更好的推理能力、更強的程式設計助理表現，以及更有能力的 AI 代理，而不必完全依賴封閉 API。對希望對部署、微調或本地部署選項擁有更多控制權的團隊而言，這尤其重要。

對企業 AI 買家來說，更大的問題是議價能力。如果 Meta 能可信地縮小與 GPT-5.5 的差距，它就會提升不想被單一供應商堆疊鎖定的客戶的談判地位。頂端競爭會影響定價、模型存取條款、託管彈性，以及功能從高階專有系統轉移到更廣泛可用方案的速度。

但在頭條基準上持平還不夠。企業重視的是服務等級、治理、區域部署、評估工具、紅隊測試，以及長上下文可靠性。他們也在意模型在 Slack、Salesforce 或內部知識系統中的實際工作流程表現，而不只是其在孤立測試中的分數。

至少依據目前可得證據，這正是 Meta 仍需努力的地方。一項據報的內部里程碑，並未回答關於正常運作時間、支援、版本管理或合規性的營運問題。它也未顯示若 Watermelon 最終發布，是否會在高流量推論最在意的經濟性方面勝過競爭對手。

接下來該觀察什麼

下一個要觀察的訊號，是 Meta 是否公開承認 Watermelon，或推出一款與現有 Llama 定位明顯不同的新旗艦模型。產品貼文、研究論文、基準發布或 API 公告，都會把原本像傳聞的競爭訊號，轉化為買家與開發者可直接評估的內容。

第二個訊號是獨立測試。如果第三方實驗室或公開基準社群開始比較新的 Meta 模型與 GPT-5.5，市場很快就會知道所謂持平在推理、程式設計助理任務、多模態輸入以及代理式工具使用上是否成立。

第三個訊號是分發。如果 Meta 將最強能力保留在自家應用中，對企業 AI 的影響可能是間接的；如果它透過雲端合作夥伴或直接開放給開發者，競爭影響就會大得多。

最後，值得觀察的是 Scale AI、Meta 或 Wang 是否會釐清這項據報聲明的範圍。任何針對「追上」含義的釐清——是品質、成本、速度，還是某個特定基準家族——都會大幅改變市場應如何看待這則報導。

Creati.ai 觀點

這類故事很容易被過度解讀。單一關於 Meta 內部模型達到 GPT-5.5 級表現的報導確實有趣，但還不足以作為調整路線圖的可靠依據。證據缺口實在太大。開發者應把它視為一個早期指標，代表 Meta 在前沿領域仍然積極進攻，而不是把它當成某個可部署替代方案已經到來的證明。

同時，這份報導也符合一個更大的趨勢：頂級實驗室彼此追趕的速度，往往比公開敘事所暗示的更快。對新創與產品團隊而言，這意味著模型策略必須保持彈性。如果 Meta 能把 Watermelon 轉化為 Llama 旗下，或透過其他 Meta 通路對外提供的真實產品，那麼 AI 代理、企業 AI 與程式設計助理產品的力量平衡可能很快改變。在那之前，這仍是一則值得注意但尚未證實的競爭性主張。