北京時間10月16日,就在Sora 2發布半個月后,谷歌火速推出了最新視頻模型Veo 3.1和Veo 3.1 Fast,正面迎戰OpenAI。

在官方推文中,谷歌稱“Veo正在進行重大升級”,不過,從國內外各方實測來看,從Veo 3到Veo 3.1,確實如名字一樣,只是進行了一次小的迭代,在畫質、物理上的提升并不算大,在AI音頻、自動分鏡等方面都不如Sora 2,但Veo 3.1的光影效果更突出,生成速度更快。
視頻生成賽道的競爭越發白熱化。就在今年5月,谷歌才發布Veo 3,一度刷屏并占據文生視頻模型榜首。不過,本月初發布的Sora 2迅速搶走了風頭。
距離上一代模型更新僅5個月后,谷歌拿出了Veo 3.1。有趣的是,北京時間10月16日中午,OpenAI也放出了Sora 2的更新,稱普通用戶可以生成15秒的視頻,專業用戶則可以生成長達 25 秒的視頻。兩大巨頭的火藥味頗濃。

就模型本身來看,谷歌這次Veo 3.1更新的核心亮點是更豐富的原生音頻生成、更強的電影風格理解與敘事控制,以及更逼真的質感還原。
Veo 3.1在多個功能中集成了音頻,支持自然對話、音效和環境噪音,在視頻畫面生成的同時,模型會自動根據畫面內容生成環境音、動作聲及氛圍配樂。此次迭代后,音頻質量更逼真,尤其在對話上,過去生成一個科幻短片的音頻可能聽起來像機器人朗讀,而現在,Veo 3.1 能模擬出緊張的背景配樂與人物語言。

Veo 3.1生成的對話視頻
今年5月,谷歌正式推出了Flow,一款由Veo驅動的AI電影制作工具。谷歌稱,截至目前用戶已在Flow中生成了超過2.75億個視頻。而此次迭代也包括Flow里的多個核心功能升級。
業界討論較多的是首尾幀(Frames to Video)功能,用戶提供一段視頻起始和結束的兩張圖像,模型即可生成平滑過渡的畫面鏡頭。即使是看起來毫不相關的兩張圖,AI也能通過想象力將其合理化。

此外,視頻延展(Extend)功能支持用戶從前一剪輯的最后一秒擴展視頻,可以生成比原始生成8秒視頻更長的片段,持續一分鐘或更長時間。能生成更長的視頻對專業創作者來說是有必要的。
在素材生視頻(Ingredients to Video)功能里,用戶可以上傳多張參考圖像,系統自動生成包含指定角色與場景風格的完整視頻,還可以通過Remove功能移除畫面中的物體或者人物。

不過,這些功能雖然是谷歌首次推出,但在業界來說并不稀奇,國內的眾多視頻模型早已經有類似首尾幀、素材生視頻功能,因此驚喜有限。
在模型性能方面,用戶測試顯示,Veo 3.1在提示詞遵循、視聽質量與音頻支持方面比Veo 3提升約兩到三成,基礎物理模擬也有進步,但在復雜畫面中仍會出現問題,例如生成的體操視頻畫面中人會多出部分肢體。整體來看,性能較Veo 3提升不大。
Veo 3.1 能否戰勝 Sora 2?這也是業界評測關注的重點。根據網友測試,兩個模型各有優缺點,但 Sora 2整體來看得票數更多。Sora 2 在微觀寫實、光影與物理細節上更常被認可,配音方面也有許多測試顯示Sora 2的音頻更加自然,另外Sora 2特別之處在于自動分鏡,對視頻敘事幫助顯著,這方面Veo 3.1的鏡頭變化較為保守,此外對物理世界的理解不如Sora 2。
在視頻長度上,Veo 3.1 支持輸出最長 8 秒的視頻,在這一點上,Sora 2更有優勢,最新更新后,普通用戶可以生成長達 15 秒的視頻。
不過,Veo 3.1的優點是生成速度,要比Sora 2快很多,目前Sora 2要等數分鐘才能得到結果。此外,谷歌在多模態生態上更為成熟,此前發布的圖像模型“Nano Banana”引發了廣泛關注,谷歌在圖像與視頻模型的聯動可以形成完整的創作閉環。
Veo 3.1目前處于預覽階段,目前用戶可以在Gemini API 、Vertex AI、Gemini 應用以及 Flow上面付費使用。在接口價格方面,Veo 3.1 標準版是0.4美元/秒,快速版是 0.15 美元/秒,對比Sora2則是0.1美元/秒,Sora2-pro是0.3美元/秒,在價格上的吸引力不如Sora2。
總結來看,行業認為,Veo3.1未到超越Sora2的地步,但這僅是Veo 3到Veo 3.1的一次微調,行業更期待谷歌在下一次大版本更新中扳回一局。
回望視頻生成賽道,谷歌與OpenAI的拉鋸戰從未停止。2024年初,Sora橫空出世,引發行業震動,卻遲遲未正式發布。同年5月,谷歌推出Veo 1,正式迎戰。至12月,Veo 2在物理模擬與風格一致性上取得突破,同期Sora正式亮相,當時業界普遍認為Veo 2更優。
2025年5月,Veo 3發布,登頂多榜,穩坐第一梯隊。然而10月初,OpenAI拋出“王炸”Sora 2,再度改寫競爭格局。
兩大科技巨頭都還在AI視頻領域持續加碼,國內玩家如可靈、海螺AI、即夢等玩家也都有不小的競爭力。視頻生成大戰中尚無一家具備絕對統治力,AI視頻的“GPT-3.5時刻”仍未到來,未來行業變數仍然很大。