Veo 3 是 Google 頂尖的 AI 影片生成模型,可創建具有同步音訊、4K 輸出和高級創意控制的高傳真影片。
Veo 3 介紹
Veo 3 是由 Google DeepMind 開發的一款頂尖影片生成模型。它屬於生成式 AI 工具類別,專門設計用於將文字和圖像提示轉換為高畫質影片內容。Veo 3 的主要目標用戶包括希望利用 AI 進行影片製作的電影製作人、故事講述者、內容創作者、開發者和工作室。Veo 3 的核心功能是能夠生成高度逼真和高傳真度的影片,包括支援 4K 輸出以及原生生成同步音訊,涵蓋音效、環境噪音,甚至對話。這一能力滿足了用戶直接從提示創建全面沉浸式影片內容的需求。Veo 3 還擁有改進的提示遵循能力,這意味著它能更準確地將用戶指令轉化為視覺和聽覺輸出。Veo 3 背後的技術代表了 AI 驅動內容創作領域的重大進步,使用戶能夠更輕鬆、更具創意控制地製作複雜的影片序列。
Veo 3 旨在理解和生成細緻入微的電影效果和視覺風格。例如,它可以理解請求特定相機技術(如縮時攝影或風景航拍)的提示。該模型旨在實現前所未有的創意控制,使用戶能夠生成更貼近其創意意圖的影片。它還注重一致性,確保角色和元素在不同場景中(如果需要)保持其外觀。Google DeepMind 強調負責任的開發,整合了用於給 AI 生成內容添加水印的 SynthID 等功能,並進行安全評估。儘管功能強大,但在生成自然且始終連貫的口語音訊方面,特別對於較短的對話片段,仍是持續開發中的領域。
Veo 3 功能
頂尖的影片生成
Veo 3 被認為是 Google DeepMind 最先進的影片生成模型,旨在從各種輸入中生成高品質影片內容。
逼真度、傳真度和解析度
該模型經過精心設計,可在其輸出中實現更高的逼真度和傳真度。這包括能夠生成 4K 解析度的影片,提供高水平的細節。Veo 3 旨在準確地在其生成場景中表現真實世界的物理原理。例如,如果一個提示描述一個物體墜落或一輛汽車轉彎,Veo 3 會嘗試以物理上合理的方式描繪運動和與環境的互動。
整合音訊生成
Veo 3 的一個關鍵區別特性是其原生音訊生成能力。這意味著它可以在影片中創建和同步各種音訊元素,例如:
音效:影片中動作或物體對應的聲音,如關門聲、腳步聲或環境聲。
環境噪音:營造環境感的背景聲音,如城市交通聲、森林中的鳥鳴聲或人群的低語聲。
對話:Veo 3 可以為影片中的角色生成口語對話,力求與嘴唇動作同步。Google DeepMind 提供的一個範例展示了一名偵探審問一隻橡皮鴨,並伴有相應的嘎嘎叫聲。
這種整合音訊是原生生成的,意味著它是核心影片生成過程的一部分,而不是一個單獨的步驟。
改進的提示遵循能力
Veo 3 具有改進的使用者提示理解和遵循能力。它旨在更準確地遵循複雜的指令,包括動作序列、角色描述和特定場景細節。例如,一個描述“一根精緻的羽毛落在籬笆樁上。一陣風將它吹起,使其在屋頂上翩翩起舞。它飄浮旋轉,最終被高處陽台上的蜘蛛網纏住”的提示被證明能夠得到更準確的遵循。
高級創意控制(基於 Veo 2 能力)
雖然 DeepMind 頁面介紹了 Veo 3,並列出了 Veo 2 的新功能,但這些高級控制是 Veo 平台產品核心的一部分,並且預計將成為 Veo 3 體驗不可或缺的一部分,尤其是在 Flow 等工具中使用時。
參考驅動影片:使用者可以提供場景、角色或物體的圖像來指導影片生成過程,確保輸出更緊密地符合其創意意圖。例如,上傳特定怪物的圖像後,Veo 可以生成該怪物在不同環境中跳舞、游泳或行走而保持其外觀的影片。
風格匹配:Veo 可以通過引用風格圖像來捕捉所需的審美風格。如果使用者提供具有特定藝術風格(例如,摺紙、油畫、電影感)的圖像,Veo 將嘗試生成具有相同視覺風格的影片。一個範例展示了根據摺紙風格參考生成一隻摺紙貓在摺紙社區中行走。
角色一致性:通過提供參考圖像,使用者可以確保角色在影片中的不同場景和動作中,或在多個生成的片段中保持其外觀一致。
相機控制:提供對相機取景和移動的精確控制。這包括放大/縮小、向上/向下/向左/向右移動等動作,允許更具動態和意圖性的電影攝影。
第一幀和最後一幀過渡:使用者可以指定影片的第一幀和最後一幀,Veo 可以生成它們之間的自然過渡。一個範例展示了一塊大理石變成獅鷲雕塑。
外繪(Outpainting):此功能允許使用者擴展影片幀,在原始邊界之外添加新的、匹配的內容。這對於將影片調整到不同的寬高比或螢幕尺寸非常有用。
添加/移除物體:Veo 允許在影片中引入新物體或移除現有物體。模型會考慮比例、互動和陰影,使這些修改看起來自然。例如,在現有場景中添加一個持火把的人,或移除一艘宇宙飛船。
角色控制(動畫):使用者可以使用自己的身體動作、面部表情和聲音來動畫化角色。這使得角色運動和表達動作能夠生動逼真地響應使用者輸入。
運動大師(Motion Master):這允許定義影片中物體的精確運動路徑。使用者可以選擇一個物體並指定其軌跡,Veo 將據此進行動畫處理。
旨在用於創意工作流程
Veo 旨在集成到創意工作流程中,特別是通過 Flow 等平台。它旨在通過提供能夠生成複雜場景、電影鏡頭和連貫敘事的工具來賦能電影製作人和故事講述人。範例包括生成間諜在擁擠火車站交換情報的場景(帶有對話和特定動作),或帶有動態相機工作和激烈動作的越野拉力賽。
Veo 3 評測
Veo 3 用戶評測
自近期推出以來,Veo 3 在各種平台上引發了廣泛討論。用戶分享了他們的初步印象,突出了其優點和令人擔憂的方面。
Reddit 討論:
一個突出的主題是創意專業人士(特別是 VFX 行業)對 Veo 3 等 AI 工具可能取代人類工作的擔憂。r/vfx 的一位使用者表示,從提示生成與人類拍攝素材幾乎相同內容的能力令人擔憂,特別是考慮到公司可能出於成本考慮而這樣做。(來源:https://www.reddit.com/r/vfx/comments/1d0bq7x/with_the_new_google_veo_3_is_the_vfx_industry_at/)
相反,一些 Reddit 使用者將 Veo 3 視為可能帶來新工作角色的新工具,但也承認較低級別、繁瑣的任務可能會被自動化。他們認為,如果 AI 生成內容缺乏藝術指導,觀眾將能夠辨別出來,並且對於目前的 AI 模型來說,真正可控的專業級輸出仍然是一個挑戰。(來源:https://www.reddit.com/r/vfx/comments/1d0bq7x/with_the_new_google_veo_3_is_the_vfx_industry_at/)
r/MotionDesign 和其他 subreddit 的使用者注意到 Veo 3 在品質、一致性以及聲音、唇形同步和動畫能力的集成方面取得了顯著飛躍。一些人預測品牌將大量利用此類工具製作社交媒體內容,這可能減少對傳統動畫師和動態設計師的需求。(來源:https://www.reddit.com/r/MotionDesign/comments/1cxrytc/did_you_guys_see_the_new_google_ai_generator_veo_3/)
r/Bard 的一位使用者雖然印象深刻,但指出 Veo 3 在某些生成中仍然存在變形問題,需要重新渲染。他們還根據信用成本計算了潛在的輸出量,表明由於需要多次生成才能達到所需結果,每月可用的素材量可能受到限制。(來源:https://www.reddit.com/r/Bard/comments/1cxsx5v/veo_3_is_just_insanely_good/)
r/singularity 上的討論強調了 Veo 3 令人印象深刻的追蹤和一致性。還有人猜測它通過編輯多個短片來創建長篇內容的可能性,特別是如果模型的未來迭代支援更長的生成時間。(來源:https://www.reddit.com/r/singularity/comments/1d14t9r/these_lifelike_videos_made_with_veo_3_are_just/)
通過 PetaPixel 從 X(前身為 Twitter)獲得的印象:
PetaPixel 整理了來自 X 的一些使用者生成的範例和反應,注意到以下幾點(來源:https://petapixel.com/2024/05/22/10-insane-videos-from-googles-veo-3-ai-that-will-blow-your-mind/):
普遍的看法是,Veo 3 產生了「瘋狂」的逼真度,常常使得區分 AI 生成內容與實際素材變得困難。
分享的範例包括各種場景,如車展、一間教室的嬰兒潮一代學習 Z 世代俚語、脫口秀喜劇演員的表演、模擬動作電影預告片、虛假影片遊戲主播,甚至帶有 AI 生成罐頭笑聲的情境喜劇式劇集。
生成據稱唇形同步完美的唱歌影片的能力也被強調為一項重大進步。
許多使用者表示,結果既令人印象深刻,又由於高傳真度和 AI 生成內容與現實世界內容之間的界線模糊而令人不安。
總的來說,早期評測肯定了 Veo 3 在影片品質、音訊集成和提示理解方面的先進能力,同時也提出了關於其對創意產業的影響、專業用途的可控性以及當前限制(如變形和基於信用的使用成本)的問題。
Veo 3 優勢
Veo 3 的優勢
高品質影片輸出:Veo 3 旨在生成更逼真、更高傳真度的影片,包括支援 4K 解析度,提供高水平的視覺細節。
整合音訊生成:一個顯著優勢是其能夠原生生成同步音訊,包括音效、環境噪音和對話,使影片創建過程更加整體化。
改進的提示遵循能力:該模型在理解和遵循複雜使用者提示方面表現出增強的能力,從而更準確地將創意願景轉化為影片。
高級創意控制:參考驅動影片(使用圖像作為場景、角色、物體的參考)、風格匹配、角色一致性、詳細相機控制(縮放、搖攝、傾斜)、第一幀和最後一幀過渡、外繪、添加/移除物體、通過使用者輸入進行角色動畫以及運動路徑定義等功能提供了廣泛的創意靈活性。
增強的一致性:Veo 3 力求在不同場景或鏡頭中保持角色外觀和視覺風格等元素更好的連貫性。
電影效果理解:該模型可以根據文字提示解釋和生成各種電影效果和相機技術,如縮時攝影或航拍。
對故事講述者的可及性:它有可能降低影片製作的門檻,使更多創作者和故事講述者無需大量傳統電影製作資源即可將他們的想法變為現實。
內容創建效率:對於某些用例,如生成社交媒體短片或概念化想法,Veo 3 可能比傳統方法提供更快的周轉速度。
真實世界物理模擬:該模型努力融入對真實世界物理的理解,從而在生成的影片中產生更可信的運動和互動。
Veo 3 缺點
Veo 3 的缺點和限制
語音音訊連貫性:雖然 Veo 3 生成音訊,但創建具有始終自然連貫的口語音訊的影片,特別是對於較短的對話片段,仍然是活躍的開發領域。可能會出現語音不連貫的情況。
變形問題:一些使用者評測提到生成中偶爾出現變形問題,這可能需要多次嘗試(重新生成)才能獲得所需、無偽影的輸出。
成本和信用系統:訪問 Veo 3 需要高級訂閱(Google AI Ultra 計劃每月 249.99 美元,可能有入門優惠),並且使用基於信用系統(從初始的 12,500 信用中,每次 Veo 3 生成消耗 150 信用)。這使得大量使用或多次重新生成成本高昂,限制了每月生成的可用影片總量。
可用性有限:截至 2025 年 5 月,Veo 3 僅在美國對高級訂閱者開放,限制了全球用戶群的訪問。
專業 VFX 的可控性:雖然輸出可能令人印象深刻,但一些專業人士對其在高端 VFX 工作中所需的精確控制水平表示懷疑,例如特定的藝術指導或像素級調整。
內容同質化的可能性:有人擔心 AI 生成工具的廣泛使用可能導致線上視覺上相似內容的氾濫。
道德擔憂和工作職位流失:AI 生成內容的高品質引發了倫理問題和對演員、VFX 藝術家、動畫師和其他創意專業人士潛在工作職位流失的擔憂。
生成時間:每次影片生成可能需要時間(例如,2 到 3 分鐘或更長),這會減慢迭代創意過程。
依賴提示工程:輸出的品質和相關性在很大程度上取決於使用者構建有效和詳細提示的能力。
高級功能的學習曲線:雖然功能強大,但掌握全部創意控制套件並實現特定、細微的結果可能需要一個學習過程。
Veo 3 定價
Veo 3 定價結構
訪問 Veo 3 主要通過 Google 的 Flow(一個 AI 驅動的電影製作介面)提供。
訂閱計劃:要使用 Veo 3,需要訂閱 Google AI Ultra 計劃。
月費用:Google AI Ultra 計劃定價為每月 249.99 美元。一些消息來源表明可能在每月 250 美元左右,含稅後可能達到約 272 美元。
入門優惠:有提到前三個月可能有折扣價,可能每月 124 或 125 美元。
信用系統:AI Ultra 計劃為使用者提供初始的 12,500 信用。
每次生成成本:每次使用 Veo 3 生成影片將消耗 150 信用。
可用性:目前,截至 2025 年 5 月,通過此計劃訪問 Veo 3 僅限於美國使用者。
企業訪問:對於企業使用者,Veo 3 也可通過 Google 的 Vertex AI 平台訪問,但此途徑的具體定價細節在一般搜索結果中不易獲得。
需要注意的是,如果將 Veo 3 AI 模型與 Veo Cam 3(一個獨立的物理運動相機產品)混淆,可能會認為相機需要訂閱才能工作。[更正:此點因搜索結果混淆而包含,對於 Veo 3 AI 模型應予忽略。定價嚴格與 AI Ultra 計劃和信用相關。Veo AI 模型不需要物理相機。] 相關的定價與 Google AI Ultra 訂閱及其生成所需的信用系統相關。
Veo 3 常見問題
關於 Veo 3 的常見問題
什麼是 Veo 3?
Veo 3 是 Google 最先進的 AI 影片生成模型,旨在根據文字和圖像提示創建高畫質影片片段。值得注意的是,它包括生成同步音訊的能力,包括對話、音效和音樂。
Veo 3 與 Veo 2 有何不同?
Veo 3 在 Veo 2 的基礎上進行了改進,提高了逼真度,支援 4K 輸出,並且至關重要的是,原生生成音訊。Veo 2 主要專注於無聲視覺生成,而 Veo 3 將聲音作為其輸出的核心部分集成。Veo 3 還力求更好的提示遵循和整體品質。
Veo 3 適合哪些人?
Veo 3 的目標使用者是希望使用 AI 進行影片製作並探索新創意可能性的電影製作人、故事講述者、內容創作者、開發者和工作室。
Veo 3 的主要功能有哪些?
主要功能包括高傳真 4K 影片生成、整合同步音訊(對話、音效、音樂)、改進的提示理解、增強的創意控制(如風格遷移、角色一致性、相機控制)以及真實世界物理模擬。
如何訪問 Veo 3?
截至 2025 年 5 月,Veo 3 在美國通過 Google 的 AI 驅動電影製作介面 Flow 提供。訪問需要訂閱 Google AI Ultra 計劃。企業使用者也可通過 Google 的 Vertex AI 平台訪問。
Veo 3 的費用是多少?
通過 Google AI Ultra 計劃訪問的費用為每月 249.99 美元(前三個月可能有入門優惠)。此計劃包含 12,500 信用,每次 Veo 3 影片生成消耗 150 信用。
Veo 3 可以生成對話並進行唇形同步嗎?
是的,Veo 3 旨在生成對話並力求與角色的嘴唇動作同步。
Veo 3 的一些限制是什麼?
目前的限制包括自然連貫口語音訊(尤其是短片段)的持續開發、偶爾需要重新生成的變形問題、與訂閱和信用系統相關的成本,以及其可用性有限(截至 2025 年 5 月僅限美國)。
Google 如何處理 Veo 3 的安全和責任問題?
Google 表示 Veo 3 在設計時考慮了責任和安全。措施包括阻止有害請求和結果、測試新功能的安全影響以及使用 SynthID 技術為 AI 生成內容添加水印。輸出還會進行安全評估和內容記憶檢查。

Scene: A rainy night, a narrow back alley lit by flickering neon signs. The ground is wet, reflecting the colorful lights. Trash cans are scattered in corners. Character: A detective in a trench coat (male, around 40, world-weary face, sharp eyes) crouches down, carefully picking up a small, mud-stained piece of evidence (e.g., a unique button or a blurred note) from a puddle with a gloved hand. Plot: The detective stares intently at the evidence, his expression grim. Police sirens wail in the distance. He quickly places the evidence in a bag and rises, disappearing into the shadows of the alley. Camera Shot: Close-up of the evidence being picked up, then a close-up of the detective's face as he examines it, and finally a medium shot of him disappearing into the darkness. Consider adding a Dutch angle for unease. Lighting/Atmosphere: Complex interplay of light and shadow from neon signs, streetlights, and rain reflections. Atmosphere is somber, tense, and suspenseful. Style: Cinematic, Film Noir style, reminiscent of "Blade Runner" or classic detective movies, high contrast, wet look.

Scene: Inside a lone interstellar exploration starship, the main control room is bathed in flashing red emergency lights. Outside, a deep, uncharted nebula looms. Character: A female astronaut (around 30, eyes tired but determined), wearing a slightly worn spacesuit, anxiously examines strange signal readings on the control panel. Complex code streams are reflected on her helmet visor. Plot: Alarms blare. The signal on the panel suddenly intensifies, pointing towards a massive, unprecedented gravitational anomaly deep within the nebula. The astronaut takes a deep breath, making a difficult decision. Camera Shot: Start with a close-up on the astronaut's face (showing anxiety and determination), slowly pull back to reveal the entire control room, then cut to an exterior shot of the starship slowly heading towards the mysterious nebula. Lighting/Atmosphere: Inside, only red emergency lights and the cold glow of screens illuminate the control room. The nebula outside emits a dim, eerie light. Atmosphere is tense, mysterious, and full of the unknown. Style: Cinematic, hard sci-fi, reminiscent of "Alien" or "Interstellar" aesthetics, 8K, ultra-detailed.
comments.comments (0)
Please login first
Sign in