谷歌的旗舰级视频生成模型Veo3正式通过Gemini API向开发者开放。这次开放带来了文本转视频功能,还能同步生成音频。这事儿标志着AI视频制作进入了新的阶段,但随之而来的还有更高的成本。
Veo3的核心能力
Veo3是谷歌推出的首款能通过单个文本提示,直接生成高分辨率视频,同时还能同步生成对话、音乐和音效的模型。目前,Gemini API里暂时只有文本转视频这一项功能可用。不过谷歌说了,Gemini应用里已经上线的图像转视频支持,过不了多久也会推出来。
对于那些想把高级视频生成功能集成到自己应用里,或者想搭建可投入生产的原型的开发者来说,这次API集成确实帮上大忙了。Google AI Studio给开发者准备了SDK模板和入门应用,能让他们快速上手。不过要访问这个API,得有一个启用了计费功能的活跃Google Cloud项目。谷歌透露,Veo3已经在Gemini应用、Flow和Vertex AI里被用了数百万次了。
Veo3的价格问题
但Veo3的价格,让它成了AI视频生成领域里比较贵的选项之一。通过Gemini API访问Veo3,只能在Google Cloud的付费套餐里用。拿720p、24fps的视频(包含16:9格式的音频)来说,定价是每秒0.75美元,比不含音频的Veo2贵了25美分。
这么一算,一段8秒的视频就得花6美元,一段5分钟的视频更是高达225美元。考虑到通常得试好几次才能做出理想的效果,实际成本可能会涨得很快。比如说,要是需要十倍的素材量才能做出5分钟能用的视频,总成本可能就到2250美元了。尽管如此,谷歌可能觉得在某些特定的使用场景下,这还是比传统的视频制作更划算。
另外,谷歌还宣布了“Veo3Fast”模式,这个模式速度更快,价格也更低,但目前还没在API里提供。
Veo3的应用案例
目前,Veo3的应用主要集中在专业领域。像Cartwheel这家公司,就利用Veo3把2D视频转换成逼真的3D角色动画,还能把生成的动作映射到客户项目的装配模型上。游戏工作室Volley也用Veo3给他们的角色扮演游戏《Wit’s End》制作过场动画,这样开发者就能快速尝试新的故事创意和视觉效果了。
这些案例能看出来,谷歌目前更看重专业级的应用,当然也不排除有其他公司在私下里用Veo3,只是还没公开而已。