谷歌最新的AI Lumiere从静止图像创建5秒视频
谷歌推出了一种名为Lumiere 的新型视频生成人工智能模型,该模型使用一种名为 Space-Time-U-Net 或 STUNet 的新扩散模型。 Lumiere 在一个过程中创建 5 秒的视频,而不是将较小的静止帧放在一起。
这项技术可以找出视频中事物的位置(空间)以及它们如何同时移动和变化(时间)。
谷歌研究人员在一篇论文中表示:“我们推出了 Lumiere——一种文本到视频的扩散模型,旨在合成描绘真实、多样化和连贯运动的视频——这是视频合成中的一个关键挑战。”
他们写道:“我们引入了时空 U-Net 架构,通过模型中的单次传递即可一次性生成视频的整个时间持续时间。”
该设计促进了广泛的内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。
Lumiere 可以执行文本到视频的生成、将静态图像转换为视频、使用参考图像生成特定风格的视频、使用基于文本的提示应用一致的视频编辑以及通过对图像的特定区域进行动画处理来创建电影图片。
谷歌研究人员表示,AI 模型输出 5 秒长的 1024×1024 像素视频,他们将其描述为“低分辨率”。
Lumiere 还生成 80 帧,而稳定视频扩散仅生成 25 帧。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。