里我们要先引入

Azieaxie50 · 發表於 2024-4-8 14:14:53

来解决计算成本高昂的问题。这 “len 潜这一概念它是一种 “ 降维或者说是 “ 压缩意在用更少的信息去表达信息的本质。我们列举一个不恰当但好理解的例子这就好像我们用一个三视图就能保存记录一个简单的立体物体的结构而非一定要保存这个立体本身。 enI 为此开发了一个视频压缩网络把视频先降维到潜空间然后再去拿这些压缩过的视频数据去生成he这样就能使输入的信息变少有效减小rnfrer 架构带来的计算量压力.如此一来大部分问题就都解决了enI 成功地把文生视频模型套进了其在

过去取得巨大成功的大语言模型的范式里所以效果想不好都难。除此之外enI 在训练上的路线选择也稍有不同。他们选择了 “ 原始尺寸、时长训练而非业内常用的 “ 把视频截取成预设标准尺寸、时长亚美尼亚手机号码后再训练。这样的训练给 r 带来了诸多好处 ①生成的视频能更好地自定义时长 ②生成的视频能够更好地自定义视频尺寸 ③视频会有更好的取景和构图前两点很好理解第三点 enI 给出了范例他们做了一个截取尺寸视频训练和原始尺寸视频训练的模型对比左侧为截取尺寸视频训练后模型生成的视频右

侧为原始尺寸视频训练后模型生成的视频另外为了文生视频能够更好地理解用户的意图达到更好的生成效果enI 也在 r 模型上加入了一些巧思。首先训练 r 这样的文生视频模型需要大量含有文本说明的视频素材所以 enI 利用自家 LL·E 的 re-inin 功能给训练用的视频素材都加上了高质量文本描述他们表示这样可以提高输出视频的整体质量。除了训练端在输入端他们也动了脑筋用户输入的提示词并非直接交给r 进行生成的enI 利用了的能力在用户给 r 输入提示词的时候会先将用户输入的提示词进行精准的详尽扩写然后再将扩写后的提示词交给 r这样能更好地让 r 遵循提示词来生成更精准的视频。好了到这里我们对 r 模型为什么看起来更强的简要解析就结束了。从整体