过去取得巨大成功的大语言模型的范式里所以效果想不好都难。除此之外enI 在训练上的路线选择也稍有不同。他们选择了 “ 原始尺寸、时长 训练而非业内常用的 “ 把视频截取成预设标准尺寸、时长 亚美尼亚 手机号码 后再训练。这样的训练给 r 带来了诸多好处 ①生成的视频能更好地自定义时长 ②生成的视频能够更好地自定义视频尺寸 ③视频会有更好的取景和构图 前两点很好理解第三点 enI 给出了范例他们做了一个截取尺寸视频训练和原始尺寸视频训练的模型对比 左侧为截取尺寸视频训练后模型生成的视频右
侧为原始尺寸视频训练后模型生成的视频 另外为了文生视频能够更好地理解用户的意图达到更好的生成效果enI 也在 r 模型上加入了一些巧思。首先训练 r 这样的文生视频模型需要大量含有文本说明的视频素材所以 enI 利用自家 LL·E 的 re-inin 功能给训练用的视频素材都加上了高质量文本描述他们表示这样可以提高输出视频的整体质量。除了训练端在输入端他们也动了脑筋用户输入的提示词并非直接交给r 进行生成的enI 利用了 的能力在用户给 r 输入提示词的时候 会先将用户输入的提示词进行精准的详尽扩写然后再将扩写后的提示词交给 r这样能更好地让 r 遵循提示词来生成更精准的视频。好了到这里我们对 r 模型为什么看起来更强的简要解析就结束了。从整体