阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

感谢网友大眼夹、打工轨道人、航空先生的线索投递！

3 月 22 日消息，近日，阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。

根据官方介绍，目前文本生成视频大模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成，整体模型参数约 17 亿，目前仅支持英文输入。扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

官方介绍称，本模型适用范围较广，能基于任意英文文本描述进行推理，生成视频。一些文本生成视频示例如下：

A giraffe underneath a microwave.（一只在微波炉里的长颈鹿）

A goldendoodle playing in a park by a lake.（一只金贵犬在湖边的公园玩耍）

据了解，模型已经在创空间和 huggingface 上线，可以直接体验，也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下，通过调用简单的 Pipeline 即可使用当前模型，其中，输入需为字典格式，合法键值为 ‘text’，内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。

从试玩的结果来看，目前能生成的视频长度多在 2-4 秒，生成等候时间从 20 多秒到 1 分多钟不等。

阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

nginx 官方镜像njs 使用

给老婆的一篇文章

最新文章

realme 市场沟通总监：真我 GT7 Pro 核心部件全部来自国际顶尖供应链合作

ctf加载程序需要自启动吗(ctf加载程序开机启动能禁用吗)

c语言转义字符占几个字节(c语言转义字符的使用输出字符串)

有线中继插wan口还是lan口(有线桥接时接wan口还是lan口)

shell循环分为几种(shell的循环控制结构)

mt6771v处理器相当于骁龙多少(联发科mt6771v处理器怎么样)

删除数据库表的命令(删除表的内容sql命令是什么)

怎么练口才(怎么训练自己的说话能力)

俄罗斯人口是多少(2021年中国人口是多少)

火葬场特点介绍火葬场技术设备介绍

最新评论

标签

关注我们么么哒！

阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

nginx 官方镜像njs 使用

给老婆的一篇文章

最新文章

realme 市场沟通总监：真我 GT7 Pro 核心部件全部来自国际顶尖供应链合作

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！