|
--- |
|
tasks: |
|
- text-to-video-synthesis |
|
widgets: |
|
- task: text-to-video-synthesis |
|
inputs: |
|
- type: text |
|
name: text |
|
title: 输入英文prompt |
|
validator: |
|
max_words: 75 |
|
examples: |
|
- name: 1 |
|
title: 示例1 |
|
inputs: |
|
- name: text |
|
data: A panda eating bamboo on a rock. |
|
inferencespec: |
|
cpu: 4 |
|
memory: 16000 |
|
gpu: 1 |
|
gpu_memory: 32000 |
|
domain: |
|
- multi-modal |
|
frameworks: |
|
- pytorch |
|
backbone: |
|
- diffusion |
|
metrics: |
|
- realism |
|
- text-video similarity |
|
license: Apache License 2.0 |
|
tags: |
|
- text2video generation |
|
- diffusion model |
|
- 文到视频 |
|
- 文生视频 |
|
- 文本生成视频 |
|
- 生成 |
|
--- |
|
|
|
# 文本生成视频大模型-英文-通用领域 |
|
|
|
本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。 |
|
|
|
## 模型描述 |
|
文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。 |
|
|
|
### 期望模型使用方式以及适用范围 |
|
|
|
本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。 |
|
|
|
### 如何使用 |
|
|
|
在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下: |
|
|
|
#### 补充运行环境 |
|
```shell |
|
pip install open_clip_torch |
|
``` |
|
|
|
#### 代码范例 |
|
```python |
|
from modelscope.pipelines import pipeline |
|
from modelscope.outputs import OutputKeys |
|
|
|
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis') |
|
test_text = { |
|
'text': 'A panda eating bamboo on a rock.', |
|
} |
|
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO] |
|
print('output_video_path:', output_video_path) |
|
|
|
``` |
|
|
|
### 模型局限性以及可能的偏差 |
|
|
|
* 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。 |
|
* 该模型无法实现完美的影视级生成。 |
|
* 该模型无法生成清晰的文本。 |
|
* 该模型主要是用英文语料训练的,暂不支持其他语言。 |
|
* 该模型在复杂的组合性生成任务上表现有待提升。 |
|
|
|
### 滥用、恶意使用和超出范围的使用 |
|
* 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。 |
|
* 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。 |
|
* 禁止用于涉黄、暴力和血腥内容生成。 |
|
* 禁止用于错误和虚假信息生成。 |
|
|
|
## 训练数据介绍 |
|
|
|
训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。 |
|
|
|
## 相关论文以及引用信息 |
|
|
|
```BibTeX |
|
@misc{rombach2021highresolution, |
|
title={High-Resolution Image Synthesis with Latent Diffusion Models}, |
|
author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer}, |
|
year={2021}, |
|
eprint={2112.10752}, |
|
archivePrefix={arXiv}, |
|
primaryClass={cs.CV} |
|
} |
|
``` |
|
|