File size: 3,426 Bytes
8985c3d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
---
tasks:
- text-to-video-synthesis
widgets:
  - task: text-to-video-synthesis
    inputs:
        - type: text
          name: text
          title: 输入英文prompt
          validator:
            max_words: 75
    examples:
        - name: 1
          title: 示例1
          inputs:
            - name: text
              data: A panda eating bamboo on a rock.
    inferencespec:
      cpu: 4
      memory: 16000
      gpu: 1
      gpu_memory: 32000
domain:
- multi-modal
frameworks:
- pytorch
backbone:
- diffusion
metrics:
- realism
- text-video similarity
license: Apache License 2.0
tags:
- text2video generation
- diffusion model
- 文到视频
- 文生视频
- 文本生成视频
- 生成
---

# 文本生成视频大模型-英文-通用领域

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。

## 模型描述
文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

### 期望模型使用方式以及适用范围

本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。

### 如何使用

在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下:

#### 补充运行环境
 ```shell
 pip install open_clip_torch
 ```

#### 代码范例
```python
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

```

### 模型局限性以及可能的偏差

* 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
* 该模型无法实现完美的影视级生成。
* 该模型无法生成清晰的文本。
* 该模型主要是用英文语料训练的,暂不支持其他语言。
* 该模型在复杂的组合性生成任务上表现有待提升。

### 滥用、恶意使用和超出范围的使用
* 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
* 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
* 禁止用于涉黄、暴力和血腥内容生成。
* 禁止用于错误和虚假信息生成。

## 训练数据介绍

训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

## 相关论文以及引用信息

```BibTeX
@misc{rombach2021highresolution,
      title={High-Resolution Image Synthesis with Latent Diffusion Models}, 
      author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer},
      year={2021},
      eprint={2112.10752},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
```