File size: 2,528 Bytes

2c43a35
 
 
 
 
 
 
 
 
 
 
 
 
 
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35
429f84f
2c43a35

CPT模型论文：CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
           https://arxiv.org/abs/2109.05729

我们对CPT预训练模型进行下游任务训练，数据集采用华东师范大学小花狮中文作文智能辅导系统的五年级学生语文作文，进行文本反馈任务。

该模型可以通过如下代码进行调用，用于文本反馈任务：
      tokenizer = BertTokenizer.from_pretrained(path) #从指定路径中得到预训练模型和tokenizer
      model = CPTForConditionalGeneration.from_pretrained(path) #从指定路径中得到预训练模型和tokenizer

该模型可以对小学记叙文从扣题性（relevance）、内容（content）、表达（expression）三个维度生成反馈，由于训练数据为五年级记叙文，因此模型的输入应为记叙文。模型输出如下所示：
      本作文对题目把控得当，做到了正确审题、写作扣题，展现出了出色的审题能力！这篇文章围绕着“我家的小狗汤圆”展开。作文内容较为丰富，词句较为优美，叙述基本完整，但在叙述手法方面仍有进步的空间，可以试着运用多种写作手法进行描述，对细节进一步刻画描摹，让文章更加鲜明生动。本篇作文表达流畅，写作思路连贯，记叙井然有序，构思巧妙重点突出。
      
模型相关配置文件均为模型训练后生成保存的，各文件介绍如下：
1.all_results.json：包括训练epoch、train_loss、train_time等训练最终数据。

2.cmd.txt：模型训练过程的cmd命令行输出结果，可以详细的看到模型的训练过程。

3.config.json：包括activation_function、architectures、encoder_layers、tokenizer_class等模型超参数信息。

4.generation_config.json：用于生成反馈的相关参数。

5.model.safetensors：模型参数配置文件，可用于调用模型。

6.special_tokens_map.json：[CLS]、[EOS]等特殊字符说明。

7.test_generations.txt：模型在test测试集上的输出结果，测试集共1100个数据，因此共有1100个文本反馈。

8.tokenizer_config.json：模型tokenizer相关信息。

9.train_results.json：与all_results.json相同。

10.train_state.json：详细记录了每轮训练时的相关信息。

11.training_args.bin：训练相关参数信息。

12.vocab.txt：模型训练的词汇表，用于将token解码为人可以看懂的文字。相当于一个映射表，起到译码映射的作用。