Upload files

Browse files

Files changed (14) hide show

.DS_Store +0 -0
.gitattributes +1 -0
config.json +96 -0
img/.DS_Store +0 -0
img/classify.png +0 -0
img/classify_exp.png +0 -0
model.safetensors +3 -0
readme.md +67 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +55 -0
trainer_state.json +0 -0
training_args.bin +3 -0

.DS_Store ADDED Viewed

Binary file (8.2 kB). View file

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,96 @@

+{
+  "_name_or_path": "",
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 2,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "\u4ea4\u901a\u8fd0\u8f93",
+    "1": "\u4eba\u5de5\u667a\u80fd_\u673a\u5668\u5b66\u4e60",
+    "2": "\u4f4f\u5bbf_\u9910\u996e_\u9152\u5e97",
+    "3": "\u4f53\u80b2",
+    "4": "\u5176\u4ed6",
+    "5": "\u5176\u4ed6\u4fe1\u606f\u670d\u52a1_\u4fe1\u606f\u5b89\u5168",
+    "6": "\u5176\u4ed6\u5236\u9020",
+    "7": "\u519c\u6797\u7267\u6e14",
+    "8": "\u533b\u5b66_\u5065\u5eb7_\u5fc3\u7406_\u4e2d\u533b",
+    "9": "\u5b66\u79d1\u6559\u80b2_\u6559\u80b2",
+    "10": "\u5f71\u89c6_\u5a31\u4e50",
+    "11": "\u623f\u5730\u4ea7_\u5efa\u7b51",
+    "12": "\u6570\u5b66_\u7edf\u8ba1\u5b66",
+    "13": "\u6587\u5b66_\u60c5\u611f",
+    "14": "\u65b0\u95fb\u4f20\u5a92",
+    "15": "\u65c5\u6e38_\u5730\u7406",
+    "16": "\u65f6\u653f_\u653f\u52a1_\u884c\u653f",
+    "17": "\u6c34\u5229_\u6d77\u6d0b",
+    "18": "\u6c7d\u8f66",
+    "19": "\u6cd5\u5f8b_\u53f8\u6cd5",
+    "20": "\u6d88\u9632\u5b89\u5168_\u98df\u54c1\u5b89\u5168",
+    "21": "\u6e38\u620f",
+    "22": "\u751f\u7269\u533b\u836f",
+    "23": "\u7535\u529b\u80fd\u6e90",
+    "24": "\u77f3\u6cb9\u5316\u5de5",
+    "25": "\u79d1\u6280_\u79d1\u5b66\u7814\u7a76",
+    "26": "\u822a\u7a7a\u822a\u5929",
+    "27": "\u8ba1\u7b97\u673a_\u901a\u4fe1",
+    "28": "\u8ba1\u7b97\u673a\u7f16\u7a0b_\u4ee3\u7801",
+    "29": "\u91c7\u77ff",
+    "30": "\u91d1\u878d_\u7ecf\u6d4e"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "\u4ea4\u901a\u8fd0\u8f93": 0,
+    "\u4eba\u5de5\u667a\u80fd_\u673a\u5668\u5b66\u4e60": 1,
+    "\u4f4f\u5bbf_\u9910\u996e_\u9152\u5e97": 2,
+    "\u4f53\u80b2": 3,
+    "\u5176\u4ed6": 4,
+    "\u5176\u4ed6\u4fe1\u606f\u670d\u52a1_\u4fe1\u606f\u5b89\u5168": 5,
+    "\u5176\u4ed6\u5236\u9020": 6,
+    "\u519c\u6797\u7267\u6e14": 7,
+    "\u533b\u5b66_\u5065\u5eb7_\u5fc3\u7406_\u4e2d\u533b": 8,
+    "\u5b66\u79d1\u6559\u80b2_\u6559\u80b2": 9,
+    "\u5f71\u89c6_\u5a31\u4e50": 10,
+    "\u623f\u5730\u4ea7_\u5efa\u7b51": 11,
+    "\u6570\u5b66_\u7edf\u8ba1\u5b66": 12,
+    "\u6587\u5b66_\u60c5\u611f": 13,
+    "\u65b0\u95fb\u4f20\u5a92": 14,
+    "\u65c5\u6e38_\u5730\u7406": 15,
+    "\u65f6\u653f_\u653f\u52a1_\u884c\u653f": 16,
+    "\u6c34\u5229_\u6d77\u6d0b": 17,
+    "\u6c7d\u8f66": 18,
+    "\u6cd5\u5f8b_\u53f8\u6cd5": 19,
+    "\u6d88\u9632\u5b89\u5168_\u98df\u54c1\u5b89\u5168": 20,
+    "\u6e38\u620f": 21,
+    "\u751f\u7269\u533b\u836f": 22,
+    "\u7535\u529b\u80fd\u6e90": 23,
+    "\u77f3\u6cb9\u5316\u5de5": 24,
+    "\u79d1\u6280_\u79d1\u5b66\u7814\u7a76": 25,
+    "\u822a\u7a7a\u822a\u5929": 26,
+    "\u8ba1\u7b97\u673a_\u901a\u4fe1": 27,
+    "\u8ba1\u7b97\u673a\u7f16\u7a0b_\u4ee3\u7801": 28,
+    "\u91c7\u77ff": 29,
+    "\u91d1\u878d_\u7ecf\u6d4e": 30
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 8194,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

img/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

img/classify.png ADDED Viewed

img/classify_exp.png ADDED Viewed

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0597708ae15fdcce27850e947653857d31f2e161a0ff46c53185ad58b644908c
+size 2271194860

readme.md ADDED Viewed

	@@ -0,0 +1,67 @@

+模型是数据集[BAAI/IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)中用来进行行业分类分类
+模型细节：
+为了提升数据集中行业划分对实际行业的覆盖，并对齐国家标准中定义的行业目录，我们参考国家统计局制定的国民经济行业分类体系和世界知识体系，进行类目的合并和整合，设计了覆盖中英文的最终的31个行业类目。类目表名称如下所示
+```
+{
+    "数学_统计": {"zh": "数学与统计", "en": "Math & Statistics"},
+    "体育": {"zh": "体育", "en": "Sports"},
+    "农林牧渔": {"zh": "农业与渔业", "en": "Agriculture & Fisheries"},
+    "房地产_建筑": {"zh": "房地产与建筑", "en": "Real Estate & Construction"},
+    "时政_政务_行政": {"zh": "政治与行政", "en": "Politics & Administration"},
+    "消防安全_食品安全": {"zh": "安全管理", "en": "Safety Management"},
+    "石油化工": {"zh": "石油化工", "en": "Petrochemicals"},
+    "计算机_通信": {"zh": "计算机与通信", "en": "Computing & Telecommunications"},
+    "交通运输": {"zh": "交通运输", "en": "Transportation"},
+    "其他": {"zh": "其他", "en": "Others"},
+    "医学_健康_心理_中医": {"zh": "健康与医学", "en": "Health & Medicine"},
+    "文学_情感": {"zh": "文学与情感", "en": "Literature & Emotions"},
+    "水利_海洋": {"zh": "水利与海洋", "en": "Water Resources & Marine"},
+    "游戏": {"zh": "游戏", "en": "Gaming"},
+    "科技_科学研究": {"zh": "科技与研究", "en": "Technology & Research"},
+    "采矿": {"zh": "采矿", "en": "Mining"},
+    "人工智能_机器学习": {"zh": "人工智能", "en": "Artificial Intelligence"},
+    "其他信息服务_信息安全": {"zh": "信息服务", "en": "Information Services"},
+    "学科教育_教育": {"zh": "学科教育", "en": "Subject Education"},
+    "新闻传媒": {"zh": "新闻传媒", "en": "Media & Journalism"},
+    "汽车": {"zh": "汽车", "en": "Automobiles"},
+    "生物医药": {"zh": "生物医药", "en": "Biopharmaceuticals"},
+    "航空航天": {"zh": "航空航天", "en": "Aerospace"},
+    "金融_经济": {"zh": "金融与经济", "en": "Finance & Economics"},
+    "住宿_餐饮_酒店": {"zh": "住宿与餐饮", "en": "Hospitality & Catering"},
+    "其他制造": {"zh": "制造业", "en": "Manufacturing"},
+    "影视_娱乐": {"zh": "影视与娱乐", "en": "Film & Entertainment"},
+    "旅游_地理": {"zh": "旅游与地理", "en": "Travel & Geography"},
+    "法律_司法": {"zh": "法律与司法", "en": "Law & Justice"},
+    "电力能源": {"zh": "电力与能源", "en": "Power & Energy"},
+    "计算机编程_代码": {"zh": "编程", "en": "Programming"},
+}
+```
+- 行业分类模型的数据构造
+  - 数据构建
+    数据来源：预训练预训练语料抽样和开源文本分类数据，其中预训练语料占比90%，通过数据采样，保证中英文数据占比为1:1
+    标签构造：使用LLM模型对数据进行多次分类判定，筛选多次判定一致的数据作为训练数据
+    数据规模：36K
+  数据构造的整体流程如下：
+  ![image-20240919140307205](./img/classify.png)
+- 模型训练：
+  参数更新：在预训练的bert模型上添加分类头进行文本分类模型训练
+  模型选型：考虑的模型性能和推理效率，我们选用了0.5b规模的模型，通过对比实验最终最终选择了bge-m3并全参数训练的方式，作为我们的基座模型
+  训练超参：全参数训练，max_length = 2048，lr=1e-5，batch_size=64,，验证集评估acc：86%
+  ![image-20240919141408659](./img/classify_exp.png)
+###

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6710678b12670bc442b99edc952c4d996ae309a7020c1fa0096dd245c2faf790
+size 17082821

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 8192,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16a60324779f4561552c1e524383f6591f97b80e0adc5098445a110a72360d23
+size 5240