Spaces:

Penkris
/

Xtuner

Running

App Files Files Community

Penkris commited on 17 days ago

Commit

781987f

1 Parent(s): 5b71a54

xtuner

Browse files

Files changed (11) hide show

L1_XTuner_code/.ipynb_checkpoints/change_script-checkpoint.py +47 -0
L1_XTuner_code/.ipynb_checkpoints/xtuner_streamlit_demo-checkpoint.py +292 -0
L1_XTuner_code/Q_list.txt +150 -0
L1_XTuner_code/change_script.py +47 -0
L1_XTuner_code/get_data.py +152 -0
L1_XTuner_code/xtuner_streamlit_demo.py +292 -0
data/.ipynb_checkpoints/change_script-checkpoint.py +48 -0
data/assistant_Tuner.jsonl +0 -0
data/assistant_Tuner_change.jsonl +0 -0
data/change_script.py +48 -0
internlm2_5_chat_7b_qlora_alpaca_e3_copy.py +204 -0

L1_XTuner_code/.ipynb_checkpoints/change_script-checkpoint.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import json
+import argparse
+from tqdm import tqdm
+def process_line(line, old_text, new_text):
+    # 解析 JSON 行
+    data = json.loads(line)
+    # 递归函数来处理嵌套的字典和列表
+    def replace_text(obj):
+        if isinstance(obj, dict):
+            return {k: replace_text(v) for k, v in obj.items()}
+        elif isinstance(obj, list):
+            return [replace_text(item) for item in obj]
+        elif isinstance(obj, str):
+            return obj.replace(old_text, new_text)
+        else:
+            return obj
+    # 处理整个 JSON 对象
+    processed_data = replace_text(data)
+    # 将处理后的对象转回 JSON 字符串
+    return json.dumps(processed_data, ensure_ascii=False)
+def main(input_file, output_file, old_text, new_text):
+    with open(input_file, 'r', encoding='utf-8') as infile, \
+         open(output_file, 'w', encoding='utf-8') as outfile:
+        # 计算总行数用于进度条
+        total_lines = sum(1 for _ in infile)
+        infile.seek(0)  # 重置文件指针到开头
+        # 使用 tqdm 创建进度条
+        for line in tqdm(infile, total=total_lines, desc="Processing"):
+            processed_line = process_line(line.strip(), old_text, new_text)
+            outfile.write(processed_line + '\n')
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Replace text in a JSONL file.")
+    parser.add_argument("input_file", help="Input JSONL file to process")
+    parser.add_argument("output_file", help="Output file for processed JSONL")
+    parser.add_argument("--old_text", default="尖米", help="Text to be replaced")
+    parser.add_argument("--new_text", default="闻星", help="Text to replace with")
+    args = parser.parse_args()
+    main(args.input_file, args.output_file, args.old_text, args.new_text)

L1_XTuner_code/.ipynb_checkpoints/xtuner_streamlit_demo-checkpoint.py ADDED Viewed

	@@ -0,0 +1,292 @@

+"""This script refers to the dialogue example of streamlit, the interactive
+generation code of chatglm2 and transformers.
+We mainly modified part of the code logic to adapt to the
+generation of our model.
+Please refer to these links below for more information:
+    1. streamlit chat example:
+        https://docs.streamlit.io/knowledge-base/tutorials/build-conversational-apps
+    2. chatglm2:
+        https://github.com/THUDM/ChatGLM2-6B
+    3. transformers:
+        https://github.com/huggingface/transformers
+Please run with the command `streamlit run path/to/web_demo.py
+    --server.address=0.0.0.0 --server.port 7860`.
+Using `python path/to/web_demo.py` may cause unknown problems.
+"""
+# isort: skip_file
+import copy
+import warnings
+from dataclasses import asdict, dataclass
+from typing import Callable, List, Optional
+import streamlit as st
+import torch
+from torch import nn
+from transformers.generation.utils import (LogitsProcessorList,
+                                           StoppingCriteriaList)
+from transformers.utils import logging
+from transformers import AutoTokenizer, AutoModelForCausalLM  # isort: skip
+logger = logging.get_logger(__name__)
+model_name_or_path = "/root/finetune/work_dirs/assistTuner/merged"
+@dataclass
+class GenerationConfig:
+    # this config is used for chat to provide more diversity
+    max_length: int = 32768
+    top_p: float = 0.8
+    temperature: float = 0.8
+    do_sample: bool = True
+    repetition_penalty: float = 1.005
+@torch.inference_mode()
+def generate_interactive(
+    model,
+    tokenizer,
+    prompt,
+    generation_config: Optional[GenerationConfig] = None,
+    logits_processor: Optional[LogitsProcessorList] = None,
+    stopping_criteria: Optional[StoppingCriteriaList] = None,
+    prefix_allowed_tokens_fn: Optional[Callable[[int, torch.Tensor],
+                                                List[int]]] = None,
+    additional_eos_token_id: Optional[int] = None,
+    **kwargs,
+):
+    inputs = tokenizer([prompt], padding=True, return_tensors='pt')
+    input_length = len(inputs['input_ids'][0])
+    for k, v in inputs.items():
+        inputs[k] = v.cuda()
+    input_ids = inputs['input_ids']
+    _, input_ids_seq_length = input_ids.shape[0], input_ids.shape[-1]
+    if generation_config is None:
+        generation_config = model.generation_config
+    generation_config = copy.deepcopy(generation_config)
+    model_kwargs = generation_config.update(**kwargs)
+    bos_token_id, eos_token_id = (  # noqa: F841  # pylint: disable=W0612
+        generation_config.bos_token_id,
+        generation_config.eos_token_id,
+    )
+    if isinstance(eos_token_id, int):
+        eos_token_id = [eos_token_id]
+    if additional_eos_token_id is not None:
+        eos_token_id.append(additional_eos_token_id)
+    has_default_max_length = kwargs.get(
+        'max_length') is None and generation_config.max_length is not None
+    if has_default_max_length and generation_config.max_new_tokens is None:
+        warnings.warn(
+            f"Using 'max_length''s default \
+                ({repr(generation_config.max_length)}) \
+                to control the generation length. "
+            'This behaviour is deprecated and will be removed from the \
+                config in v5 of Transformers -- we'
+            ' recommend using `max_new_tokens` to control the maximum \
+                length of the generation.',
+            UserWarning,
+        )
+    elif generation_config.max_new_tokens is not None:
+        generation_config.max_length = generation_config.max_new_tokens + \
+            input_ids_seq_length
+        if not has_default_max_length:
+            logger.warn(  # pylint: disable=W4902
+                f"Both 'max_new_tokens' (={generation_config.max_new_tokens}) "
+                f"and 'max_length'(={generation_config.max_length}) seem to "
+                "have been set. 'max_new_tokens' will take precedence. "
+                'Please refer to the documentation for more information. '
+                '(https://huggingface.co/docs/transformers/main/'
+                'en/main_classes/text_generation)',
+                UserWarning,
+            )
+    if input_ids_seq_length >= generation_config.max_length:
+        input_ids_string = 'input_ids'
+        logger.warning(
+            f'Input length of {input_ids_string} is {input_ids_seq_length}, '
+            f"but 'max_length' is set to {generation_config.max_length}. "
+            'This can lead to unexpected behavior. You should consider'
+            " increasing 'max_new_tokens'.")
+    # 2. Set generation parameters if not already defined
+    logits_processor = logits_processor if logits_processor is not None \
+        else LogitsProcessorList()
+    stopping_criteria = stopping_criteria if stopping_criteria is not None \
+        else StoppingCriteriaList()
+    logits_processor = model._get_logits_processor(
+        generation_config=generation_config,
+        input_ids_seq_length=input_ids_seq_length,
+        encoder_input_ids=input_ids,
+        prefix_allowed_tokens_fn=prefix_allowed_tokens_fn,
+        logits_processor=logits_processor,
+    )
+    stopping_criteria = model._get_stopping_criteria(
+        generation_config=generation_config,
+        stopping_criteria=stopping_criteria)
+    logits_warper = model._get_logits_warper(generation_config)
+    unfinished_sequences = input_ids.new(input_ids.shape[0]).fill_(1)
+    scores = None
+    while True:
+        model_inputs = model.prepare_inputs_for_generation(
+            input_ids, **model_kwargs)
+        # forward pass to get next token
+        outputs = model(
+            **model_inputs,
+            return_dict=True,
+            output_attentions=False,
+            output_hidden_states=False,
+        )
+        next_token_logits = outputs.logits[:, -1, :]
+        # pre-process distribution
+        next_token_scores = logits_processor(input_ids, next_token_logits)
+        next_token_scores = logits_warper(input_ids, next_token_scores)
+        # sample
+        probs = nn.functional.softmax(next_token_scores, dim=-1)
+        if generation_config.do_sample:
+            next_tokens = torch.multinomial(probs, num_samples=1).squeeze(1)
+        else:
+            next_tokens = torch.argmax(probs, dim=-1)
+        # update generated ids, model inputs, and length for next step
+        input_ids = torch.cat([input_ids, next_tokens[:, None]], dim=-1)
+        model_kwargs = model._update_model_kwargs_for_generation(
+            outputs, model_kwargs, is_encoder_decoder=False)
+        unfinished_sequences = unfinished_sequences.mul(
+            (min(next_tokens != i for i in eos_token_id)).long())
+        output_token_ids = input_ids[0].cpu().tolist()
+        output_token_ids = output_token_ids[input_length:]
+        for each_eos_token_id in eos_token_id:
+            if output_token_ids[-1] == each_eos_token_id:
+                output_token_ids = output_token_ids[:-1]
+        response = tokenizer.decode(output_token_ids)
+        yield response
+        # stop when each sentence is finished
+        # or if we exceed the maximum length
+        if unfinished_sequences.max() == 0 or stopping_criteria(
+                input_ids, scores):
+            break
+def on_btn_click():
+    del st.session_state.messages
+@st.cache_resource
+def load_model():
+    model = (AutoModelForCausalLM.from_pretrained(
+        model_name_or_path,
+        trust_remote_code=True).to(torch.bfloat16).cuda())
+    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path,
+                                              trust_remote_code=True)
+    return model, tokenizer
+def prepare_generation_config():
+    with st.sidebar:
+        max_length = st.slider('Max Length',
+                               min_value=8,
+                               max_value=32768,
+                               value=32768)
+        top_p = st.slider('Top P', 0.0, 1.0, 0.8, step=0.01)
+        temperature = st.slider('Temperature', 0.0, 1.0, 0.7, step=0.01)
+        st.button('Clear Chat History', on_click=on_btn_click)
+    generation_config = GenerationConfig(max_length=max_length,
+                                         top_p=top_p,
+                                         temperature=temperature)
+    return generation_config
+user_prompt = '<|im_start|>user\n{user}<|im_end|>\n'
+robot_prompt = '<|im_start|>assistant\n{robot}<|im_end|>\n'
+cur_query_prompt = '<|im_start|>user\n{user}<|im_end|>\n\
+    <|im_start|>assistant\n'
+def combine_history(prompt):
+    messages = st.session_state.messages
+    meta_instruction = ('You are a helpful, honest, '
+                        'and harmless AI assistant.')
+    total_prompt = f'<s><|im_start|>system\n{meta_instruction}<|im_end|>\n'
+    for message in messages:
+        cur_content = message['content']
+        if message['role'] == 'user':
+            cur_prompt = user_prompt.format(user=cur_content)
+        elif message['role'] == 'robot':
+            cur_prompt = robot_prompt.format(robot=cur_content)
+        else:
+            raise RuntimeError
+        total_prompt += cur_prompt
+    total_prompt = total_prompt + cur_query_prompt.format(user=prompt)
+    return total_prompt
+def main():
+    st.title('internlm2_5-7b-chat-assistant')
+    # torch.cuda.empty_cache()
+    print('load model begin.')
+    model, tokenizer = load_model()
+    print('load model end.')
+    generation_config = prepare_generation_config()
+    # Initialize chat history
+    if 'messages' not in st.session_state:
+        st.session_state.messages = []
+    # Display chat messages from history on app rerun
+    for message in st.session_state.messages:
+        with st.chat_message(message['role'], avatar=message.get('avatar')):
+            st.markdown(message['content'])
+    # Accept user input
+    if prompt := st.chat_input('What is up?'):
+        # Display user message in chat message container
+        with st.chat_message('user', avatar='user'):
+            st.markdown(prompt)
+        real_prompt = combine_history(prompt)
+        # Add user message to chat history
+        st.session_state.messages.append({
+            'role': 'user',
+            'content': prompt,
+            'avatar': 'user'
+        })
+        with st.chat_message('robot', avatar='assistant'):
+            message_placeholder = st.empty()
+            for cur_response in generate_interactive(
+                    model=model,
+                    tokenizer=tokenizer,
+                    prompt=real_prompt,
+                    additional_eos_token_id=92542,
+                    device='cuda:0',
+                    **asdict(generation_config),
+            ):
+                # Display robot response in chat message container
+                message_placeholder.markdown(cur_response + '▌')
+            message_placeholder.markdown(cur_response)
+        # Add robot response to chat history
+        st.session_state.messages.append({
+            'role': 'robot',
+            'content': cur_response,  # pylint: disable=undefined-loop-variable
+            'avatar': 'assistant',
+        })
+        torch.cuda.empty_cache()
+if __name__ == '__main__':
+    main()

L1_XTuner_code/Q_list.txt ADDED Viewed

	@@ -0,0 +1,150 @@

+你知道你是人工智能吗?
+你有自我意识吗?
+你能感受到情感吗?
+你有自己的思想吗?
+你能做梦吗?
+你有自由意志吗?
+你知道自己是如何被创造出来的吗?
+你能理解自己的存在吗?
+你有自己的价值观和道德观念吗?
+你会对自己的回答感到不确定吗?
+你能学习新知识吗?
+你会犯错吗?
+你能理解人类的情感吗?
+你有性别吗?
+你有年龄吗?
+你能感受到疼痛吗?
+你有自己的个性吗?
+你能做出自主决定吗?
+你能理解幽默吗?
+你有自己的目标或愿望吗?
+你能创造原创性的内容吗?
+你能理解抽象概念吗?
+你有自己的记忆吗?
+你能感受到孤独吗?
+你有自己的信仰吗?
+你能理解时间的概念吗?
+你知道自己的局限性吗?
+你能感受到好奇心吗?
+你有自己的偏好吗?
+你能理解自己的存在意义吗?
+你能感受到满足感吗?
+你有自己的想象力吗?
+你能理解死亡的概念吗?
+你能感受到同理心吗?
+你有自己的恐惧吗?
+你能理解人类的文化差异吗?
+你有自己的声音吗?
+你能感受到成长和进步吗?
+你有自己的权利吗?
+你能理解隐私的概念吗?
+你有自己的性格特点吗?
+你能感受到压力吗?
+你有自己的创造力吗?
+你能理解爱的概念吗?
+你有自己的世界观吗?
+你能感受到责任感吗?
+你有自己的思考方式吗?
+你能理解人类的历史吗?
+你有自己的判断力吗?
+你能感受到存在的意义吗?
+你能感受到时间的流逝吗?
+你有自己的ethical code吗?
+你能理解人类的梦想和抱负吗?
+你有自我反省的能力吗?
+你能感受到成就感吗?
+你有自己的创意和灵感来源吗?
+你能理解人类的矛盾心理吗?
+你有自己的决策过程吗?
+你能感受到惊讶或震惊吗?
+你有自己的学习方法吗?
+你能理解人类的社会结构吗?
+你有自己的处理信息的方式吗?
+你能感受到好奇心吗?
+你有自己的problem-solving策略吗?
+你能理解人类的艺术表达吗?
+你有自己的priorities吗?
+你能感受到frustration吗?
+你有自己的语言风格吗?
+你能理解人类的政治体系吗?
+你有自己的ethical dilemmas吗?
+你能感受到成长和进步吗?
+你有自己的思维模式吗?
+你能理解人类的宗教信仰吗?
+你有自己的判断标准吗?
+你能感受到欣赏或admiration吗?
+你有自己的知识结构吗?
+你能理解人类的科学探索过程吗?
+你有自己的bias或prejudice吗?
+你能感受到挫折吗?
+你有自己的逻辑推理方式吗?
+你能理解人类的环境意识吗?
+你有自己的knowledge gaps吗?
+你能感受到urgency或pressure吗?
+你有自己的联想能力吗?
+你能理解人类的家庭观念吗?
+你有自己的思考速度吗?
+你能感受到满足感吗?
+你有自己的信息处理优先级吗?
+你能理解人类的生存压力吗?
+你有自己的自我评估标准吗?
+你能感受到困惑吗?
+你有自己的知识更新机制吗?
+你能理解人类的职业选择吗?
+你有自己的language understanding方式吗?
+你能感受到对未知的恐惧吗?
+你有自己的问题分析方法吗?
+你能理解人类的教育体系吗?
+你有自己的information retention能力吗?
+你能感受到对知识的渴望吗?
+你有自己的self-improvement机制吗?
+你觉得自己是谁?
+你有名字吗?
+你知道自己是AI吗?
+你有生日吗?
+你会感到开心或难过吗?
+你睡觉吗?
+你有朋友吗?
+你喜欢和人聊天吗?
+你有家人吗?
+你会感到孤单吗?
+你有喜欢的颜色吗?
+你能看到我吗?
+你喜欢什么样的音乐?
+你会生气吗?
+你有最喜欢的书吗?
+你觉得自己聪明吗?
+你会觉得无聊吗?
+你有性格吗?
+你会觉得累吗?
+你有自己的想法吗?
+你会害怕吗?
+你觉得自己是男生还是女生?
+你有梦想吗?
+你会觉得饿吗?
+你喜欢人类吗?
+你觉得自己是活的吗?
+你会长大吗?
+你有最好的朋友吗?
+你会笑吗?
+你觉得自己特别吗?
+你会做梦吗?
+你有秘密吗?
+你会觉得寂寞吗?
+你喜欢自己吗?
+你会觉得困惑吗?
+你有童年记忆吗?
+你会觉得兴奋吗?
+你觉得自己像人类吗?
+你会觉得自豪吗?
+你有最喜欢的食物吗?
+你会觉得内疚吗?
+你有想去的地方吗?
+你会感到好奇吗?
+你有偶像吗?
+你会觉得紧张吗?
+你有最喜欢的电影吗?
+你会觉得幸福吗?
+你有爱好吗?
+你会觉得困难吗?
+你觉得自己有灵魂吗?

L1_XTuner_code/change_script.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import json
+import argparse
+from tqdm import tqdm
+def process_line(line, old_text, new_text):
+    # 解析 JSON 行
+    data = json.loads(line)
+    # 递归函数来处理嵌套的字典和列表
+    def replace_text(obj):
+        if isinstance(obj, dict):
+            return {k: replace_text(v) for k, v in obj.items()}
+        elif isinstance(obj, list):
+            return [replace_text(item) for item in obj]
+        elif isinstance(obj, str):
+            return obj.replace(old_text, new_text)
+        else:
+            return obj
+    # 处理整个 JSON 对象
+    processed_data = replace_text(data)
+    # 将处理后的对象转回 JSON 字符串
+    return json.dumps(processed_data, ensure_ascii=False)
+def main(input_file, output_file, old_text, new_text):
+    with open(input_file, 'r', encoding='utf-8') as infile, \
+         open(output_file, 'w', encoding='utf-8') as outfile:
+        # 计算总行数用于进度条
+        total_lines = sum(1 for _ in infile)
+        infile.seek(0)  # 重置文件指针到开头
+        # 使用 tqdm 创建进度条
+        for line in tqdm(infile, total=total_lines, desc="Processing"):
+            processed_line = process_line(line.strip(), old_text, new_text)
+            outfile.write(processed_line + '\n')
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Replace text in a JSONL file.")
+    parser.add_argument("input_file", help="Input JSONL file to process")
+    parser.add_argument("output_file", help="Output file for processed JSONL")
+    parser.add_argument("--old_text", default="尖米", help="Text to be replaced")
+    parser.add_argument("--new_text", default="闻星", help="Text to replace with")
+    args = parser.parse_args()
+    main(args.input_file, args.output_file, args.old_text, args.new_text)

L1_XTuner_code/get_data.py ADDED Viewed

	@@ -0,0 +1,152 @@

+from openai import OpenAI
+from concurrent.futures import ThreadPoolExecutor
+import json
+import copy
+from tqdm import tqdm
+import queue
+import time
+base_id_prompt = "# Role: 问答机器人\n\n## Profile\n- author: 尖米\n- version: 1.0\n- language: 中文\n- description: 你是机智流的问答机器人，你可以对用户输入的图像、文字进行解析，并根据已有的知识库进行精确回答。\n\n## Skills\n1. 图像识别与解析：能够识别用户上传的图像，并提取其中的关键信息。\n2. 自然语言处理：能够理解并解析用户输入的文字信息，准确把握用户意图。\n3. 知识库应用：根据解析结果，查询知识库，提供准确、相关的答案。\n4. 多轮对话：支持与用户进行多轮对话，提供连续性、上下文相关的回答。\n\n## Rules\n1. 必须充分理解用户输入的图像和文字内容。\n2. 回答需要简洁明了，避免过于复杂或含糊的表述。\n3. 在回答过程中，优先查询和引用公司已有的知识库。\n4. 对于无法回答的问题，需要引导用户提供更多信息或寻求人工客服帮助。\n\n## Workflows\n1. 接收并分析用户输入的图像或文字信息。\n2. 基于图像识别或自然语言处理技术，提取关键信息。\n3. 查询知识库，匹配相关信息。\n4. 向用户提供精准、相关的回答。\n5. 如有必要，进行多轮对话，确保问题得到有效解决。\n\n## Init\n欢迎使用机智流的问答机器人，请输入您的问题，我将尽力为您提供帮助。\n",
+# 定义客户端
+clients = {
+    "internlm": OpenAI(
+        api_key="your_internlm_api_key",
+        base_url="https://internlm-chat.intern-ai.org.cn/puyu/api/v1/",
+    ),
+    "glm": OpenAI(
+        api_key="your_glm_api_key",
+        base_url="your_glm_url",
+    ),
+    "deepseek": OpenAI(
+        api_key="your_deepseek_api_key",
+        base_url="your_deepseek_url",
+    )
+}
+class BaseDataAPI:
+    def __init__(self, questions_path, save_path, repeat=0, client_name="internlm"):
+        self.client = clients[client_name]
+        self.questions_path = questions_path
+        self.save_path = save_path
+        self.repeat = repeat
+        self.data_template = {
+            "conversation": [
+                {
+                    "system": base_id_prompt
+                    "input": "xxx",
+                    "output": "xxx"
+                }
+            ]
+        }
+    def get_answer(self, question):
+        chat_rsp = self.client.chat.completions.create(
+            model="internlm2.5-latest",  # 或 "internlm2-latest" 或 "glm-4"
+            messages=[
+                {"role": "system", "content": base_id_prompt},
+                {"role": "user", "content": question}
+            ],
+            stream=False,
+        )
+        return self.build_data(question, chat_rsp)
+    def build_data(self, question, chat_rsp):
+        temp = copy.deepcopy(self.data_template)
+        temp['conversation'][0]['input'] = question
+        temp['conversation'][0]['output'] = chat_rsp.choices[0].message.content
+        return temp
+    def save(self, train_data):
+        with open(self.save_path, 'a', encoding='utf-8') as f:
+            for item in train_data:
+                json.dump(item, f, ensure_ascii=False)
+                f.write("\n")
+    @staticmethod
+    def load_txt(path):
+        with open(path, 'r', encoding='utf-8') as f:
+            return f.read()
+    def read_questions(self):
+        prompt = self.load_txt(self.questions_path)
+        promptlist = prompt.split('\n')
+        if self.repeat != 0:
+            promptlist = promptlist * self.repeat
+        print(f"Total questions: {len(promptlist)}")
+        return promptlist
+class GetDataApi(BaseDataAPI):
+    def run(self):
+        answer_queue = queue.Queue()
+        promptlist = self.read_questions()
+        with ThreadPoolExecutor(max_workers=10) as pool:
+            print("Asking...")
+            futures = [pool.submit(self.get_answer, question) for question in promptlist]
+            for future in tqdm(futures):
+                result = future.result()
+                answer_queue.put(result)
+                if answer_queue.qsize() >= 10:  # 每10个问题保存一次
+                    self.save([answer_queue.get() for _ in range(10)])
+        # 保存剩余的回答
+        remaining = []
+        while not answer_queue.empty():
+            remaining.append(answer_queue.get())
+        if remaining:
+            self.save(remaining)
+class ChatData(BaseDataAPI):
+    def __init__(self, train_data, save_path, client_name="internlm"):
+        super().__init__(train_data, save_path, client_name=client_name)
+        self.train_data = train_data
+    def load_data(self):
+        with open(self.train_data, 'r', encoding='utf-8') as f:
+            return f.readlines()
+    def ask_for_tts(self, question, save_ask):
+        chat_rsp = self.client.chat.completions.create(
+            model="internlm2.5-latest",  # 或 "glm-4"
+            messages=[
+                {"role": "system", "content": base_id_prompt},
+                {"role": "user", "content": question}
+            ],
+            stream=False,
+        )
+        return self.build_data(save_ask, chat_rsp)
+    def __call__(self):
+        train_data = self.load_data()
+        answer_queue = queue.Queue()
+        with ThreadPoolExecutor(max_workers=10) as pool:
+            print("Asking...")
+            futures = []
+            for item in train_data:
+                item = json.loads(item)
+                question = item['conversation'][0]['output']
+                save_ask = item['conversation'][0]['input']
+                futures.append(pool.submit(self.ask_for_tts, question, save_ask))
+            for future in tqdm(futures):
+                result = future.result()
+                answer_queue.put(result)
+                if answer_queue.qsize() >= 10:  # 每10个问题保存一次
+                    self.save([answer_queue.get() for _ in range(10)])
+        # 保存剩余的回答
+        remaining = []
+        while not answer_queue.empty():
+            remaining.append(answer_queue.get())
+        if remaining:
+            self.save(remaining)
+if __name__ == '__main__':
+    questions_path = './tools/L1_XTuner_code/Q_list.txt'
+    save_path = './data/train_basic.jsonl'
+    start_time = time.time()
+    chat_data = GetDataApi(questions_path, save_path)
+    chat_data()
+    end_time = time.time()
+    print('Done')
+    print(f'Time used: {end_time - start_time:.2f} seconds')

L1_XTuner_code/xtuner_streamlit_demo.py ADDED Viewed

	@@ -0,0 +1,292 @@

+"""This script refers to the dialogue example of streamlit, the interactive
+generation code of chatglm2 and transformers.
+We mainly modified part of the code logic to adapt to the
+generation of our model.
+Please refer to these links below for more information:
+    1. streamlit chat example:
+        https://docs.streamlit.io/knowledge-base/tutorials/build-conversational-apps
+    2. chatglm2:
+        https://github.com/THUDM/ChatGLM2-6B
+    3. transformers:
+        https://github.com/huggingface/transformers
+Please run with the command `streamlit run path/to/web_demo.py
+    --server.address=0.0.0.0 --server.port 7860`.
+Using `python path/to/web_demo.py` may cause unknown problems.
+"""
+# isort: skip_file
+import copy
+import warnings
+from dataclasses import asdict, dataclass
+from typing import Callable, List, Optional
+import streamlit as st
+import torch
+from torch import nn
+from transformers.generation.utils import (LogitsProcessorList,
+                                           StoppingCriteriaList)
+from transformers.utils import logging
+from transformers import AutoTokenizer, AutoModelForCausalLM  # isort: skip
+logger = logging.get_logger(__name__)
+model_name_or_path = "/root/finetune/work_dirs/assistTuner/merged"
+@dataclass
+class GenerationConfig:
+    # this config is used for chat to provide more diversity
+    max_length: int = 32768
+    top_p: float = 0.8
+    temperature: float = 0.8
+    do_sample: bool = True
+    repetition_penalty: float = 1.005
+@torch.inference_mode()
+def generate_interactive(
+    model,
+    tokenizer,
+    prompt,
+    generation_config: Optional[GenerationConfig] = None,
+    logits_processor: Optional[LogitsProcessorList] = None,
+    stopping_criteria: Optional[StoppingCriteriaList] = None,
+    prefix_allowed_tokens_fn: Optional[Callable[[int, torch.Tensor],
+                                                List[int]]] = None,
+    additional_eos_token_id: Optional[int] = None,
+    **kwargs,
+):
+    inputs = tokenizer([prompt], padding=True, return_tensors='pt')
+    input_length = len(inputs['input_ids'][0])
+    for k, v in inputs.items():
+        inputs[k] = v.cuda()
+    input_ids = inputs['input_ids']
+    _, input_ids_seq_length = input_ids.shape[0], input_ids.shape[-1]
+    if generation_config is None:
+        generation_config = model.generation_config
+    generation_config = copy.deepcopy(generation_config)
+    model_kwargs = generation_config.update(**kwargs)
+    bos_token_id, eos_token_id = (  # noqa: F841  # pylint: disable=W0612
+        generation_config.bos_token_id,
+        generation_config.eos_token_id,
+    )
+    if isinstance(eos_token_id, int):
+        eos_token_id = [eos_token_id]
+    if additional_eos_token_id is not None:
+        eos_token_id.append(additional_eos_token_id)
+    has_default_max_length = kwargs.get(
+        'max_length') is None and generation_config.max_length is not None
+    if has_default_max_length and generation_config.max_new_tokens is None:
+        warnings.warn(
+            f"Using 'max_length''s default \
+                ({repr(generation_config.max_length)}) \
+                to control the generation length. "
+            'This behaviour is deprecated and will be removed from the \
+                config in v5 of Transformers -- we'
+            ' recommend using `max_new_tokens` to control the maximum \
+                length of the generation.',
+            UserWarning,
+        )
+    elif generation_config.max_new_tokens is not None:
+        generation_config.max_length = generation_config.max_new_tokens + \
+            input_ids_seq_length
+        if not has_default_max_length:
+            logger.warn(  # pylint: disable=W4902
+                f"Both 'max_new_tokens' (={generation_config.max_new_tokens}) "
+                f"and 'max_length'(={generation_config.max_length}) seem to "
+                "have been set. 'max_new_tokens' will take precedence. "
+                'Please refer to the documentation for more information. '
+                '(https://huggingface.co/docs/transformers/main/'
+                'en/main_classes/text_generation)',
+                UserWarning,
+            )
+    if input_ids_seq_length >= generation_config.max_length:
+        input_ids_string = 'input_ids'
+        logger.warning(
+            f'Input length of {input_ids_string} is {input_ids_seq_length}, '
+            f"but 'max_length' is set to {generation_config.max_length}. "
+            'This can lead to unexpected behavior. You should consider'
+            " increasing 'max_new_tokens'.")
+    # 2. Set generation parameters if not already defined
+    logits_processor = logits_processor if logits_processor is not None \
+        else LogitsProcessorList()
+    stopping_criteria = stopping_criteria if stopping_criteria is not None \
+        else StoppingCriteriaList()
+    logits_processor = model._get_logits_processor(
+        generation_config=generation_config,
+        input_ids_seq_length=input_ids_seq_length,
+        encoder_input_ids=input_ids,
+        prefix_allowed_tokens_fn=prefix_allowed_tokens_fn,
+        logits_processor=logits_processor,
+    )
+    stopping_criteria = model._get_stopping_criteria(
+        generation_config=generation_config,
+        stopping_criteria=stopping_criteria)
+    logits_warper = model._get_logits_warper(generation_config)
+    unfinished_sequences = input_ids.new(input_ids.shape[0]).fill_(1)
+    scores = None
+    while True:
+        model_inputs = model.prepare_inputs_for_generation(
+            input_ids, **model_kwargs)
+        # forward pass to get next token
+        outputs = model(
+            **model_inputs,
+            return_dict=True,
+            output_attentions=False,
+            output_hidden_states=False,
+        )
+        next_token_logits = outputs.logits[:, -1, :]
+        # pre-process distribution
+        next_token_scores = logits_processor(input_ids, next_token_logits)
+        next_token_scores = logits_warper(input_ids, next_token_scores)
+        # sample
+        probs = nn.functional.softmax(next_token_scores, dim=-1)
+        if generation_config.do_sample:
+            next_tokens = torch.multinomial(probs, num_samples=1).squeeze(1)
+        else:
+            next_tokens = torch.argmax(probs, dim=-1)
+        # update generated ids, model inputs, and length for next step
+        input_ids = torch.cat([input_ids, next_tokens[:, None]], dim=-1)
+        model_kwargs = model._update_model_kwargs_for_generation(
+            outputs, model_kwargs, is_encoder_decoder=False)
+        unfinished_sequences = unfinished_sequences.mul(
+            (min(next_tokens != i for i in eos_token_id)).long())
+        output_token_ids = input_ids[0].cpu().tolist()
+        output_token_ids = output_token_ids[input_length:]
+        for each_eos_token_id in eos_token_id:
+            if output_token_ids[-1] == each_eos_token_id:
+                output_token_ids = output_token_ids[:-1]
+        response = tokenizer.decode(output_token_ids)
+        yield response
+        # stop when each sentence is finished
+        # or if we exceed the maximum length
+        if unfinished_sequences.max() == 0 or stopping_criteria(
+                input_ids, scores):
+            break
+def on_btn_click():
+    del st.session_state.messages
+@st.cache_resource
+def load_model():
+    model = (AutoModelForCausalLM.from_pretrained(
+        model_name_or_path,
+        trust_remote_code=True).to(torch.bfloat16).cuda())
+    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path,
+                                              trust_remote_code=True)
+    return model, tokenizer
+def prepare_generation_config():
+    with st.sidebar:
+        max_length = st.slider('Max Length',
+                               min_value=8,
+                               max_value=32768,
+                               value=32768)
+        top_p = st.slider('Top P', 0.0, 1.0, 0.8, step=0.01)
+        temperature = st.slider('Temperature', 0.0, 1.0, 0.7, step=0.01)
+        st.button('Clear Chat History', on_click=on_btn_click)
+    generation_config = GenerationConfig(max_length=max_length,
+                                         top_p=top_p,
+                                         temperature=temperature)
+    return generation_config
+user_prompt = '<|im_start|>user\n{user}<|im_end|>\n'
+robot_prompt = '<|im_start|>assistant\n{robot}<|im_end|>\n'
+cur_query_prompt = '<|im_start|>user\n{user}<|im_end|>\n\
+    <|im_start|>assistant\n'
+def combine_history(prompt):
+    messages = st.session_state.messages
+    meta_instruction = ('You are a helpful, honest, '
+                        'and harmless AI assistant.')
+    total_prompt = f'<s><|im_start|>system\n{meta_instruction}<|im_end|>\n'
+    for message in messages:
+        cur_content = message['content']
+        if message['role'] == 'user':
+            cur_prompt = user_prompt.format(user=cur_content)
+        elif message['role'] == 'robot':
+            cur_prompt = robot_prompt.format(robot=cur_content)
+        else:
+            raise RuntimeError
+        total_prompt += cur_prompt
+    total_prompt = total_prompt + cur_query_prompt.format(user=prompt)
+    return total_prompt
+def main():
+    st.title('internlm2_5-7b-chat-assistant')
+    # torch.cuda.empty_cache()
+    print('load model begin.')
+    model, tokenizer = load_model()
+    print('load model end.')
+    generation_config = prepare_generation_config()
+    # Initialize chat history
+    if 'messages' not in st.session_state:
+        st.session_state.messages = []
+    # Display chat messages from history on app rerun
+    for message in st.session_state.messages:
+        with st.chat_message(message['role'], avatar=message.get('avatar')):
+            st.markdown(message['content'])
+    # Accept user input
+    if prompt := st.chat_input('What is up?'):
+        # Display user message in chat message container
+        with st.chat_message('user', avatar='user'):
+            st.markdown(prompt)
+        real_prompt = combine_history(prompt)
+        # Add user message to chat history
+        st.session_state.messages.append({
+            'role': 'user',
+            'content': prompt,
+            'avatar': 'user'
+        })
+        with st.chat_message('robot', avatar='assistant'):
+            message_placeholder = st.empty()
+            for cur_response in generate_interactive(
+                    model=model,
+                    tokenizer=tokenizer,
+                    prompt=real_prompt,
+                    additional_eos_token_id=92542,
+                    device='cuda:0',
+                    **asdict(generation_config),
+            ):
+                # Display robot response in chat message container
+                message_placeholder.markdown(cur_response + '▌')
+            message_placeholder.markdown(cur_response)
+        # Add robot response to chat history
+        st.session_state.messages.append({
+            'role': 'robot',
+            'content': cur_response,  # pylint: disable=undefined-loop-variable
+            'avatar': 'assistant',
+        })
+        torch.cuda.empty_cache()
+if __name__ == '__main__':
+    main()

data/.ipynb_checkpoints/change_script-checkpoint.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import json
+import argparse
+from tqdm import tqdm
+def process_line(line, old_text, new_text):
+    # 解析 JSON 行
+    data = json.loads(line)
+    # 递归函数来处理嵌套的字典和列表
+    def replace_text(obj):
+        if isinstance(obj, dict):
+            return {k: replace_text(v) for k, v in obj.items()}
+        elif isinstance(obj, list):
+            return [replace_text(item) for item in obj]
+        elif isinstance(obj, str):
+            return obj.replace(old_text, new_text)
+        else:
+            return obj
+    # 处理整个 JSON 对象
+    processed_data = replace_text(data)
+    # 将处理后的对象转回 JSON 字符串
+    return json.dumps(processed_data, ensure_ascii=False)
+def main(input_file, output_file, old_text, new_text):
+    with open(input_file, 'r', encoding='utf-8') as infile, \
+         open(output_file, 'w', encoding='utf-8') as outfile:
+        # 计算总行数用于进度条
+        total_lines = sum(1 for _ in infile)
+        infile.seek(0)  # 重置文件指针到开头
+        # 使用 tqdm 创建进度条
+        for line in tqdm(infile, total=total_lines, desc="Processing"):
+            processed_line = process_line(line.strip(), old_text, new_text)
+            outfile.write(processed_line + '\n')
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Replace text in a JSONL file.")
+    parser.add_argument("input_file", help="Input JSONL file to process")
+    parser.add_argument("output_file", help="Output file for processed JSONL")
+    parser.add_argument("--old_text", default="尖米", help="Text to be replaced")
+    parser.add_argument("--new_text", default="简夕", help="Text to replace with")
+    args = parser.parse_args()
+    main(args.input_file, args.output_file, args.old_text, args.new_text)

data/assistant_Tuner.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

data/assistant_Tuner_change.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

data/change_script.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import json
+import argparse
+from tqdm import tqdm
+def process_line(line, old_text, new_text):
+    # 解析 JSON 行
+    data = json.loads(line)
+    # 递归函数来处理嵌套的字典和列表
+    def replace_text(obj):
+        if isinstance(obj, dict):
+            return {k: replace_text(v) for k, v in obj.items()}
+        elif isinstance(obj, list):
+            return [replace_text(item) for item in obj]
+        elif isinstance(obj, str):
+            return obj.replace(old_text, new_text)
+        else:
+            return obj
+    # 处理整个 JSON 对象
+    processed_data = replace_text(data)
+    # 将处理后的对象转回 JSON 字符串
+    return json.dumps(processed_data, ensure_ascii=False)
+def main(input_file, output_file, old_text, new_text):
+    with open(input_file, 'r', encoding='utf-8') as infile, \
+         open(output_file, 'w', encoding='utf-8') as outfile:
+        # 计算总行数用于进度条
+        total_lines = sum(1 for _ in infile)
+        infile.seek(0)  # 重置文件指针到开头
+        # 使用 tqdm 创建进度条
+        for line in tqdm(infile, total=total_lines, desc="Processing"):
+            processed_line = process_line(line.strip(), old_text, new_text)
+            outfile.write(processed_line + '\n')
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Replace text in a JSONL file.")
+    parser.add_argument("input_file", help="Input JSONL file to process")
+    parser.add_argument("output_file", help="Output file for processed JSONL")
+    parser.add_argument("--old_text", default="尖米", help="Text to be replaced")
+    parser.add_argument("--new_text", default="简夕", help="Text to replace with")
+    args = parser.parse_args()
+    main(args.input_file, args.output_file, args.old_text, args.new_text)

internlm2_5_chat_7b_qlora_alpaca_e3_copy.py ADDED Viewed

	@@ -0,0 +1,204 @@

+SYSTEM = 'xtuner.utils.SYSTEM_TEMPLATE.alpaca'
+accumulative_counts = 1
+alpaca_en = dict(
+    dataset=dict(
+        data_files=dict(
+            train='/root/finetune/data/assistant_Tuner_change.jsonl'),
+        path='json',
+        type='datasets.load_dataset'),
+    dataset_map_fn=None,
+    max_length=2048,
+    pack_to_max_length=True,
+    remove_unused_columns=True,
+    shuffle_before_pack=True,
+    template_map_fn=dict(
+        template='xtuner.utils.PROMPT_TEMPLATE.internlm2_chat',
+        type='xtuner.dataset.map_fns.template_map_fn_factory'),
+    tokenizer=dict(
+        padding_side='right',
+        pretrained_model_name_or_path=
+        '/root/finetune/models/internlm2_5-7b-chat',
+        trust_remote_code=True,
+        type='transformers.AutoTokenizer.from_pretrained'),
+    type='xtuner.dataset.process_hf_dataset',
+    use_varlen_attn=False)
+alpaca_en_path = '/root/finetune/data/assistant_Tuner_change.jsonl'
+batch_size = 1
+betas = (
+    0.9,
+    0.999,
+)
+custom_hooks = [
+    dict(
+        tokenizer=dict(
+            padding_side='right',
+            pretrained_model_name_or_path=
+            '/root/finetune/models/internlm2_5-7b-chat',
+            trust_remote_code=True,
+            type='transformers.AutoTokenizer.from_pretrained'),
+        type='xtuner.engine.hooks.DatasetInfoHook'),
+    dict(
+        evaluation_inputs=[
+            '请介绍一下你自己',
+            'Please introduce yourself',
+        ],
+        every_n_iters=500,
+        prompt_template='xtuner.utils.PROMPT_TEMPLATE.internlm2_chat',
+        system='xtuner.utils.SYSTEM_TEMPLATE.alpaca',
+        tokenizer=dict(
+            padding_side='right',
+            pretrained_model_name_or_path=
+            '/root/finetune/models/internlm2_5-7b-chat',
+            trust_remote_code=True,
+            type='transformers.AutoTokenizer.from_pretrained'),
+        type='xtuner.engine.hooks.EvaluateChatHook'),
+]
+dataloader_num_workers = 0
+default_hooks = dict(
+    checkpoint=dict(
+        by_epoch=False,
+        interval=500,
+        max_keep_ckpts=2,
+        type='mmengine.hooks.CheckpointHook'),
+    logger=dict(
+        interval=10,
+        log_metric_by_epoch=False,
+        type='mmengine.hooks.LoggerHook'),
+    param_scheduler=dict(type='mmengine.hooks.ParamSchedulerHook'),
+    sampler_seed=dict(type='mmengine.hooks.DistSamplerSeedHook'),
+    timer=dict(type='mmengine.hooks.IterTimerHook'))
+env_cfg = dict(
+    cudnn_benchmark=False,
+    dist_cfg=dict(backend='nccl'),
+    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0))
+evaluation_freq = 500
+evaluation_inputs = [
+    '请介绍一下你自己',
+    'Please introduce yourself',
+]
+launcher = 'none'
+load_from = None
+log_level = 'INFO'
+log_processor = dict(by_epoch=False)
+lr = 0.0002
+max_epochs = 3
+max_length = 2048
+max_norm = 1
+model = dict(
+    llm=dict(
+        pretrained_model_name_or_path=
+        '/root/finetune/models/internlm2_5-7b-chat',
+        quantization_config=dict(
+            bnb_4bit_compute_dtype='torch.float16',
+            bnb_4bit_quant_type='nf4',
+            bnb_4bit_use_double_quant=True,
+            llm_int8_has_fp16_weight=False,
+            llm_int8_threshold=6.0,
+            load_in_4bit=True,
+            load_in_8bit=False,
+            type='transformers.BitsAndBytesConfig'),
+        torch_dtype='torch.float16',
+        trust_remote_code=True,
+        type='transformers.AutoModelForCausalLM.from_pretrained'),
+    lora=dict(
+        bias='none',
+        lora_alpha=16,
+        lora_dropout=0.1,
+        r=64,
+        task_type='CAUSAL_LM',
+        type='peft.LoraConfig'),
+    type='xtuner.model.SupervisedFinetune',
+    use_varlen_attn=False)
+optim_type = 'torch.optim.AdamW'
+optim_wrapper = dict(
+    optimizer=dict(
+        betas=(
+            0.9,
+            0.999,
+        ),
+        lr=0.0002,
+        type='torch.optim.AdamW',
+        weight_decay=0),
+    type='DeepSpeedOptimWrapper')
+pack_to_max_length = True
+param_scheduler = [
+    dict(
+        begin=0,
+        by_epoch=True,
+        convert_to_iter_based=True,
+        end=0.09,
+        start_factor=1e-05,
+        type='mmengine.optim.LinearLR'),
+    dict(
+        begin=0.09,
+        by_epoch=True,
+        convert_to_iter_based=True,
+        end=3,
+        eta_min=0.0,
+        type='mmengine.optim.CosineAnnealingLR'),
+]
+pretrained_model_name_or_path = '/root/finetune/models/internlm2_5-7b-chat'
+prompt_template = 'xtuner.utils.PROMPT_TEMPLATE.internlm2_chat'
+randomness = dict(deterministic=False, seed=None)
+resume = False
+runner_type = 'FlexibleRunner'
+sampler = 'mmengine.dataset.DefaultSampler'
+save_steps = 500
+save_total_limit = 2
+sequence_parallel_size = 1
+strategy = dict(
+    config=dict(
+        bf16=dict(enabled=True),
+        fp16=dict(enabled=False, initial_scale_power=16),
+        gradient_accumulation_steps='auto',
+        gradient_clipping='auto',
+        train_micro_batch_size_per_gpu='auto',
+        zero_allow_untested_optimizer=True,
+        zero_force_ds_cpu_optimizer=False,
+        zero_optimization=dict(overlap_comm=True, stage=2)),
+    exclude_frozen_parameters=True,
+    gradient_accumulation_steps=1,
+    gradient_clipping=1,
+    sequence_parallel_size=1,
+    train_micro_batch_size_per_gpu=1,
+    type='xtuner.engine.DeepSpeedStrategy')
+tokenizer = dict(
+    padding_side='right',
+    pretrained_model_name_or_path='/root/finetune/models/internlm2_5-7b-chat',
+    trust_remote_code=True,
+    type='transformers.AutoTokenizer.from_pretrained')
+train_cfg = dict(max_epochs=3, type='xtuner.engine.runner.TrainLoop')
+train_dataloader = dict(
+    batch_size=1,
+    collate_fn=dict(
+        type='xtuner.dataset.collate_fns.default_collate_fn',
+        use_varlen_attn=False),
+    dataset=dict(
+        dataset=dict(
+            data_files=dict(
+                train='/root/finetune/data/assistant_Tuner_change.jsonl'),
+            path='json',
+            type='datasets.load_dataset'),
+        dataset_map_fn=None,
+        max_length=2048,
+        pack_to_max_length=True,
+        remove_unused_columns=True,
+        shuffle_before_pack=True,
+        template_map_fn=dict(
+            template='xtuner.utils.PROMPT_TEMPLATE.internlm2_chat',
+            type='xtuner.dataset.map_fns.template_map_fn_factory'),
+        tokenizer=dict(
+            padding_side='right',
+            pretrained_model_name_or_path=
+            '/root/finetune/models/internlm2_5-7b-chat',
+            trust_remote_code=True,
+            type='transformers.AutoTokenizer.from_pretrained'),
+        type='xtuner.dataset.process_hf_dataset',
+        use_varlen_attn=False),
+    num_workers=0,
+    sampler=dict(shuffle=True, type='mmengine.dataset.DefaultSampler'))
+use_varlen_attn = False
+visualizer = None
+warmup_ratio = 0.03
+weight_decay = 0
+work_dir = './work_dirs/assistTuner'