Spaces:

ASLP-lab
/

OSUM

Running on Zero

File size: 33,785 Bytes

568e264

import logging
import os

import torchaudio
import torch
from peft import LoraConfig, TaskType, get_peft_model
from torch import nn
from torch.nn import CrossEntropyLoss
from transformers import AutoModelForCausalLM, AutoTokenizer

from wenet.transformer.encoder import TransformerEncoder
from wenet.llm_asr.utils4llmasr import *
from gxl_ai_utils.utils import utils_file

from wenet.llm_asr.downsampler import get_downsampler, LyzConv1dSubsampling
from wenet.utils.mask import make_pad_mask


# import torch_npu
# from torch_npu.contrib import transfer_to_npu

# from msprobe.pytorch import seed_all,PrecisionDebugger

class LLMASR_Model(nn.Module):
    def __init__(self,
                 encoder,
                 encoder_output_dim,
                 llm_path,
                 lora=True, lora_alpha=32, lora_rank=8, lora_dropout=0.1,
                 prompt_pattern="{}：<Speech><SpeechHere></Speech>",
                 # "USER: <Speech><SpeechHere></Speech> {}\nASSISTANT:"
                 is_inference=False,
                 downsample_rate=1,
                 llm_embed_dim=4096,
                 task_num=2,
                 adapter_type='lyz',
                 speech_token_num=0,
                 train_speech_out=False):
        """"""
        super().__init__()
        self.downsample_rate = downsample_rate

        self.encoder = encoder
        self.ln_speech = nn.LayerNorm(encoder_output_dim)

        # 连接层, 51.6M
        if adapter_type == 'gxl':
            self.speech_transformer = TransformerEncoder(
                input_size=encoder_output_dim,
                output_size=encoder_output_dim,
                attention_heads=4,
                linear_units=2560,
                num_blocks=4,
                dropout_rate=0.1,
                positional_dropout_rate=0.1,
                attention_dropout_rate=0.0,
                input_layer="linear",
                pos_enc_layer_type="abs_pos",
                normalize_before=True
            )
        else:
            self.speech_transformer = None

        # LLM,
        self.low_resource = False
        if not self.low_resource:
            self.llama_model = AutoModelForCausalLM.from_pretrained(
                llm_path,
                # torch_dtype=torch.float32 if is_inference else torch.float16,
                torch_dtype=torch.bfloat16,
                trust_remote_code=True,
                output_hidden_states=True,
            )
        else:
            self.llama_model = AutoModelForCausalLM.from_pretrained(
                llm_path,
                torch_dtype=torch.float16,
                load_in_8bit=True,
                device_map="auto",
                trust_remote_code=True,
                output_hidden_states=True,
            )

        self.max_length = 300
        self.min_length = 1
        self.num_beams = 4
        self.do_sample = True
        self.top_p = 0.0
        self.top_k = 0
        self.repetition_penalty = 1.05
        self.length_penalty = 1.0
        self.temperature = 1.0
        self.IGNORE_ID = -100

        # lora
        self.lora = lora
        if lora:
            utils_file.logging_limit_print("耿雪龙： 使用lora了")
            #target_modules = ['w_pack', 'o_proj', 'gate_proj', 'down_proj']
            target_modules = ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'down_proj']
            if is_inference:
                self.peft_config = LoraConfig(
                    task_type=TaskType.CAUSAL_LM,
                    inference_mode=True,
                    r=lora_rank,
                    lora_alpha=lora_alpha,
                    lora_dropout=lora_dropout,
                    target_modules=target_modules,
                )
            else:
                self.peft_config = LoraConfig(
                    task_type=TaskType.CAUSAL_LM,
                    inference_mode=False,
                    r=lora_rank,
                    lora_alpha=lora_alpha,
                    lora_dropout=lora_dropout,
                    target_modules=target_modules,
                )
            self.llama_model = get_peft_model(self.llama_model, self.peft_config)

        # tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(
            llm_path, use_fast=False, trust_remote_code=True)
        """
        设置分词器的pad_token和padding的方向。
        """
        self.tokenizer.add_special_tokens({'pad_token': '[PAD]'})
        self.tokenizer.padding_side = "right"

        if hasattr(self.llama_model.config, 'hidden_size'):
            utils_file.logging_limit_print(
                f"self.llama_model.config.hidden_size: {self.llama_model.config.hidden_size}")
            if adapter_type == 'lyz':
                self.down_sample_2 = LyzConv1dSubsampling(encoder_output_dim, self.llama_model.config.hidden_size)
            elif adapter_type == 'gxl':
                self.down_sample_2 = get_downsampler(downsample_rate, encoder_output_dim)
                self.speech_llama_proj = nn.Linear(
                    encoder_output_dim, self.llama_model.config.hidden_size)
            # self.task_embeddings = torch.nn.Embedding(task_num, self.llama_model.config.hidden_size)
        else:
            raise NotImplementedError("self.llama_model.config.hidden_size not exist")

        self.embed_tokens = self.llama_model.model.model.embed_tokens if self.lora else self.llama_model.model.embed_tokens
        self.lm_head = self.llama_model.model.lm_head if self.lora else self.llama_model.lm_head

        self.speech_token_num = speech_token_num
        # init speech token module
        if speech_token_num > 0:
            utils_file.logging_info(f'耿雪龙： 进行语音token生成任务， speech_token_num: {speech_token_num}')
            self.speech_token_emded = torch.nn.Embedding(speech_token_num + 2, self.llama_model.config.hidden_size)
            self.speaker_head = torch.nn.Linear(self.llama_model.config.hidden_size, speech_token_num)
        else:
            # 不做任何处理
            self.speaker_head = nn.Identity()
            self.speech_token_emded = nn.Identity()
        self.train_speech_out = train_speech_out
        utils_file.logging_info(f'耿雪龙： 是否进行语音输出训练：{self.train_speech_out}')
        self.loss_fct = CrossEntropyLoss(reduction='mean')
        # self.debugger = PrecisionDebugger(config_path='./do_align_test/config_gpu.json', model=self.encoder)

    def get_label_embedding(self, labels, labels_lengths):
        """"""
        labels_pad_mask = make_pad_mask(labels_lengths)  # B, L
        labels = labels.masked_fill(labels_pad_mask, 0)
        labels_embeds = self.embed_tokens(labels)
        labels_target = labels.masked_fill(labels_pad_mask, self.IGNORE_ID)  # B, L
        labels_mask = ~labels_pad_mask
        return labels_embeds, labels_target, labels_mask

    def get_speech_token_label_embedding(self, speech_token_labels, speech_tokens_length):
        """"""
        speech_tokens_pad_mask = make_pad_mask(speech_tokens_length)  # B, L
        speech_token_labels = speech_token_labels.masked_fill(speech_tokens_pad_mask, 0)
        speech_token_labels_embeds = self.speech_token_emded(speech_token_labels)
        utils_file.logging_limit_print(f'进行speech_token_labels修改，修改前 speech_token_labels',
                                       speech_token_labels.shape, speech_token_labels[0][-1], speech_token_labels[0][0])
        speech_token_labels = speech_token_labels + 152064
        utils_file.logging_limit_print(f'进行speech_token_labels修改，修改后 speech_token_labels',
                                       speech_token_labels.shape, speech_token_labels[0][-1], speech_token_labels[0][0])
        speech_token_labels_target = speech_token_labels.masked_fill(speech_tokens_pad_mask, self.IGNORE_ID)  # B, L
        speech_token_labels_mask = ~speech_tokens_pad_mask
        return speech_token_labels_embeds, speech_token_labels_target, speech_token_labels_mask

    def forward(self,
                batch,
                device,
                ):
        """"""
        rank = int(os.environ.get('RANK', 0))
        # wavs = batch['feats'].to(device)
        # wavs_len = batch['feats_lengths'].to(device)
        # if rank == 0:
        #     utils_file.logging_limit_print(
        #         f'wavs shape: {wavs.shape},第一帧的前20个数字：\n{wavs[0][0][:20]}')

        output_type = batch['output_type']
        assert output_type in ['text', 'speech2text_token', 'text2token'], f"output_type:{output_type} not support"

        # utils_file.logging_limit_print('进入 llmasr forward() ,首先来看一下输入')
        # utils_file.logging_limit_print('wavs.shape:', wavs.shape)
        # utils_file.logging_limit_print('wavs_len.shape:', wavs_len.shape)
        # utils_file.logging_limit_print('wavs_len:', wavs_len)
        # utils_file.logging_limit_print('labels.shape:', labels.shape)
        # utils_file.logging_limit_print('labels_lengths.shape:', labels_lengths.shape)
        # utils_file.logging_limit_print('output_type:', output_type)
        # utils_file.logging_limit_print('观看结束')

        # speech inputs
        if output_type == 'text' or output_type == 'speech2text_token':
            wavs = batch['feats'].to(device)
            wavs_len = batch['feats_lengths'].to(device)
            speech_embeds, speech_masks = self.get_embedding_from_wav(wavs, wavs_len)
            speech_target = torch.full(speech_masks.shape, self.IGNORE_ID).to(
                speech_embeds.device)
            utils_file.logging_limit_print('进入 llmasr forward() ,首先来看一下输入')
            utils_file.logging_limit_print('wavs.shape:', wavs.shape)
            utils_file.logging_limit_print('wavs_len.shape:', wavs_len.shape)
            utils_file.logging_limit_print('wavs_len:', wavs_len)
            utils_file.logging_limit_print('output_type:', output_type)
            utils_file.logging_limit_print('speech_embeds:', speech_embeds.shape)
            utils_file.logging_limit_print('观看结束')  # haha
        else:
            labels = batch['target'].to(device)
            labels_lengths = batch['target_lengths'].to(device)
            #  text 2 token ,拿到文本序列
            labels_pad_mask = make_pad_mask(labels_lengths)  # B, L
            labels = labels.masked_fill(labels_pad_mask, 0)
            speech_embeds = self.embed_tokens(labels)  # B, L, D
            speech_target = torch.full(labels_pad_mask.shape, self.IGNORE_ID).to(
                speech_embeds.device)
            speech_masks = ~labels_pad_mask

        # add bos and eos
        speech_embeds, speech_masks, speech_target = self._add_bos_eos(0 + self.speech_token_num,
                                                                       1 + self.speech_token_num,
                                                                       speech_embeds, speech_masks, speech_target)

        # prompt
        if 'prompt' in batch:
            prompt = batch['prompt'].to(device)
            prompt_lengths = batch['prompt_lengths'].to(device)
            prompt_pad_mask = make_pad_mask(prompt_lengths)  # B, L
            prompt = prompt.masked_fill(prompt_pad_mask, self.tokenizer.eos_token_id)
            prompt_embeds = self.embed_tokens(prompt)  # B, L, D
            prompt_target = torch.full(prompt.shape, self.IGNORE_ID).to(
                speech_embeds.device)  # B, L
            prompt_mask = ~prompt_pad_mask
        else:
            raise ValueError('prompt is not in batch')

        if output_type == 'speech2text_token':
            labels = batch['target'].to(device)
            labels_lengths = batch['target_lengths'].to(device)
            speech_token_labels = batch['speech_tokens'].to(device)
            speech_tokens_length = batch['speech_tokens_length'].to(device)

            utils_file.logging_limit_print('进入 llmasr forward() ,首先来一下目标')
            utils_file.logging_limit_print('labels.shape:', labels.shape)
            utils_file.logging_limit_print('labels_lengths.shape:', labels_lengths.shape)
            utils_file.logging_limit_print('labels_lengths:', labels_lengths)
            utils_file.logging_limit_print('speech_token_labels.shape:', speech_token_labels.shape)
            utils_file.logging_limit_print('speech_tokens_length.shape:', speech_tokens_length.shape)
            utils_file.logging_limit_print('speech_tokens_length:', speech_tokens_length)
            utils_file.logging_limit_print('观看结束')

            labels_embeds, labels_target, labels_mask = self.get_label_embedding(labels, labels_lengths)
            speech_token_labels_embeds, speech_token_labels_target, speech_token_labels_mask = self.get_speech_token_label_embedding(
                speech_token_labels, speech_tokens_length)

            # concat
            inputs_embeds = torch.cat([prompt_embeds, speech_embeds,
                                       labels_embeds, speech_token_labels_embeds], dim=1)
            attention_mask = torch.cat([prompt_mask, speech_masks,
                                        labels_mask, speech_token_labels_mask], dim=1)
            target = torch.cat([prompt_target, speech_target,
                                labels_target, speech_token_labels_target], dim=1)
        elif output_type == "text2token":
            speech_token_labels = batch['speech_tokens'].to(device)
            speech_tokens_length = batch['speech_tokens_length'].to(device)
            speech_token_labels_embeds, speech_token_labels_target, speech_token_labels_mask = self.get_speech_token_label_embedding(
                speech_token_labels, speech_tokens_length)

            inputs_embeds = torch.cat([prompt_embeds, speech_embeds,
                                       speech_token_labels_embeds], dim=1)
            attention_mask = torch.cat([prompt_mask, speech_masks,
                                        speech_token_labels_mask], dim=1)
            target = torch.cat([prompt_target, speech_target,
                                speech_token_labels_target], dim=1)
        elif output_type == "text":
            labels = batch['target'].to(device)
            labels_lengths = batch['target_lengths'].to(device)
            labels_embeds, labels_target, labels_mask = self.get_label_embedding(labels, labels_lengths)

            # concat
            inputs_embeds = torch.cat([prompt_embeds, speech_embeds,
                                       labels_embeds], dim=1)
            attention_mask = torch.cat([prompt_mask, speech_masks,
                                        labels_mask], dim=1)
            target = torch.cat([prompt_target, speech_target,
                                labels_target], dim=1)
        else:
            raise NotImplementedError(f'output_type {output_type} not support')
        utils_file.logging_limit_print(f'耿雪龙 output_type: {output_type}')

        position_ids = attention_mask.long().cumsum(-1) - 1
        position_ids.masked_fill_(attention_mask == 0, 1)
        outputs = self.llama_model(
            inputs_embeds=inputs_embeds,
            # labels=target,
            attention_mask=attention_mask,
            position_ids=position_ids.to(inputs_embeds.device)
        )
        hidden_states = outputs['hidden_states'][-1]
        logits = self.lm_head(hidden_states)
        logits2 = self.speaker_head(hidden_states)  # speech_head
        combined_logits = torch.cat([logits, logits2], dim=-1)
        shift_logits = combined_logits[..., :-1, :].contiguous()
        shift_target = target[..., 1:].contiguous()
        shift_logits = shift_logits.view(-1, combined_logits.shape[-1])  # 注意这里维度的调整，根据logits2的维度相应改变
        shift_target = shift_target.view(-1)
        shift_target = shift_target.to(shift_logits.device)
        loss = self.loss_fct(shift_logits, shift_target)
        loss.requires_grad_(True)
        return {"loss": loss}

    def generate(
            self,
            wavs,
            wavs_len,
            prompt,
    ):
        speech_embeds, speech_masks = self.get_embedding_from_wav(wavs, wavs_len)
        speech_embeds, speech_masks, _ = self._add_bos_eos(0 + self.speech_token_num, 1 + self.speech_token_num,
                                                           speech_embeds, speech_masks, None)
        prompt = self.tokenizer([prompt], return_tensors="pt"
                                )['input_ids'].to(speech_embeds.device)
        prompt_embeds = self.embed_tokens(prompt)

        embeds = torch.cat([prompt_embeds, speech_embeds], dim=1)
        atts = torch.ones(embeds.size()[:-1], dtype=torch.long).to(embeds.device)

        if self.embed_tokens.weight.dtype == torch.float16 or self.embed_tokens.weight.dtype == torch.bfloat16:
            utils_file.logging_limit_print('generate(): self.embed_tokens.weight.dtype == torch.float16')
            # embeds = embeds.to(torch.float16)
            embeds = embeds.to(torch.bfloat16)
            atts = atts.to(torch.bfloat16)
        outputs = self.llama_model.generate(
            inputs_embeds=embeds,
            max_new_tokens=self.max_length,
            num_beams=self.num_beams,
            do_sample=self.do_sample,
            min_length=self.min_length,
            top_p=self.top_p,
            top_k=self.top_k,
            repetition_penalty=self.repetition_penalty,
            length_penalty=self.length_penalty,
            temperature=self.temperature,
            attention_mask=atts,
            eos_token_id=151643,
            pad_token_id=-100,
        )

        # 获取生成的token IDs
        # token_ids = outputs[0].tolist()  # 假设batch_size=1，取第一个输出
        # 将token IDs转换为字符串
        # tokens = [self.tokenizer.decode([token_id], skip_special_tokens=True) for token_id in token_ids]
        # 打印token列表和字符串列表
        # print("Token IDs:", token_ids)
        # print("Tokens:", tokens)

        # 使用tokenizer将token IDs批量转换为字符串
        # output_text = self.tokenizer.batch_decode(outputs, add_special_tokens=False, skip_special_tokens=True)
        # print("Output Text:", output_text)

        output_text = self.tokenizer.batch_decode(outputs, add_special_tokens=False, skip_special_tokens=True)
        # 处理token，为英文单词前加上空格
        # processed_tokens = []
        # for token in tokens:
        #     # 检查是否为英文单词（简单判断：是否全部由字母组成）
        #     if token.isalpha() and token[0].isascii():
        #         processed_tokens.append(" " + token)  # 英文单词前加空格
        #     else:
        #         processed_tokens.append(token)  # 其他token保持不变
        # output_text = "".join(processed_tokens)
        return output_text

    def generate4seech_token(
            self,
            wavs,
            wavs_len,
            prompt,
    ):
        speech_embeds, speech_masks = self.get_embedding_from_wav(wavs, wavs_len)
        speech_embeds, speech_masks, _ = self._add_bos_eos(0 + self.speech_token_num, 1 + self.speech_token_num,
                                                           speech_embeds, speech_masks, None)
        prompt = self.tokenizer([prompt], return_tensors="pt"
                                )['input_ids'].to(speech_embeds.device)
        prompt_embeds = self.embed_tokens(prompt)

        embeds = torch.cat([prompt_embeds, speech_embeds], dim=1)
        atts = torch.ones(embeds.size()[:-1], dtype=torch.long).to(embeds.device)

        if self.embed_tokens.weight.dtype == torch.float16:
            utils_file.logging_limit_print('generate(): self.embed_tokens.weight.dtype == torch.float16')
            embeds = embeds.to(torch.float16)
            atts = atts.half()

        outputs = self.llama_model.generate(
            inputs_embeds=embeds,
            max_new_tokens=self.max_length,
            num_beams=self.num_beams,
            do_sample=self.do_sample,
            min_length=self.min_length,
            top_p=self.top_p,
            top_k=self.top_k,
            repetition_penalty=self.repetition_penalty,
            length_penalty=self.length_penalty,
            temperature=self.temperature,
            attention_mask=atts,
            eos_token_id=151643,
            pad_token_id=-100,
        )
        output_text = self.tokenizer.batch_decode(outputs, add_special_tokens=False, skip_special_tokens=True)

        return output_text

    def get_embedding_from_wav(self, wavs, wavs_len):
        """
        return:
        wav_embedding: (b, l, v)
        wav_mask:  (b, l), wav为有效值的位置为true
        """
        # utils_file.logging_limit_print('get_embedding_from_wav(): wavs.shape:', wavs.shape)
        # utils_file.logging_limit_print('get_embedding_from_wav(): wavs_len.shape:', wavs_len.shape)
        rank = int(os.environ.get('RANK', 0))
        # self.debugger.start()
        encoder_out, encoder_mask = self.encoder(wavs, wavs_len)
        # self.debugger.stop()
        # self.debugger.step()
        if rank == 0:
            utils_file.logging_limit_print(
                f'encoder out shape: {encoder_out.shape},encoder的第一帧的前20个数字：\n{encoder_out[0][0][:20]}')

        # utils_file.logging_limit_print(
        #     'get_embedding_from_wav(): speech_embeds.shape,by  self.encoder(wavs, wavs_len):',
        #     encoder_out.shape)

        speech_embeds, encoder_mask = self.down_sample_2(encoder_out, encoder_mask)
        if rank == 0:
            utils_file.logging_limit_print(
                f'out of down_sample_2 shape: {speech_embeds.shape},encoder的第一帧的前20个数字：\n{speech_embeds[0][0][:20]}')

        # utils_file.logging_limit_print(
        #     'get_embedding_from_wav(): speech_embeds.shape,by  self.down_sample_2(speech_embeds):', speech_embeds.shape)
        # # max_utt_len = speech_embeds.size(1)
        # filled_wavs_len = torch.ones(speech_embeds.size(0)) * max_utt_len
        # filled_wavs_len = filled_wavs_len.to(speech_embeds.device)
        if self.speech_transformer is not None:
            filled_wavs_len = encoder_mask.squeeze(1).sum(-1)
            speech_embeds, encoder_mask = self.speech_transformer(speech_embeds, filled_wavs_len)
            if rank == 0:
                utils_file.logging_limit_print(
                    f'out of link shape: {speech_embeds.shape},encoder的第一帧的前20个数字：\n {speech_embeds[0][0][:20]}')

            # utils_file.logging_limit_print(
            #     'get_embedding_from_wav(): speech_embeds.shape,by  self.speech_transformer(speech_embeds, speech_lens):',
            #     speech_embeds.shape)
            speech_embeds = self.speech_llama_proj(speech_embeds)
            if rank == 0:
                utils_file.logging_limit_print(
                    f'out of speech_llama_proj shape: {speech_embeds.shape},encoder的第一帧的前20个数字：\n {speech_embeds[0][0][:20]}')

        # utils_file.logging_limit_print(
        #     'get_embedding_from_wav(): speech_embeds.shape,by  self.speech_llama_proj(speech_embeds):',
        #     speech_embeds.shape)

        return speech_embeds, encoder_mask.squeeze(1)

    def get_embedding_from_text(self, text):
        text_id = self.tokenizer(
            text,
            return_tensors="pt",
            add_special_tokens=False
        ).to(
            self.embed_tokens.weight.device).input_ids
        text_embeds = self.embed_tokens(text_id)
        return text_embeds

    def get_embeds_from_wav_path(self, wav_path):
        wav_i2_path = wav_path
        utils_file.logging_limit_print('get_embeds_from_wav_path(): wav_i2_path:', wav_i2_path)
        waveform_i2, _ = torchaudio.load(wav_i2_path)
        utils_file.logging_limit_print('get_embeds_from_wav_path(): waveform_i2.shape:', waveform_i2.shape)
        if len(waveform_i2.shape) != 1:
            waveform_i2 = waveform_i2[0]
        waveform_i2 = waveform_i2.to(self.embed_tokens.weight.device)
        wavs_len_i2 = torch.tensor([len(waveform_i2)], device=self.embed_tokens.weight.device, dtype=torch.int32)
        wavs_i2 = waveform_i2.unsqueeze(0)
        sample_i2_embeds = self.get_embedding_from_wav(wavs_i2, wavs_len_i2)
        utils_file.logging_limit_print('get_embeds_from_wav_path(): sample_i2_embeds.shape:', sample_i2_embeds.shape)
        return sample_i2_embeds

    def _add_bos_eos(self, bos, eos, inputs_embeds, attention_mask, target=None):
        B = len(inputs_embeds)
        bos_eos_target = torch.full([B, 1], self.IGNORE_ID).to(inputs_embeds.device)  # B,1
        bos_eos_mask = torch.full([B, 1], True).to(inputs_embeds.device)  # B, 1

        if bos is not None:
            bos_embed = self.speech_token_emded(torch.full([B, 1],
                                                           bos).to(inputs_embeds.device))  # B, 1, D
            inputs_embeds = torch.cat((bos_embed, inputs_embeds), 1)  # B, (1+T), D
            attention_mask = torch.cat((bos_eos_mask, attention_mask), 1)  # B, (1+T)
            if target is not None:
                target = torch.cat((bos_eos_target, target), 1)  # B, (1+T), D

        if eos is not None:
            eos_embed = self.speech_token_emded(torch.full([B, 1],
                                                           eos).to(inputs_embeds.device))  # B, 1, D
            inputs_embeds = torch.cat((inputs_embeds, eos_embed), 1)  # B, (1+T+1), D
            attention_mask = torch.cat((attention_mask, bos_eos_mask), 1)  # B, (1+T+1)
            if target is not None:
                target = torch.cat((target, bos_eos_target), 1)  # B, (1+T+1), D

        return inputs_embeds, attention_mask, target

    def infer_for_speech2text_token(  # speech2text-token
            self,
            wavs,
            wavs_len,
            prompt,
            text=None,
    ):
        if text is not None:
            prompt = torch.cat((prompt, text), dim=1)
        speech_embeds, speech_masks = self.get_embedding_from_wav(wavs, wavs_len)
        speech_embeds, speech_masks, _ = self._add_bos_eos(0 + self.speech_token_num, None,
                                                           speech_embeds, speech_masks, None)
        prompt = self.tokenizer([prompt], return_tensors="pt"
                                )['input_ids'].to(speech_embeds.device)
        prompt_embeds = self.embed_tokens(prompt)
        embeds = torch.cat([prompt_embeds, speech_embeds], dim=1)
        atts = torch.ones(embeds.size()[:-1], dtype=torch.long).to(embeds.device)
        if self.embed_tokens.weight.dtype == torch.float16:
            utils_file.logging_limit_print('generate(): self.embed_tokens.weight.dtype == torch.float16')
            embeds = embeds.to(torch.float16)
            atts = atts.half()
        device = wavs.device

        max_len = 300
        hyps = torch.ones([1, 1], dtype=torch.int64,
                          device=device).fill_(1 + self.speech_token_num)  # (B*N, 1)
        llm_out = self.llama_model(
            inputs_embeds=embeds,
            past_key_values=None,
            output_hidden_states=True
        )
        cache = llm_out.past_key_values
        utils_file.logging_limit_print('得到首个cache,开始进行for循环推理')
        token_emb = self.speech_token_emded(hyps[:, -1:])

        for i in range(max_len):
            llm_out = self.llama_model(
                inputs_embeds=token_emb,
                past_key_values=cache,
                output_hidden_states=True
            )
            cache = llm_out.past_key_values
            hidden_states = llm_out.hidden_states[-1]  # 最后一层的
            token_logits_1 = self.lm_head(hidden_states)
            # utils_file.logging_limit_print(f'token_logits_1.shape:{token_logits_1.shape}')
            token_logits_2 = self.speaker_head(hidden_states)
            # utils_file.logging_limit_print(f'token_logits_2.shape:{token_logits_2.shape}')
            big_logits = torch.cat([token_logits_1, token_logits_2], dim=-1)
            # utils_file.logging_limit_print(f'big_logits.shape:{big_logits.shape}')
            logp = torch.nn.functional.log_softmax(big_logits[:, -1, :], dim=-1)  # 取了最后一个
            # utils_file.logging_limit_print(f'logp.shape:{logp.shape}')
            max_index = torch.argmax(logp, dim=-1, keepdim=True)
            # utils_file.logging_limit_print(f'max_index.shape:{max_index.shape}')
            utils_file.logging_limit_print(f'max_index:{max_index}')

            hyps = torch.cat((hyps, max_index),
                             dim=1)  # (B*N, i+1)
            if max_index < 152064:
                token_emb = self.embed_tokens(hyps[:, -1:])
            else:
                if max_index == 152064 + 4096:
                    utils_file.logging_limit_print(f'耿雪龙 遇到token结束符号，结束')
                    break
                token_emb = self.speech_token_emded(hyps[:, -1:])
        best_hyps = hyps[0, :]
        text_res = []
        token_res = []
        for i in best_hyps[1:]:
            if i < 152064:
                text_res.append(i)
            else:
                token_res.append(str((i - 152064).item()))
        str_i = self.tokenizer.decode(text_res, skip_special_tokens=True, add_special_tokens=False)
        return [str_i + " | " + " ".join(token_res)]
        # output_text = self.tokenizer.batch_decode(outputs, add_special_tokens=False, skip_special_tokens=True)

    def infer_for_text2token(  # text2token
            self,
            wavs,
            wavs_len,
            prompt,
            text=None,
    ):
        if text is not None:
            prompt = torch.cat((prompt, text), dim=1)
        # speech_embeds, speech_masks = self.get_embedding_from_wav(wavs, wavs_len)
        # speech_embeds, speech_masks, _ = self._add_bos_eos(0 + self.speech_token_num, None,
        #                                                    speech_embeds, speech_masks, None)
        labels_lengths = torch.tensor([len(text)-1], dtype=torch.int64)
        labels = text[:,:-1]
        labels_pad_mask = make_pad_mask(labels_lengths)  # B, L
        labels = labels.masked_fill(labels_pad_mask, 0)
        speech_embeds = self.embed_tokens(labels)  # B, L, D
        speech_target = torch.full(labels_pad_mask.shape, self.IGNORE_ID).to(
            speech_embeds.device)
        speech_masks = ~labels_pad_mask

        prompt = self.tokenizer([prompt], return_tensors="pt"
                                )['input_ids'].to(speech_embeds.device)
        prompt_embeds = self.embed_tokens(prompt)
        embeds = torch.cat([prompt_embeds, speech_embeds], dim=1)
        atts = torch.ones(embeds.size()[:-1], dtype=torch.long).to(embeds.device)
        if self.embed_tokens.weight.dtype == torch.float16:
            utils_file.logging_limit_print('generate(): self.embed_tokens.weight.dtype == torch.float16')
            embeds = embeds.to(torch.float16)
            atts = atts.half()
        device = wavs.device

        max_len = 300
        hyps = torch.ones([1, 1], dtype=torch.int64,
                          device=device).fill_()  # (B*N, 1)
        llm_out = self.llama_model(
            inputs_embeds=embeds,
            past_key_values=None,
            output_hidden_states=True
        )
        cache = llm_out.past_key_values
        utils_file.logging_limit_print('得到首个cache,开始进行for循环推理')
        token_emb = self.embed_tokens(hyps[:, -1:])

        for i in range(max_len):
            llm_out = self.llama_model(
                inputs_embeds=token_emb,
                past_key_values=cache,
                output_hidden_states=True
            )
            cache = llm_out.past_key_values
            hidden_states = llm_out.hidden_states[-1]  # 最后一层的
            token_logits_1 = self.lm_head(hidden_states)
            # utils_file.logging_limit_print(f'token_logits_1.shape:{token_logits_1.shape}')
            token_logits_2 = self.speaker_head(hidden_states)
            # utils_file.logging_limit_print(f'token_logits_2.shape:{token_logits_2.shape}')
            big_logits = torch.cat([token_logits_1, token_logits_2], dim=-1)
            # utils_file.logging_limit_print(f'big_logits.shape:{big_logits.shape}')
            logp = torch.nn.functional.log_softmax(big_logits[:, -1, :], dim=-1)  # 取了最后一个
            # utils_file.logging_limit_print(f'logp.shape:{logp.shape}')
            max_index = torch.argmax(logp, dim=-1, keepdim=True)
            # utils_file.logging_limit_print(f'max_index.shape:{max_index.shape}')
            utils_file.logging_limit_print(f'max_index:{max_index}')

            hyps = torch.cat((hyps, max_index),
                             dim=1)  # (B*N, i+1)
            if max_index < 152064:
                token_emb = self.embed_tokens(hyps[:, -1:])
            else:
                if max_index == 152064 + 4096 :
                    utils_file.logging_limit_print(f'耿雪龙 遇到token结束符号，结束')
                    break
                token_emb = self.speech_token_emded(hyps[:, -1:])
        best_hyps = hyps[0, :]
        text_res = []
        token_res = []
        for i in best_hyps[1:]:
            if i < 152064:
                text_res.append(i)
            else:
                token_res.append(str((i - 152064).item()))
        str_i = self.tokenizer.decode(text_res, skip_special_tokens=True, add_special_tokens=False)
        return [str_i + " | " + " ".join(token_res)]
        # output_text = self.tokenizer.batch_decode(outputs, add_special_tokens=False, skip_special_tokens=True)