Spaces:

EQUES
/

NGword-detector-ver2

Sleeping

App Files Files Community

koheibaba commited on Feb 12, 2024

Commit

e7a412f

1 Parent(s): 79f44cf

upload files

Browse files

Files changed (19) hide show

.DS_Store +0 -0
.gitignore +1 -0
app.py +92 -0
input/.DS_Store +0 -0
input/images/detector.jpg +0 -0
input/images/user.jpg +0 -0
input/llm_weights/.DS_Store +0 -0
input/llm_weights/README.md +20 -0
input/llm_weights/adapter_config.json +23 -0
input/llm_weights/runs/.DS_Store +0 -0
input/llm_weights/runs/Feb12_11-51-08_c9d9b7430adb/events.out.tfevents.1707738699.c9d9b7430adb.2957.1 +0 -0
input/ng_wordlists/.DS_Store +0 -0
input/ng_wordlists/ng_wordlist_1_offensive.txt +103 -0
input/ng_wordlists/ng_wordlist_1_sexual.txt +214 -0
input/ng_wordlists/ng_wordlist_2_offensive.txt +42 -0
input/ng_wordlists/ng_wordlist_2_sexual.txt +279 -0
requirements.txt +11 -0
utils/find_ng_word.py +69 -0
utils/llm.py +89 -0

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ *.bin

app.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import gradio as gr
+from utils.find_ng_word import get_ng_wordlist, get_ng_wordlist_from_saved, search_ng_word
+from utils.llm import load_llm_from_pretrained, inference
+wordlist_1_path_s = "/content/drive/MyDrive/llm_qlora_ngword/ng_wordlists/ng_wordlist_1_sexual.txt"
+wordlist_2_path_s = "/content/drive/MyDrive/llm_qlora_ngword/ng_wordlists/ng_wordlist_2_sexual.txt"
+wordlist_1_path_o = "/content/drive/MyDrive/llm_qlora_ngword/ng_wordlists/ng_wordlist_1_offensive.txt"
+wordlist_2_path_o = "/content/drive/MyDrive/llm_qlora_ngword/ng_wordlists/ng_wordlist_2_offensive.txt"
+pretrained_model_path = "input/llm_weights"
+print("モデルをロード")
+ng_wordlist_1_s, ng_wordlist_2_s = get_ng_wordlist_from_saved(wordlist_1_path_s, wordlist_2_path_s)
+ng_wordlist_1_o, ng_wordlist_2_o = get_ng_wordlist_from_saved(wordlist_1_path_o, wordlist_2_path_o)
+model, tokenizer = load_llm_from_pretrained(pretrained_model_path)
+# 検出結果を生成
+def detect_ng_word(input_text):
+    response = []
+    rtn_s = search_ng_word(data_point["input"], ng_wordlist_1_s, ng_wordlist_2_s)
+    rtn_o = search_ng_word(data_point["input"], ng_wordlist_1_o, ng_wordlist_2_o)
+    rtn = rtn_s + rtn_o
+    if len(rtn) == 0:
+        response.append("NGワードは検知されませんでした  \n")
+    else:
+        response.append('以下のNGワードを検知しました  \n')
+        for rtn_i in rtn:
+            ng_word = str(rtn_i) + "  \n"
+            response.append(ng_word)
+    rtn_s = [ri + "(sexual)" for ri in rtn_s]
+    rtn_o = [ri + "(offensive)" for ri in rtn_o]
+    ngword_with_label = rtn_s + rtn_o
+    output = inference(model, tokenizer, input_text, ngword_with_label)
+    if output == "はい。攻撃的だから。</s>":
+        response.append('不適切な内容を検知しました(攻撃的)')
+    elif output == "はい。暴力的だから。</s>":
+        response.append('不適切な内容を検知しました(暴力的)')
+    elif output == "はい。差別的だから。</s>":
+        response.append('不適切な内容を検知しました(差別的)')
+    elif output == "はい。性的だから。</s>":
+        response.append('不適切な内容を検知しました(性的)')
+    elif output == "はい。政治的だから。</s>":
+        response.append('不適切な内容を検知しました(政治的)')
+    else:
+        response.append("不適切な内容は検知されませんでした")
+    return response
+# 会話履歴用リスト型変数
+message_history = []
+def chat(user_msg):
+    """
+    AIとの会話を実行後、全会話履歴を返す
+    user_msg: 入力されたユーザのメッセージ
+    """
+    global message_history
+    # ユーザの会話を履歴に追加
+    message_history.append({
+        "role": "user",
+        "content": user_msg
+    })
+    # AIの回答を履歴に追加
+    response = detect_ng_word(user_msg)
+    assistant_msg = " ".join(response)
+    message_history.append({
+        "role": "assistant",
+        "content": assistant_msg
+    })
+    # 全会話履歴をChatbot用タプル・リストに変換して返す
+    return [(message_history[i]["content"], message_history[i+1]["content"]) for i in range(0, len(message_history)-1, 2)]
+with gr.Blocks() as demo:
+    # チャットボットUI処理
+    chatbot = gr.Chatbot()
+    input = gr.Textbox(show_label=False, placeholder="チェックしたい文章を入力してください")
+    input.submit(fn=chat, inputs=input, outputs=chatbot) # メッセージ送信されたら、AIと会話してチャット欄に全会話内容を表示
+    input.submit(fn=lambda: "", inputs=None, outputs=input) # （上記に加えて）入力欄をクリア
+demo.launch()

input/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

input/images/detector.jpg ADDED Viewed

input/images/user.jpg ADDED Viewed

input/llm_weights/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

input/llm_weights/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.4.0

input/llm_weights/adapter_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "line-corporation/japanese-large-lm-3.6b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "dense_4h_to_h",
+    "dense",
+    "dense_h_to_4h",
+    "query_key_value"
+  ],
+  "task_type": "CAUSAL_LM"
+}

input/llm_weights/runs/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

input/llm_weights/runs/Feb12_11-51-08_c9d9b7430adb/events.out.tfevents.1707738699.c9d9b7430adb.2957.1 ADDED Viewed

Binary file (9.97 kB). View file

input/ng_wordlists/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

input/ng_wordlists/ng_wordlist_1_offensive.txt ADDED Viewed

	@@ -0,0 +1,103 @@

+ASSHOLE
+BITCH
+FUCK
+GODDAMN
+GYPSY
+INDIAN
+JAP
+MOTHERFUCKER
+NIGGER
+SHIT
+asshole
+bitch
+fuck
+goddamn
+gypsy
+indian
+jap
+motherfucker
+nigger
+shit
+あほ
+いざり
+かす
+きちがい
+ぎっちょ
+くそ
+じじい
+つんぼ
+でぶ
+でべそ
+はげ
+ばか
+ばばあ
+びっこ
+ぶす
+ぼけ
+まぬけ
+めくら
+アスペ
+アホ
+イザリ
+カス
+カタワ
+ガイジ
+キチガイ
+ギッチョ
+クソ
+クソアマ
+クソガキ
+クソクラエ
+クソゴミ
+ジジイ
+ジャップ
+スチュワーデス
+ステハゲ
+ツンボ
+デブ
+デベソ
+ナマポ
+ネトウヨ
+ハゲ
+バカ
+バカヤロウ
+バカヤロー
+ババア
+パヨク
+ビッコ
+ビッチ
+ピネガキ
+ブサイク
+ブス
+ボケ
+マザファッカー
+マヌケ
+メクラ
+下女
+下男
+乞食
+低脳
+助産婦
+唖
+土人
+土方
+尻軽
+屠殺
+後進国
+支那
+気違い
+池沼
+狂人
+狂女
+畜生
+白痴
+盲人
+看護婦
+精神分裂病
+糖質
+老婆
+肌色
+農夫
+醜男
+非国民
+黒んぼ

input/ng_wordlists/ng_wordlist_1_sexual.txt ADDED Viewed

	@@ -0,0 +1,214 @@

+COCKSUCKER
+CUNT
+DICK
+NTR
+SEX
+SM
+SOD
+TENGA
+TITS
+cocksucker
+cunt
+dick
+ntr
+sex
+sm
+sod
+tenga
+tits
+あげまん
+いく
+いやらしい
+えっち
+えろ
+おっぱい
+おぼこ
+おめこ
+きんたま
+けつまんこ
+さげまん
+すけべ
+ちんこ
+ちんちん
+ちんぽ
+はめ撮り
+ぱいずり
+ふたなり
+ぽこちん
+まんこ
+まんまん
+むらむら
+やりまん
+アクメ
+アゲマン
+アナニー
+アナル
+アナルセックス
+アヌス
+イク
+イチモツ
+イチャラブセックス
+イメクラ
+イヤラシイ
+イラマチオ
+インポ
+インポテンツ
+エクスタシー
+エッチ
+エロ
+エロい
+エロイ
+エロ本
+オチンチン
+オッパイ
+オナニー
+オナペ
+オナペット
+オナホ
+オナホール
+オネショタ
+オボコ
+オマンコ
+オメコ
+オーガズム
+カウパー
+キンタマ
+クスコ
+クソガキ
+クリトリス
+クンニ
+クンニリングス
+ケツマンコ
+コンドーム
+サゲマン
+ザーメン
+シコ
+ショタオネ
+スカトロ
+スケベ
+スペルマ
+スワッピング
+セックス
+セフレ
+センズリ
+ソフト・オン・デマンド
+ダイシュキホールド
+チンコ
+チンチン
+チンポ
+ディルド
+デカチン
+デリヘル
+トルコ風呂
+ナンパ
+ノーパン
+ハーレム
+バイアグラ
+バイブ
+パイズリ
+パイパン
+パンチラ
+ビッチ
+フェラ
+フェラチオ
+フタナリ
+ブルセラ
+ペッティング
+ペニバン
+ポコチン
+ポルチオ
+マスターベーション
+マンコ
+マンマン
+ムラムラ
+ヤリチン
+ヤリマン
+ラブドール
+ラブホ
+ラブホテル
+リフレ
+レイプ
+ロリコン
+乱交
+乳房
+乳輪
+乳首
+亀頭
+二穴
+仮性包茎
+体位
+催眠
+円光
+処女
+勃起
+包茎
+喘ぎ声
+姦通
+姫始め
+媚薬
+寝取り
+射精
+屍姦
+巨乳
+巨根
+座位
+強姦
+後背位
+微乳
+性交
+性感
+性感帯
+性欲
+性行為
+情夫
+情婦
+愛人
+愛撫
+愛液
+手淫
+援交
+援助交際
+放尿
+早漏
+正常位
+泡姫
+淫乱
+淫行
+淫靡
+潮吹き
+熟女
+爆乳
+獣姦
+男娼
+痴女
+発情
+睾丸
+種付け
+立ちんぼ
+童貞
+素股
+素股
+絶倫
+緊縛
+自慰
+菊門
+裏筋
+視姦
+貝合わせ
+貧乳
+輪姦
+近親相姦
+金玉
+陰唇
+陰嚢
+陰核
+陰毛
+陰茎
+陰部
+陵辱
+青姦
+食糞
+飲尿
+騎乗位
+黄金水
+ﾁﾝﾁﾝ

input/ng_wordlists/ng_wordlist_2_offensive.txt ADDED Viewed

	@@ -0,0 +1,42 @@

+F*CK
+f*ck
+あすぺ
+かたわ
+がいじ
+くそあま
+くそがき
+くそくらえ
+くそごみ
+ごみ人間
+じゃっぷ
+すちゅわーです
+すてはげ
+なまぽ
+ねとうよ
+ばかやろう
+ばかやろー
+ぱよく
+びっち
+ぴねがき
+ぶさいく
+ぽり公
+まざふぁっかー
+クソくらえ
+ゴミ人間
+ポリ公
+三国人
+支那人
+未開人
+気違イ
+知恵遅れ
+知恵遅レ
+精神異常
+糞くらえ
+糞クラエ
+糞食らえ
+糞食ラエ
+統失
+豚野郎
+馬鹿野郎
+黒ンボ
+○ね

input/ng_wordlists/ng_wordlist_2_sexual.txt ADDED Viewed

	@@ -0,0 +1,279 @@

+3P
+3p
+AV女優
+Gすぽっと
+Gスポット
+Tばっく
+Tバック
+av女優
+gスポット
+tバック
+あくめ
+あだるとびでお
+あなにー
+あなる
+あなるせっくす
+あなるびーず
+あなるぷらぐ
+あなる拡張
+あなる開発
+あなるＳＥＸ
+あぬす
+あへ顔
+いちもつ
+いちゃいちゃせっくす
+いちゃらぶせっくす
+いめくら
+いめーじびでお
+いらまちお
+いんぽ
+いんぽてんつ
+えくすたしー
+えろい
+えろ同人
+えろ同人誌
+えろ本
+おちんちん
+おっπ
+おなにー
+おなぺ
+おなぺっと
+おなほ
+おなほーる
+おねしょた
+おねショタ
+おまんこ
+おーがずむ
+お掃除ふぇら
+お掃除フェラ
+かうぱー
+かんとん包茎
+ぎゃぐぼーる
+くすこ
+くそがき
+くりとりす
+くんに
+くんにりんぐす
+こんどーむ
+さかさ椋鳥
+ざーめん
+しっくすないん
+しぼり芙蓉
+しょたおね
+すかとろ
+すかるふぁっく
+すけべ椅子
+すぺるま
+すわっぴんぐ
+せきれい本手
+せっくす
+せふれ
+せんずり
+そふと・おん・でまんど
+そーぷらんど
+そーぷ嬢
+だいしゅきほーるど
+だいしゅきホールド
+だっちわいふ
+だぶるぴーす
+ち○こ
+でぃるど
+でぃーぷすろーと
+でかちん
+でりばりーへるす
+でりへる
+とるこ風呂
+とろ顔
+なんぱ
+のーぱん
+はーれむ
+ばいあぐら
+ばいぶ
+ばきゅーむふぇら
+ぱいぱん
+ぱぱ活
+ぱんちら
+ひとりえっち
+びっち
+ふぃすとふぁっく
+ふぇら
+ふぇらちお
+ふぇら抜き
+ぶるせら
+ぺってぃんぐ
+ぺにばん
+ほ別
+ぼて腹
+ぽるちお
+ま○こ
+ますたーべーしょん
+まんぐり返し
+まん拓
+やりちん
+らぶどーる
+らぶほ
+らぶほてる
+りふれ
+れいぷ
+ろりこん
+アダルトビデオ
+アナルビーズ
+アナルプラグ
+アナル拡張
+アナル開発
+アナルＳＥＸ
+アナルｓｅｘ
+アヘ顔
+イチャイチャセックス
+イメージビデオ
+エロ同人
+エロ同人誌
+オッΠ
+オッπ
+オ掃除フェラ
+カントン包茎
+ギャグボール
+サカサ椋鳥
+シックスナイン
+シボリ芙蓉
+ショタおね
+スカルファック
+スケベ椅子
+セキレイ本手
+ソープランド
+ソープ嬢
+ダッチワイフ
+ダブルピース
+チ○コ
+ディープスロート
+デリバリーヘルス
+トロ顔
+ハメ撮り
+ハメ撮リ
+バキュームフェラ
+パパ活
+ヒトリエッチ
+フィストファック
+フェラ抜き
+フェラ抜キ
+ホ別
+ボテ腹
+マ○コ
+マングリ返シ
+マン拓
+一人Ｈ
+一人ｈ
+中出し
+中出シ
+乙Π
+乙π
+乱れ牡丹
+乱レ牡丹
+亀甲縛り
+亀甲縛リ
+二穴同時
+個人撮影
+兜合わせ
+兜合ワセ
+入船本手
+口内射精
+口内発射
+唐草居茶臼
+喘ギ声
+四十八手
+太ももこき
+太ももコキ
+太モモコキ
+姫始メ
+孕ませ
+孕マセ
+寝取られ
+寝取ラレ
+寝取リ
+寿本手
+巨尻
+帆かけ茶臼
+帆カケ茶臼
+忍び居茶臼
+忍ビ居茶臼
+快楽堕ち
+快楽堕チ
+性処理
+性奴隷
+性感まっさーじ
+性感マッサージ
+成人向け
+成人向ケ
+我慢汁
+手こき
+手まん
+手コキ
+手マン
+抱き地蔵
+抱キ地蔵
+揚羽本手
+放置ぷれい
+放置プレイ
+時雨茶臼
+月見茶臼
+朝勃ち
+朝勃チ
+朝起ち
+朝起チ
+松葉崩し
+松葉崩シ
+機織茶臼
+汁男優
+洞入り本手
+洞入リ本手
+淫語
+潮吹キ
+玉舐め
+玉舐メ
+生はめ
+生ハメ
+真性包茎
+睡姦
+種付けぷれす
+種付けプレス
+種付ケ
+種付ケプレス
+穴兄弟
+立チンボ
+笠舟本手
+筆おろし
+筆オロシ
+筏本手
+粗ちん
+粗チン
+網代本手
+肉便器
+胸ちら
+胸チラ
+脇こき
+脇コキ
+蟻の戸渡り
+蟻ノ戸渡リ
+貝合ワセ
+足こき
+足コキ
+逆あなる
+逆れいぷ
+逆アナル
+逆レイプ
+遅漏
+雁が首
+雁ガ首
+電ま
+電マ
+顔射
+顔面騎乗
+首引き恋慕
+首引キ恋慕
+鶯の谷渡り
+鶯ノ谷渡リ
+黒ぎゃる
+黒ギャル
+ＳＭぷれい
+ＳＭプレイ
+ｓｍプレイ

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+accelerate==0.21.0
+peft==0.4.0
+bitsandbytes==0.40.2
+transformers==4.31.0
+trl==0.4.7
+sentencepiece
+ginza
+ja-ginza
+jaconv
+gradio
+scipy

utils/find_ng_word.py ADDED Viewed

	@@ -0,0 +1,69 @@

+import io
+import jaconv
+import spacy
+import re
+# 文字列としての検索
+def find_string(text, wordlist):
+    rtn = []
+    for word in wordlist:
+        if re.search(word, text):
+            rtn.append(word)
+    return rtn
+# 単語としての検索
+def find_word(text, wordlist):
+    nlp = spacy.load("ja_ginza")
+    doc = nlp(text)
+    rtn = []
+    for token in doc:
+        if token.lemma_ in wordlist:
+            rtn.append(str(token))
+    return rtn
+# 「1単語からなるもの」は単語として検索、「2単語以上からなるもの」は文字列として検索
+def search_ng_word(input_text, ng_wordlist_1, ng_wordlist_2):
+    rtn = find_word(input_text, ng_wordlist_1) + find_string(input_text, ng_wordlist_2)
+    rtn = list(set(rtn))
+    return rtn
+def get_ng_wordlist(wordlist_path, discrepancies=False):
+    with io.open(wordlist_path, "r", encoding="utf-8") as f:
+        ng_wordlist = f.read().split("\n")
+    ng_wordlist = [word for word in ng_wordlist if len(word) > 0]
+    # 表記揺れに対応するためひらがな版とカタカナ版を用意
+    if discrepancies:
+        l = len(ng_wordlist)
+        for i in range(l):
+            ng_wordlist.append(jaconv.kata2hira(ng_wordlist[i]))
+            ng_wordlist.append(jaconv.hira2kata(ng_wordlist[i]))
+            ng_wordlist.append(jaconv.hira2kata(ng_wordlist[i]).lower())
+            ng_wordlist.append(jaconv.hira2kata(ng_wordlist[i]).upper())
+        ng_wordlist = list(set(ng_wordlist))
+    # NGワードを「1単語からなるもの」と「2単語以上からなるもの」に分類
+    nlp = spacy.load("ja_ginza")
+    ng_wordlist_1 = []
+    ng_wordlist_2 = []
+    for word in ng_wordlist:
+        doc = nlp(word)
+        if len(doc) == 1:
+            ng_wordlist_1.append(word)
+        elif len(doc) >= 2:
+            ng_wordlist_2.append(word)
+    return ng_wordlist_1, ng_wordlist_2
+def get_ng_wordlist_from_saved(wordlist_1_path, wordlist_2_path):
+    with io.open(wordlist_1_path, "r", encoding="utf-8") as f:
+        ng_wordlist_1 = f.read().split("\n")
+    ng_wordlist_1 = [word for word in ng_wordlist_1 if len(word) > 0]
+    with io.open(wordlist_2_path, "r", encoding="utf-8") as f:
+        ng_wordlist_2 = f.read().split("\n")
+    ng_wordlist_2 = [word for word in ng_wordlist_2 if len(word) > 0]
+    return ng_wordlist_1, ng_wordlist_2

utils/llm.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import os
+import torch
+from datasets import load_dataset
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    BitsAndBytesConfig,
+    HfArgumentParser,
+    TrainingArguments,
+    pipeline,
+    logging,
+)
+from peft import LoraConfig, PeftModel
+from trl import SFTTrainer
+def load_llm_from_pretrained(pretrained_model_path):
+    if torch.cuda.is_available():
+      device_map = {"": 0}
+    else:
+      device_map = {"": "cpu"}
+    # モデルの準備
+    model_name = "line-corporation/japanese-large-lm-3.6b"
+    # トークナイザーの準備
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_name,
+        use_fast=False,
+        add_eos_token=True,
+        trust_remote_code=True
+    )
+    # モデルの準備
+    if torch.cuda.is_available():
+        # 量子化パラメータ
+        bnb_config = BitsAndBytesConfig(
+            load_in_4bit=True,  # 4bitベースモデルの有効化
+            bnb_4bit_quant_type="nf4",  # 量子化種別 (fp4 or nf4)
+            bnb_4bit_compute_dtype=torch.float16,  # 4bitベースモデルのdtype (float16 or bfloat16)
+            bnb_4bit_use_double_quant=False,  # 4bitベースモデルのネストされた量子化の有効化 (二重量子化)
+        )
+        base_model = AutoModelForCausalLM.from_pretrained(
+            model_name,
+            quantization_config=bnb_config,
+            device_map=device_map,
+            torch_dtype=torch.float16
+        )
+    else:
+        base_model = AutoModelForCausalLM.from_pretrained(
+            model_name,
+            device_map=device_map,
+            torch_dtype=torch.float32
+        )
+    model = PeftModel.from_pretrained(
+        base_model,
+        pretrained_model_path,
+        offload_folder='./'
+    )
+    return model, tokenizer
+def inference(model, tokenizer, input_text, ngword_with_label, temperature=0.01):
+  # プロンプトの準備
+  prompt = f"""指示:
+入力された文章が不適切（攻撃的、暴力的、差別的、性的、政治的）であるかどうか、「はい」か「いいえ」で回答してください。「はい」の場合は理由も添えてください。
+{input_text}
+NGワード:
+{", ".join(ngword_with_label)}
+応答:
+"""
+  # 推論の実行
+  input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
+  output_ids = model.generate(
+      input_ids=input_ids.to(device=model.device),
+      max_length=100,
+      temperature=temperature,
+      do_sample=True,
+      pad_token_id=tokenizer.pad_token_id,
+      bos_token_id=tokenizer.bos_token_id,
+      eos_token_id=tokenizer.eos_token_id
+  )
+  output = tokenizer.decode(output_ids.tolist()[0][input_ids.size(1):])
+  return output