Spaces:

Guchyos
/

gemma-2b-elyza-task-demo

Sleeping

App Files Files Community

Guchyos commited on Nov 18, 2024

Commit

2ac2435

verified ·

1 Parent(s): dfd22a2

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -23

app.py CHANGED Viewed

@@ -1,47 +1,49 @@
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 def load_model():
     model_name = "Guchyos/gemma-2b-elyza-task"
     print("Loading tokenizer...")
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
     print("Loading model...")
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
         device_map="auto",
-        torch_dtype=torch.float16
     )
     return model, tokenizer
-# モデルをグローバルに1回だけロード
-try:
-    model, tokenizer = load_model()
-    print("Model loaded successfully!")
-except Exception as e:
-    print(f"Error loading model: {str(e)}")
 def predict(message, history):
     try:
-        # 入力の準備
-        prompt = f"質問: {message}\n\n回答:"
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-        # 生成
         outputs = model.generate(
             **inputs,
             max_new_tokens=512,
             temperature=0.7,
             top_p=0.9,
-            do_sample=True,
-            repetition_penalty=1.1
         )
-        # 応答の生成
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        return response.replace(prompt, "").strip()
     except Exception as e:
         return f"エラーが発生しました: {str(e)}"
@@ -56,7 +58,6 @@ demo = gr.ChatInterface(
     ## 使い方
     - 質問を入力してEnterキーを押してください
     - 生成には数秒かかります
-    - 結果が気に入らない場合は「再生成」ボタンを押してください
     ## 特徴
     - 4bit量子化により最適化
@@ -67,11 +68,7 @@ demo = gr.ChatInterface(
         "日本の四季について、それぞれの特徴を説明してください。",
         "人工知能の発展における倫理的な課題について説明してください。",
         "東京の主要な観光スポットを3つ挙げて、それぞれ説明してください。"
-    ],
-    retry_btn="🔄 再生成",
-    undo_btn="↩️ 取り消し",
-    clear_btn="🗑️ クリア",
-    theme=gr.themes.Soft()
 )
 # アプリの起動

 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+import os
+from huggingface_hub import login
+# Hugging Face トークンを環境変数から取得して認証
+try:
+    login(token=os.environ.get("HUGGINGFACE_TOKEN"))
+except:
+    print("Warning: HUGGINGFACE_TOKEN not found")
 def load_model():
     model_name = "Guchyos/gemma-2b-elyza-task"
     print("Loading tokenizer...")
+    tokenizer = AutoTokenizer.from_pretrained(model_name, use_auth_token=True)
     print("Loading model...")
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
         device_map="auto",
+        torch_dtype=torch.float16,
+        use_auth_token=True
     )
     return model, tokenizer
 def predict(message, history):
+    # 履歴がある場合は考慮
+    full_prompt = f"質問: {message}\n\n回答:"
     try:
+        # モデルとトークナイザーをロード（毎回ロード）
+        model, tokenizer = load_model()
+        inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
         outputs = model.generate(
             **inputs,
             max_new_tokens=512,
             temperature=0.7,
             top_p=0.9,
+            do_sample=True
         )
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return response.replace(full_prompt, "").strip()
     except Exception as e:
         return f"エラーが発生しました: {str(e)}"
     ## 使い方
     - 質問を入力してEnterキーを押してください
     - 生成には数秒かかります
     ## 特徴
     - 4bit量子化により最適化
         "日本の四季について、それぞれの特徴を説明してください。",
         "人工知能の発展における倫理的な課題について説明してください。",
         "東京の主要な観光スポットを3つ挙げて、それぞれ説明してください。"
+    ]
 )
 # アプリの起動