Spaces:

Loewolf
/

Loewolf-Chat

Runtime error

App Files Files Community

Loewolf commited on Nov 11, 2023

Commit

06ea162

1 Parent(s): 57579dd

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -13

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import os
-import torch
 from threading import Thread
 from typing import Iterator
@@ -10,18 +9,14 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 # Konfigurationsparameter
 MAX_MAX_NEW_TOKENS = 100
 DEFAULT_MAX_NEW_TOKENS = 20
-MAX_INPUT_TOKEN_LENGTH = 200  # Anpassung auf 400 Tokens
 # Modell und Tokenizer laden
 model_id = "Loewolf/GPT_1"
-if torch.cuda.is_available():
-    model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")
-    tokenizer = AutoTokenizer.from_pretrained(model_id)
-else:
-    raise EnvironmentError("CUDA ist nicht verfügbar. Dieses Skript benötigt eine GPU.")
 # Gradio Chat Interface Funktion
-@spaces.GPU
 def generate(
     message: str,
     chat_history: list[tuple[str, str]],
@@ -31,7 +26,7 @@ def generate(
     top_p: float = 0.9,
     top_k: int = 50,
     repetition_penalty: float = 1.2,
-) -> Iterator[str]:
     conversation = []
     if system_prompt:
         conversation.append({"role": "system", "content": system_prompt})
@@ -40,11 +35,9 @@ def generate(
     conversation.append({"role": "user", "content": message})
     input_ids = tokenizer(conversation, return_tensors="pt", truncation=True, max_length=MAX_INPUT_TOKEN_LENGTH)
-    input_ids = input_ids.to(model.device)
     generate_kwargs = dict(
-        input_ids=input_ids,
-        max_new_tokens=min(max_new_tokens, MAX_MAX_NEW_TOKENS),
         temperature=temperature,
         top_p=top_p,
         top_k=top_k,

 import os
 from threading import Thread
 from typing import Iterator
 # Konfigurationsparameter
 MAX_MAX_NEW_TOKENS = 100
 DEFAULT_MAX_NEW_TOKENS = 20
+MAX_INPUT_TOKEN_LENGTH = 400  # Begrenzung auf 400 Tokens
 # Modell und Tokenizer laden
 model_id = "Loewolf/GPT_1"
+model = AutoModelForCausalLM.from_pretrained(model_id)
+tokenizer = AutoTokenizer.from_pretrained(model_id)
 # Gradio Chat Interface Funktion
 def generate(
     message: str,
     chat_history: list[tuple[str, str]],
     top_p: float = 0.9,
     top_k: int = 50,
     repetition_penalty: float = 1.2,
+) -> str:
     conversation = []
     if system_prompt:
         conversation.append({"role": "system", "content": system_prompt})
     conversation.append({"role": "user", "content": message})
     input_ids = tokenizer(conversation, return_tensors="pt", truncation=True, max_length=MAX_INPUT_TOKEN_LENGTH)
     generate_kwargs = dict(
+        input_ids=input_ids["input_ids"],
+        max_length=input_ids["input_ids"].shape[1] + max_new_tokens,
         temperature=temperature,
         top_p=top_p,
         top_k=top_k,