Spaces:

dsfdfsghgf
/

SmartMath_AI

Runtime error

App Files Files Community

dsfdfsghgf commited on Nov 12, 2024

Commit

12d6b61

verified ·

1 Parent(s): ead7181

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -19

app.py CHANGED Viewed

@@ -8,15 +8,20 @@ model_name = "Qwen/Qwen2.5-Math-1.5B-Instruct"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # Modell und Tokenizer laden
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    device_map="auto",  # Modell auf verfügbare Geräte verteilen
-    low_cpu_mem_usage=True,  # Versucht, den Speicherverbrauch zu reduzieren
-    trust_remote_code=True,
-    torch_dtype=torch.float16  # Reduziert den Speicherverbrauch
-).to(device).eval()
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 # Eingabe für das Gesprächsmodell erstellen
 chat = [
@@ -25,17 +30,26 @@ chat = [
 ]
 # Vorbereitung des Eingabeformats
-conversation_str = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False)
-# Tokenisierung der Eingabe und Erzeugen der attention_mask
-inputs = tokenizer(conversation_str, return_tensors="pt", padding=True, truncation=True)
 # Inferenz durchführen
-with torch.no_grad():
-    outputs = model.generate(input_ids=inputs["input_ids"].to(device),
-                             attention_mask=inputs["attention_mask"].to(device),
-                             max_length=256,
-                             num_return_sequences=1)
 # Ausgabe anzeigen
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))

 device = "cuda" if torch.cuda.is_available() else "cpu"
 # Modell und Tokenizer laden
+try:
+    print("Lade Modell und Tokenizer...")
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        device_map="auto",  # Modell auf verfügbare Geräte verteilen
+        low_cpu_mem_usage=True,  # Versucht, den Speicherverbrauch zu reduzieren
+        trust_remote_code=True,
+        torch_dtype=torch.float16  # Reduziert den Speicherverbrauch
+    ).to(device).eval()
+    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+    print("Modell und Tokenizer geladen.")
+except Exception as e:
+    print(f"Fehler beim Laden des Modells: {e}")
 # Eingabe für das Gesprächsmodell erstellen
 chat = [
 ]
 # Vorbereitung des Eingabeformats
+try:
+    conversation_str = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False)
+    inputs = tokenizer(conversation_str, return_tensors="pt", padding=True, truncation=True)
+    print("Eingabe vorbereitet.")
+except Exception as e:
+    print(f"Fehler bei der Eingabevorbereitung: {e}")
 # Inferenz durchführen
+try:
+    with torch.no_grad():
+        outputs = model.generate(input_ids=inputs["input_ids"].to(device),
+                                 attention_mask=inputs["attention_mask"].to(device),
+                                 max_length=256,
+                                 num_return_sequences=1)
+        print("Inferenz abgeschlossen.")
+except Exception as e:
+    print(f"Fehler bei der Inferenz: {e}")
 # Ausgabe anzeigen
+try:
+    print("Ausgabe: ", tokenizer.decode(outputs[0], skip_special_tokens=True))
+except Exception as e:
+    print(f"Fehler bei der Ausgabe: {e}")