Spaces:

AhmadT198
/

zeroGPUDemo1

Sleeping

AhmadT198 commited on Oct 15, 2024

Commit

dde3493

1 Parent(s): 698bcdd

Trying LLM again

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,14 +6,13 @@ import torch
 # Use a pipeline as a high-level helper
 from transformers import pipeline
-# pipe = pipeline("text-generation", model="NousResearch/Hermes-3-Llama-3.1-8B", max_new_tokens=200, device=0)
-@spaces.GPU
 def llama3_1_8B(question):
     messages = [
     {"role": "user", "content": question},
     ]
-    # responses = pipe(messages)
     if torch.cuda.is_available():
         num_devices = torch.cuda.device_count()
         print(f"Number of CUDA devices: {num_devices}")
@@ -23,9 +22,13 @@ def llama3_1_8B(question):
     else:
         print("CUDA is not available.")
-    return "Hi"
 def greet(name):
     return "Hello " + name + "!!???"

 # Use a pipeline as a high-level helper
 from transformers import pipeline
+@spaces.GPU(duration=120)
 def llama3_1_8B(question):
     messages = [
     {"role": "user", "content": question},
     ]
     if torch.cuda.is_available():
         num_devices = torch.cuda.device_count()
         print(f"Number of CUDA devices: {num_devices}")
     else:
         print("CUDA is not available.")
+    print("RUNNING PIPE")
+    pipe = pipeline("text-generation", model="NousResearch/Hermes-3-Llama-3.1-8B", max_new_tokens=200, device=0)
+    print("GATHERING RESPONSES")
+    responses = pipe(messages)
+    return str(responses)
 def greet(name):
     return "Hello " + name + "!!???"