Spaces:

filipealmeida
/

open-llama-3b-v2-pii-transform

Runtime error

filipealmeida commited on Sep 19, 2023

Commit

be312ed

unverified ·

1 Parent(s): 68194a3

Add ability to configure model name

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,13 +12,14 @@ logging.basicConfig(level=logging.INFO)
 model_repo="filipealmeida/open-llama-3b-v2-pii-transform"
 # model_filename="ggml-model-f16.gguf"
-model_filename="ggml-model-Q8_0.gguf"
 def download_model():
     print("Downloading model...")
     sys.stdout.flush()
     file = hf_hub_download(
-            repo_id=model_repo, filename=model_filename
     )
     print("Downloaded " + file)
     return file
@@ -44,17 +45,14 @@ def generate_text(prompt, example):
     logging.info(f"Generated text: {full_text}")
-parser = argparse.ArgumentParser()
-parser.add_argument("--model", help="Path to the model file")
 parser.add_argument("--gpu", help="How many GPU layers to use", default=0, type=int)
 parser.add_argument("--ctx", help="How many context tokens to use", default=1024, type=int)
 parser.add_argument("--temp", help="temperature", default=0.1, type=float)
 args = parser.parse_args()
-if args.model:
-    model_path = args.model
-else:
-    model_path = download_model()
 # TODO n_gpu_layers doesn't seem to be working
 llm = Llama(model_path=model_path, n_gpu_layers=args.gpu, n_ctx=args.ctx)

 model_repo="filipealmeida/open-llama-3b-v2-pii-transform"
 # model_filename="ggml-model-f16.gguf"
+# model_filename="ggml-model-Q8_0.gguf"
 def download_model():
     print("Downloading model...")
     sys.stdout.flush()
+    print(f"Loading model from {args.model_filename}")
     file = hf_hub_download(
+            repo_id=model_repo, filename=args.model_filename
     )
     print("Downloaded " + file)
     return file
     logging.info(f"Generated text: {full_text}")
+parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)
+parser.add_argument("--model-filename", help="Path to the model file", default="ggml-model-Q8_0.gguf")
 parser.add_argument("--gpu", help="How many GPU layers to use", default=0, type=int)
 parser.add_argument("--ctx", help="How many context tokens to use", default=1024, type=int)
 parser.add_argument("--temp", help="temperature", default=0.1, type=float)
 args = parser.parse_args()
+model_path = download_model()
 # TODO n_gpu_layers doesn't seem to be working
 llm = Llama(model_path=model_path, n_gpu_layers=args.gpu, n_ctx=args.ctx)