Spaces:

ajimenez78
/

python2cplusplus

Paused

App Files Files Community

Arturo Jiménez de los Galanes Reguillos commited on Nov 4, 2024

Commit

1d2e578

1 Parent(s): a22e0d4

Do some refactorization

Browse files

Files changed (1) hide show

app.py +3 -21

app.py CHANGED Viewed

@@ -1,15 +1,9 @@
 import gradio as gr
-import os
 from huggingface_hub import login
 from dotenv import load_dotenv
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TextIteratorStreamer
-import torch
 from threading import Thread
-load_dotenv()
-hf_token = os.getenv('HF_TOKEN', 'your-key-if-not-using-env')
-login(hf_token, add_to_git_credential=True)
 MODEL = "m-a-p/OpenCodeInterpreter-DS-33B"
 system_message = "You are a computer programmer that can translate python code to C++ in order to improve performance"
@@ -26,23 +20,14 @@ def messages_for(python):
         {"role": "user", "content": user_prompt_for(python)}
     ]
-quant_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_use_double_quant=True,
-    bnb_4bit_compute_dtype=torch.bfloat16,
-    bnb_4bit_quant_type="nf4"
-)
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
-tokenizer.pad_token = tokenizer.eos_token
 streamer = TextIteratorStreamer(tokenizer)
-model = AutoModelForCausalLM.from_pretrained(MODEL, device_map="auto", quantization_config=quant_config)
 cplusplus = None
 def translate(python):
-    inputs = tokenizer.apply_chat_template(messages_for(python), return_tensors="pt").to("cuda")
-    generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=80)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     cplusplus = ""
@@ -50,8 +35,5 @@ def translate(python):
         cplusplus += chunk
         yield cplusplus
-    del inputs
-    torch.cuda.empty_cache()
 demo = gr.Interface(fn=translate, inputs="code", outputs="markdown")
 demo.launch()

 import gradio as gr
 from huggingface_hub import login
 from dotenv import load_dotenv
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TextIteratorStreamer
 from threading import Thread
 MODEL = "m-a-p/OpenCodeInterpreter-DS-33B"
 system_message = "You are a computer programmer that can translate python code to C++ in order to improve performance"
         {"role": "user", "content": user_prompt_for(python)}
     ]
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
+model = AutoModelForCausalLM.from_pretrained(MODEL)
 streamer = TextIteratorStreamer(tokenizer)
 cplusplus = None
 def translate(python):
+    inputs = tokenizer(messages_for(python), return_tensors="pt")
+    generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=20)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     cplusplus = ""
         cplusplus += chunk
         yield cplusplus
 demo = gr.Interface(fn=translate, inputs="code", outputs="markdown")
 demo.launch()