Spaces:

Hawoly18
/

llama3.2-3B-wolof-T

Runtime error

App Files Files Community

Hawoly18 commited on Oct 21, 2024

Commit

a6c0613

verified ·

1 Parent(s): ab296df

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -14

app.py CHANGED Viewed

@@ -1,18 +1,19 @@
-import os
-os.environ['HF_HOME'] = 'E:/huggingface_cache'
-import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-# Load the model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("Hawoly18/llama3.2-3B-Wolof")
-model = AutoModelForCausalLM.from_pretrained("Hawoly18/llama3.2-3B-Wolof")
 if tokenizer.pad_token is None:
-  tokenizer.pad_token = tokenizer.eos_token
-# Function to generate responses
 def generate_response(question, max_length=512):
     input_text = f"Question: {question}\nRéponse:"
     input_ids = tokenizer.encode(input_text, return_tensors='pt', padding=True, truncation=True)
@@ -25,23 +26,24 @@ def generate_response(question, max_length=512):
             attention_mask=attention_mask,
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id,
-            num_beams=5,  # Beam search for better quality
-            no_repeat_ngram_size=2,  # Prevent n-gram repetition
             early_stopping=True
         )
     response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
     response = response.replace(input_text, "").strip()
     return response
-# Define the Gradio interface
 interface = gr.Interface(
     fn=generate_response,
     inputs="text",
     outputs="text",
-    title="Model Adia Géneration de Réponse en Wolof",
-    description="Posez une question relative à l'entrepreneuriat en Afrique",
     examples=[["yan jumtukaay ci xaral yi BSE moom mën a dimbali ndax moom mën woyal sama liggéey ci entrepreneur yi"]]
 )
-# Launch the interface
 interface.launch(share=True)

 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
+import bitsandbytes as bnb
+# Charger le modèle quantifié en 8-bit
 tokenizer = AutoTokenizer.from_pretrained("Hawoly18/llama3.2-3B-Wolof")
+model = AutoModelForCausalLM.from_pretrained(
+    "Hawoly18/llama3.2-3B-Wolof",
+    load_in_8bit=True,   # Utilise la quantification en 8-bit
+    device_map="auto"    # Permet l'utilisation automatique des ressources (CPU ici)
+)
 if tokenizer.pad_token is None:
+    tokenizer.pad_token = tokenizer.eos_token
+# Fonction pour générer des réponses
 def generate_response(question, max_length=512):
     input_text = f"Question: {question}\nRéponse:"
     input_ids = tokenizer.encode(input_text, return_tensors='pt', padding=True, truncation=True)
             attention_mask=attention_mask,
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            num_beams=5,
+            no_repeat_ngram_size=2,
             early_stopping=True
         )
     response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
     response = response.replace(input_text, "").strip()
     return response
+# Interface Gradio
+import gradio as gr
 interface = gr.Interface(
     fn=generate_response,
     inputs="text",
     outputs="text",
+    title="Model Q&A Interface",
+    description="Ask a question related to BSE and entrepreneurship!",
     examples=[["yan jumtukaay ci xaral yi BSE moom mën a dimbali ndax moom mën woyal sama liggéey ci entrepreneur yi"]]
 )
 interface.launch(share=True)