Spaces:

ramalMr
/

data_gen

Sleeping

ramalMr commited on Mar 30, 2024

Commit

a26857e

verified ·

1 Parent(s): beb08e3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from huggingface_hub import InferenceClient
 import gradio as gr
-import re
 client = InferenceClient(
     "mistralai/Mixtral-8x7B-Instruct-v0.1"
@@ -14,7 +14,9 @@ def format_prompt(message, history):
     prompt += f"[INST] {message} [/INST]"
     return prompt
-def generate(prompt, history, system_prompt, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0, file=None):
     temperature = float(temperature)
     if temperature < 1e-2:
         temperature = 1e-2
@@ -30,18 +32,24 @@ def generate(prompt, history, system_prompt, temperature=0.9, max_new_tokens=256
     )
     if file:
-        sentences = process_file(file)
-        prompt = "\n".join(sentences)
     formatted_prompt = format_prompt(f"{system_prompt}, {prompt}", history)
-    response = client.text_generation(formatted_prompt, **generate_kwargs, details=True, return_full_text=True)
-    return response.text
-def process_file(file):
-    text = file.decode("utf-8")
-    sentences = re.split(r'[.!?]+', text)
-    sentences = [s.strip() for s in sentences if s.strip()]
-    return sentences
 additional_inputs=[
     gr.Textbox(
@@ -85,7 +93,7 @@ additional_inputs=[
         interactive=True,
         info="Penalize repeated tokens",
     ),
-    gr.File(label="Upload File", file_count="single"),
 ]
 gr.ChatInterface(

 from huggingface_hub import InferenceClient
 import gradio as gr
+import PyPDF2
 client = InferenceClient(
     "mistralai/Mixtral-8x7B-Instruct-v0.1"
     prompt += f"[INST] {message} [/INST]"
     return prompt
+def generate(
+    prompt, history, system_prompt, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0, file=None
+):
     temperature = float(temperature)
     if temperature < 1e-2:
         temperature = 1e-2
     )
     if file:
+        text = extract_text_from_pdf(file)
+        prompt = text
     formatted_prompt = format_prompt(f"{system_prompt}, {prompt}", history)
+    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
+    output = ""
+    for response in stream:
+        output += response.token.text
+        yield output
+    return output
+def extract_text_from_pdf(file):
+    pdf_reader = PyPDF2.PdfReader(file)
+    text = ""
+    for page in range(len(pdf_reader.pages)):
+        text += pdf_reader.pages[page].extract_text()
+    return text
 additional_inputs=[
     gr.Textbox(
         interactive=True,
         info="Penalize repeated tokens",
     ),
+    gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]),
 ]
 gr.ChatInterface(