MistralRAG

Runtime error

App Files Files Community

desarrolloasesoreslocales commited on Nov 2, 2023

Commit

bb4c496

1 Parent(s): 90ddf4b

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -3

app.py CHANGED Viewed

@@ -1,5 +1,60 @@
 import gradio as gr
 from setfit import SetFitModel
 def cortar_en_bloques(texto, longitud_bloque):
     palabras = texto.split()
@@ -28,9 +83,9 @@ model = SetFitModel.from_pretrained("desarrolloasesoreslocales/SetFitPruebaRecor
 def predict(payload):
   recorte_general = ""
   # Crear chunks
-  chunks = cortar_en_bloques(payload, 150)
   first = -1
   margin = int(len(chunks) * 0.25)
   chunks_removable = chunks[:margin] + chunks[-margin:]
@@ -68,7 +123,7 @@ def predict(payload):
 # Crear una interfaz Gradio
 iface = gr.Interface(
     fn=predict,
-    inputs=gr.Textbox(),
     outputs=gr.Textbox(),
     live=False,
     title="Recortador de Texto"

 import gradio as gr
 from setfit import SetFitModel
+# Import libraries
+import PyPDF2
+import openpyxl
+import os
+import glob
+import re
+import itertools
+import platform
+from tempfile import TemporaryDirectory
+from pathlib import Path
+import pytesseract
+from pdf2image import convert_from_path
+from PIL import Image
+def ocrtotext(filename):
+    # Almacena todas las páginas del PDF en una variable
+    image_file_list = []  # Lista para almacenar los nombres de los archivos de imagen
+    PDF_file = filename  # Nombre del archivo PDF
+    text_file = (f'{filename}.txt')  # Nombre del archivo de texto de salida
+    # Parte #1: Convirtiendo el PDF a imágenes
+    pdf_pages = convert_from_path(PDF_file, 300)
+    # Lee el archivo PDF a 300 DPI
+    # Itera a través de todas las páginas almacenadas arriba
+    for page_enumeration, page in enumerate(pdf_pages, start=1):
+        # Crea un nombre de archivo para almacenar la imagen
+        filename = f"page_{page_enumeration:03}.jpg"
+        # Guarda la imagen de la página en el sistema
+        page.save(filename, "JPEG")
+        image_file_list.append(filename)
+    # Parte #2: Reconociendo texto desde las imágenes usando OCR
+    output = ''  # Variable para almacenar el texto reconocido
+    # Abre el archivo en modo de apendizaje para agregar contenido de todas las imágenes al mismo archivo
+    with open(text_file, "a") as output_file:
+        # Itera desde 1 hasta el número total de páginas
+        for image_file in image_file_list:
+            # Reconoce el texto en la imagen usando pytesseract
+            #text = str(((pytesseract.image_to_string(Image.open(image_file), lang="spa"))))
+            text = str(((pytesseract.image_to_string(Image.open(image_file)))))
+            # Elimina los guiones al final de las líneas
+            text = text.replace("-\n", "")
+            # Agrega el texto reconocido a la variable de salida
+            output += text
+        # Escribe el texto reconocido en el archivo de salida
+        output_file.write(output)
+        return output
 def cortar_en_bloques(texto, longitud_bloque):
     palabras = texto.split()
 def predict(payload):
   recorte_general = ""
+  ocr_text = ocrtotext(payload)
   # Crear chunks
+  chunks = cortar_en_bloques(ocr_text, 150)
   first = -1
   margin = int(len(chunks) * 0.25)
   chunks_removable = chunks[:margin] + chunks[-margin:]
 # Crear una interfaz Gradio
 iface = gr.Interface(
     fn=predict,
+    inputs=gr.inputs.File(),
     outputs=gr.Textbox(),
     live=False,
     title="Recortador de Texto"