Spaces:
Runtime error
Runtime error
Commit
·
0d5c6ec
1
Parent(s):
b1e68da
Update app.py
Browse files
app.py
CHANGED
@@ -16,8 +16,8 @@ from PIL import Image
|
|
16 |
|
17 |
#print('HOLA:', os.walk('../'))
|
18 |
|
19 |
-
pytesseract.pytesseract.tesseract_cmd = r"./lib/Tesseract-OCR/tesseract.exe"
|
20 |
-
path_to_poppler_exe = r"./lib/poppler-0.68.0/bin"
|
21 |
|
22 |
def ocrtotext(filename):
|
23 |
# Almacena todas las páginas del PDF en una variable
|
@@ -26,7 +26,8 @@ def ocrtotext(filename):
|
|
26 |
text_file = (f'{filename}.txt') # Nombre del archivo de texto de salida
|
27 |
|
28 |
# Parte #1: Convirtiendo el PDF a imágenes
|
29 |
-
pdf_pages = convert_from_path(PDF_file, 300, poppler_path=path_to_poppler_exe)
|
|
|
30 |
# Lee el archivo PDF a 300 DPI
|
31 |
|
32 |
# Itera a través de todas las páginas almacenadas arriba
|
|
|
16 |
|
17 |
#print('HOLA:', os.walk('../'))
|
18 |
|
19 |
+
#pytesseract.pytesseract.tesseract_cmd = r"./lib/Tesseract-OCR/tesseract.exe"
|
20 |
+
#path_to_poppler_exe = r"./lib/poppler-0.68.0/bin"
|
21 |
|
22 |
def ocrtotext(filename):
|
23 |
# Almacena todas las páginas del PDF en una variable
|
|
|
26 |
text_file = (f'{filename}.txt') # Nombre del archivo de texto de salida
|
27 |
|
28 |
# Parte #1: Convirtiendo el PDF a imágenes
|
29 |
+
#pdf_pages = convert_from_path(PDF_file, 300, poppler_path=path_to_poppler_exe)
|
30 |
+
pdf_pages = convert_from_path(PDF_file, 300)
|
31 |
# Lee el archivo PDF a 300 DPI
|
32 |
|
33 |
# Itera a través de todas las páginas almacenadas arriba
|