Spaces:

lik07
/

docx-spliter

Sleeping

App Files Files Community

lik07 commited on Oct 5, 2024

Commit

e639253

verified ·

1 Parent(s): f22332c

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -64

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import gradio as gr
 from docx import Document
 import os
 import zipfile
-import tempfile
 def split_by_headers(file_path, headers_per_chunk=1):
     doc = Document(file_path)
@@ -11,6 +11,7 @@ def split_by_headers(file_path, headers_per_chunk=1):
     header_count = 0
     for paragraph in doc.paragraphs:
         if paragraph.style.name.startswith('Heading'):
             header_count += 1
             if header_count > headers_per_chunk:
@@ -18,6 +19,7 @@ def split_by_headers(file_path, headers_per_chunk=1):
                 current_chunk = Document()
                 header_count = 1
         current_chunk.add_paragraph(paragraph.text, style=paragraph.style.name)
     if len(current_chunk.paragraphs):
@@ -30,7 +32,7 @@ def split_by_pages(file_path, pages_per_chunk=1):
     chunks = []
     current_chunk = Document()
     page_count = 0
-    estimated_chars_per_page = 3000
     char_count = 0
     for paragraph in doc.paragraphs:
@@ -53,90 +55,59 @@ def split_by_pages(file_path, pages_per_chunk=1):
     return chunks
-def save_chunks(chunks, original_filename, temp_dir):
     saved_files = []
-    base_name = os.path.splitext(os.path.basename(original_filename))[0]
     for i, chunk in enumerate(chunks, 1):
-        output_path = os.path.join(temp_dir, f"{base_name}_part{i}.docx")
         chunk.save(output_path)
         saved_files.append(output_path)
     return saved_files
-def create_zip_file(file_paths, zip_path):
-    with zipfile.ZipFile(zip_path, 'w') as zipf:
-        for file_path in file_paths:
-            zipf.write(file_path, os.path.basename(file_path))
-    return zip_path
 def process_document(file, split_type, headers_or_pages, download_type):
     if headers_or_pages < 1:
-        return None, "Por favor, especifique un número positivo de encabezados o páginas por fragmento."
     try:
-        # Crear directorio temporal
-        temp_dir = tempfile.mkdtemp()
-        # Procesar el documento
         if split_type == "Encabezados":
             chunks = split_by_headers(file.name, headers_or_pages)
         else:  # Páginas
             chunks = split_by_pages(file.name, headers_or_pages)
-        # Guardar chunks en el directorio temporal
-        saved_files = save_chunks(chunks, file.name, temp_dir)
         if download_type == "ZIP":
-            # Crear archivo ZIP
-            zip_path = os.path.join(temp_dir, "documentos_divididos.zip")
-            create_zip_file(saved_files, zip_path)
-            return zip_path, f"Documento dividido en {len(saved_files)} partes y comprimido en ZIP."
-        else:  # Archivos individuales
-            return saved_files, f"Documento dividido en {len(saved_files)} partes."
     except Exception as e:
-        return None, f"Error al procesar el documento: {str(e)}"
-    finally:
-        # Programar la limpieza del directorio temporal
-        # (Gradio se encargará de esto después de la descarga)
-        pass
 # Interfaz Gradio
-with gr.Blocks() as iface:
-    gr.Markdown("# Divisor de Documentos DOCX")
-    with gr.Row():
-        file_input = gr.File(label="Seleccione el archivo DOCX")
-        split_type = gr.Radio(
-            ["Encabezados", "Páginas"],
-            label="Método de división",
-            value="Encabezados"
-        )
-    with gr.Row():
-        headers_pages = gr.Number(
-            value=1,
-            label="Número de encabezados/páginas por fragmento",
-            minimum=1
-        )
-        download_type = gr.Radio(
-            ["Individual", "ZIP"],
-            label="Tipo de descarga",
-            value="ZIP"
-        )
-    process_btn = gr.Button("Procesar Documento")
-    output_text = gr.Text(label="Estado")
-    file_output = gr.File(label="Archivos Procesados")
-    process_btn.click(
-        fn=process_document,
-        inputs=[file_input, split_type, headers_pages, download_type],
-        outputs=[file_output, output_text]
-    )
 if __name__ == "__main__":
-    iface.launch()

 import gradio as gr
 from docx import Document
 import os
+import shutil
 import zipfile
 def split_by_headers(file_path, headers_per_chunk=1):
     doc = Document(file_path)
     header_count = 0
     for paragraph in doc.paragraphs:
+        # Verificar si el párrafo es un encabezado
         if paragraph.style.name.startswith('Heading'):
             header_count += 1
             if header_count > headers_per_chunk:
                 current_chunk = Document()
                 header_count = 1
+        # Copiar el párrafo al chunk actual
         current_chunk.add_paragraph(paragraph.text, style=paragraph.style.name)
     if len(current_chunk.paragraphs):
     chunks = []
     current_chunk = Document()
     page_count = 0
+    estimated_chars_per_page = 3000  # Esta es una estimación
     char_count = 0
     for paragraph in doc.paragraphs:
     return chunks
+def save_chunks(chunks, original_filename):
     saved_files = []
+    base_name = os.path.splitext(original_filename)[0]
     for i, chunk in enumerate(chunks, 1):
+        output_path = f"{base_name}_part{i}.docx"
         chunk.save(output_path)
         saved_files.append(output_path)
     return saved_files
+def zip_files(files, zip_name="document_parts.zip"):
+    with zipfile.ZipFile(zip_name, 'w') as zipf:
+        for file in files:
+            zipf.write(file, os.path.basename(file))
+    return zip_name
 def process_document(file, split_type, headers_or_pages, download_type):
     if headers_or_pages < 1:
+        return "Por favor, especifique un número positivo de encabezados o páginas por fragmento."
     try:
+        # Dividir el documento según el tipo seleccionado
         if split_type == "Encabezados":
             chunks = split_by_headers(file.name, headers_or_pages)
         else:  # Páginas
             chunks = split_by_pages(file.name, headers_or_pages)
+        saved_files = save_chunks(chunks, os.path.basename(file.name))
+        # Si el usuario selecciona descargar en ZIP, comprimir los archivos
         if download_type == "ZIP":
+            zip_path = zip_files(saved_files)
+            return zip_path  # Devolver el archivo zip para descargar
+        else:
+            return saved_files  # Devolver los archivos separados para descargar
     except Exception as e:
+        return f"Error al procesar el documento: {str(e)}"
 # Interfaz Gradio
+iface = gr.Interface(
+    fn=process_document,
+    inputs=[
+        gr.File(label="Seleccione el archivo DOCX"),
+        gr.Radio(["Encabezados", "Páginas"], label="Método de división"),
+        gr.Number(value=1, label="Número de encabezados/páginas por fragmento", minimum=1),
+        gr.Radio(["Separados", "ZIP"], label="Tipo de descarga")
+    ],
+    outputs=gr.File(label="Descargar archivo(s)"),
+    title="Divisor de Documentos DOCX",
+    description="Divida documentos DOCX por encabezados o páginas estimadas y descárguelos como archivos separados o en un archivo ZIP."
+)
 if __name__ == "__main__":
+    iface.launch()