Spaces:

Svngoku
/

PDF2Dataset

Running

App Files Files Community

Svngoku commited on 13 days ago

Commit

c5e1e79

verified ·

1 Parent(s): b88bc18

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -65

app.py CHANGED Viewed

@@ -1,8 +1,9 @@
 import gradio as gr
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from typing import List
 import logging
 from pathlib import Path
 import requests
 import base64
@@ -91,61 +92,61 @@ def perform_ocr_file(file):
     except Exception as e:
         return f"Error during OCR: {str(e)}", ""
-# Function to chunk markdown text
 def chunk_markdown(
     markdown_text: str,
     chunk_size: int = 1000,
     chunk_overlap: int = 200,
-    preserve_numbering: bool = True
 ) -> List[Document]:
-    if chunk_size <= 0:
-        raise ValueError("chunk_size must be positive")
-    if chunk_overlap < 0:
-        raise ValueError("chunk_overlap cannot be negative")
-    if chunk_overlap >= chunk_size:
-        raise ValueError("chunk_overlap must be less than chunk_size")
     try:
-        document = Document(page_content=markdown_text, metadata={"source": "ocr_output"})
-        separators = (
-            ["\n\d+\.\s+", "\n\n", "\n", ".", " ", ""]
-            if preserve_numbering
-            else ["\n\n", "\n", ".", " ", ""]
-        )
-        text_splitter = RecursiveCharacterTextSplitter(
-            chunk_size=chunk_size,
-            chunk_overlap=chunk_overlap,
-            length_function=len,
-            separators=separators,  # Fixed parameter name
-            keep_separator=True,
-            add_start_index=True,
-            is_separator_regex=preserve_numbering
         )
-        logger.info("Splitting markdown text into chunks")
-        chunks = text_splitter.split_documents([document])
-        if preserve_numbering:
-            merged_chunks = []
-            current_chunk = None
             for chunk in chunks:
-                content = chunk.page_content.strip()
-                if current_chunk is None:
-                    current_chunk = chunk
-                elif content.startswith(tuple(f"{i}." for i in range(10))):
-                    if current_chunk:
-                        merged_chunks.append(current_chunk)
-                    current_chunk = chunk
                 else:
-                    current_chunk.page_content += "\n" + content
-                    current_chunk.metadata["end_index"] = chunk.metadata["start_index"] + len(content)
-            if current_chunk:
-                merged_chunks.append(current_chunk)
-            chunks = merged_chunks
         logger.info(f"Created {len(chunks)} chunks")
         return chunks
@@ -162,7 +163,7 @@ def text_to_base64_dummy(text: str, chunk_index: int):
     return base64.b64encode(buffer.getvalue()).decode("utf-8")
 # Process file: OCR -> Chunk -> Save
-def process_file_and_save(file, chunk_size, chunk_overlap, preserve_numbering, hf_token, repo_name):
     try:
         # Step 1: Perform OCR
         combined_markdown, raw_markdown = perform_ocr_file(file)
@@ -170,29 +171,24 @@ def process_file_and_save(file, chunk_size, chunk_overlap, preserve_numbering, h
             return combined_markdown
         # Step 2: Chunk the markdown
-        chunks = chunk_markdown(combined_markdown, chunk_size, chunk_overlap, preserve_numbering)
         # Step 3: Prepare dataset
         data = {
             "chunk_id": [],
             "content": [],
             "metadata": [],
-            "page_image": []
         }
         for i, chunk in enumerate(chunks):
             data["chunk_id"].append(i)
             data["content"].append(chunk.page_content)
-            data["metadata"].append(chunk.metadata)
-            img_base64 = None
-            if "![image" in chunk.page_content:
-                start = chunk.page_content.find("data:image")
-                if start != -1:
-                    end = chunk.page_content.find(")", start)
-                    img_base64 = chunk.page_content[start:end]
-            if not img_base64:
-                img_base64 = text_to_base64_dummy(chunk.page_content, i)
-            data["page_image"].append(img_base64)
         # Step 4: Create and push dataset to Hugging Face
         dataset = Dataset.from_dict(data)
@@ -205,16 +201,16 @@ def process_file_and_save(file, chunk_size, chunk_overlap, preserve_numbering, h
         return f"Error: {str(e)}"
 # Gradio Interface
-with gr.Blocks(title="PDF/Image OCR, Chunking, and Dataset Creator") as demo:
-    gr.Markdown("# PDF/Image OCR, Chunking, and Dataset Creator")
-    gr.Markdown("Upload a PDF or image, extract text/images with Mistral OCR, chunk the markdown, and save to Hugging Face.")
     with gr.Row():
         with gr.Column():
             file_input = gr.File(label="Upload PDF or Image")
-            chunk_size = gr.Slider(500, 2000, value=1000, step=100, label="Chunk Size")
             chunk_overlap = gr.Slider(0, 500, value=200, step=50, label="Chunk Overlap")
-            preserve_numbering = gr.Checkbox(label="Preserve Numbering", value=True)
             hf_token = gr.Textbox(label="Hugging Face Token", type="password")
             repo_name = gr.Textbox(label="Hugging Face Repository Name (e.g., username/dataset-name)")
             submit_btn = gr.Button("Process and Save")
@@ -224,7 +220,7 @@ with gr.Blocks(title="PDF/Image OCR, Chunking, and Dataset Creator") as demo:
     submit_btn.click(
         fn=process_file_and_save,
-        inputs=[file_input, chunk_size, chunk_overlap, preserve_numbering, hf_token, repo_name],
         outputs=output
     )

 import gradio as gr
+from langchain_text_splitters import MarkdownHeaderTextSplitter, RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from typing import List
 import logging
+import re
 from pathlib import Path
 import requests
 import base64
     except Exception as e:
         return f"Error during OCR: {str(e)}", ""
+# Function to extract base64 images from markdown content
+def extract_images_from_markdown(markdown_text: str) -> List[str]:
+    # Regex to match markdown image syntax with base64 data
+    pattern = r"!\[.*?\]\((data:image/[a-z]+;base64,[^\)]+)\)"
+    return re.findall(pattern, markdown_text)
+# Function to chunk markdown text with image handling
 def chunk_markdown(
     markdown_text: str,
     chunk_size: int = 1000,
     chunk_overlap: int = 200,
+    strip_headers: bool = True
 ) -> List[Document]:
     try:
+        # Define headers to split on
+        headers_to_split_on = [
+            ("#", "Header 1"),
+            ("##", "Header 2"),
+            ("###", "Header 3"),
+        ]
+        # Initialize MarkdownHeaderTextSplitter
+        markdown_splitter = MarkdownHeaderTextSplitter(
+            headers_to_split_on=headers_to_split_on,
+            strip_headers=strip_headers
         )
+        # Split markdown by headers
+        logger.info("Splitting markdown by headers")
+        chunks = markdown_splitter.split_text(markdown_text)
+        # If chunk_size is specified, further split large chunks
+        if chunk_size > 0:
+            text_splitter = RecursiveCharacterTextSplitter(
+                chunk_size=chunk_size,
+                chunk_overlap=chunk_overlap,
+                length_function=len,
+                separators=["\n\n", "\n", ".", " ", ""],
+                keep_separator=True,
+                add_start_index=True
+            )
+            logger.info(f"Applying character-level splitting with chunk_size={chunk_size}")
+            final_chunks = []
             for chunk in chunks:
+                if len(chunk.page_content) > chunk_size:
+                    sub_chunks = text_splitter.split_documents([chunk])
+                    final_chunks.extend(sub_chunks)
                 else:
+                    final_chunks.append(chunk)
+            chunks = final_chunks
+        # Add images to metadata
+        for chunk in chunks:
+            images = extract_images_from_markdown(chunk.page_content)
+            chunk.metadata["images"] = images
         logger.info(f"Created {len(chunks)} chunks")
         return chunks
     return base64.b64encode(buffer.getvalue()).decode("utf-8")
 # Process file: OCR -> Chunk -> Save
+def process_file_and_save(file, chunk_size, chunk_overlap, strip_headers, hf_token, repo_name):
     try:
         # Step 1: Perform OCR
         combined_markdown, raw_markdown = perform_ocr_file(file)
             return combined_markdown
         # Step 2: Chunk the markdown
+        chunks = chunk_markdown(combined_markdown, chunk_size, chunk_overlap, strip_headers)
         # Step 3: Prepare dataset
         data = {
             "chunk_id": [],
             "content": [],
             "metadata": [],
+            "images": []  # Changed to store list of images
         }
         for i, chunk in enumerate(chunks):
             data["chunk_id"].append(i)
             data["content"].append(chunk.page_content)
+            data["metadata"].append({k: v for k, v in chunk.metadata.items() if k != "images"})  # Exclude images from metadata column
+            images = chunk.metadata.get("images", [])
+            if not images:  # If no images, add a placeholder
+                images = [text_to_base64_dummy(chunk.page_content, i)]
+            data["images"].append(images)
         # Step 4: Create and push dataset to Hugging Face
         dataset = Dataset.from_dict(data)
         return f"Error: {str(e)}"
 # Gradio Interface
+with gr.Blocks(title="PDF/Image OCR, Markdown Chunking, and Dataset Creator") as demo:
+    gr.Markdown("# PDF/Image OCR, Markdown Chunking, and Dataset Creator")
+    gr.Markdown("Upload a PDF or image, extract text/images with Mistral OCR, chunk the markdown by headers, and save to Hugging Face.")
     with gr.Row():
         with gr.Column():
             file_input = gr.File(label="Upload PDF or Image")
+            chunk_size = gr.Slider(0, 2000, value=1000, step=100, label="Max Chunk Size (0 to disable)")
             chunk_overlap = gr.Slider(0, 500, value=200, step=50, label="Chunk Overlap")
+            strip_headers = gr.Checkbox(label="Strip Headers from Content", value=True)
             hf_token = gr.Textbox(label="Hugging Face Token", type="password")
             repo_name = gr.Textbox(label="Hugging Face Repository Name (e.g., username/dataset-name)")
             submit_btn = gr.Button("Process and Save")
     submit_btn.click(
         fn=process_file_and_save,
+        inputs=[file_input, chunk_size, chunk_overlap, strip_headers, hf_token, repo_name],
         outputs=output
     )