Spacy2

Paused

lik07 commited on Oct 4, 2024

Commit

5f302e9

verified ·

1 Parent(s): 3a5f37b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,26 +18,35 @@ def extract_names_from_text(text):
     return persons
 # Función para dividir el texto en fragmentos más pequeños
-def split_text(text, max_length=100000):
-    paragraphs = text.split('\n\n')  # Divide el texto en párrafos
     result = []
     current_chunk = []
-    for paragraph in paragraphs:
-        # Si agregar el próximo párrafo no excede el límite, agrégalo al chunk actual
-        if sum(len(p) for p in current_chunk) + len(paragraph) + (len(current_chunk) > 0) * 2 <= max_length:
-            current_chunk.append(paragraph)
-        else:
-            # Si agregar el próximo párrafo excede el límite, guarda el chunk actual y comienza uno nuevo
-            result.append('\n\n'.join(current_chunk))
-            current_chunk = [paragraph]
-    # Añade el último chunk si no está vacío
     if current_chunk:
-        result.append('\n\n'.join(current_chunk))
     return result
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX

     return persons
 # Función para dividir el texto en fragmentos más pequeños
+def split_text(file_path, max_length=100000):
     result = []
     current_chunk = []
+    current_length = 0
+    with open(file_path, 'r', encoding='utf-8') as file:
+        for line in file:
+            if line.strip() == '':
+                # Maneja el separador de párrafos
+                paragraph_length = 2  # '\n\n'
+            else:
+                paragraph_length = len(line)
+            if current_length + paragraph_length <= max_length:
+                current_chunk.append(line)
+                current_length += paragraph_length
+            else:
+                # Almacena el chunk actual
+                result.append(''.join(current_chunk))
+                current_chunk = [line]
+                current_length = paragraph_length
+    # Añade el último fragmento
     if current_chunk:
+        result.append(''.join(current_chunk))
     return result
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX