Spacy2

Paused

lik07 commited on Oct 4, 2024

Commit

ace795f

verified ·

1 Parent(s): 5f302e9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,35 +18,31 @@ def extract_names_from_text(text):
     return persons
 # Función para dividir el texto en fragmentos más pequeños
-def split_text(file_path, max_length=100000):
     result = []
     current_chunk = []
     current_length = 0
-    with open(file_path, 'r', encoding='utf-8') as file:
-        for line in file:
-            if line.strip() == '':
-                # Maneja el separador de párrafos
-                paragraph_length = 2  # '\n\n'
-            else:
-                paragraph_length = len(line)
-            if current_length + paragraph_length <= max_length:
-                current_chunk.append(line)
-                current_length += paragraph_length
-            else:
-                # Almacena el chunk actual
-                result.append(''.join(current_chunk))
-                current_chunk = [line]
-                current_length = paragraph_length
-    # Añade el último fragmento
     if current_chunk:
-        result.append(''.join(current_chunk))
     return result
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX

     return persons
 # Función para dividir el texto en fragmentos más pequeños
+def split_text(text, max_length=100000):
     result = []
     current_chunk = []
     current_length = 0
+    # Divide por salto de línea simple en lugar de doble
+    paragraphs = text.split('\n')  # Usamos '\n' ya que en chino no se usan saltos dobles
+    for paragraph in paragraphs:
+        paragraph_length = len(paragraph) + 1  # Considera el '\n' añadido entre párrafos
+        if current_length + paragraph_length <= max_length:
+            current_chunk.append(paragraph)
+            current_length += paragraph_length
+        else:
+            # Guarda el fragmento actual y empieza uno nuevo
+            result.append('\n'.join(current_chunk))
+            current_chunk = [paragraph]
+            current_length = paragraph_length
+    # Añadir el último fragmento si no está vacío
     if current_chunk:
+        result.append('\n'.join(current_chunk))
     return result
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX