Spacy2

Paused

lik07 commited on Oct 4, 2024

Commit

63eb0e1

verified ·

1 Parent(s): 09a8de9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ import os
 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
-nlp.max_length = 3000000  # Aumenta el límite a 3 millones de caracteres
 # Función para procesar bloques de texto y extraer nombres de personas
 def extract_names_from_text(text):
@@ -18,8 +18,25 @@ def extract_names_from_text(text):
     return persons
 # Función para dividir el texto en fragmentos más pequeños
-def split_text(text, max_length=100000):
-    return [text[i:i+max_length] for i in range(0, len(text), max_length)]
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):

 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
+nlp.max_length = 15000000  # Aumenta el límite a 3 millones de caracteres
 # Función para procesar bloques de texto y extraer nombres de personas
 def extract_names_from_text(text):
     return persons
 # Función para dividir el texto en fragmentos más pequeños
+def split_text_into_paragraphs(text, max_length=100000):
+    paragraphs = text.split('\n\n')  # Divide el texto en párrafos
+    result = []
+    current_chunk = []
+    for paragraph in paragraphs:
+        # Si agregar el próximo párrafo no excede el límite, agrégalo al chunk actual
+        if sum(len(p) for p in current_chunk) + len(paragraph) + (len(current_chunk) > 0) * 2 <= max_length:
+            current_chunk.append(paragraph)
+        else:
+            # Si agregar el próximo párrafo excede el límite, guarda el chunk actual y comienza uno nuevo
+            result.append('\n\n'.join(current_chunk))
+            current_chunk = [paragraph]
+    # Añade el último chunk si no está vacío
+    if current_chunk:
+        result.append('\n\n'.join(current_chunk))
+    return result
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):