lik07 commited on
Commit
63eb0e1
·
verified ·
1 Parent(s): 09a8de9

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +20 -3
app.py CHANGED
@@ -8,7 +8,7 @@ import os
8
 
9
  # Cargar el modelo de SpaCy en español
10
  nlp = spacy.load('zh_core_web_trf')
11
- nlp.max_length = 3000000 # Aumenta el límite a 3 millones de caracteres
12
 
13
  # Función para procesar bloques de texto y extraer nombres de personas
14
  def extract_names_from_text(text):
@@ -18,8 +18,25 @@ def extract_names_from_text(text):
18
  return persons
19
 
20
  # Función para dividir el texto en fragmentos más pequeños
21
- def split_text(text, max_length=100000):
22
- return [text[i:i+max_length] for i in range(0, len(text), max_length)]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
 
24
  # Función principal para extraer nombres de personas desde un archivo DOCX
25
  def extract_names_from_docx(docx_file):
 
8
 
9
  # Cargar el modelo de SpaCy en español
10
  nlp = spacy.load('zh_core_web_trf')
11
+ nlp.max_length = 15000000 # Aumenta el límite a 3 millones de caracteres
12
 
13
  # Función para procesar bloques de texto y extraer nombres de personas
14
  def extract_names_from_text(text):
 
18
  return persons
19
 
20
  # Función para dividir el texto en fragmentos más pequeños
21
+ def split_text_into_paragraphs(text, max_length=100000):
22
+ paragraphs = text.split('\n\n') # Divide el texto en párrafos
23
+ result = []
24
+ current_chunk = []
25
+
26
+ for paragraph in paragraphs:
27
+ # Si agregar el próximo párrafo no excede el límite, agrégalo al chunk actual
28
+ if sum(len(p) for p in current_chunk) + len(paragraph) + (len(current_chunk) > 0) * 2 <= max_length:
29
+ current_chunk.append(paragraph)
30
+ else:
31
+ # Si agregar el próximo párrafo excede el límite, guarda el chunk actual y comienza uno nuevo
32
+ result.append('\n\n'.join(current_chunk))
33
+ current_chunk = [paragraph]
34
+
35
+ # Añade el último chunk si no está vacío
36
+ if current_chunk:
37
+ result.append('\n\n'.join(current_chunk))
38
+
39
+ return result
40
 
41
  # Función principal para extraer nombres de personas desde un archivo DOCX
42
  def extract_names_from_docx(docx_file):