zvl commited on
Commit
83c013e
·
verified ·
1 Parent(s): 501b995

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +10 -17
app.py CHANGED
@@ -24,17 +24,16 @@ model = HfApiModel(
24
  @tool
25
  def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> str:
26
  """
27
- Convierte el contenido scrapeado en un archivo Markdown bien estructurado.
28
 
29
- Args:
30
- scraped_data (dict): Un diccionario con la URL y los datos extraídos de una página web.
31
- Debe contener las claves:
32
- - 'url' (str): La URL de la página web.
33
- - 'scraped_data' (list[str]): Lista de fragmentos de texto extraídos de la página.
34
- filename (str, opcional): Nombre del archivo de salida. Si no se especifica, se genera automáticamente con timestamp.
35
 
36
- Returns:
37
- str: Mensaje confirmando la creación del archivo Markdown o un error si falla el proceso.
38
  """
39
  try:
40
  url = scraped_data.get("url", "Desconocido")
@@ -45,19 +44,12 @@ def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> s
45
 
46
  formatted_content = "\n\n".join(content_list)
47
 
48
- # Resumir el contenido si es muy largo
49
- if len(formatted_content.split()) > 100:
50
- summarized_text = summarize_text(formatted_content[:1024])
51
- else:
52
- summarized_text = formatted_content
53
-
54
  # Estructurar en Markdown
55
  markdown_content = f"# Contenido extraído de {url}\n\n"
56
- markdown_content += f"## Resumen\n\n> {summarized_text}\n\n"
57
  markdown_content += "## Contenido Completo\n\n"
58
  markdown_content += formatted_content
59
 
60
- # Guardar el archivo con timestamp
61
  if not filename:
62
  timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
63
  filename = f"scraped_{timestamp}.md"
@@ -71,6 +63,7 @@ def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> s
71
  return f"Error al generar el archivo Markdown: {str(e)}"
72
 
73
 
 
74
  @tool
75
 
76
  def summarize_text(text):
 
24
  @tool
25
  def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> str:
26
  """
27
+ Guarda el contenido scrapeado en un archivo Markdown.
28
 
29
+ Parámetros:
30
+ scraped_data (dict): Diccionario con los siguientes datos:
31
+ - url (str): URL de la página web de donde se extrajo el contenido.
32
+ - scraped_data (list[str]): Lista de fragmentos de texto extraídos de la página.
33
+ filename (str, opcional): Nombre del archivo Markdown a guardar. Si no se proporciona, se generará un nombre automáticamente.
 
34
 
35
+ Retorna:
36
+ str: Mensaje indicando si el archivo fue guardado correctamente o si ocurrió un error.
37
  """
38
  try:
39
  url = scraped_data.get("url", "Desconocido")
 
44
 
45
  formatted_content = "\n\n".join(content_list)
46
 
 
 
 
 
 
 
47
  # Estructurar en Markdown
48
  markdown_content = f"# Contenido extraído de {url}\n\n"
 
49
  markdown_content += "## Contenido Completo\n\n"
50
  markdown_content += formatted_content
51
 
52
+ # Generar nombre con timestamp si no se proporciona
53
  if not filename:
54
  timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
55
  filename = f"scraped_{timestamp}.md"
 
63
  return f"Error al generar el archivo Markdown: {str(e)}"
64
 
65
 
66
+
67
  @tool
68
 
69
  def summarize_text(text):