webmetaextractor

Runtime error

App Files Files Community

zvl commited on Feb 17

Commit

979500d

verified ·

1 Parent(s): 3e8f1c6

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -31

app.py CHANGED Viewed

@@ -23,20 +23,8 @@ model = HfApiModel(
 @tool
 def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> str:
-    """Convierte el contenido scrapeado en un archivo Markdown mejor estructurado.
-    Mejoras:
-    - Resumen automático del contenido con NLP.
-    - Uso de encabezados, listas y negritas en Markdown.
-    - Guardado con timestamp para evitar sobrescribir archivos.
-    Args:
-        scraped_data: Diccionario con la URL y los datos extraídos.
-        filename: Nombre del archivo de salida (si no se da, se genera con timestamp).
-    Returns:
-        Mensaje de confirmación o error.
-    """
     try:
         url = scraped_data.get("url", "Desconocido")
         content_list = scraped_data.get("scraped_data", [])
@@ -44,37 +32,25 @@ def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> s
         if not content_list:
             return "No hay datos para guardar en Markdown."
-        # Tokenizar en oraciones
-        tokenized_sentences = [sent_tokenize(text) for text in content_list]
-        formatted_content = "\n\n".join([" ".join(sentences) for sentences in tokenized_sentences])
-        # Hacer resumen del contenido (limitamos a 1024 tokens por si el texto es muy largo)
         if len(formatted_content.split()) > 100:
-            summarized_text = model.query(
-                prompt=f"Resume el siguiente texto:\n\n{formatted_content[:1024]}",
-                max_length=150,
-                min_length=50,
-            )
         else:
             summarized_text = formatted_content
-        # Mejorar la estructura Markdown
         markdown_content = f"# Contenido extraído de {url}\n\n"
         markdown_content += f"## Resumen\n\n> {summarized_text}\n\n"
         markdown_content += "## Contenido Completo\n\n"
-        for paragraph in formatted_content.split("\n\n"):
-            if len(paragraph.split()) > 10:  # Si el párrafo es largo, lo tratamos como sección
-                markdown_content += f"### {paragraph[:50]}...\n\n{paragraph}\n\n"
-            else:
-                markdown_content += f"- **{paragraph}**\n\n"
-        # Generar nombre con timestamp si no se proporciona
         if not filename:
             timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
             filename = f"scraped_{timestamp}.md"
-        # Guardar en un archivo Markdown
         with open(filename, "w", encoding="utf-8") as file:
             file.write(markdown_content)
@@ -83,6 +59,24 @@ def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> s
     except Exception as e:
         return f"Error al generar el archivo Markdown: {str(e)}"
 @tool
 def scrape_webpage(url: str, tag: str = "p", class_name: str = None) -> dict:

 @tool
 def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> str:
+    """Convierte el contenido scrapeado en un archivo Markdown mejor estructurado."""
     try:
         url = scraped_data.get("url", "Desconocido")
         content_list = scraped_data.get("scraped_data", [])
         if not content_list:
             return "No hay datos para guardar en Markdown."
+        formatted_content = "\n\n".join(content_list)
+        # Resumir el contenido si es muy largo
         if len(formatted_content.split()) > 100:
+            summarized_text = summarize_text(formatted_content[:1024])
         else:
             summarized_text = formatted_content
+        # Estructurar en Markdown
         markdown_content = f"# Contenido extraído de {url}\n\n"
         markdown_content += f"## Resumen\n\n> {summarized_text}\n\n"
         markdown_content += "## Contenido Completo\n\n"
+        markdown_content += formatted_content
+        # Guardar el archivo con timestamp
         if not filename:
             timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
             filename = f"scraped_{timestamp}.md"
         with open(filename, "w", encoding="utf-8") as file:
             file.write(markdown_content)
     except Exception as e:
         return f"Error al generar el archivo Markdown: {str(e)}"
+@tool
+def summarize_text(text):
+    """Usa una API de Hugging Face para resumir texto."""
+    API_URL = "https://api-inference.huggingface.co/models/facebook/bart-large-cnn"
+    headers = {"Authorization": f"Bearer TU_HUGGINGFACE_API_KEY"}
+    payload = {
+        "inputs": text,
+        "parameters": {"max_length": 150, "min_length": 50, "do_sample": False},
+    }
+    response = requests.post(API_URL, headers=headers, json=payload)
+    if response.status_code == 200:
+        return response.json()[0]["summary_text"]
+    else:
+        return "Error en el resumen"
 @tool
 def scrape_webpage(url: str, tag: str = "p", class_name: str = None) -> dict: