Spaces:
Runtime error
Runtime error
File size: 6,509 Bytes
d85e8b1 9b5b26a c19d193 d85e8b1 27f26c0 d85e8b1 9b5b26a d85e8b1 930fb8e d85e8b1 930fb8e d85e8b1 930fb8e d85e8b1 930fb8e d85e8b1 930fb8e 9b5b26a 27f26c0 d85e8b1 9b5b26a 27f26c0 9b5b26a 27f26c0 d85e8b1 27f26c0 d85e8b1 27f26c0 d85e8b1 27f26c0 d85e8b1 27f26c0 9b5b26a d85e8b1 9b5b26a d85e8b1 9b5b26a d85e8b1 9b5b26a d85e8b1 9b5b26a d85e8b1 8c01ffb 6aae614 ae7a494 9b5b26a 8c01ffb d85e8b1 861422e d85e8b1 8c01ffb 8fe992b d85e8b1 8c01ffb d85e8b1 8fe992b d85e8b1 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 |
from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel, load_tool, tool
import datetime
import requests
import pytz
import yaml
import os
import nltk
from bs4 import BeautifulSoup
from nltk.tokenize import sent_tokenize
from tools.final_answer import FinalAnswerTool
from Gradio_UI import GradioUI
# Descargar tokenizer de NLTK si no está disponible
nltk.download("punkt")
# Configurar el modelo de resumen desde Hugging Face en SmolAgents
model = HfApiModel(
max_tokens=2096,
temperature=0.5,
model_id="facebook/bart-large-cnn", # Modelo de resumen
custom_role_conversions=None,
)
@tool
def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> str:
"""Convierte el contenido scrapeado en un archivo Markdown mejor estructurado.
Mejoras:
- Resumen automático del contenido con NLP.
- Uso de encabezados, listas y negritas en Markdown.
- Guardado con timestamp para evitar sobrescribir archivos.
Args:
scraped_data: Diccionario con la URL y los datos extraídos.
filename: Nombre del archivo de salida (si no se da, se genera con timestamp).
Returns:
Mensaje de confirmación o error.
"""
try:
url = scraped_data.get("url", "Desconocido")
content_list = scraped_data.get("scraped_data", [])
if not content_list:
return "No hay datos para guardar en Markdown."
# Tokenizar en oraciones
tokenized_sentences = [sent_tokenize(text) for text in content_list]
formatted_content = "\n\n".join([" ".join(sentences) for sentences in tokenized_sentences])
# Hacer resumen del contenido (limitamos a 1024 tokens por si el texto es muy largo)
if len(formatted_content.split()) > 100:
summarized_text = model.query(
prompt=f"Resume el siguiente texto:\n\n{formatted_content[:1024]}",
max_length=150,
min_length=50,
)
else:
summarized_text = formatted_content
# Mejorar la estructura Markdown
markdown_content = f"# Contenido extraído de {url}\n\n"
markdown_content += f"## Resumen\n\n> {summarized_text}\n\n"
markdown_content += "## Contenido Completo\n\n"
for paragraph in formatted_content.split("\n\n"):
if len(paragraph.split()) > 10: # Si el párrafo es largo, lo tratamos como sección
markdown_content += f"### {paragraph[:50]}...\n\n{paragraph}\n\n"
else:
markdown_content += f"- **{paragraph}**\n\n"
# Generar nombre con timestamp si no se proporciona
if not filename:
timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
filename = f"scraped_{timestamp}.md"
# Guardar en un archivo Markdown
with open(filename, "w", encoding="utf-8") as file:
file.write(markdown_content)
return f"El contenido scrapeado se ha guardado en {filename}"
except Exception as e:
return f"Error al generar el archivo Markdown: {str(e)}"
@tool
def scrape_webpage(url: str, tag: str = "p", class_name: str = None) -> dict:
"""Extrae contenido de una página web según una etiqueta HTML y clase opcional.
Args:
url: URL de la página a scrapear.
tag: Etiqueta HTML a extraer (por defecto <p>).
class_name: Clase CSS opcional para filtrar resultados.
Returns:
Un diccionario con el contenido extraído.
"""
try:
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")
if class_name:
elements = soup.find_all(tag, class_=class_name)
else:
elements = soup.find_all(tag)
extracted_data = [element.get_text(strip=True) for element in elements]
return {"url": url, "scraped_data": extracted_data[:20]} # Limita a 20 resultados
except requests.exceptions.RequestException as e:
return {"error": f"Error al acceder a la URL: {str(e)}"}
except Exception as e:
return {"error": f"Error inesperado: {str(e)}"}
@tool
def extract_metadata_from_url(url: str) -> dict:
"""Extrae todos los metadatos de una página web.
Args:
url: La URL de la página web a analizar.
Returns:
Un diccionario con los metadatos encontrados.
"""
try:
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")
metadata = {}
for meta in soup.find_all("meta"):
if "name" in meta.attrs and "content" in meta.attrs:
metadata[meta["name"]] = meta["content"]
elif "property" in meta.attrs and "content" in meta.attrs:
metadata[meta["property"]] = meta["content"]
return metadata if metadata else {"error": "No se encontraron metadatos en la página."}
except requests.exceptions.RequestException as e:
return {"error": f"Error al acceder a la URL: {str(e)}"}
@tool
def get_current_time_in_timezone(timezone: str) -> str:
"""Devuelve la hora actual en una zona horaria específica.
Args:
timezone: Una cadena que representa una zona horaria válida (ej. 'America/New_York').
Returns:
La hora local actual en la zona horaria especificada.
"""
try:
tz = pytz.timezone(timezone)
local_time = datetime.datetime.now(tz).strftime("%Y-%m-%d %H:%M:%S")
return f"La hora local actual en {timezone} es: {local_time}"
except Exception as e:
return f"Error obteniendo la hora para la zona horaria '{timezone}': {str(e)}"
final_answer = FinalAnswerTool()
# Import tool from Hub
image_generation_tool = load_tool("agents-course/text-to-image", trust_remote_code=True)
with open("prompts.yaml", "r") as stream:
prompt_templates = yaml.safe_load(stream)
agent = CodeAgent(
model=model,
tools=[
final_answer,
extract_metadata_from_url,
scrape_webpage,
save_scraped_data_as_markdown, # Se añade la nueva herramienta al agente
],
max_steps=6,
verbosity_level=1,
grammar=None,
planning_interval=None,
name=None,
description=None,
prompt_templates=prompt_templates,
)
GradioUI(agent).launch()
|