Spaces:
Runtime error
Runtime error
File size: 6,963 Bytes
d85e8b1 9b5b26a c19d193 d85e8b1 27f26c0 d85e8b1 9b5b26a d85e8b1 979500d fabf3af 26814df 979500d fabf3af 26814df fabf3af 26814df fabf3af 979500d d85e8b1 930fb8e 26814df d85e8b1 930fb8e 26814df 930fb8e 26814df 930fb8e d85e8b1 930fb8e d85e8b1 930fb8e d85e8b1 930fb8e 9b5b26a 27f26c0 26814df d85e8b1 9b5b26a 26814df 27f26c0 26814df 9b5b26a 27f26c0 d85e8b1 27f26c0 d85e8b1 27f26c0 d85e8b1 27f26c0 d85e8b1 27f26c0 9b5b26a 2ac5167 26814df 2ac5167 9b5b26a 26814df d85e8b1 9b5b26a 26814df d85e8b1 26814df 9b5b26a d85e8b1 9b5b26a d85e8b1 8c01ffb 6aae614 ae7a494 26814df 9b5b26a 8c01ffb d85e8b1 861422e d85e8b1 8c01ffb 8fe992b d85e8b1 26814df d85e8b1 8c01ffb d85e8b1 8fe992b d85e8b1 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 |
from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel, load_tool, tool
import datetime
import requests
import pytz
import yaml
import os
import nltk
from bs4 import BeautifulSoup
from nltk.tokenize import sent_tokenize
from tools.final_answer import FinalAnswerTool
from Gradio_UI import GradioUI
# Descargar tokenizer de NLTK si no está disponible
nltk.download("punkt")
# Configurar el modelo de resumen desde Hugging Face en SmolAgents
model = HfApiModel(
max_tokens=2096,
temperature=0.5,
model_id="facebook/bart-large-cnn", # Modelo de resumen
custom_role_conversions=None,
)
@tool
def summarize_text(text: str) -> str:
"""
Resumir texto utilizando la API de Hugging Face.
Args:
text (str): El texto que se desea resumir.
Returns:
str: El resumen generado o un mensaje de error en caso de fallo.
"""
API_URL = "https://api-inference.huggingface.co/models/facebook/bart-large-cnn"
headers = {"Authorization": f"Bearer TU_HUGGINGFACE_API_KEY"}
payload = {
"inputs": text,
"parameters": {"max_length": 150, "min_length": 50, "do_sample": False},
}
response = requests.post(API_URL, headers=headers, json=payload)
if response.status_code == 200:
return response.json()[0]["summary_text"]
else:
return "Error en el resumen"
@tool
def scrape_webpage(url: str, tag: str = "p", class_name: str = None) -> dict:
"""
Extrae contenido de una página web según una etiqueta HTML y clase opcional.
Args:
url (str): URL de la página a scrapear.
tag (str): Etiqueta HTML a extraer (por defecto "p").
class_name (str, optional): Clase CSS opcional para filtrar resultados.
Returns:
dict: Diccionario con el contenido extraído. Contiene las claves:
- "url": La URL consultada.
- "scraped_data": Lista de fragmentos de texto extraídos (máximo 20).
En caso de error, devuelve una clave "error" con el mensaje correspondiente.
"""
try:
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")
if class_name:
elements = soup.find_all(tag, class_=class_name)
else:
elements = soup.find_all(tag)
extracted_data = [element.get_text(strip=True) for element in elements]
return {"url": url, "scraped_data": extracted_data[:20]} # Limita a 20 resultados
except requests.exceptions.RequestException as e:
return {"error": f"Error al acceder a la URL: {str(e)}"}
except Exception as e:
return {"error": f"Error inesperado: {str(e)}"}
@tool
def extract_metadata_from_url(url: str) -> dict:
"""
Extrae todos los metadatos de una página web.
Args:
url (str): La URL de la página web a analizar.
Returns:
dict: Diccionario con los metadatos encontrados. Si no se encuentran metadatos,
devuelve un diccionario con la clave "error" y el mensaje correspondiente.
"""
try:
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")
metadata = {}
for meta in soup.find_all("meta"):
if "name" in meta.attrs and "content" in meta.attrs:
metadata[meta["name"]] = meta["content"]
elif "property" in meta.attrs and "content" in meta.attrs:
metadata[meta["property"]] = meta["content"]
return metadata if metadata else {"error": "No se encontraron metadatos en la página."}
except requests.exceptions.RequestException as e:
return {"error": f"Error al acceder a la URL: {str(e)}"}
@tool
def save_scraped_data_as_markdown(scraped_data: dict, filename: str = None) -> str:
"""
Guarda el contenido scrapeado en un archivo Markdown bien formateado.
Args:
scraped_data (dict): Diccionario que contiene:
- "url" (str): La URL de la página de la cual se extrajo el contenido.
- "scraped_data" (list[str]): Lista de fragmentos de texto extraídos.
filename (str, optional): Nombre del archivo Markdown de salida. Si no se proporciona,
se genera uno usando la fecha y hora actual.
Returns:
str: Mensaje indicando si el archivo se guardó correctamente o si ocurrió algún error.
"""
try:
url = scraped_data.get("url", "Unknown")
content_list = scraped_data.get("scraped_data", [])
if not content_list:
return "No data available to save in Markdown."
formatted_content = "\n\n".join(content_list)
# Construir el contenido Markdown
markdown_content = f"# Content extracted from {url}\n\n"
markdown_content += "## Full Content\n\n"
markdown_content += formatted_content
# Generar un nombre de archivo con timestamp si no se proporciona
if not filename:
timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
filename = f"scraped_{timestamp}.md"
with open(filename, "w", encoding="utf-8") as file:
file.write(markdown_content)
return f"Scraped content has been saved in {filename}"
except Exception as e:
return f"Error generating Markdown file: {str(e)}"
@tool
def get_current_time_in_timezone(timezone: str) -> str:
"""
Devuelve la hora actual en una zona horaria específica.
Args:
timezone (str): Una cadena que representa una zona horaria válida (ej. "America/New_York").
Returns:
str: La hora local actual en la zona horaria especificada o un mensaje de error si falla.
"""
try:
tz = pytz.timezone(timezone)
local_time = datetime.datetime.now(tz).strftime("%Y-%m-%d %H:%M:%S")
return f"La hora local actual en {timezone} es: {local_time}"
except Exception as e:
return f"Error obteniendo la hora para la zona horaria '{timezone}': {str(e)}"
final_answer = FinalAnswerTool()
# Importar herramienta desde Hub
image_generation_tool = load_tool("agents-course/text-to-image", trust_remote_code=True)
with open("prompts.yaml", "r") as stream:
prompt_templates = yaml.safe_load(stream)
agent = CodeAgent(
model=model,
tools=[
final_answer,
extract_metadata_from_url,
scrape_webpage,
save_scraped_data_as_markdown, # Se añade la nueva herramienta al agente
# Puedes añadir también otras herramientas como summarize_text si lo deseas
],
max_steps=6,
verbosity_level=1,
grammar=None,
planning_interval=None,
name=None,
description=None,
prompt_templates=prompt_templates,
)
GradioUI(agent).launch()
|