|
import os
|
|
import requests
|
|
from bs4 import BeautifulSoup
|
|
from fastapi import FastAPI, HTTPException
|
|
from neo4j import GraphDatabase, basic_auth
|
|
import google.generativeai as genai
|
|
import logging
|
|
|
|
|
|
|
|
|
|
logging.basicConfig(
|
|
level=logging.INFO,
|
|
format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
|
|
handlers=[
|
|
logging.StreamHandler()
|
|
|
|
]
|
|
)
|
|
logger = logging.getLogger(__name__)
|
|
|
|
|
|
NEO4J_URI = os.getenv("NEO4J_URI")
|
|
NEO4J_USER = os.getenv("NEO4J_USER")
|
|
NEO4J_PASSWORD = os.getenv("NEO4J_PASSWORD")
|
|
GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
|
|
|
|
|
|
if not NEO4J_URI or not NEO4J_USER or not NEO4J_PASSWORD:
|
|
logger.critical("ERREUR CRITIQUE: Les variables d'environnement NEO4J_URI, NEO4J_USER, et NEO4J_PASSWORD doivent être définies.")
|
|
|
|
|
|
|
|
|
|
app = FastAPI(
|
|
title="Arxiv to Neo4j Importer",
|
|
description="API pour récupérer les données d'articles de recherche depuis Arxiv, les résumer avec Gemini, et les ajouter à Neo4j.",
|
|
version="1.0.0"
|
|
)
|
|
|
|
|
|
gemini_model = None
|
|
if GEMINI_API_KEY:
|
|
try:
|
|
genai.configure(api_key=GEMINI_API_KEY)
|
|
gemini_model = genai.GenerativeModel(model_name="gemini-2.5-flash-preview-05-20")
|
|
logger.info("Client API Gemini initialisé avec succès.")
|
|
except Exception as e:
|
|
logger.warning(f"AVERTISSEMENT: Échec de l'initialisation du client API Gemini: {e}. La génération de résumés sera affectée.")
|
|
else:
|
|
logger.warning("AVERTISSEMENT: La variable d'environnement GEMINI_API_KEY n'est pas définie. La génération de résumés sera désactivée.")
|
|
|
|
|
|
|
|
def get_content(number: str, node_type: str) -> str:
|
|
"""Récupère le contenu HTML brut depuis Arxiv ou d'autres sources."""
|
|
redirect_links = {
|
|
"Patent": f"https://patents.google.com/patent/{number}/en",
|
|
"ResearchPaper": f"https://arxiv.org/abs/{number}"
|
|
}
|
|
|
|
url = redirect_links.get(node_type)
|
|
if not url:
|
|
logger.warning(f"Type de noeud inconnu: {node_type} pour le numéro {number}")
|
|
return ""
|
|
|
|
try:
|
|
response = requests.get(url, timeout=10)
|
|
response.raise_for_status()
|
|
return response.content.decode('utf-8', errors='replace').replace("\n", "")
|
|
except requests.exceptions.RequestException as e:
|
|
logger.error(f"Erreur de requête pour {node_type} numéro: {number} à l'URL {url}: {e}")
|
|
return ""
|
|
except Exception as e:
|
|
logger.error(f"Une erreur inattendue est survenue dans get_content pour {number}: {e}")
|
|
return ""
|
|
|
|
def extract_research_paper_arxiv(rp_number: str, node_type: str) -> dict:
|
|
"""Extrait les informations d'un article de recherche Arxiv et génère un résumé."""
|
|
raw_content = get_content(rp_number, node_type)
|
|
|
|
rp_data = {
|
|
"document": f"Arxiv {rp_number}",
|
|
"arxiv_id": rp_number,
|
|
"title": "Erreur lors de la récupération du contenu ou contenu non trouvé",
|
|
"abstract": "Erreur lors de la récupération du contenu ou contenu non trouvé",
|
|
"summary": "Résumé non généré"
|
|
}
|
|
|
|
if not raw_content:
|
|
logger.warning(f"Aucun contenu récupéré pour l'ID Arxiv: {rp_number}")
|
|
return rp_data
|
|
|
|
try:
|
|
soup = BeautifulSoup(raw_content, 'html.parser')
|
|
|
|
|
|
title_tag = soup.find('h1', class_='title')
|
|
if title_tag and title_tag.find('span', class_='descriptor'):
|
|
title_text_candidate = title_tag.find('span', class_='descriptor').next_sibling
|
|
if title_text_candidate and isinstance(title_text_candidate, str):
|
|
rp_data["title"] = title_text_candidate.strip()
|
|
else:
|
|
rp_data["title"] = title_tag.get_text(separator=" ", strip=True).replace("Title:", "").strip()
|
|
elif title_tag :
|
|
rp_data["title"] = title_tag.get_text(separator=" ", strip=True).replace("Title:", "").strip()
|
|
|
|
|
|
|
|
abstract_tag = soup.find('blockquote', class_='abstract')
|
|
if abstract_tag:
|
|
abstract_text = abstract_tag.get_text(strip=True)
|
|
if abstract_text.lower().startswith('abstract'):
|
|
abstract_text = abstract_text[len('abstract'):].strip()
|
|
rp_data["abstract"] = abstract_text
|
|
|
|
|
|
if rp_data["title"] == "Erreur lors de la récupération du contenu ou contenu non trouvé" and not title_tag:
|
|
rp_data["title"] = "Titre non trouvé sur la page"
|
|
if rp_data["abstract"] == "Erreur lors de la récupération du contenu ou contenu non trouvé" and not abstract_tag:
|
|
rp_data["abstract"] = "Abstract non trouvé sur la page"
|
|
|
|
|
|
if gemini_model and rp_data["abstract"] and \
|
|
not rp_data["abstract"].startswith("Erreur lors de la récupération du contenu") and \
|
|
not rp_data["abstract"].startswith("Abstract non trouvé"):
|
|
prompt = f"""Vous êtes un expert en standardisation 3GPP. Résumez les informations clés du document fourni en anglais technique simple, pertinent pour identifier les problèmes clés potentiels.
|
|
Concentrez-vous sur les défis, les lacunes ou les aspects nouveaux.
|
|
Voici le document: <document>{rp_data['abstract']}<document>"""
|
|
|
|
try:
|
|
response = gemini_model.generate_content(prompt)
|
|
rp_data["summary"] = response.text
|
|
logger.info(f"Résumé généré pour l'ID Arxiv: {rp_number}")
|
|
except Exception as e:
|
|
logger.error(f"Erreur lors de la génération du résumé avec Gemini pour l'ID Arxiv {rp_number}: {e}")
|
|
rp_data["summary"] = "Erreur lors de la génération du résumé (échec API)"
|
|
elif not gemini_model:
|
|
rp_data["summary"] = "Résumé non généré (client API Gemini non disponible)"
|
|
else:
|
|
rp_data["summary"] = "Résumé non généré (Abstract indisponible ou problématique)"
|
|
|
|
except Exception as e:
|
|
logger.error(f"Erreur lors de l'analyse du contenu pour l'ID Arxiv {rp_number}: {e}")
|
|
|
|
return rp_data
|
|
|
|
def add_nodes_to_neo4j(driver, data_list: list, node_label: str):
|
|
"""Ajoute une liste de noeuds à Neo4j dans une seule transaction."""
|
|
if not data_list:
|
|
logger.warning("Aucune donnée fournie à add_nodes_to_neo4j.")
|
|
return 0
|
|
|
|
query = (
|
|
f"UNWIND $data as properties "
|
|
f"MERGE (n:{node_label} {{arxiv_id: properties.arxiv_id}}) "
|
|
f"ON CREATE SET n = properties "
|
|
f"ON MATCH SET n += properties"
|
|
)
|
|
|
|
try:
|
|
with driver.session(database="neo4j") as session:
|
|
result = session.execute_write(lambda tx: tx.run(query, data=data_list).consume())
|
|
nodes_created = result.counters.nodes_created
|
|
nodes_updated = result.counters.properties_set - (nodes_created * len(data_list[0])) if data_list and nodes_created >=0 else result.counters.properties_set
|
|
|
|
if nodes_created > 0:
|
|
logger.info(f"{nodes_created} nouveau(x) noeud(s) {node_label} ajouté(s) avec succès.")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
summary = result.summary
|
|
affected_nodes = summary.counters.nodes_created + summary.counters.nodes_deleted
|
|
logger.info(f"Opération MERGE pour {node_label}: {summary.counters.nodes_created} créé(s), {summary.counters.properties_set} propriétés affectées.")
|
|
|
|
return nodes_created
|
|
except Exception as e:
|
|
logger.error(f"Erreur Neo4j - Échec de l'ajout/mise à jour des noeuds {node_label}: {e}")
|
|
raise HTTPException(status_code=500, detail=f"Erreur base de données Neo4j: {e}")
|
|
|
|
|
|
|
|
|
|
@app.post("/add_research_paper/{arxiv_id}", status_code=201)
|
|
async def add_single_research_paper(arxiv_id: str):
|
|
"""
|
|
Récupère un article de recherche d'Arxiv par son ID, extrait les informations,
|
|
génère un résumé, et l'ajoute/met à jour comme un noeud 'ResearchPaper' dans Neo4j.
|
|
"""
|
|
node_type = "ResearchPaper"
|
|
logger.info(f"Traitement de la requête pour l'ID Arxiv: {arxiv_id}")
|
|
|
|
if not NEO4J_URI or not NEO4J_USER or not NEO4J_PASSWORD:
|
|
logger.error("Les détails de connexion à la base de données Neo4j ne sont pas configurés sur le serveur.")
|
|
raise HTTPException(status_code=500, detail="Les détails de connexion à la base de données Neo4j ne sont pas configurés sur le serveur.")
|
|
|
|
|
|
paper_data = extract_research_paper_arxiv(arxiv_id, node_type)
|
|
|
|
if paper_data["title"].startswith("Erreur lors de la récupération du contenu") or paper_data["title"] == "Titre non trouvé sur la page":
|
|
logger.warning(f"Impossible de récupérer ou d'analyser le contenu pour l'ID Arxiv {arxiv_id}. Titre: {paper_data['title']}")
|
|
raise HTTPException(status_code=404, detail=f"Impossible de récupérer ou d'analyser le contenu pour l'ID Arxiv {arxiv_id}. Titre: {paper_data['title']}")
|
|
|
|
|
|
driver = None
|
|
try:
|
|
auth_token = basic_auth(NEO4J_USER, NEO4J_PASSWORD)
|
|
driver = GraphDatabase.driver(NEO4J_URI, auth=auth_token)
|
|
driver.verify_connectivity()
|
|
logger.info("Connecté avec succès à Neo4j.")
|
|
|
|
nodes_created_count = add_nodes_to_neo4j(driver, [paper_data], node_type)
|
|
|
|
if nodes_created_count > 0 :
|
|
message = f"L'article de recherche {arxiv_id} a été ajouté avec succès à Neo4j."
|
|
status_code = 201
|
|
else:
|
|
|
|
|
|
message = f"L'article de recherche {arxiv_id} a été traité (potentiellement mis à jour s'il existait déjà)."
|
|
status_code = 200
|
|
|
|
logger.info(message)
|
|
return {
|
|
"message": message,
|
|
"data": paper_data,
|
|
"status_code_override": status_code
|
|
}
|
|
|
|
except HTTPException as e:
|
|
logger.error(f"HTTPException lors de l'opération Neo4j pour {arxiv_id}: {e.detail}")
|
|
raise e
|
|
except Exception as e:
|
|
logger.error(f"Une erreur inattendue est survenue lors de l'opération Neo4j pour {arxiv_id}: {e}", exc_info=True)
|
|
raise HTTPException(status_code=500, detail=f"Une erreur serveur inattendue est survenue: {e}")
|
|
finally:
|
|
if driver:
|
|
driver.close()
|
|
logger.info("Connexion Neo4j fermée.")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|