ConsulStat/TRIB_gpt2-small-italian-embeddings

# Modello Embedder Legal-Italian Fine-Tunato

## Panoramica
Questo è un modello di embedding fine-tunato specificamente per rappresentare testi giuridici in italiano in uno spazio vettoriale semanticamente significativo.

## Performance
Il modello ha raggiunto le seguenti metriche di performance sul dataset di validazione:

| Metrica | Valore |
|---------|--------|
| Cosine Accuracy@1 | 0.7371 |
| Cosine Accuracy@3 | 0.8667 |
| Cosine Accuracy@5 | 1.0000 |
| Cosine Accuracy@10 | 1.0000 |
| MRR@10 | 0.8208 |
| NDCG@10 | 0.8649 |

La metrica più significativa è **Cosine Accuracy@1**, che indica che nel 73.71% dei casi il modello riesce a identificare correttamente il documento più rilevante.

## Utilizzo

```python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('ConsulStat/TRIB_gpt2-small-italian-embeddings')

# Genera embedding
texts = ["Questo è un testo legale di esempio"]
embeddings = model.encode(texts)

# Calcola similarità tra vettori
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity([embeddings[0]], [embeddings[0]])
```

## Processo di Fine-tuning
Il modello è stato fine-tunato a partire da GroNLP/gpt2-small-italian-embeddings su un dataset di testi giuridici in italiano, utilizzando coppie domanda-risposta generate sinteticamente per ottimizzare la similarità coseno tra testi semanticamente correlati.