Spaces:

mii-llm
/

open_ita_llm_leaderboard

Running on CPU Upgrade

App Files Files Community

FinancialSupport commited on May 14, 2024

Commit

bf9eaed

verified ·

1 Parent(s): 8f8bf04

Update src/about.py

Browse files

Files changed (1) hide show

src/about.py +5 -5

src/about.py CHANGED Viewed

@@ -27,11 +27,11 @@ TITLE = """<h1 align="center" id="space-title">🚀 Classifica generale degli LL
 # What does your leaderboard evaluate?
 INTRODUCTION_TEXT = """
 Benvenuti nella pagina della open ita llm leaderboard!
-In questa dashboard potrete trovare tutti i risultati delle performance dei Large Language Models nella lingua italiana sui principali eval effettuati grazie al fantastico [Eleuther AI Language Model Evaluation Harness](https://github.com/EleutherAI/lm-evaluation-harness).
 Maggiori info nella sezione "about"
 P.s. la classifica è 100% open source, chiunque può contribuire e aggiungere il proprio modello tramite questo [form](https://forms.gle/Gc9Dfu52xSBhQPpAA) nel mentre che la submission automatica sarà operativa :)
-Se avete idee/miglioramenti/suggerimenti [scrivetemi pure] (https://www.linkedin.com/in/samuele-colombo-ml/) oppure mi trovate sul [discord della community] (https://discord.gg/kc97Zwc4ze)
 """
@@ -40,9 +40,9 @@ LLM_BENCHMARKS_TEXT = f"""
 ## Come funziona
 Valutiamo i modelli tramite <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank">  Eleuther AI Language Model Evaluation Harness </a>, il framework più utilizzato dalla community internazionale per l'evaluation dei modelli
 Nella classifica troverete i dataset di benchmark più famosi, adatti alla lingua italiana. I task sono:
-- hellaswag_it
-- arc_it
-- m_mmlu_it (5 shots)
 Per tutti questi task, a un punteggio migliore corrisponde una performance maggiore

 # What does your leaderboard evaluate?
 INTRODUCTION_TEXT = """
 Benvenuti nella pagina della open ita llm leaderboard!
+In questa dashboard potrete trovare tutti i risultati delle performance dei Large Language Models nella lingua italiana sui principali eval effettuati grazie al fantastico [Eleuther AI Language Model Evaluation Harness](https://github.com/EleutherAI/lm-evaluation-harness)
 Maggiori info nella sezione "about"
 P.s. la classifica è 100% open source, chiunque può contribuire e aggiungere il proprio modello tramite questo [form](https://forms.gle/Gc9Dfu52xSBhQPpAA) nel mentre che la submission automatica sarà operativa :)
+Se avete idee/miglioramenti/suggerimenti [scrivetemi pure](https://www.linkedin.com/in/samuele-colombo-ml/) oppure mi trovate sul [discord della community](https://discord.gg/kc97Zwc4ze)
 """
 ## Come funziona
 Valutiamo i modelli tramite <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank">  Eleuther AI Language Model Evaluation Harness </a>, il framework più utilizzato dalla community internazionale per l'evaluation dei modelli
 Nella classifica troverete i dataset di benchmark più famosi, adatti alla lingua italiana. I task sono:
+- <a href="https://huggingface.co/datasets/alexandrainst/m_hellaswag" target="_blank"> hellaswag_it
+- <a href="https://huggingface.co/datasets/alexandrainst/m_arc" target="_blank"> arc_it
+- <a href="https://huggingface.co/datasets/alexandrainst/m_mmlu" target="_blank"> m_mmlu_it (5 shots)
 Per tutti questi task, a un punteggio migliore corrisponde una performance maggiore