malhajar commited on
Commit
931524f
·
verified ·
1 Parent(s): e2b4991

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +116 -1
README.md CHANGED
@@ -88,4 +88,119 @@ model-index:
88
  - type: acc
89
  value: 22.27
90
  name: accuracy
91
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
88
  - type: acc
89
  value: 22.27
90
  name: accuracy
91
+ ---
92
+
93
+ <img src="https://path.to/your/legml-image.png" alt="LegML-v0.1" width="500"/>
94
+
95
+ # LegML-v0.1
96
+
97
+ LegML-v0.1 est un modèle de langage de grande taille (LLM) en français, doté de multiples capacités couvrant divers domaines tels que la programmation, les mathématiques et bien d'autres. Ce modèle est une version améliorée d'un LLM basé sur Qwen, spécialement adapté pour le français. Il a été entraîné sur un ensemble de données français soigneusement nettoyé et annoté pour exécuter des instructions en français de manière précise et organisée.
98
+
99
+ L'entraînement du modèle a été intensif, effectué sur 4 GPU A100 pendant deux jours, en utilisant ce jeu de données spécialisé pour optimiser ses performances.
100
+
101
+ ## Détails du Modèle
102
+
103
+ - **Modèle de Base** : LLM Qwen-2.5 de 14 milliards de paramètres
104
+ - **Jeu de Données d'Entraînement** : Ensemble de données français annoté et nettoyé
105
+ - **Méthode d'Entraînement** : Affinage complet et exhaustif
106
+
107
+ ## Exemples d'Utilisation
108
+
109
+ ```python
110
+ from transformers import AutoModelForCausalLM, AutoTokenizer
111
+ device = "cuda" # l'appareil sur lequel charger le modèle
112
+
113
+ model_name = "VotreNomUtilisateur/LegML-v0.1"
114
+ model = AutoModelForCausalLM.from_pretrained(
115
+ model_name,
116
+ torch_dtype="auto",
117
+ device_map="auto"
118
+ )
119
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
120
+
121
+ prompt = "Comment afficher 'Bonjour le monde' en Python ?"
122
+ messages = [
123
+ {
124
+ "role": "system",
125
+ "content": "Vous êtes une intelligence artificielle assistante créée par LegAI, conçue pour suivre les instructions données et fournir les meilleures réponses possibles."
126
+ },
127
+ {
128
+ "role": "user",
129
+ "content": prompt
130
+ }
131
+ ]
132
+ text = tokenizer.apply_chat_template(
133
+ messages,
134
+ tokenize=False,
135
+ add_generation_prompt=True
136
+ )
137
+ model_inputs = tokenizer([text], return_tensors="pt").to(device)
138
+
139
+ generated_ids = model.generate(
140
+ model_inputs.input_ids,
141
+ temperature=0.3,
142
+ top_k=50,
143
+ top_p=0.9,
144
+ max_new_tokens=512,
145
+ repetition_penalty=1.0,
146
+ )
147
+ generated_ids = [
148
+ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
149
+ ]
150
+
151
+ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
152
+ print(response)
153
+ ```
154
+
155
+ ## Exemples de Générations
156
+
157
+ ### Exemple 1
158
+
159
+ **Invite :**
160
+
161
+ ```
162
+ Comment les institutions financières en France gèrent-elles les risques de sécurité des données associés à l'intelligence artificielle ? Pouvez-vous donner trois exemples ?
163
+ ```
164
+
165
+ **Réponse :**
166
+
167
+ Les institutions financières en France gèrent les risques de sécurité des données liés à l'intelligence artificielle (IA) par plusieurs approches :
168
+
169
+ 1. **Implémentation de Protocoles de Chiffrement Avancés** : Elles utilisent des méthodes de chiffrement robustes comme AES ou RSA pour protéger les informations sensibles des clients contre tout accès non autorisé.
170
+
171
+ 2. **Déploiement de Systèmes de Détection d'Anomalies Basés sur l'IA** : Ces systèmes surveillent les transactions en temps réel pour identifier des comportements inhabituels, aidant ainsi à prévenir la fraude et les cyberattaques.
172
+
173
+ 3. **Conformité Réglementaire et Formation du Personnel** : Les institutions s'assurent de respecter les réglementations telles que le RGPD et investissent dans la formation continue de leur personnel sur les meilleures pratiques en matière de sécurité des données.
174
+
175
+ ### Exemple 2
176
+
177
+ **Invite :**
178
+
179
+ ```
180
+ Comment afficher "Bonjour le monde" en Python ?
181
+ ```
182
+
183
+ **Réponse :**
184
+
185
+ Pour afficher "Bonjour le monde" en Python, vous pouvez utiliser la fonction \`print()\`. Voici comment procéder :
186
+
187
+ ```python
188
+ print("Bonjour le monde")
189
+ ```
190
+
191
+ En exécutant ce code, le texte "Bonjour le monde" sera affiché à l'écran. La fonction \`print()\` est utilisée pour afficher des messages ou des variables en sortie.
192
+
193
+ ## Résultats de l'Évaluation
194
+
195
+ Les performances de LegML-v0.1 ont été évaluées sur plusieurs benchmarks en français. Voici les résultats obtenus :
196
+
197
+ | Benchmark | Métrique | Valeur (%) |
198
+ |--------------------|------------------------|-----------:|
199
+ | **BBH-fr** | Précision normalisée | 37.17% |
200
+ | **GPQA-fr** | Précision normalisée | 16.49% |
201
+ | **IFEval-fr** | Précision stricte | 14.68% |
202
+ | **MUSR-fr** | Précision normalisée | 9.93% |
203
+ | **MATH-lvl5-fr** | Correspondance exacte | 22.27% |
204
+ | **MMMLU-fr** | Précision | 68.31% |
205
+
206
+ Ces résultats reflètent les capacités du modèle sur une variété de tâches complexes en français, tout en soulignant les domaines où des améliorations sont possibles.