Update README.md
#2
by
chameleon-lizard
- opened
README.md
CHANGED
@@ -189,7 +189,7 @@ out_of_domain - вопросы которые специально никак н
|
|
189 |
1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
|
190 |
2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
|
191 |
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
192 |
-
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection
|
193 |
|
194 |
Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
195 |
|
@@ -276,4 +276,4 @@ print(final_answer)
|
|
276 |
### Авторы
|
277 |
- Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
|
278 |
- Konstantin Korolev, Vikhr Team
|
279 |
-
- Aleksandr Nikolich, Vikhr Team
|
|
|
189 |
1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
|
190 |
2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
|
191 |
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
192 |
+
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Sampling и достижения нужного margin.
|
193 |
|
194 |
Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
195 |
|
|
|
276 |
### Авторы
|
277 |
- Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
|
278 |
- Konstantin Korolev, Vikhr Team
|
279 |
+
- Aleksandr Nikolich, Vikhr Team
|