Vikhrmodels
/

Vikhr-Nemo-12B-Instruct-R-21-09-24

@@ -189,7 +189,7 @@ out_of_domain - вопросы которые специально никак н
 1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
 2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
 3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
-4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
 Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
@@ -276,4 +276,4 @@ print(final_answer)
 ### Авторы
 - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
 - Konstantin Korolev, Vikhr Team
-- Aleksandr Nikolich, Vikhr Team

 1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
 2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
 3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
+4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Sampling и достижения нужного margin.
 Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
 ### Авторы
 - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
 - Konstantin Korolev, Vikhr Team
+- Aleksandr Nikolich, Vikhr Team