jointpreferences
/

mistral_7b_lr_1.5e-6_sft

Model card Files Files and versions Community

hbXNov commited on Apr 2, 2024

Commit

85cc902

·

verified ·

1 Parent(s): 7aa654b

Update README.md

Files changed (1) hide show

README.md +5 -11

README.md CHANGED Viewed

@@ -1,11 +1,5 @@
----
-license: apache-2.0
-datasets:
-- webis/tldr-17
-language:
-- en
----
-Mistral-7b model sft with tldr data from Learning to Summarize from Human Feedback paper
----
-license: mit
----

+Paper: Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization
+Link: https://arxiv.org/abs/2404.00530
+Github: https://github.com/Hritikbansal/dove