tangledgroup
/

tangled-llama-e-128k-v0.1

@@ -128,7 +128,7 @@ datasets_configs = [
     # math
     #
     # 2.87 GB, 552,000 - images/text - we use only latex text, top 10%
-    {'path': 'OleehyO/latex-formulas', 'name': 'cleaned_formulas', 'split': 'train[:10%]', 'format': lambda n: n['latex_formula']},
     # 12.2 MB, 500,000
     {'path': 'fblgit/simple-math', 'revision': 'refs/convert/parquet', 'split': 'train+test', 'format': '{instruction} = {output}'},
     # 125 MB, 1,000,000

     # math
     #
     # 2.87 GB, 552,000 - images/text - we use only latex text, top 10%
+    {'path': 'OleehyO/latex-formulas', 'data_dir': 'cleaned_formulas', 'split': 'train[:10%]', 'format': lambda n: n['latex_formula']},
     # 12.2 MB, 500,000
     {'path': 'fblgit/simple-math', 'revision': 'refs/convert/parquet', 'split': 'train+test', 'format': '{instruction} = {output}'},
     # 125 MB, 1,000,000