Spaces:

Omartificial-Intelligence-Space
/

Matroyshka_eval_retrieval_ar

Running on Zero

App Files Files Community

Omartificial-Intelligence-Space commited on Oct 15, 2024

Commit

6a39ecf

verified ·

1 Parent(s): 891a967

update app.py

Browse files

Files changed (1) hide show

app.py +9 -19

app.py CHANGED Viewed

@@ -18,30 +18,26 @@ def evaluate_model(model_id, num_questions):
     model = SentenceTransformer(model_id, device=device)
     matryoshka_dimensions = [768, 512, 256, 128, 64]
-    # Prepare datasets (only load the necessary split and limit to num_questions)
     datasets_info = [
         {
             "name": "Financial",
             "dataset_id": "Omartificial-Intelligence-Space/Arabic-finanical-rag-embedding-dataset",
-            "split": "train",  # Only train split
-            "columns": ("question", "context"),
-            "sample_size": num_questions
         },
         {
             "name": "MLQA",
             "dataset_id": "google/xtreme",
-            "subset": "MLQA.ar.ar",  # Validation split only
-            "split": "validation",
-            "columns": ("question", "context"),
-            "sample_size": num_questions
         },
         {
             "name": "ARCD",
             "dataset_id": "hsseinmz/arcd",
-            "split": "train",  # Only train split
-            "columns": ("question", "context"),
-            "sample_size": num_questions,
-            "last_rows": True  # Take the last num_questions rows
         }
     ]
@@ -49,18 +45,12 @@ def evaluate_model(model_id, num_questions):
     scores_by_dataset = {}
     for dataset_info in datasets_info:
-        # Load the dataset with subset if available
         if "subset" in dataset_info:
             dataset = load_dataset(dataset_info["dataset_id"], dataset_info["subset"], split=dataset_info["split"])
         else:
             dataset = load_dataset(dataset_info["dataset_id"], split=dataset_info["split"])
-        # Limit the number of samples to num_questions (500 max)
-        if dataset_info.get("last_rows"):
-            dataset = dataset.select(range(len(dataset) - dataset_info["sample_size"], len(dataset)))  # Take last n rows
-        else:
-            dataset = dataset.select(range(min(dataset_info["sample_size"], len(dataset))))  # Take first n rows
         # Rename columns to 'anchor' and 'positive'
         dataset = dataset.rename_column(dataset_info["columns"][0], "anchor")
         dataset = dataset.rename_column(dataset_info["columns"][1], "positive")

     model = SentenceTransformer(model_id, device=device)
     matryoshka_dimensions = [768, 512, 256, 128, 64]
+    # Prepare datasets (using slicing to limit number of samples)
     datasets_info = [
         {
             "name": "Financial",
             "dataset_id": "Omartificial-Intelligence-Space/Arabic-finanical-rag-embedding-dataset",
+            "split": f"train[:{num_questions}]",  # Slicing to get the first num_questions samples
+            "columns": ("question", "context")
         },
         {
             "name": "MLQA",
             "dataset_id": "google/xtreme",
+            "subset": "MLQA.ar.ar",
+            "split": f"validation[:{num_questions}]",  # Slicing to get the first num_questions samples
+            "columns": ("question", "context")
         },
         {
             "name": "ARCD",
             "dataset_id": "hsseinmz/arcd",
+            "split": f"train[-{num_questions}:]",  # Slicing to get the last num_questions samples
+            "columns": ("question", "context")
         }
     ]
     scores_by_dataset = {}
     for dataset_info in datasets_info:
+        # Load the dataset with slicing
         if "subset" in dataset_info:
             dataset = load_dataset(dataset_info["dataset_id"], dataset_info["subset"], split=dataset_info["split"])
         else:
             dataset = load_dataset(dataset_info["dataset_id"], split=dataset_info["split"])
         # Rename columns to 'anchor' and 'positive'
         dataset = dataset.rename_column(dataset_info["columns"][0], "anchor")
         dataset = dataset.rename_column(dataset_info["columns"][1], "positive")