Spaces:

Ruchin
/

jaccard_similarity

Running

Ruchin commited on Sep 24, 2024

Commit

3addf82

1 Parent(s): fd1c40b

added handling of multi dimension

Files changed (1) hide show

jaccard_similarity.py CHANGED Viewed

@@ -77,17 +77,10 @@ class JaccardSimilarity(evaluate.Metric):
             description=_DESCRIPTION,
             citation=_CITATION,
             inputs_description=_KWARGS_DESCRIPTION,
-            features=datasets.Features(
-                {
-                    "predictions": datasets.Sequence(datasets.Value("int32")),
-                    "references": datasets.Sequence(datasets.Value("int32")),
-                }
-                if self.config_name == "multilabel"
-                else {
-                    "predictions": datasets.Value("int32"),
-                    "references": datasets.Value("int32"),
-                }
-            ),
             reference_urls=[
                 "https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html",
                 "https://en.wikipedia.org/wiki/Jaccard_index"
@@ -95,7 +88,20 @@ class JaccardSimilarity(evaluate.Metric):
         )
     def _compute(self, predictions, references, labels=None, pos_label=1, average='binary', sample_weight=None, zero_division='warn'):
-        """Returns the Jaccard similarity score using scikit-learn"""
         return {
             "jaccard_similarity": jaccard_score(
                 references,

             description=_DESCRIPTION,
             citation=_CITATION,
             inputs_description=_KWARGS_DESCRIPTION,
+            features=datasets.Features({
+                "predictions": datasets.Sequence(datasets.Value("int32")),
+                "references": datasets.Sequence(datasets.Value("int32")),
+            }),
             reference_urls=[
                 "https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html",
                 "https://en.wikipedia.org/wiki/Jaccard_index"
         )
     def _compute(self, predictions, references, labels=None, pos_label=1, average='binary', sample_weight=None, zero_division='warn'):
+        predictions = np.array(predictions)
+        references = np.array(references)
+        # Handle different input shapes
+        if predictions.ndim == 1 and references.ndim == 1:
+            # Binary or multiclass case
+            pass
+        elif predictions.ndim == 2 and references.ndim == 2:
+            # Multilabel case
+            if average == 'binary':
+                average = 'micro'  # 'binary' doesn't make sense for multilabel
+        else:
+            raise ValueError("Predictions and references should have the same shape")
         return {
             "jaccard_similarity": jaccard_score(
                 references,