Spaces:

evaluate-metric
/

rouge

Running

App Files Files Community

lvwerra HF staff commited on Sep 22, 2022

Commit

06965ee

1 Parent(s): 3c8b1d0

Update Space (evaluate main: e4a27243)

Browse files

Files changed (2) hide show

requirements.txt +1 -1
rouge.py +36 -9

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-git+https://github.com/huggingface/evaluate@80448674f5447a9682afe051db243c4a13bfe4ff
 absl-py
 nltk
 rouge_score>=0.1.2

+git+https://github.com/huggingface/evaluate@e4a2724377909fe2aeb4357e3971e5a569673b39
 absl-py
 nltk
 rouge_score>=0.1.2

rouge.py CHANGED Viewed

@@ -14,6 +14,9 @@
 """ ROUGE metric from Google Research github repo. """
 # The dependencies in https://github.com/google-research/google-research/blob/master/rouge/requirements.txt
 import absl  # Here to have a nice missing dependency error message early on
 import datasets
 import nltk  # Here to have a nice missing dependency error message early on
@@ -90,13 +93,29 @@ class Tokenizer:
         return self.tokenizer_func(text)
 @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
 class Rouge(evaluate.Metric):
-    def _info(self):
         return evaluate.MetricInfo(
             description=_DESCRIPTION,
             citation=_CITATION,
             inputs_description=_KWARGS_DESCRIPTION,
             features=[
                 datasets.Features(
                     {
@@ -119,18 +138,26 @@ class Rouge(evaluate.Metric):
         )
     def _compute(
-        self, predictions, references, rouge_types=None, use_aggregator=True, use_stemmer=False, tokenizer=None
     ):
-        if rouge_types is None:
             rouge_types = ["rouge1", "rouge2", "rougeL", "rougeLsum"]
         multi_ref = isinstance(references[0], list)
-        if tokenizer is not None:
-            tokenizer = Tokenizer(tokenizer)
-        scorer = rouge_scorer.RougeScorer(rouge_types=rouge_types, use_stemmer=use_stemmer, tokenizer=tokenizer)
-        if use_aggregator:
             aggregator = scoring.BootstrapAggregator()
         else:
             scores = []
@@ -140,12 +167,12 @@ class Rouge(evaluate.Metric):
                 score = scorer.score_multi(ref, pred)
             else:
                 score = scorer.score(ref, pred)
-            if use_aggregator:
                 aggregator.add_scores(score)
             else:
                 scores.append(score)
-        if use_aggregator:
             result = aggregator.aggregate()
             for key in result:
                 result[key] = result[key].mid.fmeasure

 """ ROUGE metric from Google Research github repo. """
 # The dependencies in https://github.com/google-research/google-research/blob/master/rouge/requirements.txt
+from dataclasses import dataclass
+from typing import Callable, List, Optional
 import absl  # Here to have a nice missing dependency error message early on
 import datasets
 import nltk  # Here to have a nice missing dependency error message early on
         return self.tokenizer_func(text)
+@dataclass
+class RougeConfig(evaluate.info.Config):
+    name: str = "default"
+    rouge_types: Optional[List[str]] = None
+    use_aggregator: bool = True
+    use_stemmer: bool = False
+    tokenizer: Optional[Callable] = None
 @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
 class Rouge(evaluate.Metric):
+    CONFIG_CLASS = RougeConfig
+    ALLOWED_CONFIG_NAMES = ["default"]
+    def _info(self, config):
         return evaluate.MetricInfo(
             description=_DESCRIPTION,
             citation=_CITATION,
             inputs_description=_KWARGS_DESCRIPTION,
+            config=config,
             features=[
                 datasets.Features(
                     {
         )
     def _compute(
+        self,
+        predictions,
+        references,
     ):
+        if self.config.rouge_types is None:
             rouge_types = ["rouge1", "rouge2", "rougeL", "rougeLsum"]
+        else:
+            rouge_types = self.config.rouge_types
         multi_ref = isinstance(references[0], list)
+        if self.config.tokenizer is not None:
+            tokenizer = Tokenizer(self.config.tokenizer)
+        else:
+            tokenizer = self.config.tokenizer
+        scorer = rouge_scorer.RougeScorer(
+            rouge_types=rouge_types, use_stemmer=self.config.use_stemmer, tokenizer=tokenizer
+        )
+        if self.config.use_aggregator:
             aggregator = scoring.BootstrapAggregator()
         else:
             scores = []
                 score = scorer.score_multi(ref, pred)
             else:
                 score = scorer.score(ref, pred)
+            if self.config.use_aggregator:
                 aggregator.add_scores(score)
             else:
                 scores.append(score)
+        if self.config.use_aggregator:
             result = aggregator.aggregate()
             for key in result:
                 result[key] = result[key].mid.fmeasure