Spaces:

Yehor
/

see-asr-outputs

Running

App Files Files Community

Yehor commited on 22 days ago

Commit

07b19d7

1 Parent(s): c6f8aa3

Don't use joblib

Browse files

Files changed (2) hide show

app.py +13 -19
requirements.txt +0 -2

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ from importlib.metadata import version
 import evaluate
 import polars as pl
 import gradio as gr
-from joblib import Parallel, delayed
 # Load evaluators
 wer = evaluate.load("wer")
@@ -62,6 +61,7 @@ tech_libraries = f"""
 - gradio: {version("gradio")}
 - jiwer: {version("jiwer")}
 - evaluate: {version("evaluate")}
 - polars: {version("polars")}
 """.strip()
@@ -128,21 +128,18 @@ def inference(file_name, _batch_mode, _calculate_metrics):
     df = df.with_columns(pl.col("inference_total").round(2).alias("elapsed"))
     df = df.drop(["inference_total"])
     # reassign columns
     if _batch_mode:
         if _calculate_metrics:
-            wer_values = Parallel(n_jobs=-1)(
-                delayed(compute_batch_wer)(row["predictions"], row["references"])
-                for row in df.iter_rows(named=True)
             )
-            cer_values = Parallel(n_jobs=-1)(
-                delayed(compute_batch_cer)(row["predictions"], row["references"])
-                for row in df.iter_rows(named=True)
             )
-            df.insert_column(2, pl.Series("wer", wer_values))
-            df.insert_column(3, pl.Series("cer", cer_values))
             fields = [
                 "elapsed",
                 "durations",
@@ -160,18 +157,13 @@ def inference(file_name, _batch_mode, _calculate_metrics):
             ]
     else:
         if _calculate_metrics:
-            wer_values = Parallel(n_jobs=-1)(
-                delayed(compute_wer)(row["prediction"], row["reference"])
-                for row in df.iter_rows(named=True)
             )
-            cer_values = Parallel(n_jobs=-1)(
-                delayed(compute_cer)(row["prediction"], row["reference"])
-                for row in df.iter_rows(named=True)
             )
-            df.insert_column(2, pl.Series("wer", wer_values))
-            df.insert_column(3, pl.Series("cer", cer_values))
             fields = [
                 "elapsed",
                 "duration",
@@ -188,6 +180,8 @@ def inference(file_name, _batch_mode, _calculate_metrics):
                 "reference",
             ]
     return df.select(fields)

 import evaluate
 import polars as pl
 import gradio as gr
 # Load evaluators
 wer = evaluate.load("wer")
 - gradio: {version("gradio")}
 - jiwer: {version("jiwer")}
 - evaluate: {version("evaluate")}
+- pandas: {version("pandas")}
 - polars: {version("polars")}
 """.strip()
     df = df.with_columns(pl.col("inference_total").round(2).alias("elapsed"))
     df = df.drop(["inference_total"])
+    df_pd = df.to_pandas()
     # reassign columns
     if _batch_mode:
         if _calculate_metrics:
+            df_pd["wer"] = df_pd.apply(
+                lambda row: compute_batch_wer(row["predictions"], row["references"]), axis=1,
             )
+            df_pd["cer"] = df_pd.apply(
+                lambda row: compute_batch_cer(row["predictions"], row["references"]), axis=1,
             )
             fields = [
                 "elapsed",
                 "durations",
             ]
     else:
         if _calculate_metrics:
+            df_pd["wer"] = df_pd.apply(
+                lambda row: compute_wer(row["prediction"], row["reference"]), axis=1,
             )
+            df_pd["cer"] = df_pd.apply(
+                lambda row: compute_cer(row["prediction"], row["reference"]), axis=1,
             )
             fields = [
                 "elapsed",
                 "duration",
                 "reference",
             ]
+    df = pl.DataFrame(df_pd)
     return df.select(fields)

requirements.txt CHANGED Viewed

@@ -3,5 +3,3 @@ gradio==5.23.0
 polars==1.26.0
 evaluate==0.4.3
 jiwer==3.1.0
-joblib==1.4.2

 polars==1.26.0
 evaluate==0.4.3
 jiwer==3.1.0