Spaces:

gaonkarrs
/

RAG_Evaluation_System

Sleeping

gaonkarrs commited on 17 days ago

Commit

c23f363

1 Parent(s): df5e70a

New changes

Files changed (1) hide show

app.py CHANGED Viewed

@@ -588,9 +588,9 @@ def evaluate_rag_pipeline(domain, q_indices):
         return round(np.sqrt(np.mean((np.array(gt) - np.array(pred)) ** 2)), 4)
     result = {
-        "Context Relevance": compute_rmse(gt_relevance, pred_relevance),
-        "Context Utilization": compute_rmse(gt_utilization, pred_utilization),
-        "Completeness": compute_rmse(gt_completeness, pred_completeness),
     }
     if len(set(gt_adherence)) == 2:
@@ -636,7 +636,7 @@ iface = gr.Interface(
         gr.JSON(label="Evaluation Metrics (RMSE & AUC-ROC)"),
         gr.Textbox(label="Execution Log", lines=10, interactive=True),
     ],
-    title="RAG Evaluation Dashboard",
     description="Evaluate your RAG pipeline across selected queries using LLM-based generation and judgment."
 )

         return round(np.sqrt(np.mean((np.array(gt) - np.array(pred)) ** 2)), 4)
     result = {
+        "RMSE Context Relevance": compute_rmse(gt_relevance, pred_relevance),
+        "RMSE Context Utilization": compute_rmse(gt_utilization, pred_utilization),
+        "RMSE Completeness": compute_rmse(gt_completeness, pred_completeness),
     }
     if len(set(gt_adherence)) == 2:
         gr.JSON(label="Evaluation Metrics (RMSE & AUC-ROC)"),
         gr.Textbox(label="Execution Log", lines=10, interactive=True),
     ],
+    title="                                                          RAG Evaluation Dashboard",
     description="Evaluate your RAG pipeline across selected queries using LLM-based generation and judgment."
 )