Spaces:

holistic-ai
/

LibVulnWatch

Running

wu981526092 commited on May 6

Commit

5fc842f

1 Parent(s): f03f82b

update

Files changed (7) hide show

app.py CHANGED Viewed

@@ -92,7 +92,7 @@ def init_leaderboard(dataframe):
     """Initialize the leaderboard component"""
     if dataframe is None or dataframe.empty:
         # Create an empty dataframe with the expected columns
-        all_columns = COLS + [task.name for task in Tasks]
         empty_df = pd.DataFrame(columns=all_columns)
         print("Warning: Leaderboard DataFrame is empty. Using empty dataframe.")
         dataframe = empty_df

     """Initialize the leaderboard component"""
     if dataframe is None or dataframe.empty:
         # Create an empty dataframe with the expected columns
+        all_columns = COLS + [task.value.col_name for task in Tasks]
         empty_df = pd.DataFrame(columns=all_columns)
         print("Warning: Leaderboard DataFrame is empty. Using empty dataframe.")
         dataframe = empty_df

assessment-queue/langchain-ai_langchain_eval_request_FINISHED_v0.1.0.json ADDED Viewed

+{
+  "library": "langchain-ai/langchain",
+  "version": "v0.1.0",
+  "repository_url": "https://github.com/langchain-ai/langchain",
+  "language": "Python",
+  "framework": "Python SDK",
+  "library_type": "llm framework",
+  "license": "MIT",
+  "stars": 74500,
+  "status": "FINISHED",
+  "submitted_time": "2025-04-30T10:00:00Z",
+  "last_updated": "2025-05-01T12:00:00Z",
+  "assessment_id": "abc123"
+}

assessment-queue/microsoft_autogen_eval_request_FINISHED_v0.2.0.json ADDED Viewed

+{
+  "library": "microsoft/autogen",
+  "version": "v0.2.0",
+  "repository_url": "https://github.com/microsoft/autogen",
+  "language": "Python",
+  "framework": "Agent Framework",
+  "library_type": "agent framework",
+  "license": "MIT",
+  "stars": 48700,
+  "status": "FINISHED",
+  "submitted_time": "2025-05-02T08:15:00Z",
+  "last_updated": "2025-05-03T09:15:00Z",
+  "assessment_id": "ghi789"
+}

assessment-queue/pytorch_pytorch_eval_request_FINISHED_v2.1.0.json ADDED Viewed

+{
+  "library": "pytorch/pytorch",
+  "version": "v2.1.0",
+  "repository_url": "https://github.com/pytorch/pytorch",
+  "language": "Python",
+  "framework": "Machine Learning",
+  "library_type": "machine learning",
+  "license": "BSD-3",
+  "stars": 72300,
+  "status": "FINISHED",
+  "submitted_time": "2025-05-01T16:30:00Z",
+  "last_updated": "2025-05-02T14:30:00Z",
+  "assessment_id": "def456"
+}

src/display/utils.py CHANGED Viewed

@@ -105,6 +105,6 @@ COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
-# Task columns for benchmarking - use the task names from the Tasks enum
-BENCHMARK_COLS = [task.name for task in Tasks]

 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
+# Task columns for benchmarking - use the display column names from the Tasks enum
+BENCHMARK_COLS = [task.value.col_name for task in Tasks]

src/leaderboard/read_evals.py CHANGED Viewed

@@ -138,11 +138,11 @@ class AssessmentResult:
             AutoEvalColumn.availability.name: self.availability,
         }
-        # Add task-specific risk scores - map each task to its column name
         for task in Tasks:
             task_enum = task.value  # Task dataclass instance
             benchmark_key = task_enum.benchmark  # e.g., "license_validation"
-            col_name = task.name  # The field name in AutoEvalColumn, e.g., "license"
             risk_score = self.results.get(benchmark_key, 10)  # Default to highest risk
             data_dict[col_name] = risk_score

             AutoEvalColumn.availability.name: self.availability,
         }
+        # Add task-specific risk scores - map to display column names
         for task in Tasks:
             task_enum = task.value  # Task dataclass instance
             benchmark_key = task_enum.benchmark  # e.g., "license_validation"
+            col_name = task_enum.col_name  # Use the display name, e.g., "License Risk"
             risk_score = self.results.get(benchmark_key, 10)  # Default to highest risk
             data_dict[col_name] = risk_score

src/populate.py CHANGED Viewed

@@ -14,7 +14,7 @@ def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_co
         eval_results_path: Path to the assessment result files
         eval_requests_path: Path to the assessment request files
         cols: Columns names to include in the dataframe
-        benchmark_cols: Risk categories column names
     Returns:
         Pandas dataframe for the leaderboard
@@ -27,21 +27,25 @@ def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_co
             # Create dataframe from assessment results
             all_df = pd.DataFrame.from_records([r.to_dict() for r in assessment_results])
-            # Ensure the task columns are included
-            task_cols = [task.name for task in Tasks]
             # Sort by overall risk score (ascending - lower is better)
             if AutoEvalColumn.overall_risk.name in all_df.columns:
                 all_df = all_df.sort_values(by=[AutoEvalColumn.overall_risk.name])
             return all_df
-        return pd.DataFrame(columns=cols)  # Empty dataframe with columns
     except Exception as e:
         print(f"Error reading evaluation results: {e}")
         import traceback
         traceback.print_exc()
-        return pd.DataFrame(columns=cols)  # Return empty dataframe
 def get_evaluation_queue_df(eval_requests_path, eval_cols):

         eval_results_path: Path to the assessment result files
         eval_requests_path: Path to the assessment request files
         cols: Columns names to include in the dataframe
+        benchmark_cols: Risk categories column names (display names)
     Returns:
         Pandas dataframe for the leaderboard
             # Create dataframe from assessment results
             all_df = pd.DataFrame.from_records([r.to_dict() for r in assessment_results])
+            # Ensure we have all the needed display columns
+            all_columns = set(all_df.columns)
+            for col in benchmark_cols:
+                if col not in all_columns:
+                    print(f"Warning: Column '{col}' missing, adding empty column")
+                    all_df[col] = 10.0  # Default to highest risk
             # Sort by overall risk score (ascending - lower is better)
             if AutoEvalColumn.overall_risk.name in all_df.columns:
                 all_df = all_df.sort_values(by=[AutoEvalColumn.overall_risk.name])
             return all_df
+        return pd.DataFrame(columns=cols + benchmark_cols)  # Empty dataframe with all columns
     except Exception as e:
         print(f"Error reading evaluation results: {e}")
         import traceback
         traceback.print_exc()
+        return pd.DataFrame(columns=cols + benchmark_cols)  # Return empty dataframe with all columns
 def get_evaluation_queue_df(eval_requests_path, eval_cols):