Spaces:

holistic-ai
/

LibVulnWatch

Running

App Files Files Community

wu981526092 commited on May 6

Commit

f03f82b

1 Parent(s): fbd403a

update

Browse files

Files changed (7) hide show

app.py +3 -1
assessment-queue/{langchain-ai_langchain_request.json → langchain-ai_langchain_eval_request_timestamp_abc123.json} +0 -0
assessment-queue/{microsoft_autogen_request.json → microsoft_autogen_eval_request_timestamp_ghi789.json} +0 -0
assessment-queue/{pytorch_pytorch_request.json → pytorch_pytorch_eval_request_timestamp_def456.json} +0 -0
src/display/utils.py +2 -1
src/leaderboard/read_evals.py +35 -13
src/populate.py +6 -0

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ from src.about import (
     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
     TITLE,
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
@@ -91,7 +92,8 @@ def init_leaderboard(dataframe):
     """Initialize the leaderboard component"""
     if dataframe is None or dataframe.empty:
         # Create an empty dataframe with the expected columns
-        empty_df = pd.DataFrame(columns=COLS)
         print("Warning: Leaderboard DataFrame is empty. Using empty dataframe.")
         dataframe = empty_df

     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
     TITLE,
+    Tasks
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
     """Initialize the leaderboard component"""
     if dataframe is None or dataframe.empty:
         # Create an empty dataframe with the expected columns
+        all_columns = COLS + [task.name for task in Tasks]
+        empty_df = pd.DataFrame(columns=all_columns)
         print("Warning: Leaderboard DataFrame is empty. Using empty dataframe.")
         dataframe = empty_df

assessment-queue/{langchain-ai_langchain_request.json → langchain-ai_langchain_eval_request_timestamp_abc123.json} RENAMED Viewed

File without changes

assessment-queue/{microsoft_autogen_request.json → microsoft_autogen_eval_request_timestamp_ghi789.json} RENAMED Viewed

File without changes

assessment-queue/{pytorch_pytorch_request.json → pytorch_pytorch_eval_request_timestamp_def456.json} RENAMED Viewed

File without changes

src/display/utils.py CHANGED Viewed

@@ -105,5 +105,6 @@ COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
-BENCHMARK_COLS = [t.value.col_name for t in Tasks]

 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
+# Task columns for benchmarking - use the task names from the Tasks enum
+BENCHMARK_COLS = [task.name for task in Tasks]

src/leaderboard/read_evals.py CHANGED Viewed

@@ -138,31 +138,53 @@ class AssessmentResult:
             AutoEvalColumn.availability.name: self.availability,
         }
         for task in Tasks:
-            data_dict[task.name] = self.results.get(task.value.benchmark, 10)  # Default to highest risk
         return data_dict
 def get_request_file_for_library(requests_path, library_name, version):
     """Selects the correct request file for a given library. Only keeps runs tagged as FINISHED"""
-    request_files = os.path.join(
-        requests_path,
-        f"{library_name.replace('/', '_')}_eval_request_*.json",
-    )
-    request_files = glob.glob(request_files)
     # Select correct request file (version)
     request_file = ""
     request_files = sorted(request_files, reverse=True)
     for tmp_request_file in request_files:
-        with open(tmp_request_file, "r") as f:
-            req_content = json.load(f)
-            if (
-                req_content["status"] in ["FINISHED"]
-                and req_content["version"] == version
-            ):
-                request_file = tmp_request_file
     return request_file

             AutoEvalColumn.availability.name: self.availability,
         }
+        # Add task-specific risk scores - map each task to its column name
         for task in Tasks:
+            task_enum = task.value  # Task dataclass instance
+            benchmark_key = task_enum.benchmark  # e.g., "license_validation"
+            col_name = task.name  # The field name in AutoEvalColumn, e.g., "license"
+            risk_score = self.results.get(benchmark_key, 10)  # Default to highest risk
+            data_dict[col_name] = risk_score
         return data_dict
 def get_request_file_for_library(requests_path, library_name, version):
     """Selects the correct request file for a given library. Only keeps runs tagged as FINISHED"""
+    # Try multiple naming patterns for flexibility
+    possible_patterns = [
+        f"{library_name.replace('/', '_')}_eval_request_*.json",  # Original pattern
+        f"{library_name.replace('/', '_')}_request.json",         # Simple pattern
+        f"{library_name.replace('/', '_')}*.json"                 # Fallback pattern
+    ]
+    request_files = []
+    for pattern in possible_patterns:
+        pattern_path = os.path.join(requests_path, pattern)
+        found_files = glob.glob(pattern_path)
+        request_files.extend(found_files)
+    if not request_files:
+        print(f"Warning: No request files found matching {library_name}")
+        return ""
     # Select correct request file (version)
     request_file = ""
     request_files = sorted(request_files, reverse=True)
     for tmp_request_file in request_files:
+        try:
+            with open(tmp_request_file, "r") as f:
+                req_content = json.load(f)
+                if (
+                    req_content.get("status", "") in ["FINISHED"] and
+                    req_content.get("version", "") == version
+                ):
+                    request_file = tmp_request_file
+                    break
+        except Exception as e:
+            print(f"Error reading {tmp_request_file}: {e}")
+            continue
     return request_file

src/populate.py CHANGED Viewed

@@ -4,6 +4,7 @@ import pandas as pd
 from src.display.utils import AutoEvalColumn
 from src.leaderboard.read_evals import get_raw_assessment_results
 def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_cols):
@@ -26,6 +27,9 @@ def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_co
             # Create dataframe from assessment results
             all_df = pd.DataFrame.from_records([r.to_dict() for r in assessment_results])
             # Sort by overall risk score (ascending - lower is better)
             if AutoEvalColumn.overall_risk.name in all_df.columns:
                 all_df = all_df.sort_values(by=[AutoEvalColumn.overall_risk.name])
@@ -35,6 +39,8 @@ def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_co
         return pd.DataFrame(columns=cols)  # Empty dataframe with columns
     except Exception as e:
         print(f"Error reading evaluation results: {e}")
         return pd.DataFrame(columns=cols)  # Return empty dataframe

 from src.display.utils import AutoEvalColumn
 from src.leaderboard.read_evals import get_raw_assessment_results
+from src.about import Tasks
 def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_cols):
             # Create dataframe from assessment results
             all_df = pd.DataFrame.from_records([r.to_dict() for r in assessment_results])
+            # Ensure the task columns are included
+            task_cols = [task.name for task in Tasks]
             # Sort by overall risk score (ascending - lower is better)
             if AutoEvalColumn.overall_risk.name in all_df.columns:
                 all_df = all_df.sort_values(by=[AutoEvalColumn.overall_risk.name])
         return pd.DataFrame(columns=cols)  # Empty dataframe with columns
     except Exception as e:
         print(f"Error reading evaluation results: {e}")
+        import traceback
+        traceback.print_exc()
         return pd.DataFrame(columns=cols)  # Return empty dataframe