Spaces:

stacklok
/

secure_code_leaderboard_archived

Running

Clean up

bd09cee 29 days ago

1.27 kB

	import pandas as pd
	from src.display.utils import BENCHMARK_COLS
	from src.about import Tasks
	from src.leaderboard.read_evals import get_raw_eval_results

	print("Tasks definitions:")
	for task in Tasks:
	print(f"- {task.name}: benchmark={task.value.benchmark}, metric={task.value.metric}, col_name={task.value.col_name}")

	print("\nBenchmark columns:", BENCHMARK_COLS)

	try:
	# Get raw results first
	raw_results = get_raw_eval_results("eval-results", "eval-queue")
	print("\nRaw results:")
	for result in raw_results:
	print("\nResult:")
	print("- eval_name:", result.eval_name)
	print("- results:", result.results)
	data_dict = result.to_dict()
	print("- data_dict:", data_dict)

	# Convert to DataFrame
	all_data_json = [v.to_dict() for v in raw_results]
	df = pd.DataFrame.from_records(all_data_json)
	print("\nDataFrame columns:", df.columns.tolist())
	print("\nDataFrame contents:")
	print(df)
	except Exception as e:
	print("\nError:", str(e))
	import traceback
	traceback.print_exc()

	# Print raw data for debugging
	print("\nRaw data from results file:")
	import json
	with open("eval-results/results_1.json") as f:
	print(json.dumps(json.load(f), indent=2))