predictive_auditing_data / load_check.py
s1ghhh's picture
Upload folder using huggingface_hub
98595da verified
import pandas as pd
import pandas as pd
# 显示所有列,不省略
pd.set_option('display.max_columns', None)
# 显示所有行(对 head() 没影响,但可用于 df 全体显示时)
pd.set_option('display.max_rows', None)
# 不截断列内容,显示完整字符串
pd.set_option('display.max_colwidth', None)
# 设置最大宽度,防止自动换行
pd.set_option('display.width', 1000)
# 读取 parquet 文件(自动识别使用的 engine,比如 pyarrow 或 fastparquet)
df = pd.read_parquet("/workspace/0525_zyw/verl/counting/mk_data/v2_train_counting_dataset_OpenR1-Math-220k_90258.parquet", engine="auto")
print(df.shape)
# print(df.columns)
# # 查看前几条数据
# print(df.loc[0]) # 默认前 5 条,可以传入参数指定行数,比如 df.head(10)
# for i, row in df.iterrows():
# print(f"Row {i}:\n{row['prompt']}\n---")
# if i > 1: # 只打印前 5 行
# break