import pandas as pd | |
import pandas as pd | |
# 显示所有列,不省略 | |
pd.set_option('display.max_columns', None) | |
# 显示所有行(对 head() 没影响,但可用于 df 全体显示时) | |
pd.set_option('display.max_rows', None) | |
# 不截断列内容,显示完整字符串 | |
pd.set_option('display.max_colwidth', None) | |
# 设置最大宽度,防止自动换行 | |
pd.set_option('display.width', 1000) | |
# 读取 parquet 文件(自动识别使用的 engine,比如 pyarrow 或 fastparquet) | |
df = pd.read_parquet("/workspace/0525_zyw/verl/counting/mk_data/v2_train_counting_dataset_OpenR1-Math-220k_90258.parquet", engine="auto") | |
print(df.shape) | |
# print(df.columns) | |
# # 查看前几条数据 | |
# print(df.loc[0]) # 默认前 5 条,可以传入参数指定行数,比如 df.head(10) | |
# for i, row in df.iterrows(): | |
# print(f"Row {i}:\n{row['prompt']}\n---") | |
# if i > 1: # 只打印前 5 行 | |
# break | |