================ 聚类实验 ================ | |
开始时间: Sun Apr 13 21:06:00 HKT 2025 | |
========================================== | |
运行实验: PCA(4) + KMEANS(自动寻找最佳K) | |
命令: python cluster_topic_exp.py --name pca4_kmeans_auto --dim_reduction pca --pca_components 4 --clustering kmeans --kmeans_min_k 4 --kmeans_max_k 31 --kmeans_step 2 --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu | |
开始时间: Sun Apr 13 21:06:00 HKT 2025 | |
正在加载embeddings... | |
从缓存文件加载embeddings,数据形状: (327212, 768) | |
使用 pca 进行降维... | |
PCA累积解释方差比: 0.1878 | |
=== 寻找最佳K值 === | |
寻找最佳K值... | |
最佳聚类数量: 4 | |
=== K-means聚类 (最佳K) === | |
使用K-means进行聚类... | |
使用 GPU 加速的 KMeans... | |
聚类数量: 4 | |
轮廓系数: 0.3466 | |
Calinski-Harabasz指数: 148317.8594 | |
只能可视化2维数据,请先使用reduce_dimensions降至2维 | |
实验结果已保存至: ./clustering_results/pca4_kmeans_auto_results.json | |
结束时间: Sun Apr 13 21:06:27 HKT 2025 | |
========================================== | |
所有实验完成,生成分析报告... | |
实验全部完成! | |
总结果保存在: ./clustering_results | |
您可以运行以下命令分析结果: | |
python ./clustering_results/analyze_results.py | |