主题聚类实验框架

本框架用于评估不同的降维和聚类算法组合在主题聚类任务上的表现。

实验架构

实验框架主要由以下部分组成：

实验使用以下指标评估聚类质量：

以下是可配置的主要参数：

PCA：主成分分析
- pca_components：降维后的维度
UMAP：Uniform Manifold Approximation and Projection
- umap_components：降维后的维度
- umap_neighbors：邻居数量（影响全局结构保存程度）
- umap_min_dist：最小距离（影响局部结构保存程度）

HDBSCAN：基于密度的层次聚类
- hdbscan_min_cluster_size：最小簇大小
- hdbscan_min_samples：最小样本数（影响噪声点识别）
K-means：基于距离的聚类
- kmeans_clusters：聚类数量（设为0时自动寻找最佳K值）
- kmeans_min_k/kmeans_max_k/kmeans_step：寻找最佳K值的范围和步长
OPTICS：有序点以识别聚类结构
- optics_min_samples：最小样本数
- optics_max_eps：最大邻域距离

python cluster_topic_exp.py --name 实验名称 --dim_reduction 降维方法 --clustering 聚类方法 [其他参数]

例如，运行PCA降维+HDBSCAN聚类实验：

python cluster_topic_exp.py --name pca50_hdbscan --dim_reduction pca --pca_components 50 --clustering hdbscan

./run_experiments.sh

运行后，所有实验结果将保存在clustering_results目录下，包含：

实验完成后，运行分析脚本：

python clustering_results/analyze_results.py

该脚本将生成：

要添加新的实验组合，可以编辑run_experiments.sh脚本，添加新的实验配置。