Spaces:

SantanuBanerjee
/

TaxDirection

Sleeping

App Files Files Community

SantanuBanerjee commited on Aug 4, 2024

Commit

cf3adb9

verified ·

1 Parent(s): ec47bcd

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -9

app.py CHANGED Viewed

@@ -294,20 +294,42 @@ def extract_problem_domains(df,
         feature_names = vectorizer.get_feature_names_out()
         cluster_representations = {}
         for i in range(optimal_n_clusters):
-            center = kmeans.cluster_centers_[i]
-            # print(f"top_words: {top_words}, type: {type(top_words)}")
-            # print(f"center.argsort(): {center.argsort()}, type: {type(center.argsort())}")
-            console_messages.append(f"top_words: {top_words}, type: {type(top_words)}")
-            console_messages.append(f"center.argsort(): {center.argsort()}, type: {type(center.argsort())}")
-            # top_word_indices = center.argsort()[-top_words:][::-1]
-            top_word_indices = center.argsort()[-top_words:][::-1].tolist() # Indexes of top words
-            top_words = [feature_names[index] for index in top_word_indices]
-            cluster_representations[i] = top_words
     # Map cluster labels to representative words
     df["Problem_Cluster"] = cluster_labels

         feature_names = vectorizer.get_feature_names_out()
         cluster_representations = {}
         for i in range(optimal_n_clusters):
+            # center = kmeans.cluster_centers_[i]
+            # # print(f"top_words: {top_words}, type: {type(top_words)}")
+            # # print(f"center.argsort(): {center.argsort()}, type: {type(center.argsort())}")
+            # console_messages.append(f"top_words: {top_words}, type: {type(top_words)}")
+            # console_messages.append(f"center.argsort(): {center.argsort()}, type: {type(center.argsort())}")
+            # # top_word_indices = center.argsort()[-top_words:][::-1]
+            # top_word_indices = center.argsort()[-top_words:][::-1].tolist() # Indexes of top words
+            # top_words = [feature_names[index] for index in top_word_indices]
+            # cluster_representations[i] = top_words
+            try:
+                center = kmeans.cluster_centers_[i]
+                console_messages.append(f"Processing cluster {i}")
+                console_messages.append(f"Center shape: {center.shape}, type: {type(center)}")
+                top_word_indices = center.argsort()[-top_words:][::-1].tolist()
+                console_messages.append(f"Top word indices: {top_word_indices}")
+                top_words = [feature_names[index] for index in top_word_indices]
+                console_messages.append(f"Top words: {top_words}")
+                cluster_representations[i] = top_words
+            except Exception as e:
+                console_messages.append(f"Error processing cluster {i}: {str(e)}")
+                console_messages.append(f"Center: {center}")
     # Map cluster labels to representative words
     df["Problem_Cluster"] = cluster_labels