Spaces:

AAA1988
/

SymptomsSearch

Sleeping

App Files Files Community

AAA1988 commited on Feb 11

Commit

6bb7a87

verified ·

1 Parent(s): a2c3301

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -45

app.py CHANGED Viewed

@@ -6,7 +6,6 @@ from sentence_transformers import SentenceTransformer
 from functools import lru_cache
 from huggingface_hub import AsyncInferenceClient
 from sklearn.decomposition import PCA
-from sklearn.metrics import pairwise_distances_argmin_min
 # ------ Data Loading ------
 df = pd.read_csv("symbipredict_2022_filtered.csv")
@@ -15,40 +14,10 @@ df = pd.read_csv("symbipredict_2022_filtered.csv")
 model = SentenceTransformer("all-MiniLM-L6-v2")
 embedding_arr = model.encode(df['symptoms']).astype(np.float32)
-# ------ Enhanced Clustering Setup ------
-# Ensemble clustering with multiple initializations
-kmeans_ensemble = [MiniBatchKMeans(n_clusters=10, random_state=i).fit(embedding_arr)
-                  for i in range(5)]
-cluster_labels = np.array([model.predict(embedding_arr) for model in kmeans_ensemble])
-final_labels = np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=cluster_labels)
-# Cluster validation
-cluster_stability = {}
-for cluster_id in np.unique(final_labels):
-    mask = final_labels == cluster_id
-    stability_score = np.mean([np.sum(cluster_labels[i][mask] == cluster_id)/np.sum(mask)
-                             for i in range(5)])
-    cluster_stability[cluster_id] = stability_score
-cluster_prognosis_map = df.groupby(final_labels)['prognosis'].agg(lambda x: x.mode().tolist())
-# ------ Session Context Tracking ------
-class SessionManager:
-    def __init__(self):
-        self.sessions = {}
-    def get_cluster(self, session_id, query_embedding, threshold=0.85):
-        if session_id in self.sessions:
-            prev_centroid = kmeans_ensemble[0].cluster_centers_[self.sessions[session_id]]
-            distance = np.linalg.norm(query_embedding - prev_centroid)
-            if distance < threshold:
-                return self.sessions[session_id]
-        new_cluster = kmeans_ensemble[0].predict(query_embedding.reshape(1, -1))[0]
-        self.sessions[session_id] = new_cluster
-        return new_cluster
-session_mgr = SessionManager()
 # ------ PCA Initialization ------
 pca = PCA(n_components=2).fit(embedding_arr)
@@ -64,17 +33,10 @@ client = AsyncInferenceClient("HuggingFaceH4/zephyr-7b-beta")
 # ------ Streaming Response Function ------
 async def respond(message, history, system_message, max_tokens, temperature, top_p):
     try:
-        session_id = hash(frozenset(history))
         query_embedding = cached_encode(message)
-        # Get cluster with context awareness
-        query_cluster = session_mgr.get_cluster(session_id, query_embedding)
-        # Validate cluster stability
-        if cluster_stability[query_cluster] < 0.7:
-            yield "Low diagnostic confidence - please consult a healthcare professional"
-            return
         # Generate streaming response
         stream = await client.chat_completion(
             messages=[{
@@ -95,7 +57,7 @@ async def respond(message, history, system_message, max_tokens, temperature, top
             content = chunk.choices[0].delta.content
             if content:
                 full_response += content
-                yield full_response
         # Append cluster prognosis after completion
         yield f"{full_response}\n\nCluster {query_cluster} common prognoses: {', '.join(cluster_prognosis_map[query_cluster])}"

 from functools import lru_cache
 from huggingface_hub import AsyncInferenceClient
 from sklearn.decomposition import PCA
 # ------ Data Loading ------
 df = pd.read_csv("symbipredict_2022_filtered.csv")
 model = SentenceTransformer("all-MiniLM-L6-v2")
 embedding_arr = model.encode(df['symptoms']).astype(np.float32)
+# ------ Clustering Setup ------
+kmeans = MiniBatchKMeans(n_clusters=10, random_state=42)
+cluster_labels = kmeans.fit_predict(embedding_arr)
+cluster_prognosis_map = df.groupby(cluster_labels)['prognosis'].agg(lambda x: x.mode().tolist())
 # ------ PCA Initialization ------
 pca = PCA(n_components=2).fit(embedding_arr)
 # ------ Streaming Response Function ------
 async def respond(message, history, system_message, max_tokens, temperature, top_p):
     try:
+        # Encoding and clustering
         query_embedding = cached_encode(message)
+        query_cluster = kmeans.predict(query_embedding.reshape(1, -1))[0]
         # Generate streaming response
         stream = await client.chat_completion(
             messages=[{
             content = chunk.choices[0].delta.content
             if content:
                 full_response += content
+                yield full_response  # Stream partial responses
         # Append cluster prognosis after completion
         yield f"{full_response}\n\nCluster {query_cluster} common prognoses: {', '.join(cluster_prognosis_map[query_cluster])}"