Spaces:

Batnini
/

radius

Paused

App Files Files Community

Batnini commited on 16 days ago

Commit

38c6863

verified ·

1 Parent(s): a64035a

Update tools/quran_search.py

Browse files

Files changed (1) hide show

tools/quran_search.py +71 -21

tools/quran_search.py CHANGED Viewed

@@ -2,33 +2,83 @@ import pandas as pd
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 class QuranSearchEngine:
     def __init__(self):
         self.data_loaded = False
     def load_data(self):
         if not self.data_loaded:
-            self.quran_df = pd.read_csv("https://raw.githubusercontent.com/mafahim/quran-json/main/quran_clean.csv")
-            self.model = SentenceTransformer(
-                'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'
-            )
-            self.verse_embeddings = self.model.encode(self.quran_df['text'].tolist())
-            self.data_loaded = True
     def search(self, query, top_k=5):
         self.load_data()
-        query_embedding = self.model.encode([query])
-        similarities = cosine_similarity(query_embedding, self.verse_embeddings)[0]
-        top_indices = np.argsort(similarities)[-top_k:][::-1]
-        results = []
-        for idx in top_indices:
-            verse = self.quran_df.iloc[idx]
-            results.append({
-                "surah": verse['surah'],
-                "ayah": verse['ayah'],
-                "text": verse['text'],
-                "similarity": f"{similarities[idx]:.2f}"
-            })
-        return results

 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
+import requests
+from io import StringIO
 class QuranSearchEngine:
     def __init__(self):
         self.data_loaded = False
+        self.quran_df = None
+        self.model = None
+        self.verse_embeddings = None
     def load_data(self):
         if not self.data_loaded:
+            try:
+                # Load Quran data with error handling
+                url = "https://raw.githubusercontent.com/mafahim/quran-json/main/quran_clean.csv"
+                response = requests.get(url)
+                response.raise_for_status()  # Raise error for bad status
+                # Use StringIO to read the CSV content
+                self.quran_df = pd.read_csv(StringIO(response.text))
+                # Verify required columns exist
+                if not all(col in self.quran_df.columns for col in ['surah', 'ayah', 'text']):
+                    raise ValueError("CSV file doesn't contain required columns")
+                # Load model with error handling
+                self.model = SentenceTransformer(
+                    'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2',
+                    device='cpu'
+                )
+                # Encode verses
+                self.verse_embeddings = self.model.encode(
+                    self.quran_df['text'].tolist(),
+                    show_progress_bar=False
+                )
+                self.data_loaded = True
+            except Exception as e:
+                print(f"Error loading Quran data: {str(e)}")
+                # Create empty dataframe if loading fails
+                self.quran_df = pd.DataFrame(columns=['surah', 'ayah', 'text'])
+                self.verse_embeddings = np.array([])
     def search(self, query, top_k=5):
         self.load_data()
+        if self.quran_df.empty:
+            return [{
+                "surah": "Error",
+                "ayah": "1",
+                "text": "Failed to load Quran data. Please try again later.",
+                "similarity": "0.00"
+            }]
+        try:
+            query_embedding = self.model.encode([query])
+            similarities = cosine_similarity(query_embedding, self.verse_embeddings)[0]
+            top_indices = np.argsort(similarities)[-top_k:][::-1]
+            results = []
+            for idx in top_indices:
+                verse = self.quran_df.iloc[idx]
+                results.append({
+                    "surah": verse['surah'],
+                    "ayah": verse['ayah'],
+                    "text": verse['text'],
+                    "similarity": f"{similarities[idx]:.2f}"
+                })
+            return results
+        except Exception as e:
+            print(f"Search error: {str(e)}")
+            return [{
+                "surah": "Error",
+                "ayah": "1",
+                "text": "An error occurred during search. Please try a different query.",
+                "similarity": "0.00"
+            }]