llm

Sleeping

App Files Files Community

Chris4K commited on Jan 14

Commit

939af78

verified ·

1 Parent(s): 4edeecd

Update services/pdf_service.py

Browse files

Files changed (1) hide show

services/pdf_service.py +16 -27

services/pdf_service.py CHANGED Viewed

@@ -128,46 +128,35 @@ class PDFService:
             await self.index_pdfs()
         try:
-            # Get query embedding using thread pool
-            #loop = asyncio.get_running_loop()
-            #query_embedding = await loop.run_in_executor(
-            #    None,
-            #    lambda: self.embedder.encode(
-            #        [query],
-            #        convert_to_tensor=True
-            #    ).cpu().detach().numpy()
-            #)
-            # Search
-            #distances, indices = self.index.search(query_embedding, top_k * 2)
             # Create query embedding
             query_embedding = self.embedder.encode([query], convert_to_tensor=True)
             query_embedding_np = query_embedding.cpu().detach().numpy()
             # Search in FAISS index
             distances, indices = self.index.search(query_embedding_np, top_k)
             # Process results
             results = []
             for i, idx in enumerate(indices[0]):
-                if idx >= len(self.chunks) or distances[0][i] > min_score:
-                    continue
                 chunk = self.chunks[idx].copy()
-                chunk['score'] = float(1 - distances[0][i])
                 results.append(chunk)
             # Sort by score and take top_k
             results.sort(key=lambda x: x['score'], reverse=True)
-            print("--------------------------- results  ----------------------------------")
             print(results)
             return results[:top_k]
         except Exception as e:
             logger.error(f"Error searching PDFs: {e}")
-            raise

             await self.index_pdfs()
         try:
             # Create query embedding
             query_embedding = self.embedder.encode([query], convert_to_tensor=True)
             query_embedding_np = query_embedding.cpu().detach().numpy()
             # Search in FAISS index
             distances, indices = self.index.search(query_embedding_np, top_k)
             # Process results
             results = []
             for i, idx in enumerate(indices[0]):
+                if idx >= len(self.chunks):
+                    continue  # Skip invalid indices
+                score = 1 - distances[0][i]  # Calculate similarity score
+                if score < min_score:
+                    continue  # Skip low scores
                 chunk = self.chunks[idx].copy()
+                chunk['score'] = score
                 results.append(chunk)
             # Sort by score and take top_k
             results.sort(key=lambda x: x['score'], reverse=True)
+            print("--------------------------- results ----------------------------------")
             print(results)
             return results[:top_k]
         except Exception as e:
             logger.error(f"Error searching PDFs: {e}")
+            raise