Spaces:

fruitpicker01
/

Course_Project

Sleeping

App Files Files Community

fruitpicker01 commited on Jul 7

Commit

7041fc9

verified ·

1 Parent(s): 4300a62

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -11

app.py CHANGED Viewed

@@ -124,32 +124,37 @@ class VectorRAGSystem:
             print("🔄 Попытка загрузки векторных данных...")
             # Файлы векторных данных
-            faiss_file = "chunks_flatip.faiss"
-            metadata_file = "metadata.json"
             if not all(os.path.exists(f) for f in [faiss_file, metadata_file]):
                 print("📁 Файлы векторных данных не найдены")
                 return False
-            # Загружаем метаданные (список с page и chunk_id)
             with open(metadata_file, 'r', encoding='utf-8') as f:
                 metadata_list = json.load(f)
-            # Создаем структуру чанков без текстов (получим из PDF по требованию)
             self.chunks = []
             for i, item in enumerate(metadata_list):
                 self.chunks.append({
-                    "page": item["page"],
-                    "chunk_id": item["chunk_id"],
                     "chunk_index": i,
-                    "text": "",  # Получим из PDF по требованию
-                    "metadata": {}
                 })
-            # Сохраняем метаданные
             self.metadata = {"total_chunks": len(self.chunks)}
-            # Загружаем FAISS индекс
             if HAS_FAISS:
                 self.faiss_index = faiss.read_index(faiss_file)
@@ -169,7 +174,7 @@ class VectorRAGSystem:
         except Exception as e:
             print(f"❌ Ошибка загрузки векторных данных: {e}")
             return False
     def get_page_text(self, page_num: int) -> str:
         """Получение полного текста страницы с кешированием"""
         if page_num in self.page_texts:

             print("🔄 Попытка загрузки векторных данных...")
             # Файлы векторных данных
+            faiss_file     = "chunks_flatip.faiss"
+            metadata_file  = "metadata.json"
             if not all(os.path.exists(f) for f in [faiss_file, metadata_file]):
                 print("📁 Файлы векторных данных не найдены")
                 return False
+            # Загружаем метаданные
             with open(metadata_file, 'r', encoding='utf-8') as f:
                 metadata_list = json.load(f)
+            # Собираем self.chunks для всех типов элементов
             self.chunks = []
             for i, item in enumerate(metadata_list):
+                # унифицируем идентификатор чанка
+                chunk_id = item.get("chunk_id",
+                            item.get("table_id",
+                            item.get("img_id", None)))
                 self.chunks.append({
+                    "page":        item["page"],
+                    "chunk_id":    chunk_id,
                     "chunk_index": i,
+                    "text":        "",   # подгрузим из PDF при выдаче
+                    "metadata":    {}
                 })
+            # Сохраняем общую статистику
             self.metadata = {"total_chunks": len(self.chunks)}
+            # Загружаем FAISS-индекс
             if HAS_FAISS:
                 self.faiss_index = faiss.read_index(faiss_file)
         except Exception as e:
             print(f"❌ Ошибка загрузки векторных данных: {e}")
             return False
     def get_page_text(self, page_num: int) -> str:
         """Получение полного текста страницы с кешированием"""
         if page_num in self.page_texts: