Spaces:

fruitpicker01
/

Course_Project

Sleeping

App Files Files Community

fruitpicker01 commited on Jul 6

Commit

463334d

verified ·

1 Parent(s): d9d149a

Update app.py

Browse files

Files changed (1) hide show

app.py +193 -40

app.py CHANGED Viewed

@@ -1,9 +1,3 @@
-#!/usr/bin/env python3
-"""
-Финальная векторная RAG система для HuggingFace Spaces
-Адаптированная версия с поддержкой векторного поиска и резервным режимом
-"""
 import os
 import json
 import pickle
@@ -12,6 +6,14 @@ from pathlib import Path
 from typing import Optional, Dict, Any, List, Tuple
 import traceback
 import re
 try:
     import numpy as np
@@ -30,6 +32,30 @@ except ImportError:
 from openai import OpenAI
 class VectorRAGSystem:
     """RAG система с векторным поиском и резервным режимом"""
@@ -167,24 +193,30 @@ class VectorRAGSystem:
     def _generate_stats(self) -> str:
         """Генерация статистики системы"""
         total_chunks = len(self.chunks)
-        mode = "Векторный поиск" if self.vector_mode and self.faiss_index else "Поиск по ключевым словам"
-        stats = f"""✅ **RAG система готова!**
-📊 **Статистика:**
-- 📦 Загружено чанков: {total_chunks}
-- 🔍 Режим поиска: {mode}
 - 🧠 Модель генерации: {self.generation_model}
-- 🎯 Реранкинг: {self.reranking_model}
-🔍 **Возможности:**
-- 🔎 Семантический/ключевой поиск
-- 📄 Контекстное обогащение
-- 🧠 LLM реранкинг результатов
-- 📝 Интеллектуальная генерация ответов
-- 📊 Анализ годового отчета ПАО Сбербанк 2023
-🚀 **Готова к работе!**"""
         return stats
@@ -286,48 +318,164 @@ class VectorRAGSystem:
             return chunks
     def generate_answer(self, query: str, context_chunks: List[Tuple[Dict, float]]) -> str:
-        """Генерация ответа на основе контекста"""
         if not self.client:
             return "❌ OpenAI API не настроен"
         try:
             context_parts = []
             for i, (chunk, score) in enumerate(context_chunks[:self.final_chunks_count]):
-                text = chunk.get('full_page_text', chunk['text'])
                 clean_text = text.encode('utf-8', errors='ignore').decode('utf-8')
-                context_parts.append(f"Фрагмент {i+1} (страница {chunk['page']}, релевантность: {score:.2f}):\n{clean_text}")
             context = "\n\n".join(context_parts)
             clean_query = query.encode('utf-8', errors='ignore').decode('utf-8')
-            prompt = f"""Ты - эксперт по анализу финансовых отчетов. Ответь на вопрос пользователя на основе предоставленного контекста из годового отчета ПАО Сбербанк 2023.
-ВОПРОС: {clean_query}
 КОНТЕКСТ ИЗ ОТЧЕТА:
 {context}
-ИНСТРУКЦИИ:
-1. Отвечай только на основе предоставленной информации
-2. Если информации недостаточно, честно об этом скажи
-3. Используй конкретные данные и цифры из отчета
-4. Структурируй ответ четко и понятно
-5. Указывай номера страниц при цитировании
-6. Отвечай на русском языке
-ОТВЕТ:"""
             response = self.client.chat.completions.create(
                 model=self.generation_model,
                 messages=[{"role": "user", "content": prompt}],
-                max_tokens=1500,
-                temperature=0.1
             )
-            return response.choices[0].message.content.strip()
         except Exception as e:
-            return f"❌ Ошибка генерации ответа: {str(e)}"
     def process_query(self, query: str) -> Dict[str, Any]:
         """Обработка пользовательского запроса"""
@@ -446,9 +594,9 @@ def create_demo_interface():
         gr.Markdown("""
         <div class="main-header">
-        <h1>🚀 Advanced RAG Demo: Анализ отчета Сбера 2023</h1>
-        <p>Умная система с векторным поиском и адаптивным режимом</p>
-        <p><strong>OpenAI embeddings • FAISS IndexFlatIP • LLM reranking • Fallback mode</strong></p>
         </div>
         """)
@@ -533,4 +681,9 @@ def create_demo_interface():
 # Запуск для Hugging Face Spaces
 demo = create_demo_interface()
-demo.launch()

 import os
 import json
 import pickle
 from typing import Optional, Dict, Any, List, Tuple
 import traceback
 import re
+from datetime import datetime
+try:
+    from pydantic import BaseModel, Field
+    HAS_PYDANTIC = True
+except ImportError:
+    HAS_PYDANTIC = False
+    print("⚠️ Pydantic не установлен, структурированный вывод недоступен")
 try:
     import numpy as np
 from openai import OpenAI
+# Pydantic модели для структурированного вывода
+if HAS_PYDANTIC:
+    class SourceInfo(BaseModel):
+        """Информация об источнике"""
+        page: int = Field(description="Номер страницы в отчете")
+        relevance_score: float = Field(description="Оценка релевантности от 0 до 1")
+        content_preview: str = Field(description="Краткое описание содержимого")
+    class ThinkingProcess(BaseModel):
+        """Процесс рассуждений (Chain-of-Thought)"""
+        question_analysis: str = Field(description="Анализ вопроса пользователя")
+        information_found: str = Field(description="Найденная в источниках информация")
+        reasoning_steps: List[str] = Field(description="Шаги логических рассуждений")
+        conclusion: str = Field(description="Выводы на основе анализа")
+    class FinancialAnswer(BaseModel):
+        """Структурированный ответ по финансовой отчетности"""
+        thinking: ThinkingProcess = Field(description="Процесс рассуждений")
+        answer: str = Field(description="Основной ответ на вопрос")
+        confidence: float = Field(description="Уверенность в ответе от 0 до 1")
+        sources: List[SourceInfo] = Field(description="Использованные источники")
+        key_metrics: Optional[Dict[str, Any]] = Field(description="Ключевые числовые показатели", default=None)
+        timestamp: str = Field(default_factory=lambda: datetime.now().isoformat())
 class VectorRAGSystem:
     """RAG система с векторным поиском и резервным режимом"""
     def _generate_stats(self) -> str:
         """Генерация статистики системы"""
         total_chunks = len(self.chunks)
+        mode = "Векторный поиск" if self.vector_mode and self.faiss_index else "Базовый режим"
+        structured_output = "✅ Pydantic" if HAS_PYDANTIC else "❌ Недоступно"
+        pdf_enrichment = "✅ Активен" if self.pdf_doc else "❌ Недоступен"
+        stats = f"""🧠 **Advanced RAG система с Chain-of-Thought готова!**
+📊 **Технические характеристики:**
+- 📦 Векторных эмбеддингов: {total_chunks}
+- 🔍 Режим поиска: {mode} (только векторный)
 - 🧠 Модель генерации: {self.generation_model}
+- 🎯 LLM реранкинг: {self.reranking_model}
+- 📄 Parent-page enrichment: {pdf_enrichment}
+- 📋 Структурированный вывод: {structured_output}
+🚀 **Архитектурные особенности:**
+- 🔎 **Векторный поиск** с text-embedding-3-large (только)
+- 📄 **Parent-page enrichment** через PyMuPDF
+- 🧠 **LLM реранкинг** для повышения релевантности
+- 🤔 **Chain-of-Thought** рассуждения
+- 📋 **JSON Schema** для структурированных ответов
+- 📊 **Confidence scoring** и детальная аналитика
+- 📚 **Предобработка** с pdfplumber + таблицы
+💡 **Готова к интеллектуальному анализу отчета ПАО Сбербанк 2023!**"""
         return stats
             return chunks
     def generate_answer(self, query: str, context_chunks: List[Tuple[Dict, float]]) -> str:
+        """Генерация ответа с Chain-of-Thought и структурированным выводом"""
         if not self.client:
             return "❌ OpenAI API не настроен"
         try:
+            # Подготавливаем контекст с метаинформацией
             context_parts = []
+            sources_info = []
             for i, (chunk, score) in enumerate(context_chunks[:self.final_chunks_count]):
+                text = chunk.get('text', '')
                 clean_text = text.encode('utf-8', errors='ignore').decode('utf-8')
+                # Ограничиваем длину для лучшей обработки
+                if len(clean_text) > 1500:
+                    clean_text = clean_text[:1500] + "..."
+                context_parts.append(f"Источник {i+1} (страница {chunk['page']}):\n{clean_text}")
+                sources_info.append({
+                    "page": chunk['page'],
+                    "score": float(score),
+                    "preview": clean_text[:200] + "..." if len(clean_text) > 200 else clean_text
+                })
             context = "\n\n".join(context_parts)
             clean_query = query.encode('utf-8', errors='ignore').decode('utf-8')
+            # Используем структурированный вывод, если доступен Pydantic
+            if HAS_PYDANTIC:
+                return self._generate_structured_answer(clean_query, context, sources_info)
+            else:
+                return self._generate_simple_answer(clean_query, context)
+        except Exception as e:
+            return f"❌ Ошибка генерации ответа: {str(e)}"
+    def _generate_structured_answer(self, query: str, context: str, sources_info: List[Dict]) -> str:
+        """Генерация структурированного ответа с Chain-of-Thought"""
+        try:
+            # JSON Schema для принуждения к структуре
+            schema = FinancialAnswer.model_json_schema()
+            prompt = f"""Ты - эксперт по анализу финансовых отчетов ПАО Сбербанк. Проанализируй вопрос пользователя используя Chain-of-Thought рассуждения.
+ВОПРОС: {query}
 КОНТЕКСТ ИЗ ОТЧЕТА:
 {context}
+ИНСТРУКЦИИ ДЛЯ АНАЛИЗА:
+1. МЫШЛЕНИЕ (thinking):
+   - Проанализируй, что именно спрашивает пользователь
+   - Определи, какая информация есть в предоставленных источниках
+   - Пройди через логические шаги рассуждений
+   - Сделай выводы на основе найденной информации
+2. ОТВЕТ:
+   - Дай четкий и полный ответ на русском языке
+   - Используй конкретные данные и цифры из отчета
+   - Укажи номера страниц при цитировании
+3. УВЕРЕННОСТЬ:
+   - Оцени от 0 до 1, насколько уверен в ответе
+   - Учитывай полноту и качество найденной информации
+4. ИСТОЧНИКИ:
+   - Для каждого использованного исто��ника укажи релевантность (0-1)
+   - Кратко опиши содержимое
+Отвечай ТОЛЬКО в формате JSON согласно схеме. Все тексты на русском языке."""
             response = self.client.chat.completions.create(
                 model=self.generation_model,
                 messages=[{"role": "user", "content": prompt}],
+                max_tokens=2000,
+                temperature=0.1,
+                response_format={"type": "json_object"}
             )
+            json_response = response.choices[0].message.content.strip()
+            # Парсим и валидируем JSON
+            try:
+                parsed_response = json.loads(json_response)
+                validated_response = FinancialAnswer(**parsed_response)
+                return self._format_structured_response(validated_response)
+            except Exception as parse_error:
+                print(f"⚠️ Ошибка парсинга JSON: {parse_error}")
+                return self._generate_simple_answer(query, context)
         except Exception as e:
+            print(f"⚠️ Ошибка структурированной генерации: {e}")
+            return self._generate_simple_answer(query, context)
+    def _generate_simple_answer(self, query: str, context: str) -> str:
+        """Генерация простого ответа с Chain-of-Thought (fallback)"""
+        prompt = f"""Ты - эксперт по анализу финансовых отчетов. Ответь на вопрос используя Chain-of-Thought рассуждения.
+ВОПРОС: {query}
+КОНТЕКСТ ИЗ ОТЧЕТА:
+{context}
+ФОРМАТ ОТВЕТА:
+🤔 **АНАЛИЗ ВОПРОСА:**
+[Что именно спрашивает пользователь]
+📊 **НАЙДЕННАЯ ИНФОРМАЦИЯ:**
+[Какие данные есть в источниках]
+🔍 **РАССУЖДЕНИЯ:**
+[Логические шаги анализа]
+✅ **ВЫВОДЫ:**
+[Финальный ответ с конкретными данными]
+ИНСТРУКЦИИ:
+- Отвечай только на основе предоставленной информации
+- Используй конкретные данные и цифры из отчета
+- Указывай номера страниц при цитировании
+- Отвечай на русском языке"""
+        response = self.client.chat.completions.create(
+            model=self.generation_model,
+            messages=[{"role": "user", "content": prompt}],
+            max_tokens=1500,
+            temperature=0.1
+        )
+        return response.choices[0].message.content.strip()
+    def _format_structured_response(self, response: 'FinancialAnswer') -> str:
+        """Форматирование структурированного ответа для отображения"""
+        formatted = f"""🤔 **ПРОЦЕСС РАССУЖДЕНИЙ:**
+📝 **Анализ вопроса:** {response.thinking.question_analysis}
+📊 **Найденная информация:** {response.thinking.information_found}
+🔍 **Шаги рассуждений:**
+"""
+        for i, step in enumerate(response.thinking.reasoning_steps, 1):
+            formatted += f"{i}. {step}\n"
+        formatted += f"\n💡 **Выводы:** {response.thinking.conclusion}\n"
+        formatted += f"\n✅ **ФИНАЛЬНЫЙ ОТВЕТ:**\n{response.answer}\n"
+        formatted += f"\n📊 **Уверенность:** {response.confidence:.1%}\n"
+        if response.key_metrics:
+            formatted += f"\n📈 **Ключевые показатели:**\n"
+            for key, value in response.key_metrics.items():
+                formatted += f"- {key}: {value}\n"
+        formatted += f"\n📚 **Источники:**\n"
+        for i, source in enumerate(response.sources, 1):
+            formatted += f"{i}. Страница {source.page} (релевантность: {source.relevance_score:.1%})\n"
+            formatted += f"   {source.content_preview}\n"
+        return formatted
     def process_query(self, query: str) -> Dict[str, Any]:
         """Обработка пользовательского запроса"""
         gr.Markdown("""
         <div class="main-header">
+        <h1>🧠 Advanced RAG with Chain-of-Thought: Анализ отчета Сбера 2023</h1>
+        <p>Интеллектуальная система с векторным поиском, LLM реранкингом и структурированными рассуждениями</p>
+        <p><strong>text-embedding-3-large • FAISS • GPT-4o • JSON Schema • Chain-of-Thought • Parent-page enrichment</strong></p>
         </div>
         """)
 # Запуск для Hugging Face Spaces
 demo = create_demo_interface()
+if __name__ == "__main__":
+    if demo:
+        demo.launch()
+    else:
+        print("❌ Не удалось создать интерфейс")