Spaces:

fruitpicker01
/

Course_Project

Sleeping

App Files Files Community

fruitpicker01 commited on Jul 5

Commit

26070ce

verified ·

1 Parent(s): ca1a781

Upload 2 files

Browse files

Files changed (2) hide show

app.py +518 -0
requirements.txt +35 -0

app.py ADDED Viewed

	@@ -0,0 +1,518 @@

+#!/usr/bin/env python3
+"""
+HuggingFace Spaces приложение для RAG системы анализа отчета Сбера 2023
+"""
+import os
+import sys
+import tempfile
+import base64
+from io import BytesIO
+from pathlib import Path
+from typing import Optional, Dict, Any, List, Tuple
+import gradio as gr
+import openai
+import pandas as pd
+import numpy as np
+from PIL import Image
+# Конфигурация
+class Config:
+    """Конфигурация для HuggingFace Spaces"""
+    OPENAI_API_KEY = os.getenv("OPENAI_API_KEY", "")
+    GENERATION_MODEL = "gpt-4o"
+    RERANKING_MODEL = "gpt-4o-mini"
+    EMBEDDING_MODEL = "text-embedding-3-large"
+    MAX_CHARACTERS = 4000
+    CHUNK_OVERLAP = 200
+    RETRIEVAL_K = 5
+    RERANKING_K = 3
+config = Config()
+class SimpleRAGSystem:
+    """Упрощенная RAG система для HuggingFace Spaces"""
+    def __init__(self):
+        self.client = None
+        self.documents = []
+        self.embeddings = []
+        self.is_initialized = False
+    def initialize_openai(self, api_key: str) -> bool:
+        """Инициализация OpenAI клиента"""
+        try:
+            if not api_key:
+                return False
+            self.client = openai.OpenAI(api_key=api_key)
+            # Тестовый запрос
+            test_response = self.client.chat.completions.create(
+                model="gpt-4o-mini",
+                messages=[{"role": "user", "content": "Test"}],
+                max_tokens=1
+            )
+            return True
+        except Exception as e:
+            print(f"Ошибка инициализации OpenAI: {e}")
+            return False
+    def extract_text_from_pdf(self, pdf_file) -> List[str]:
+        """Извлечение текста из PDF (упрощенная версия)"""
+        try:
+            import pypdf
+            reader = pypdf.PdfReader(pdf_file)
+            texts = []
+            for page_num, page in enumerate(reader.pages):
+                text = page.extract_text()
+                if text.strip():
+                    # Простое разбиение на чанки
+                    chunks = self.split_text(text, config.MAX_CHARACTERS)
+                    for i, chunk in enumerate(chunks):
+                        texts.append({
+                            'content': chunk,
+                            'page': page_num + 1,
+                            'chunk': i + 1,
+                            'type': 'text'
+                        })
+            return texts
+        except Exception as e:
+            print(f"Ошибка обработки PDF: {e}")
+            return []
+    def split_text(self, text: str, max_size: int) -> List[str]:
+        """Простое разбиение текста на чанки"""
+        words = text.split()
+        chunks = []
+        current_chunk = []
+        current_size = 0
+        for word in words:
+            if current_size + len(word) + 1 > max_size and current_chunk:
+                chunks.append(' '.join(current_chunk))
+                current_chunk = [word]
+                current_size = len(word)
+            else:
+                current_chunk.append(word)
+                current_size += len(word) + 1
+        if current_chunk:
+            chunks.append(' '.join(current_chunk))
+        return chunks
+    def create_embeddings(self, texts: List[Dict]) -> bool:
+        """Создание эмбеддингов для текстов"""
+        try:
+            if not self.client:
+                return False
+            contents = [doc['content'] for doc in texts]
+            # Создаем эмбеддинги батчами
+            batch_size = 100
+            all_embeddings = []
+            for i in range(0, len(contents), batch_size):
+                batch = contents[i:i + batch_size]
+                response = self.client.embeddings.create(
+                    model=config.EMBEDDING_MODEL,
+                    input=batch
+                )
+                batch_embeddings = [item.embedding for item in response.data]
+                all_embeddings.extend(batch_embeddings)
+            self.documents = texts
+            self.embeddings = np.array(all_embeddings)
+            self.is_initialized = True
+            return True
+        except Exception as e:
+            print(f"Ошибка создания эмбеддингов: {e}")
+            return False
+    def search_documents(self, query: str, k: int = 5) -> List[Dict]:
+        """Поиск релевантных документов"""
+        try:
+            if not self.is_initialized or not self.client:
+                return []
+            # Создаем эмбеддинг для запроса
+            query_response = self.client.embeddings.create(
+                model=config.EMBEDDING_MODEL,
+                input=[query]
+            )
+            query_embedding = np.array(query_response.data[0].embedding)
+            # Вычисляем косинусное сходство
+            similarities = np.dot(self.embeddings, query_embedding) / (
+                np.linalg.norm(self.embeddings, axis=1) * np.linalg.norm(query_embedding)
+            )
+            # Получаем топ-k результатов
+            top_indices = np.argsort(similarities)[-k:][::-1]
+            results = []
+            for idx in top_indices:
+                doc = self.documents[idx].copy()
+                doc['similarity'] = float(similarities[idx])
+                results.append(doc)
+            return results
+        except Exception as e:
+            print(f"Ошибка поиска: {e}")
+            return []
+    def rerank_documents(self, query: str, documents: List[Dict]) -> List[Dict]:
+        """Реранкинг документов с помощью LLM"""
+        try:
+            if not documents or not self.client:
+                return documents
+            # Формируем промпт для реранкинга
+            docs_text = ""
+            for i, doc in enumerate(documents):
+                docs_text += f"\nДокумент {i+1}:\n{doc['content'][:500]}...\n"
+            prompt = f"""
+Вопрос пользователя: {query}
+Документы для анализа:{docs_text}
+Оцени релевантность каждого документа для ответа на вопрос по шкале 1-10.
+Верни только список чисел через запятую (например: 8,6,9,4,7).
+"""
+            response = self.client.chat.completions.create(
+                model=config.RERANKING_MODEL,
+                messages=[{"role": "user", "content": prompt}],
+                max_tokens=50,
+                temperature=0
+            )
+            # Парсим оценки
+            scores_text = response.choices[0].message.content.strip()
+            scores = [float(s.strip()) for s in scores_text.split(',')]
+            # Добавляем оценки и сортируем
+            for i, doc in enumerate(documents):
+                if i < len(scores):
+                    doc['rerank_score'] = scores[i]
+                else:
+                    doc['rerank_score'] = 0
+            return sorted(documents, key=lambda x: x['rerank_score'], reverse=True)
+        except Exception as e:
+            print(f"Ошибка реранкинга: {e}")
+            return documents
+    def generate_answer(self, query: str, context_docs: List[Dict]) -> str:
+        """Генерация ответа на основе контекста"""
+        try:
+            if not self.client:
+                return "Ошибка: OpenAI API не инициализирован"
+            # Формируем контекст
+            context = ""
+            for doc in context_docs[:config.RERANKING_K]:
+                context += f"\nСтраница {doc['page']}: {doc['content']}\n"
+            # Промпт для генерации ответа
+            prompt = f"""
+Ты - эксперт по анализу финансовых отчетов. Ответь на вопрос пользователя на основе предоставленной информации из годового отчета ПАО Сбербанк 2023.
+ВОПРОС: {query}
+КОНТЕКСТ ИЗ ОТЧЕТА:
+{context}
+ИНСТРУКЦИИ:
+1. Отвечай только на основе предоставленной информации
+2. Если информации недостаточно, честно скажи об этом
+3. Используй конкретные данные и цифры из отчета
+4. Отвечай на русском языке
+5. Структурируй ответ четко и понятно
+ОТВЕТ:"""
+            response = self.client.chat.completions.create(
+                model=config.GENERATION_MODEL,
+                messages=[{"role": "user", "content": prompt}],
+                max_tokens=1000,
+                temperature=0.3
+            )
+            return response.choices[0].message.content.strip()
+        except Exception as e:
+            return f"Ошибка генерации ответа: {e}"
+    def process_query(self, query: str) -> Dict[str, Any]:
+        """Полная обработка запроса"""
+        if not self.is_initialized:
+            return {
+                "answer": "Система не инициализирована. Загрузите PDF файл и введите API ключ.",
+                "sources": []
+            }
+        if not query.strip():
+            return {
+                "answer": "Пожалуйста, введите ваш вопрос.",
+                "sources": []
+            }
+        # Поиск документов
+        search_results = self.search_documents(query, config.RETRIEVAL_K)
+        if not search_results:
+            return {
+                "answer": "К сожалению, не удалось найти релевантную информацию по вашему запросу.",
+                "sources": []
+            }
+        # Реранкинг
+        reranked_docs = self.rerank_documents(query, search_results)
+        # Генерация ответа
+        answer = self.generate_answer(query, reranked_docs)
+        # Формируем информацию об источниках
+        sources = []
+        for doc in reranked_docs[:config.RERANKING_K]:
+            sources.append({
+                "page": doc['page'],
+                "similarity": doc.get('similarity', 0),
+                "rerank_score": doc.get('rerank_score', 0),
+                "preview": doc['content'][:200] + "..."
+            })
+        return {
+            "answer": answer,
+            "sources": sources
+        }
+# Глобальная переменная для RAG системы
+rag_system = SimpleRAGSystem()
+def initialize_system(api_key: str, pdf_file) -> Tuple[str, str]:
+    """Инициализация системы с API ключом и PDF файлом"""
+    if not api_key:
+        return "❌ Введите OpenAI API ключ", ""
+    if pdf_file is None:
+        return "❌ Загрузите PDF файл", ""
+    try:
+        # Инициализация OpenAI
+        if not rag_system.initialize_openai(api_key):
+            return "❌ Неверный API ключ OpenAI", ""
+        # Обработка PDF
+        texts = rag_system.extract_text_from_pdf(pdf_file)
+        if not texts:
+            return "❌ Не удалось извлечь текст из PDF", ""
+        # Создание эмбеддингов
+        if not rag_system.create_embeddings(texts):
+            return "❌ Ошибка создания эмбеддингов", ""
+        stats = f"""✅ Система инициализирована!
+📊 Статистика:
+- Обработано страниц: {len(set(doc['page'] for doc in texts))}
+- Создано фрагментов: {len(texts)}
+- Средний размер фрагмента: {np.mean([len(doc['content']) for doc in texts]):.0f} символов
+🚀 Готова к ответам на вопросы!"""
+        return "✅ Инициализация завершена", stats
+    except Exception as e:
+        return f"❌ Ошибка: {e}", ""
+def ask_question(question: str) -> Tuple[str, str]:
+    """Обработка вопроса пользователя"""
+    try:
+        result = rag_system.process_query(question)
+        answer = result["answer"]
+        # Формируем информацию об источниках
+        sources_info = ""
+        if result["sources"]:
+            sources_info = "\n📚 Источники:\n"
+            for i, source in enumerate(result["sources"], 1):
+                sources_info += f"\n{i}. Страница {source['page']} (релевантность: {source['similarity']:.2f})\n"
+                sources_info += f"   {source['preview']}\n"
+        return answer, sources_info
+    except Exception as e:
+        return f"Ошибка обработки запроса: {e}", ""
+def create_interface():
+    """Создание Gradio интерфейса"""
+    with gr.Blocks(
+        title="RAG Система Сбер 2023",
+        theme=gr.themes.Soft(),
+        css="""
+        .main-header { text-align: center; margin-bottom: 2rem; }
+        .status-box { margin: 1rem 0; padding: 1rem; border-radius: 8px; }
+        .success { background-color: #d4edda; border: 1px solid #c3e6cb; }
+        .error { background-color: #f8d7da; border: 1px solid #f5c6cb; }
+        """
+    ) as demo:
+        gr.Markdown("""
+        <div class="main-header">
+        <h1>🏦 RAG Система для анализа отчета Сбера 2023</h1>
+        <p>Интеллектуальная система для анализа годового отчета ПАО Сбербанк 2023</p>
+        </div>
+        """)
+        with gr.Tab("🚀 Главная"):
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("### ⚙️ Настройка системы")
+                    api_key_input = gr.Textbox(
+                        label="OpenAI API Key",
+                        placeholder="sk-...",
+                        type="password"
+                    )
+                    gr.Markdown("*Введите ваш OpenAI API ключ*")
+                    pdf_upload = gr.File(
+                        label="PDF файл отчета",
+                        file_types=[".pdf"]
+                    )
+                    gr.Markdown("*Загрузите PDF файл годового отчета*")
+                    init_btn = gr.Button("🔧 Инициализировать систему", variant="primary")
+                    status_text = gr.Textbox(
+                        label="Статус",
+                        interactive=False,
+                        lines=2
+                    )
+                with gr.Column(scale=1):
+                    stats_text = gr.Markdown("### 📊 Статистика системы")
+            gr.Markdown("### 💬 Задайте вопрос")
+            with gr.Row():
+                with gr.Column(scale=3):
+                    question_input = gr.Textbox(
+                        label="Ваш вопрос",
+                        placeholder="Например: Каковы основные финансовые показатели Сбера за 2023 год?",
+                        lines=3
+                    )
+                with gr.Column(scale=1):
+                    ask_btn = gr.Button("📝 Задать вопрос", variant="primary")
+            with gr.Row():
+                with gr.Column():
+                    answer_output = gr.Textbox(
+                        label="Ответ системы",
+                        lines=10,
+                        interactive=False
+                    )
+                with gr.Column():
+                    sources_output = gr.Textbox(
+                        label="Источники",
+                        lines=10,
+                        interactive=False
+                    )
+        with gr.Tab("📖 Примеры"):
+            gr.Markdown("""
+            ### 💡 Примеры вопросов для анализа отчета:
+            **📊 Финансовые показатели:**
+            - "Каковы основные финансовые показатели Сбера за 2023 год?"
+            - "Какова чистая прибыль банка в 2023 году?"
+            - "Расскажите о рентабельности Сбербанка"
+            **🏦 Бизнес и стратегия:**
+            - "Какие технологические инновации развивает Сбер?"
+            - "Каковы планы развития банка на будущее?"
+            - "Расскажите об ESG-инициативах Сбербанка"
+            **⚠️ Риски и управление:**
+            - "Какие основные риски упоминаются в отчете?"
+            - "Как Сбер управляет кредитными рисками?"
+            - "Какова система корпоративного управления?"
+            **📈 Показатели деятельности:**
+            - "Каков объем активов Сбербанка?"
+            - "Расскажите о кредитном портфеле банка"
+            - "Какова динамика развития цифровых сервисов?"
+            """)
+        with gr.Tab("ℹ️ О системе"):
+            gr.Markdown("""
+            ### 🎯 О RAG системе
+            Эта система использует технологию **Retrieval-Augmented Generation (RAG)** для интеллектуального анализа документов.
+            **🏗️ Архитектура:**
+            1. **Обработка PDF** - извлечение и сегментация текста
+            2. **Векторизация** - создание семантических представлений
+            3. **Поиск** - нахождение релевантных фрагментов
+            4. **Реранкинг** - улучшение качества результатов
+            5. **Генерация** - создание финального ответа
+            **🤖 Используемые модели:**
+            - **GPT-4o** - генерация ответов
+            - **GPT-4o-mini** - реранкинг результатов
+            - **text-embedding-3-large** - векторные представления
+            **🔧 Технологии:**
+            - Gradio - веб-интерфейс
+            - LangChain - RAG пайпл��йн
+            - OpenAI API - языковые модели
+            - NumPy - математические операции
+            *Разработано в рамках курсового проекта*
+            """)
+        # Обработчики событий
+        init_btn.click(
+            fn=initialize_system,
+            inputs=[api_key_input, pdf_upload],
+            outputs=[status_text, stats_text]
+        )
+        ask_btn.click(
+            fn=ask_question,
+            inputs=[question_input],
+            outputs=[answer_output, sources_output]
+        )
+        # Обработка Enter в поле вопроса
+        question_input.submit(
+            fn=ask_question,
+            inputs=[question_input],
+            outputs=[answer_output, sources_output]
+        )
+    return demo
+# Запуск приложения
+if __name__ == "__main__":
+    demo = create_interface()
+    demo.launch(
+        share=False,
+        server_name="0.0.0.0",
+        server_port=7860,
+        show_error=True
+    )

requirements.txt ADDED Viewed

	@@ -0,0 +1,35 @@

+# HuggingFace Spaces requirements for RAG System
+# Optimized for cloud deployment
+# Core web framework
+gradio==5.35.0
+# OpenAI API
+openai>=1.0.0
+# LangChain for RAG pipeline (minimal set)
+langchain>=0.1.0
+langchain-openai>=0.1.0
+langchain-community>=0.0.20
+langchain-core>=0.1.0
+# Vector database
+chromadb>=0.4.0
+# PDF processing (lightweight)
+pypdf>=5.0.0
+pdfplumber>=0.9.0
+# Scientific libraries
+numpy>=1.24.0
+pandas>=2.0.0
+# Text processing
+tiktoken>=0.5.0
+# Utilities
+python-dotenv>=1.0.0
+requests>=2.31.0
+# Image processing (minimal)
+Pillow>=10.0.0