Spaces:

walaa2022
/

financial_analysis

Sleeping

App Files Files Community

walaa2022 commited on Dec 5, 2024

Commit

0ad8f2f

verified ·

1 Parent(s): cd3edfb

Update app.py

Browse files

Files changed (1) hide show

app.py +181 -65

app.py CHANGED Viewed

@@ -1,24 +1,65 @@
 import gradio as gr
 import pandas as pd
 import json
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import re
 class FinancialAnalyzer:
     def __init__(self):
         print("Initializing Analyzer...")
-        self.initialize_model()
         print("Initialization complete!")
-    def initialize_model(self):
-        """Initialize TinyLlama model"""
         try:
-            self.tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
-            self.model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
-            self.model.eval()
         except Exception as e:
-            print(f"Error initializing model: {str(e)}")
             raise
     def clean_number(self, value):
@@ -71,7 +112,7 @@ class FinancialAnalyzer:
         except Exception as e:
             print(f"Error parsing financial data: {str(e)}")
             return {}
     def process_table(self, headers, rows):
         """Process table data into structured format"""
         try:
@@ -131,16 +172,12 @@ class FinancialAnalyzer:
                     "Gross_Margin": (metrics["Profitability"]["Gross_Profit_2025"] / revenue_2025) * 100,
                     "Operating_Margin": (metrics["Profitability"]["EBIT_2025"] / revenue_2025) * 100,
                     "Net_Margin": (metrics["Profitability"]["Net_Earnings_2025"] / revenue_2025) * 100,
                     "Current_Ratio": metrics["Balance_Sheet"]["Current_Assets_2025"] / metrics["Balance_Sheet"]["Current_Liabilities_2025"] if metrics["Balance_Sheet"]["Current_Liabilities_2025"] != 0 else 0,
                     "Quick_Ratio": (metrics["Balance_Sheet"]["Current_Assets_2025"] - metrics["Balance_Sheet"]["Inventory_2025"]) / metrics["Balance_Sheet"]["Current_Liabilities_2025"] if metrics["Balance_Sheet"]["Current_Liabilities_2025"] != 0 else 0,
                     "Asset_Turnover": revenue_2025 / metrics["Balance_Sheet"]["Total_Assets_2025"] if metrics["Balance_Sheet"]["Total_Assets_2025"] != 0 else 0,
                     "Receivables_Turnover": revenue_2025 / metrics["Balance_Sheet"]["Accounts_Receivable_2025"] if metrics["Balance_Sheet"]["Accounts_Receivable_2025"] != 0 else 0,
                     "Debt_to_Equity": metrics["Balance_Sheet"]["Total_Liabilities_2025"] / metrics["Balance_Sheet"]["Equity_2025"] if metrics["Balance_Sheet"]["Equity_2025"] != 0 else 0,
                     "Interest_Coverage": metrics["Profitability"]["EBIT_2025"] / metrics["Cash_Flow"]["Interest_Expense_2025"] if metrics["Cash_Flow"]["Interest_Expense_2025"] != 0 else 0,
                     "Revenue_Growth": ((metrics["Revenue"]["2025"] / metrics["Revenue"]["2024"]) - 1) * 100 if metrics["Revenue"]["2024"] != 0 else 0,
                     "5Year_Revenue_CAGR": ((metrics["Revenue"]["2025"] / metrics["Revenue"]["2021"]) ** (1/4) - 1) * 100 if metrics["Revenue"]["2021"] != 0 else 0
                 }
@@ -150,55 +187,74 @@ class FinancialAnalyzer:
             print(f"Error extracting metrics: {str(e)}")
             return {}
-    def generate_prompt(self, metrics):
-        """Create analysis prompt from metrics"""
         try:
-            return f"""<human>
-Please provide a comprehensive financial analysis for 2025 with detailed insights on:
-1. Revenue and Growth:
-   - Total Revenue: ${metrics['Revenue']['2025']:,.1f}M
-   - YoY Growth Rate: {metrics['Ratios'].get('Revenue_Growth', 0):,.1f}%
    - 5-Year CAGR: {metrics['Ratios'].get('5Year_Revenue_CAGR', 0):,.1f}%
-2. Profitability Analysis:
    - Gross Profit: ${metrics['Profitability']['Gross_Profit_2025']:,.1f}M
    - EBIT: ${metrics['Profitability']['EBIT_2025']:,.1f}M
    - Net Earnings: ${metrics['Profitability']['Net_Earnings_2025']:,.1f}M
-   - Margin Analysis:
-     * Gross Margin: {metrics['Ratios'].get('Gross_Margin', 0):,.1f}%
-     * Operating Margin: {metrics['Ratios'].get('Operating_Margin', 0):,.1f}%
-     * Net Margin: {metrics['Ratios'].get('Net_Margin', 0):,.1f}%
-3. Balance Sheet Strength:
-   - Total Assets: ${metrics['Balance_Sheet']['Total_Assets_2025']:,.1f}M
-   - Total Liabilities: ${metrics['Balance_Sheet']['Total_Liabilities_2025']:,.1f}M
-   - Shareholders' Equity: ${metrics['Balance_Sheet']['Equity_2025']:,.1f}M
-4. Key Financial Ratios:
-   - Liquidity:
-     * Current Ratio: {metrics['Ratios'].get('Current_Ratio', 0):,.2f}
-     * Quick Ratio: {metrics['Ratios'].get('Quick_Ratio', 0):,.2f}
-   - Efficiency:
-     * Asset Turnover: {metrics['Ratios'].get('Asset_Turnover', 0):,.2f}
-     * Receivables Turnover: {metrics['Ratios'].get('Receivables_Turnover', 0):,.2f}
-   - Solvency:
-     * Debt-to-Equity: {metrics['Ratios'].get('Debt_to_Equity', 0):,.2f}
-     * Interest Coverage: {metrics['Ratios'].get('Interest_Coverage', 0):,.2f}
-Please provide:
-1. An assessment of overall financial health and performance trends
-2. Key strengths and potential areas of concern
-3. Analysis of operational efficiency and working capital management
-4. Evaluation of capital structure and debt management
-5. Specific recommendations for:
-   - Improving operational efficiency
-   - Optimizing capital structure
-   - Enhancing shareholder value
-   - Managing key risks identified
-Include quantitative support for your analysis and recommendations.
-</human>"""
         except Exception as e:
             print(f"Error generating prompt: {str(e)}")
             return ""
@@ -206,44 +262,103 @@ Include quantitative support for your analysis and recommendations.
     def generate_analysis(self, prompt):
         """Generate analysis using TinyLlama"""
         try:
-            inputs = self.tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1500)
-            outputs = self.model.generate(
                 inputs["input_ids"],
-                max_new_tokens=800,
                 temperature=0.7,
                 top_p=0.9,
                 do_sample=True,
-                pad_token_id=self.tokenizer.eos_token_id,
-                no_repeat_ngram_size=3
             )
-            analysis = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
-            analysis = analysis.split("<human>")[-1].strip()
             return analysis
         except Exception as e:
             return f"Error generating analysis: {str(e)}"
     def analyze_financials(self, balance_sheet_file, income_stmt_file):
         """Main analysis function"""
         try:
             if not (self.is_valid_markdown(balance_sheet_file) and self.is_valid_markdown(income_stmt_file)):
                 return "Error: One or both files are invalid or not in Markdown format."
             with open(balance_sheet_file, 'r') as f:
                 balance_sheet = f.read()
             with open(income_stmt_file, 'r') as f:
                 income_stmt = f.read()
             income_data = self.parse_financial_data(income_stmt)
             balance_data = self.parse_financial_data(balance_sheet)
             metrics = self.extract_metrics(income_data, balance_data)
-            prompt = self.generate_prompt(metrics)
             analysis = self.generate_analysis(prompt)
             results = {
                 "Financial Analysis": {
                     "Key Metrics": metrics,
                     "AI Insights": analysis,
                     "Analysis Period": "2021-2025",
                     "Note": "All monetary values in millions ($M)"
@@ -265,8 +380,9 @@ def create_interface():
             gr.File(label="Income Statement (Markdown)", type="filepath")
         ],
         outputs=gr.Textbox(label="Analysis Results", lines=25),
-        title="Financial Statement Analyzer",
-        description="Upload financial statements in Markdown format for AI-powered analysis"
     )
     return iface

 import gradio as gr
 import pandas as pd
 import json
+from transformers import (
+    AutoTokenizer,
+    AutoModelForCausalLM,
+    AutoModelForSequenceClassification,
+    TrainingArguments,
+    Trainer
+)
 import torch
+import numpy as np
+from torch.utils.data import Dataset, DataLoader
 import re
+class FinancialDataset(Dataset):
+    def __init__(self, texts, labels, tokenizer, max_length=512):
+        self.texts = texts
+        self.labels = labels
+        self.tokenizer = tokenizer
+        self.max_length = max_length
+    def __len__(self):
+        return len(self.texts)
+    def __getitem__(self, idx):
+        text = str(self.texts[idx])
+        inputs = self.tokenizer(
+            text,
+            truncation=True,
+            padding='max_length',
+            max_length=self.max_length,
+            return_tensors='pt'
+        )
+        return {
+            'input_ids': inputs['input_ids'].squeeze(),
+            'attention_mask': inputs['attention_mask'].squeeze(),
+            'labels': torch.tensor(self.labels[idx], dtype=torch.long)
+        }
 class FinancialAnalyzer:
     def __init__(self):
         print("Initializing Analyzer...")
+        self.initialize_models()
         print("Initialization complete!")
+    def initialize_models(self):
+        """Initialize both TinyLlama and FinBERT models"""
         try:
+            # Initialize TinyLlama
+            self.llama_tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+            self.llama_model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+            self.llama_model.eval()
+            # Initialize FinBERT
+            self.finbert_tokenizer = AutoTokenizer.from_pretrained("ProsusAI/finbert")
+            self.finbert_model = AutoModelForSequenceClassification.from_pretrained("ProsusAI/finbert")
+            self.finbert_model.eval()
+            print("Models loaded successfully!")
         except Exception as e:
+            print(f"Error initializing models: {str(e)}")
             raise
     def clean_number(self, value):
         except Exception as e:
             print(f"Error parsing financial data: {str(e)}")
             return {}
     def process_table(self, headers, rows):
         """Process table data into structured format"""
         try:
                     "Gross_Margin": (metrics["Profitability"]["Gross_Profit_2025"] / revenue_2025) * 100,
                     "Operating_Margin": (metrics["Profitability"]["EBIT_2025"] / revenue_2025) * 100,
                     "Net_Margin": (metrics["Profitability"]["Net_Earnings_2025"] / revenue_2025) * 100,
                     "Current_Ratio": metrics["Balance_Sheet"]["Current_Assets_2025"] / metrics["Balance_Sheet"]["Current_Liabilities_2025"] if metrics["Balance_Sheet"]["Current_Liabilities_2025"] != 0 else 0,
                     "Quick_Ratio": (metrics["Balance_Sheet"]["Current_Assets_2025"] - metrics["Balance_Sheet"]["Inventory_2025"]) / metrics["Balance_Sheet"]["Current_Liabilities_2025"] if metrics["Balance_Sheet"]["Current_Liabilities_2025"] != 0 else 0,
                     "Asset_Turnover": revenue_2025 / metrics["Balance_Sheet"]["Total_Assets_2025"] if metrics["Balance_Sheet"]["Total_Assets_2025"] != 0 else 0,
                     "Receivables_Turnover": revenue_2025 / metrics["Balance_Sheet"]["Accounts_Receivable_2025"] if metrics["Balance_Sheet"]["Accounts_Receivable_2025"] != 0 else 0,
                     "Debt_to_Equity": metrics["Balance_Sheet"]["Total_Liabilities_2025"] / metrics["Balance_Sheet"]["Equity_2025"] if metrics["Balance_Sheet"]["Equity_2025"] != 0 else 0,
                     "Interest_Coverage": metrics["Profitability"]["EBIT_2025"] / metrics["Cash_Flow"]["Interest_Expense_2025"] if metrics["Cash_Flow"]["Interest_Expense_2025"] != 0 else 0,
                     "Revenue_Growth": ((metrics["Revenue"]["2025"] / metrics["Revenue"]["2024"]) - 1) * 100 if metrics["Revenue"]["2024"] != 0 else 0,
                     "5Year_Revenue_CAGR": ((metrics["Revenue"]["2025"] / metrics["Revenue"]["2021"]) ** (1/4) - 1) * 100 if metrics["Revenue"]["2021"] != 0 else 0
                 }
             print(f"Error extracting metrics: {str(e)}")
             return {}
+    def get_sentiment_analysis(self, metrics):
+        """Get financial sentiment analysis using FinBERT"""
         try:
+            financial_text = f"""
+            Revenue growth: {metrics['Ratios'].get('Revenue_Growth', 0):.2f}%
+            Profit margin: {metrics['Ratios'].get('Net_Margin', 0):.2f}%
+            Debt to equity: {metrics['Ratios'].get('Debt_to_Equity', 0):.2f}
+            Interest coverage: {metrics['Ratios'].get('Interest_Coverage', 0):.2f}
+            Current ratio: {metrics['Ratios'].get('Current_Ratio', 0):.2f}
+            """
+            inputs = self.finbert_tokenizer(financial_text, return_tensors="pt", padding=True, truncation=True)
+            outputs = self.finbert_model(**inputs)
+            probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
+            sentiment_scores = probabilities.detach().numpy()[0]
+            sentiments = ['negative', 'neutral', 'positive']
+            sentiment_dict = dict(zip(sentiments, sentiment_scores))
+            return sentiment_dict
+        except Exception as e:
+            print(f"Error in sentiment analysis: {str(e)}")
+            return {}
+    def generate_prompt(self, metrics, sentiment_dict):
+        """Create enhanced analysis prompt with sentiment"""
+        try:
+            return f"""[INST] As a financial analyst, provide a comprehensive analysis of this company's performance.
+Financial Metrics (2025):
+------------------------
+1. Revenue & Growth:
+   - Revenue: ${metrics['Revenue']['2025']:,.1f}M
+   - Growth Rate: {metrics['Ratios'].get('Revenue_Growth', 0):,.1f}%
    - 5-Year CAGR: {metrics['Ratios'].get('5Year_Revenue_CAGR', 0):,.1f}%
+2. Profitability:
    - Gross Profit: ${metrics['Profitability']['Gross_Profit_2025']:,.1f}M
    - EBIT: ${metrics['Profitability']['EBIT_2025']:,.1f}M
    - Net Earnings: ${metrics['Profitability']['Net_Earnings_2025']:,.1f}M
+   - Margins:
+     * Gross: {metrics['Ratios'].get('Gross_Margin', 0):,.1f}%
+     * Operating: {metrics['Ratios'].get('Operating_Margin', 0):,.1f}%
+     * Net: {metrics['Ratios'].get('Net_Margin', 0):,.1f}%
+3. Financial Position:
+   - Assets: ${metrics['Balance_Sheet']['Total_Assets_2025']:,.1f}M
+   - Liabilities: ${metrics['Balance_Sheet']['Total_Liabilities_2025']:,.1f}M
+   - Equity: ${metrics['Balance_Sheet']['Equity_2025']:,.1f}M
+4. Key Ratios:
+   - Liquidity: Current Ratio {metrics['Ratios'].get('Current_Ratio', 0):,.2f}x
+   - Efficiency: Asset Turnover {metrics['Ratios'].get('Asset_Turnover', 0):,.2f}x
+   - Solvency: Debt/Equity {metrics['Ratios'].get('Debt_to_Equity', 0):,.2f}x
+   - Coverage: Interest Coverage {metrics['Ratios'].get('Interest_Coverage', 0):,.2f}x
+Market Sentiment Indicators:
+---------------------------
+- Positive: {sentiment_dict.get('positive', 0):,.2f}
+- Neutral: {sentiment_dict.get('neutral', 0):,.2f}
+- Negative: {sentiment_dict.get('negative', 0):,.2f}
+Provide:
+1. Overall financial health assessment
+2. Key strengths and concerns
+3. Operational efficiency analysis
+4. Recommendations for improvement
+[/INST]"""
         except Exception as e:
             print(f"Error generating prompt: {str(e)}")
             return ""
     def generate_analysis(self, prompt):
         """Generate analysis using TinyLlama"""
         try:
+            inputs = self.llama_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=2048)
+            outputs = self.llama_model.generate(
                 inputs["input_ids"],
+                max_new_tokens=1024,
                 temperature=0.7,
                 top_p=0.9,
                 do_sample=True,
+                repetition_penalty=1.2,
+                no_repeat_ngram_size=3,
+                num_return_sequences=1,
+                pad_token_id=self.llama_tokenizer.eos_token_id
             )
+            analysis = self.llama_tokenizer.decode(outputs[0], skip_special_tokens=True)
+            # Extract response after instruction
+            if "[/INST]" in analysis:
+                analysis = analysis.split("[/INST]")[-1].strip()
+            # Validate the analysis
+            if len(analysis.split()) < 100:
+                return "Error: Generated analysis is too short. Please try again."
             return analysis
         except Exception as e:
             return f"Error generating analysis: {str(e)}"
+    def fine_tune_models(self, train_texts, train_labels, epochs=3):
+        """Fine-tune the models with custom data"""
+        try:
+            # Prepare dataset
+            train_dataset = FinancialDataset(train_texts, train_labels, self.llama_tokenizer)
+            # Training arguments
+            training_args = TrainingArguments(
+                output_dir="./financial_model_tuned",
+                num_train_epochs=epochs,
+                per_device_train_batch_size=4,
+                logging_dir="./logs",
+                logging_steps=10,
+                save_steps=50,
+                eval_steps=50,
+                evaluation_strategy="steps",
+                learning_rate=2e-5,
+                weight_decay=0.01,
+                warmup_steps=500,
+            )
+            # Initialize trainer
+            trainer = Trainer(
+                model=self.llama_model,
+                args=training_args,
+                train_dataset=train_dataset,
+            )
+            # Fine-tune the model
+            trainer.train()
+            # Save the fine-tuned model
+            self.llama_model.save_pretrained("./financial_model_tuned")
+            self.llama_tokenizer.save_pretrained("./financial_model_tuned")
+            print("Fine-tuning completed successfully!")
+        except Exception as e:
+            print(f"Error in fine-tuning: {str(e)}")
     def analyze_financials(self, balance_sheet_file, income_stmt_file):
         """Main analysis function"""
         try:
+            # Validate input files
             if not (self.is_valid_markdown(balance_sheet_file) and self.is_valid_markdown(income_stmt_file)):
                 return "Error: One or both files are invalid or not in Markdown format."
+            # Read files
             with open(balance_sheet_file, 'r') as f:
                 balance_sheet = f.read()
             with open(income_stmt_file, 'r') as f:
                 income_stmt = f.read()
+            # Process financial data
             income_data = self.parse_financial_data(income_stmt)
             balance_data = self.parse_financial_data(balance_sheet)
             metrics = self.extract_metrics(income_data, balance_data)
+            # Get sentiment analysis
+            sentiment_dict = self.get_sentiment_analysis(metrics)
+            # Generate and get analysis
+            prompt = self.generate_prompt(metrics, sentiment_dict)
             analysis = self.generate_analysis(prompt)
+            # Prepare final results
             results = {
                 "Financial Analysis": {
                     "Key Metrics": metrics,
+                    "Market Sentiment": sentiment_dict,
                     "AI Insights": analysis,
                     "Analysis Period": "2021-2025",
                     "Note": "All monetary values in millions ($M)"
             gr.File(label="Income Statement (Markdown)", type="filepath")
         ],
         outputs=gr.Textbox(label="Analysis Results", lines=25),
+        title="AI Financial Statement Analyzer",
+        description="""Upload financial statements in Markdown format for AI-powered analysis.
+                      The analysis combines LLM-based insights with sentiment analysis."""
     )
     return iface