Spaces:

Madiharehan
/

Agentic-EDA-ML-APP

Runtime error

App Files Files Community

Madiharehan commited on Jul 24

Commit

e290096

verified ·

1 Parent(s): b46854e

Create app.py

Browse files

Files changed (1) hide show

app.py +93 -0

app.py ADDED Viewed

	@@ -0,0 +1,93 @@

+import gradio as gr
+import pandas as pd
+import numpy as np
+from sklearn.preprocessing import LabelEncoder, StandardScaler
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LogisticRegression, LinearRegression
+from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, r2_score
+import seaborn as sns
+import matplotlib.pyplot as plt
+import os
+# Main EDA + ML Function
+def auto_eda(file):
+    df = pd.read_csv(file.name)
+    original_df = df.copy()
+    insights = []
+    # Basic Info
+    insights.append(f"Dataset Shape: {df.shape}")
+    insights.append("\nData Types:\n" + str(df.dtypes))
+    insights.append("\nFirst 5 Rows:\n" + str(df.head()))
+    # Handle missing values
+    for col in df.columns:
+        if df[col].isnull().sum() > 0:
+            if df[col].dtype == 'object':
+                df[col].fillna(df[col].mode()[0], inplace=True)
+            else:
+                df[col].fillna(df[col].median(), inplace=True)
+    insights.append("\nMissing values handled.")
+    # Encode categorical values
+    label_encoders = {}
+    for col in df.select_dtypes(include='object').columns:
+        le = LabelEncoder()
+        df[col] = le.fit_transform(df[col])
+        label_encoders[col] = le
+    insights.append("\nCategorical columns encoded with Label Encoding.")
+    # Standardization
+    scaler = StandardScaler()
+    X = df.drop(columns=df.columns[-1])
+    y = df[df.columns[-1]]
+    X_scaled = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)
+    insights.append("\nFeature scaling done using StandardScaler.")
+    # Split data
+    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
+    insights.append("\nData split into training and testing (80/20).")
+    # Target detection
+    is_classification = y.nunique() <= 20 or y.dtype == 'object'
+    result = ""
+    if is_classification:
+        model = LogisticRegression(max_iter=1000)
+        model.fit(X_train, y_train)
+        y_pred = model.predict(X_test)
+        acc = accuracy_score(y_test, y_pred)
+        cm = confusion_matrix(y_test, y_pred)
+        cr = classification_report(y_test, y_pred)
+        insights.append(f"\nModel: Logistic Regression\nAccuracy: {acc:.2f}\n")
+        result += f"\nClassification Report:\n{cr}\n"
+    else:
+        model = LinearRegression()
+        model.fit(X_train, y_train)
+        y_pred = model.predict(X_test)
+        r2 = r2_score(y_test, y_pred)
+        insights.append(f"\nModel: Linear Regression\nR² Score: {r2:.2f}\n")
+        result += f"\nPredictions Sample:\n{y_pred[:5]}\n"
+    # Save cleaned CSV
+    cleaned_path = "cleaned_data.csv"
+    df.to_csv(cleaned_path, index=False)
+    insights.append(f"\nCleaned dataset saved as {cleaned_path}")
+    return "\n".join(insights), result, cleaned_path
+# Gradio App
+iface = gr.Interface(
+    fn=auto_eda,
+    inputs=gr.File(label="Upload CSV File"),
+    outputs=[
+        gr.Textbox(label="EDA & Preprocessing Insights", lines=20),
+        gr.Textbox(label="Model Result", lines=10),
+        gr.File(label="Download Cleaned CSV")
+    ],
+    title="AutoEDA Agent - One Click Smart Insights",
+    description="Upload a dataset and let the agent auto-handle EDA, preprocessing, and modeling."
+)
+iface.launch()