Spaces:

LeonceNsh
/

networkx-saas

Running

App Files Files Community

LeonceNsh commited on Nov 28, 2024

Commit

1322835

verified ·

1 Parent(s): 9aa537c

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -9

app.py CHANGED Viewed

@@ -9,24 +9,49 @@ import gradio as gr
 file_path = "cbinsights_data.csv"  # Replace with your file path
 data = pd.read_csv(file_path)
 # Clean and prepare data
-data.columns = data.columns.str.strip()
-data["Valuation_Billions"] = data["Valuation ($B)"].replace({'\$': '', ',': ''}, regex=True)
-data["Valuation_Billions"] = pd.to_numeric(data["Valuation_Billions"], errors='coerce')
 data = data.applymap(lambda x: x.strip() if isinstance(x, str) else x)
-# Parse the "Select Investors" column to map investors to companies
 def build_investor_company_mapping(df):
     mapping = {}
     for _, row in df.iterrows():
         company = row["Company"]
-        investors = row["Select Investors"]
         if pd.notnull(investors):
             for investor in investors.split(","):
                 investor = investor.strip()
                 mapping.setdefault(investor, []).append(company)
     return mapping
 # Function to filter investors based on selected country and industry
 def filter_investors_by_country_and_industry(selected_country, selected_industry):
     filtered_data = data.copy()
@@ -41,7 +66,7 @@ def filter_investors_by_country_and_industry(selected_country, selected_industry
     investor_valuations = {}
     for investor, companies in investor_company_mapping_filtered.items():
         total_valuation = filtered_data[filtered_data["Company"].isin(companies)]["Valuation_Billions"].sum()
-        if total_valuation >= 20:
             investor_valuations[investor] = total_valuation
     return list(investor_valuations.keys()), filtered_data
@@ -65,10 +90,10 @@ def generate_graph(selected_investors, filtered_data):
     node_sizes = []
     for node in G.nodes:
         if node in filtered_mapping:
-            node_sizes.append(1500)
         else:
             valuation = filtered_data.loc[filtered_data["Company"] == node, "Valuation_Billions"].sum()
-            size = (valuation / max_valuation) * 1500
             node_sizes.append(size)
     # Node color: Investors (orange), Companies (green)
@@ -83,7 +108,7 @@ def generate_graph(selected_investors, filtered_data):
         node_size=node_sizes,
         node_color=node_colors,
         font_size=10,
-        edge_color="#A9A9A9",
         alpha=0.9
     )

 file_path = "cbinsights_data.csv"  # Replace with your file path
 data = pd.read_csv(file_path)
+# Standardize column names: strip whitespace and convert to lowercase
+data.columns = data.columns.str.strip().str.lower()
+print("Standardized Column Names:", data.columns.tolist())
+# Identify the valuation column dynamically
+valuation_columns = [col for col in data.columns if 'valuation' in col.lower()]
+if not valuation_columns:
+    raise ValueError("No column containing 'Valuation' found in the dataset.")
+elif len(valuation_columns) > 1:
+    raise ValueError("Multiple columns containing 'Valuation' found. Please specify.")
+else:
+    valuation_column = valuation_columns[0]
 # Clean and prepare data
+data["valuation_billions"] = data[valuation_column].replace({'\$': '', ',': ''}, regex=True)
+data["valuation_billions"] = pd.to_numeric(data["valuation_billions"], errors='coerce')
 data = data.applymap(lambda x: x.strip() if isinstance(x, str) else x)
+# Rename columns for consistency (optional)
+data = data.rename(columns={
+    "company": "Company",
+    "valuation_billions": "Valuation_Billions",
+    "date_joined": "Date_Joined",
+    "country": "Country",
+    "city": "City",
+    "industry": "Industry",
+    "select_investors": "Select_Investors"
+})
+# Parse the "Select_Investors" column to map investors to companies
 def build_investor_company_mapping(df):
     mapping = {}
     for _, row in df.iterrows():
         company = row["Company"]
+        investors = row["Select_Investors"]
         if pd.notnull(investors):
             for investor in investors.split(","):
                 investor = investor.strip()
                 mapping.setdefault(investor, []).append(company)
     return mapping
+investor_company_mapping = build_investor_company_mapping(data)
 # Function to filter investors based on selected country and industry
 def filter_investors_by_country_and_industry(selected_country, selected_industry):
     filtered_data = data.copy()
     investor_valuations = {}
     for investor, companies in investor_company_mapping_filtered.items():
         total_valuation = filtered_data[filtered_data["Company"].isin(companies)]["Valuation_Billions"].sum()
+        if total_valuation >= 20:  # Investors with >= 20B total valuation
             investor_valuations[investor] = total_valuation
     return list(investor_valuations.keys()), filtered_data
     node_sizes = []
     for node in G.nodes:
         if node in filtered_mapping:
+            node_sizes.append(1500)  # Fixed size for investors
         else:
             valuation = filtered_data.loc[filtered_data["Company"] == node, "Valuation_Billions"].sum()
+            size = (valuation / max_valuation) * 1500 if max_valuation else 100
             node_sizes.append(size)
     # Node color: Investors (orange), Companies (green)
         node_size=node_sizes,
         node_color=node_colors,
         font_size=10,
+        edge_color="#A9A9A9",  # Light gray edges
         alpha=0.9
     )