Spaces:

Saving-Willy
/

saving-willy-dev

Sleeping

App Files Files Community

vancauwe commited on Apr 7

Commit

41c5156

1 Parent(s): 6f0e32c

feat: requests basic architecture

Browse files

Files changed (6) hide show

src/dataset/cleaner.py +15 -0
src/dataset/download.py +5 -1
src/dataset/fake_data.py +66 -0
src/dataset/requests.py +50 -0
src/maps/obs_map.py +1 -1
src/pages/5_🤝_requests.py +57 -6

src/dataset/cleaner.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import pandas as pd
+def clean_lat_long(df): # Ensure lat and lon are numeric, coerce errors to NaN
+    df['lat'] = pd.to_numeric(df['lat'], errors='coerce')
+    df['lon'] = pd.to_numeric(df['lon'], errors='coerce')
+    # Drop rows with NaN in lat or lon
+    df = df.dropna(subset=['lat', 'lon']).reset_index(drop=True)
+    return df
+def clean_date(df): # Ensure lat and lon are numeric, coerce errors to NaN
+    df['date'] = pd.to_datetime(df['date'], errors='coerce')
+    # Drop rows with NaN in lat or lon
+    df = df.dropna(subset=['date']).reset_index(drop=True)
+    return df

src/dataset/download.py CHANGED Viewed

@@ -20,6 +20,8 @@ presentation_data_schema = {
     'lat': 'float',
     'lon': 'float',
     'species': 'str',
 }
 def try_download_dataset(dataset_id:str, data_files:str) -> dict:
@@ -72,6 +74,8 @@ def get_dataset():
         df = pd.DataFrame({
             'lat': metadata["train"]["latitude"],
             'lon': metadata["train"]["longitude"],
-            'species': metadata["train"]["selected_class"],}
         )
     return df

     'lat': 'float',
     'lon': 'float',
     'species': 'str',
+    'author_email': 'str',
+    'date' : 'timestamp',
 }
 def try_download_dataset(dataset_id:str, data_files:str) -> dict:
         df = pd.DataFrame({
             'lat': metadata["train"]["latitude"],
             'lon': metadata["train"]["longitude"],
+            'species': metadata["train"]["selected_class"],
+            'author_email': metadata["train"]["author_email"],
+            'date': metadata["train"]["date"],}
         )
     return df

src/dataset/fake_data.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import pandas as pd
+import numpy as np
+import random
+from datetime import datetime, timedelta
+def generate_fake_data(df, num_fake):
+    # Options for random generation
+    species_options = [
+        "beluga",
+        "blue_whale",
+        "bottlenose_dolphin",
+        "brydes_whale",
+        "commersons_dolphin",
+        "common_dolphin",
+        "cuviers_beaked_whale",
+        "dusky_dolphin",
+        "false_killer_whale",
+        "fin_whale",
+        "frasiers_dolphin",
+        "gray_whale",
+        "humpback_whale",
+        "killer_whale",
+        "long_finned_pilot_whale",
+        "melon_headed_whale",
+        "minke_whale",
+        "pantropic_spotted_dolphin",
+        "pygmy_killer_whale",
+        "rough_toothed_dolphin",
+        "sei_whale",
+        "short_finned_pilot_whale",
+        "southern_right_whale",
+        "spinner_dolphin",
+        "spotted_dolphin",
+        "white_sided_dolphin",
+    ]
+    email_options = [
+        '[email protected]', '[email protected]',
+        '[email protected]', '[email protected]'
+    ]
+    def random_ocean_coord():
+        """Generate random ocean-friendly coordinates."""
+        lat = random.uniform(-60, 60)  # avoid poles
+        lon = random.uniform(-180, 180)
+        return lat, lon
+    def random_date(start_year=2018, end_year=2025):
+        """Generate a random date."""
+        start = datetime(start_year, 1, 1)
+        end = datetime(end_year, 1, 1)
+        return start + timedelta(days=random.randint(0, (end - start).days))
+    # Generate 20 new observations
+    new_data = []
+    for _ in range(num_fake):
+        lat, lon = random_ocean_coord()
+        species = random.choice(species_options)
+        email = random.choice(email_options)
+        date = random_date()
+        new_data.append([lat, lon, species, email, date])
+    # Create a DataFrame and append
+    new_df = pd.DataFrame(new_data, columns=['lat', 'lon', 'species', 'author_email', 'date'])
+    df = pd.concat([df, new_df], ignore_index=True)
+    return df

src/dataset/requests.py CHANGED Viewed

	@@ -0,0 +1,50 @@

+import streamlit as st
+import pandas as pd
+from dataset.cleaner import clean_lat_long, clean_date
+from dataset.download import get_dataset
+from dataset.fake_data import generate_fake_data
+def default_data_view():
+    df = get_dataset()
+    df = generate_fake_data(df, 100)
+    df = clean_lat_long(df)
+    df = clean_date(df)
+    return df
+def filter_data(df):
+    if st.session_state.date_range:
+        df_filtered = df[
+        (df['date'] >= pd.to_datetime(st.session_state.date_range[0])) & \
+            (df['date'] <= pd.to_datetime(st.session_state.date_range[1]))
+        ]
+    if st.session_state.lon_range:
+        df_filtered = df[
+        (df['lon'] >= st.session_state.lon_range[0]) & \
+            (df['lon'] <= st.session_state.lon_range[1])
+        ]
+    if st.session_state.lat_range:
+        df_filtered = df[
+        (df['lat'] >= st.session_state.lat_range[0]) & \
+            (df['lat'] <= st.session_state.lat_range[1])
+        ]
+    return df_filtered
+def show_specie_author(df):
+    df = df.groupby(['species', 'author_email']).size().reset_index(name='counts')
+    for specie in df["species"].unique():
+        st.subheader(f"Species: {specie}")
+        specie_data = df[df['species'] == specie]
+        for _, row in specie_data.iterrows():
+            key = f"{specie}_{row['author_email']}"
+            label = f"{row['author_email']} ({row['counts']})"
+            st.session_state.checkbox_states[key] = st.checkbox(label, key=key)
+def show_new_data_view(df):
+    df = filter_data(df)
+    df_ordered = show_specie_author(df)
+    return df_ordered

src/maps/obs_map.py CHANGED Viewed

@@ -135,7 +135,7 @@ def present_obs_map(dbg_show_extra:bool = False) -> dict:
     """
     _df = get_dataset()
     if dbg_show_extra:
         # add a few samples to visualise colours
         _df.loc[len(_df)] = {'lat': 0, 'lon': 0, 'species': 'rough_toothed_dolphin'}

     """
     _df = get_dataset()
+    print(_df)
     if dbg_show_extra:
         # add a few samples to visualise colours
         _df.loc[len(_df)] = {'lat': 0, 'lon': 0, 'species': 'rough_toothed_dolphin'}

src/pages/5_🤝_requests.py CHANGED Viewed

@@ -6,12 +6,63 @@ st.set_page_config(
 )
 from utils.st_logs import parse_log_buffer, init_logging_session_states
 from datasets import disable_caching
 disable_caching()
-############################################################
-# the dataset of observations (hf dataset in our space)
-dataset_id = "Saving-Willy/temp_dataset"
-data_files = "data/train-00000-of-00001.parquet"
-############################################################

 )
 from utils.st_logs import parse_log_buffer, init_logging_session_states
+from dataset.requests import default_data_view, show_new_data_view
 from datasets import disable_caching
 disable_caching()
+st.title("Requests")
+# Initialize the default data view
+df = default_data_view()
+print(df)
+if 'checkbox_states' not in st.session_state:
+    st.session_state.checkbox_states = {}
+if 'lat_range' not in st.session_state:
+    st.session_state.lat_range = (float(df['lat'].min()), float(df['lat'].max()))
+if 'lon_range' not in st.session_state:
+    st.session_state.lon_range = (df['lon'].min(), df['lon'].max())
+if 'date_range' not in st.session_state:
+    st.session_state.date_range = (df['date'].min(), df['date'].max())
+# Request button at the bottom
+if st.button("Request (Bottom)"):
+    selected = [k for k, v in st.session_state.checkbox_states.items() if v]
+    if selected:
+        st.success(f"Request submitted for: {', '.join(selected)}")
+    else:
+        st.warning("No selections made.")
+# Latitude range filter
+lat_min, lat_max = float(df['lat'].min()), float(df['lat'].max())
+lat_range = st.sidebar.slider("Latitude range",
+                              min_value=lat_min,
+                              max_value=lat_max,
+                              value=(lat_min, lat_max),
+                              key='lat_range')
+# Longitude range filter
+lon_min, lon_max = float(df['lon'].min()), float(df['lon'].max())
+lon_range = st.sidebar.slider("Longitude range",
+                              min_value=lon_min,
+                              max_value=lon_max,
+                              value=(lon_min, lon_max),
+                              key='lon_range')
+# Date range filter
+date_min, date_max = df['date'].min(), df['date'].max()
+date_range = st.sidebar.date_input("Date range",
+                                   value=(date_min, date_max),
+                                   min_value=date_min,
+                                   max_value=date_max,
+                                   key='date_range')
+# Show authors per specie
+show_new_data_view(df)