Spaces:

skanderovitch
/

birds_of_a_feather

Sleeping

App Files Files Community

skanderovitch commited on Nov 25, 2024

Commit

d880747

verified ·

1 Parent(s): 161023b

Create app.py

Browse files

Files changed (1) hide show

app.py +162 -0

app.py ADDED Viewed

	@@ -0,0 +1,162 @@

+import streamlit as st
+import streamlit.components.v1 as components
+import pandas as pd
+import plotly.express as px
+df = pd.read_parquet('final_occ.parquet')
+games = {'Birds of a feather': 'How do people choose their partner, based on their profession ?',
+        'Different strokes': 'How do people occupation differ, based on their circumstances ?',}
+st.title('Play with the US Census data 2023')
+game = st.selectbox('Pick your Game', list(games.keys()))
+st.subheader(game)
+st.markdown(games[game])
+st.markdown('*(Source : 1% sample of 2023 US Census)*')
+if game == 'Birds of a feather':
+    couple_types = sorted(df['couple_type'].value_counts().index)
+    couple_type = st.selectbox('Couple Type', couple_types)
+    filtered = df.copy()
+    filtered['id'] = 1
+    filtered['id'] = filtered['id'].cumsum()
+    mask = filtered['couple_type'] == couple_type
+    st.toast(f'couple_type = {couple_type} : {mask.mean():.1%}')
+    temp = filtered.copy()
+    temp['chosen'] = mask
+    filtered = filtered[mask]
+    st.subheader('Who is your protagonist ?')
+    from_genders = sorted(filtered['SEX'].unique())
+    from_gender = st.selectbox('Protagonist Gender', from_genders)
+    protagonists = filtered.copy()
+    mask = protagonists['SEX'] == from_gender
+    st.toast(f'protagonist gender = {from_gender} : {mask.mean():.1%}')
+    protagonists = protagonists[mask]
+    data_min,data_max = protagonists['AGE'].agg('min max'.split())
+    min_age,max_age= st.slider('Protagonist Age Range', data_min,data_max,(data_min,data_max))
+    mask = protagonists['AGE'] >= min_age
+    st.toast(f'protagonist age >={min_age} : {mask.mean():.1%}')
+    protagonists = protagonists[mask]
+    mask = protagonists['AGE'] <= max_age
+    st.toast(f'protagonist age <= {max_age} : {mask.mean():.1%}')
+    protagonists = protagonists[mask]
+    ages = protagonists.groupby('AGE')['HHWT'].sum().reset_index()
+    st.plotly_chart(px.bar(ages,x='AGE',y='HHWT'))
+    n_top_professions = st.slider('Only keep top N protagonist occupations',10,100,30)
+    keep_unemployed = st.checkbox('Keep unemployed protagonist')
+    top_professions = protagonists.groupby('OCC')['HHWT'].sum().sort_values(ascending=False)[:n_top_professions].reset_index()
+    if not keep_unemployed:
+        top_professions = top_professions[top_professions['OCC'] != 'Unemployed']
+    st.plotly_chart(px.bar(top_professions, x='OCC', y='HHWT',height=800))
+    protagonists_ids = set(protagonists['id'].unique())
+    protagonists_house_ids = set(protagonists['CBSERIAL'].unique())
+    filtered = filtered[filtered['CBSERIAL'].isin(protagonists_house_ids)]
+    data = filtered[[ 'CBSERIAL', 'HHWT', 'OCC', 'id']]
+    data = pd.merge(data,data,on=['CBSERIAL', 'HHWT'],suffixes=('_protagonist','_partner'))
+    mask = data['id_protagonist'].isin(protagonists_ids)
+    data = data[mask]
+    mask = data['id_protagonist'] != data['id_partner']
+    data = data[mask]
+    data = data.groupby(['OCC_protagonist','OCC_partner'])['HHWT'].sum().rename('perc_partner').reset_index()
+    data = data[data['perc_partner'] > 0]
+    top_protagonist_occ = data.groupby('OCC_protagonist')['perc_partner'].sum().rename('total_protagonist').reset_index().sort_values('total_protagonist',ascending=False)
+    data = pd.merge(data,top_protagonist_occ,on=['OCC_protagonist'])
+    data['perc_partner'] /= data['total_protagonist']
+    filter_min_perc = 0.01
+    heatmap = data[data['perc_partner'] > filter_min_perc].copy()
+    st.subheader('Some insights')
+    same = data[data['OCC_partner'] == data['OCC_protagonist']]
+    n_top_protagonists = 10
+    st.plotly_chart(px.bar(same.sort_values('perc_partner',ascending=False)[:n_top_protagonists],x='OCC_protagonist',y='perc_partner',color='total_protagonist',title='Professions most commonly shared with the partner'))
+    st.plotly_chart(px.bar(same.sort_values('perc_partner',ascending=False)[-n_top_protagonists:],x='OCC_protagonist',y='perc_partner',color='total_protagonist',title='Professions least commonly shared with the partner'))
+    st.subheader('Pick the occupation of your protagonist')
+    contains = st.text_input('Filter occupations', '')
+    candidates = top_professions.copy()
+    if contains:
+        mask = candidates['OCC'].str.lower().str.contains(contains.lower())
+        candidates  = candidates[mask]
+    protagonist_occupation = st.selectbox('Occupation',candidates['OCC'])
+    subset = heatmap[heatmap['OCC_protagonist'] == protagonist_occupation]
+    st.subheader(f'Distribution of partner occupations for protagonist occupation = {protagonist_occupation}')
+    fig = px.pie(subset, names="OCC_partner", values='perc_partner')
+    fig.update_traces(textposition='inside', textinfo='percent+label')
+    fig.update_traces(showlegend=False)
+    # fig.update(layout_coloraxis_showscale=False)
+    st.plotly_chart(fig)
+    # fig.update_traces(showlegend=False)
+    # fig.update(layout_coloraxis_showscale=False)
+else:
+    data1 = df.copy()
+    data2 = df.copy()
+    st.write('Select the attribute to compare between the two groups')
+    col1, col2 = st.columns(2)
+    col1.subheader('Group1')
+    col2.subheader('Group2')
+    for col in ['couple_type', 'SEX', 'AGE', 'MARRNO']:
+        col1, col2 = st.columns(2)
+        if col != 'AGE':
+            choice1 = col1.selectbox(col, data1[col].unique(),key=f'{col}_1')
+            mask = data1[col] == choice1
+            data1 = data1[mask]
+            choice2 = col2.selectbox(col, data2[col].unique(),key=f'{col}_2')
+            mask = data2[col] == choice2
+            data2 = data2[mask]
+        else:
+            choice1 = col1.slider(col, data1[col].min(), data1[col].max(), (data1[col].min(), data1[col].max()),key=f'{col}_1')
+            mask = (data1[col] >= choice1[0]) & (data1[col] <= choice1[1])
+            data1 = data1[mask]
+            choice2 = col2.slider(col, data2[col].min(), data2[col].max(), (data2[col].min(), data2[col].max()),key=f'{col}_2')
+            mask = (data2[col] >= choice2[0]) & (data2[col] <= choice2[1])
+            data2 = data2[mask]
+    summary1 = data1.groupby('OCC')['HHWT'].sum().reset_index()
+    summary1['HHWT'] /= summary1['HHWT'].sum()
+    summary2 = data2.groupby('OCC')['HHWT'].sum().reset_index()
+    summary2['HHWT'] /= summary2['HHWT'].sum()
+    comparison = pd.merge(summary1, summary2, on='OCC', suffixes=('_group1', '_group2'), how='outer')
+    comparison['HHWT_group1'].fillna(0,inplace=True)
+    comparison['HHWT_group2'].fillna(0,inplace=True)
+    comparison['diff'] = comparison['HHWT_group1'] - comparison['HHWT_group2']
+    comparison['abs_diff'] = comparison['diff'].abs()
+    comparison = comparison.sort_values('abs_diff', ascending=False)[:30]
+    st.plotly_chart(px.bar(comparison.sort_values('diff'), x='OCC', y='diff', color='diff', title='Occupation distribution difference between the two groups (group1 - group2)', height=800))