Spaces:

Multichem-PD
/

DFS_Contest_Analyzer

Running

James McCool commited on 23 days ago

Commit

62a6685

1 Parent(s): 2ceda65

Add unique and under-5/under-10 duplicate counts to duplication frame in app.py

- Introduced calculations for 'uniques', 'under_5', and 'under_10' metrics in the working DataFrame, enhancing the analysis of duplicate lineups.
- Updated the duplication frame to include these new metrics, improving data clarity and analysis capabilities.

Files changed (1) hide show

app.py +15 -2

app.py CHANGED Viewed

@@ -187,6 +187,19 @@ with tab2:
                 axis=1
             )
             working_df['dupes'] = working_df.groupby('sorted').transform('size')
             working_df = working_df.reset_index()
             working_df['percentile_finish'] = working_df['index'].rank(pct=True)
             working_df['finish'] = working_df['index']
@@ -433,8 +446,8 @@ with tab2:
                 dupe_frame['uniques%'] = dupe_frame['uniques'] / dupe_frame['EntryCount']
                 dupe_frame['under_5%'] = dupe_frame['under_5'] / dupe_frame['EntryCount']
                 dupe_frame['under_10%'] = dupe_frame['under_10'] / dupe_frame['EntryCount']
-                st.session_state['duplication_frame'] = dupe_frame[['BaseName', 'EntryCount', 'average_dupes', 'uniques', 'uniques%', 'under_5', 'under_5%', 'under_10', 'under_10%']].drop_duplicates(subset='BaseName', keep='first')
                 st.dataframe(st.session_state['duplication_frame'].style.
                              background_gradient(cmap='RdYlGn', subset=['uniques%', 'under_5%', 'under_10%'], axis=0).
-                             background_gradient(cmap='RdYlGn_r', subset=['average_dupes', 'uniques', 'under_5', 'under_10'], axis=0).
                              format(precision=2), hide_index=True)

                 axis=1
             )
             working_df['dupes'] = working_df.groupby('sorted').transform('size')
+            working_df['uniques'] = working_df.groupby('BaseName').apply(
+                lambda x: (x['dupes'] == 1).sum()
+            ).reindex(working_df['BaseName']).values
+            working_df['under_5'] = working_df.groupby('BaseName').apply(
+                lambda x: (x['dupes'] <= 5).sum()
+            ).reindex(working_df['BaseName']).values
+            working_df['under_10'] = working_df.groupby('BaseName').apply(
+                lambda x: (x['dupes'] <= 10).sum()
+            ).reindex(working_df['BaseName']).values
             working_df = working_df.reset_index()
             working_df['percentile_finish'] = working_df['index'].rank(pct=True)
             working_df['finish'] = working_df['index']
                 dupe_frame['uniques%'] = dupe_frame['uniques'] / dupe_frame['EntryCount']
                 dupe_frame['under_5%'] = dupe_frame['under_5'] / dupe_frame['EntryCount']
                 dupe_frame['under_10%'] = dupe_frame['under_10'] / dupe_frame['EntryCount']
+                st.session_state['duplication_frame'] = dupe_frame[['BaseName', 'EntryCount', 'average_dupes', 'dupes', 'uniques', 'uniques%', 'under_5', 'under_5%', 'under_10', 'under_10%']].drop_duplicates(subset='BaseName', keep='first')
                 st.dataframe(st.session_state['duplication_frame'].style.
                              background_gradient(cmap='RdYlGn', subset=['uniques%', 'under_5%', 'under_10%'], axis=0).
+                             background_gradient(cmap='RdYlGn_r', subset=['uniques', 'under_5', 'under_10'], axis=0).
                              format(precision=2), hide_index=True)