Spaces:

mtyrrell
/

maf_prefilter_app

Running

App Files Files Community

mtyrrell commited on Feb 7

Commit

88e08d0

1 Parent(s): 8f49843

lang classifier, text word count

Browse files

Files changed (2) hide show

app.py +12 -12
modules/utils.py +14 -2

app.py CHANGED Viewed

@@ -26,15 +26,15 @@ from io import BytesIO
 logger = logging.getLogger(__name__)
 # Local
-# from dotenv import load_dotenv
-# load_dotenv()
 # Main app logic
 def main():
     # Temporarily set authentication to True for testing
     if 'authenticated' not in st.session_state:
-        st.session_state['authenticated'] = False
     if st.session_state['authenticated']:
         # Remove login success message for testing
@@ -172,15 +172,15 @@ def main():
     # Comment out for testing
-    else:
-        username = st.text_input("Username")
-        password = st.text_input("Password", type="password")
-        if st.button("Login"):
-            if validate_login(username, password):
-                st.session_state['authenticated'] = True
-                st.rerun()
-            else:
-                st.error("Incorrect username or password")

 logger = logging.getLogger(__name__)
 # Local
+from dotenv import load_dotenv
+load_dotenv()
 # Main app logic
 def main():
     # Temporarily set authentication to True for testing
     if 'authenticated' not in st.session_state:
+        st.session_state['authenticated'] = True
     if st.session_state['authenticated']:
         # Remove login success message for testing
     # Comment out for testing
+    # else:
+    #     username = st.text_input("Username")
+    #     password = st.text_input("Password", type="password")
+    #     if st.button("Login"):
+    #         if validate_login(username, password):
+    #             st.session_state['authenticated'] = True
+    #             st.rerun()
+    #         else:
+    #             st.error("Incorrect username or password")

modules/utils.py CHANGED Viewed

@@ -200,7 +200,8 @@ def process_data(uploaded_file, sens_level):
             df['SECTOR1'] = [item['SECTOR1'] for item in sectors_dict]
             df['SECTOR2'] = [item['SECTOR2'] for item in sectors_dict]
         elif model_name == 'LANG':
-            df[model_name] = predict_category(df, model_name, progress_bar, repo='51-languages-classifier', profile='qanastek')
         logger.info(f"Completed: {model_name}")
         model_progress.empty()
@@ -249,6 +250,16 @@ def process_data(uploaded_file, sens_level):
     # Create normalized leverage scale (0-1) where 300% leverage = 1
     df['lev_maf_scale'] = df['lev_maf_%'].apply(lambda x: min(x/300, 1) if x > 0 else 0)
     # Predict score
     sector_classes = ['Energy','Transport','Industries']
     df['pred_score'] = df.apply(lambda x: round((x['fin_lab2']*2 + x['scope_lab1']*2 + x['scope_lab2']*2 + x['tech_lab1'] + x['tech_lab3']+ x['lev_gt_0']+x['lev_maf_scale'])/10*10,0), axis=1)
@@ -257,7 +268,8 @@ def process_data(uploaded_file, sens_level):
         'INELIGIBLE' if (('concept_count' in df.columns and x['concept_count'] > 6) or
                         x['LANG'] != 'en-US' or
                         x['ADAPMIT'] == 'Adaptation' or
-                        not any(sector in [x['SECTOR1'], x['SECTOR2']] for sector in sector_classes))
         else 'REJECT' if x['pred_score'] <= sens_level
         else 'PRE-ASSESSMENT' if sens_level+1 <= x['pred_score'] <= sens_level+2
         else 'FULL-ASSESSMENT' if x['pred_score'] > sens_level+2

             df['SECTOR1'] = [item['SECTOR1'] for item in sectors_dict]
             df['SECTOR2'] = [item['SECTOR2'] for item in sectors_dict]
         elif model_name == 'LANG':
+            # df[model_name] = predict_category(df, model_name, progress_bar, repo='51-languages-classifier', profile='qanastek')
+            df[model_name] = predict_category(df, model_name, progress_bar, repo='xlm-roberta-base-language-detection', profile='papluca')
         logger.info(f"Completed: {model_name}")
         model_progress.empty()
     # Create normalized leverage scale (0-1) where 300% leverage = 1
     df['lev_maf_scale'] = df['lev_maf_%'].apply(lambda x: min(x/300, 1) if x > 0 else 0)
+    # Check if text fields have minimum required words
+    df['scope_words_lt_10'] = df['scope_txt'].str.split().str.len() < 10
+    df['fin_words_lt_10'] = df['fin_txt'].str.split().str.len() < 10
+    df['tech_words_lt_10'] = df['tech_txt'].str.split().str.len() < 10
+    df['word_length_check'] = df.apply(lambda x:
+        True if x['scope_txt'].str.split().str.len() < 10 and
+            x['fin_txt'].str.split().str.len() < 10 and
+            x['tech_txt'].str.split().str.len() < 10
+            else False, axis=1)
     # Predict score
     sector_classes = ['Energy','Transport','Industries']
     df['pred_score'] = df.apply(lambda x: round((x['fin_lab2']*2 + x['scope_lab1']*2 + x['scope_lab2']*2 + x['tech_lab1'] + x['tech_lab3']+ x['lev_gt_0']+x['lev_maf_scale'])/10*10,0), axis=1)
         'INELIGIBLE' if (('concept_count' in df.columns and x['concept_count'] > 6) or
                         x['LANG'] != 'en-US' or
                         x['ADAPMIT'] == 'Adaptation' or
+                        not any(sector in [x['SECTOR1'], x['SECTOR2']] for sector in sector_classes) or
+                        x['word_length_check'] == True)
         else 'REJECT' if x['pred_score'] <= sens_level
         else 'PRE-ASSESSMENT' if sens_level+1 <= x['pred_score'] <= sens_level+2
         else 'FULL-ASSESSMENT' if x['pred_score'] > sens_level+2