Data_Generation_LabelingCopy

Sleeping

App Files Files

Wedyan2023 commited on Apr 24

Commit

e85a22f

verified ·

1 Parent(s): 4b87947

Update app103.py

Browse files

Files changed (1) hide show

app103.py +95 -18

app103.py CHANGED Viewed

@@ -1240,23 +1240,62 @@ if "task_choice" in st.session_state:
                                                 'task_type': 'Named Entity Recognition (NER)',
                                                 'Use few-shot example?': 'Yes' if use_few_shot else 'No',
                                             })
-                                #new 24/4/2025
-                        # Save and provide download options
-                        if labeled_examples:
-                            # Update session state
-                            st.session_state.labeled_examples = labeled_examples
-                            # Convert to CSV and JSON
-                            df = pd.DataFrame(labeled_examples)
                                 ####
                                             ######
                         else:
-                            labeled_examples = []
                             for line in response.split('\n'):
                                 if line.strip():
                                     parts = line.rsplit('Label:', 1)
@@ -1272,13 +1311,15 @@ if "task_choice" in st.session_state:
                                                 'task_type': 'Data Labeling',
                                                 'Use few-shot example?': 'Yes' if use_few_shot else 'No',
                                             })
-                       # Save and provide download options
-                        if labeled_examples:
-                            # Update session state
-                            st.session_state.labeled_examples = labeled_examples
-                            # Convert to CSV and JSON
-                            df = pd.DataFrame(labeled_examples)
                         # ########3
                         # if labeled_examples:
@@ -1292,18 +1333,54 @@ if "task_choice" in st.session_state:
                         #         file_name='labeled_examples.csv',
                         #         mime='text/csv'
                         #     )
-                            ###########
-                            #new 22/4/2025
                             # CSV
                             st.session_state.labeled_examples_csv = df.to_csv(index=False).encode('utf-8')
                             # JSON
                             st.session_state.labeled_examples_json = json.dumps({
                                 "metadata": {
                                     "domain": domain,
                                     "labels": labels,
                                     "used_few_shot": use_few_shot,
-                                    "task_type": "Named Entity Recognition (NER)",
                                     "timestamp": datetime.now().isoformat()
                                 },
                                 "examples": labeled_examples

                                                 'task_type': 'Named Entity Recognition (NER)',
                                                 'Use few-shot example?': 'Yes' if use_few_shot else 'No',
                                             })
+                        ###newnewnewnew
+                        labeled_examples = []
+                        if classification_type == "Named Entity Recognition (NER)":
+                            ner_entities = []
+                            for line in response.strip().split('\n'):
+                                if line.strip():
+                                    if '-' in line:
+                                        entity_text, entity_type = line.rsplit('-', 1)
+                                        ner_entities.append({
+                                            'entity': entity_text.strip(),
+                                            'label': entity_type.strip()
+                                        })
+                             labeled_examples = [{
+                                'ner_output': response.strip(),
+                                'entities': ner_entities,
+                                'system_prompt': st.session_state.system_prompt,
+                                'system_role': st.session_state.system_role,
+                                'task_type': 'Named Entity Recognition (NER)',
+                                'Use few-shot example?': 'Yes' if use_few_shot else 'No',
+                            }]
+                        #         #new 24/4/2025
+                        # # Save and provide download options
+                        # if labeled_examples:
+                        #     # Update session state
+                        #     st.session_state.labeled_examples = labeled_examples
+                        #     # Convert to CSV and JSON
+                        #     df = pd.DataFrame(labeled_examples)
                                 ####
                                             ######
+                        # else:
+                        #     labeled_examples = []
+                        #     for line in response.split('\n'):
+                        #         if line.strip():
+                        #             parts = line.rsplit('Label:', 1)
+                        #             if len(parts) == 2:
+                        #                 text = parts[0].strip()
+                        #                 label = parts[1].strip()
+                        #                 if text and label:
+                        #                     labeled_examples.append({
+                        #                         'text': text,
+                        #                         'label': label,
+                        #                         'system_prompt': st.session_state.system_prompt,
+                        #                         'system_role': st.session_state.system_role,
+                        #                         'task_type': 'Data Labeling',
+                        #                         'Use few-shot example?': 'Yes' if use_few_shot else 'No',
+                        #                     })
                         else:
                             for line in response.split('\n'):
                                 if line.strip():
                                     parts = line.rsplit('Label:', 1)
                                                 'task_type': 'Data Labeling',
                                                 'Use few-shot example?': 'Yes' if use_few_shot else 'No',
                                             })
+                       # # Save and provide download options
+                       #  if labeled_examples:
+                       #      # Update session state
+                       #      st.session_state.labeled_examples = labeled_examples
+                       #      # Convert to CSV and JSON
+                       #      df = pd.DataFrame(labeled_examples)
                         # ########3
                         # if labeled_examples:
                         #         file_name='labeled_examples.csv',
                         #         mime='text/csv'
                         #     )
+                            #  "domain": domain,
+                            #         "labels": labels,
+                            #         "used_few_shot": use_few_shot,
+                            #         "task_###########
+                            # #new 22/4/2025
+                            # # CSV
+                            # st.session_state.labeled_examples_csv = df.to_csv(index=False).encode('utf-8')
+                            # # JSON
+                            # st.session_state.labeled_examples_json = json.dumps({
+                            #     "metadata": {
+                            #        type": "Named Entity Recognition (NER)",
+                            #         "timestamp": datetime.now().isoformat()
+                            #     },
+                            #     "examples": labeled_examples
+                            # }, indent=2).encode('utf-8')
+                            #########newnewnew
+                            # Save and provide download options
+                        if labeled_examples:
+                            st.session_state.labeled_examples = labeled_examples
+                            if classification_type == "Named Entity Recognition (NER)":
+                                # Flatten NER entities for CSV
+                                flat_data = []
+                                for example in labeled_examples:
+                                    for ent in example.get('entities', []):
+                                        flat_data.append({
+                                            'entity': ent['entity'],
+                                            'label': ent['label'],
+                                            'system_prompt': example['system_prompt'],
+                                            'system_role': example['system_role'],
+                                            'task_type': example['task_type'],
+                                            'Use few-shot example?': example['Use few-shot example?']
+                                        })
+                                df = pd.DataFrame(flat_data)
+                            else:
+                                df = pd.DataFrame(labeled_examples)
                             # CSV
                             st.session_state.labeled_examples_csv = df.to_csv(index=False).encode('utf-8')
                             # JSON
                             st.session_state.labeled_examples_json = json.dumps({
                                 "metadata": {
                                     "domain": domain,
                                     "labels": labels,
                                     "used_few_shot": use_few_shot,
+                                    "task_type": classification_type,
                                     "timestamp": datetime.now().isoformat()
                                 },
                                 "examples": labeled_examples