Spaces:

iSpr
/

ksic_ai_coding_census2020

Sleeping

App Files Files Community

iSpr commited on Oct 19, 2022

Commit

569997f

1 Parent(s): 3296632

base3_44

Browse files

model change

Files changed (1) hide show

app.py +126 -37

app.py CHANGED Viewed

@@ -1,13 +1,20 @@
 import streamlit as st
 import pandas as pd
 import sentencepiece
 # 모델 준비하기
 from transformers import XLMRobertaForSequenceClassification, XLMRobertaTokenizer
 import numpy as np
 import pandas as pd
 import torch
 import os
 # 제목 입력
 st.header('한국표준산업분류 자동코딩 서비스')
@@ -18,38 +25,89 @@ def md_loading():
     # device = torch.device('cpu')
     tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-large')
     model = XLMRobertaForSequenceClassification.from_pretrained('xlm-roberta-large', num_labels=493)
-    model_checkpoint = 'base1_43_11.bin'
     project_path = './'
     output_model_file = os.path.join(project_path, model_checkpoint)
-    ckpt = torch.load(output_model_file, map_location=torch.device('cpu'))
     model.load_state_dict(ckpt['model_state_dict'])
-################################## label tbl 수정
     label_tbl = np.load('./label_table.npy')
     loc_tbl = pd.read_csv('./kisc_table.csv', encoding='utf-8')
     print('ready')
-    return tokenizer, model, label_tbl, loc_tbl
 # 모델 로드
-tokenizer, model, label_tbl, loc_tbl = md_loading()
 # 텍스트 input 박스
-# business = st.text_input('사업체명', '충청지방통계청').replace(',', '')
-# business_work = st.text_input('사업체 하는일', '통계서비스 제공 및 지역통계 허브').replace(',', '')
-# work_department = st.text_input('근무부서', '지역통계과').replace(',', '')
-# work_position = st.text_input('직책', '주무관').replace(',', '')
-# what_do_i = st.text_input('내가 하는 일', '통계데이터센터 운영').replace(',', '')
-input_box = st.text_input('입력')
-# md_input: 모델에 입력할 input 값 정의
-md_input = input_box
 ## 임시 확인
 # st.write(md_input)
@@ -57,37 +115,68 @@ md_input = input_box
 # 버튼
 if st.button('확인'):
     ## 버튼 클릭 시 수행사항
     ### 모델 실행
-    query_tokens = md_input
-    input_ids = np.zeros(shape=[1, 64])
-    attention_mask = np.zeros(shape=[1, 64])
-    # seq = '[CLS] '
-    # try:
-    #     for i in range(5):
-    #         seq += query_tokens[i] + ' '
-    # except:
-    #     None
-    seq = query_tokens
-    tokens = tokenizer.tokenize(seq)
-    ids = tokenizer.convert_tokens_to_ids(tokens)
-    length = len(ids)
-    if length > 64:
-        length = 64
-    for i in range(length):
-        input_ids[0, i] = ids[i]
-        attention_mask[0, i] = 1
-    input_ids = torch.from_numpy(input_ids).type(torch.long)
-    attention_mask = torch.from_numpy(attention_mask).type(torch.long)
-    outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=None)
-    logits = outputs.logits
     # # 단독 예측 시
     # arg_idx = torch.argmax(logits, dim=1)

 import streamlit as st
 import pandas as pd
 import sentencepiece
 # 모델 준비하기
 from transformers import XLMRobertaForSequenceClassification, XLMRobertaTokenizer
+from torch.utils.data import DataLoader, Dataset
+from base_data_loader import TVT_Dataset
 import numpy as np
 import pandas as pd
 import torch
 import os
+# [theme]
+# base="dark"
+# primaryColor="purple"
 # 제목 입력
 st.header('한국표준산업분류 자동코딩 서비스')
     # device = torch.device('cpu')
     tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-large')
     model = XLMRobertaForSequenceClassification.from_pretrained('xlm-roberta-large', num_labels=493)
+    model_checkpoint = 'base3_44_7.bin'
     project_path = './'
     output_model_file = os.path.join(project_path, model_checkpoint)
+    ckpt = torch.load(output_model_file)
     model.load_state_dict(ckpt['model_state_dict'])
+    device = torch.device("cuda" if torch.cuda.is_available() and not False else "cpu")
+    model.to(device)
     label_tbl = np.load('./label_table.npy')
     loc_tbl = pd.read_csv('./kisc_table.csv', encoding='utf-8')
     print('ready')
+    return tokenizer, model, label_tbl, loc_tbl, device
 # 모델 로드
+tokenizer, model, label_tbl, loc_tbl, device = md_loading()
+# 데이터 셋 준비용
+max_len = 64    # 64
+class TVT_Dataset(Dataset):
+    def __init__(self, df):
+        self.df_data = df
+    def __getitem__(self, index):
+        # 데이터프레임 칼럼 들고오기
+        # sentence = self.df_data.loc[index, 'text']
+        sentence = self.df_data.loc[index, ['CMPNY_NM', 'MAJ_ACT', 'WORK_TYPE', 'POSITION', 'DEPT_NM']]
+        encoded_dict = tokenizer(
+                    ' <s> '.join(sentence.to_list()),
+                    add_special_tokens = True,
+                    max_length = max_len,
+                    padding='max_length',
+                    truncation=True,
+                    return_attention_mask = True,
+                    return_tensors = 'pt')
+        padded_token_list = encoded_dict['input_ids'][0]
+        att_mask = encoded_dict['attention_mask'][0]
+        # 숫자로 변환된 label을 텐서로 변환
+        # target = torch.tensor(self.df_data.loc[index, 'NEW_CD'])
+        # input_ids, attention_mask, label을 하나의 인풋으로 묶음
+        # sample = (padded_token_list, att_mask, target)
+        sample = (padded_token_list, att_mask)
+        return sample
+    def __len__(self):
+        return len(self.df_data)
 # 텍스트 input 박스
+business = st.text_input('사업체명').replace(',', '')
+business_work = st.text_input('사업체 하는일').replace(',', '')
+what_do_i = st.text_input('내가 하는 일').replace(',', '')
+work_position = st.text_input('직책').replace(',', '')
+work_department = st.text_input('근무부서').replace(',', '')
+# data 준비
+# test dataset을 만들어줍니다.
+input_col_type = ['CMPNY_NM', 'MAJ_ACT', 'WORK_TYPE', 'POSITION', 'DEPT_NM', 'NEW_CD']
+def preprocess_dataset(dataset):
+    dataset.reset_index(drop=True, inplace=True)
+    dataset.fillna('')
+    return dataset[input_col_type]
 ## 임시 확인
 # st.write(md_input)
 # 버튼
 if st.button('확인'):
     ## 버튼 클릭 시 수행사항
+    ### 데이터 준비
+    # md_input: 모델에 입력할 input 값 정의
+    # md_input = '|'.join([business, business_work, what_do_i, work_position, work_department])
+    md_input = [business, business_work, what_do_i, work_position, work_department]
+    test_dataset = pd.DataFrame({
+        input_col_type[0]: md_input[0],
+        input_col_type[1]: md_input[1],
+        input_col_type[2]: md_input[2],
+        input_col_type[3]: md_input[3],
+        input_col_type[4]: md_input[4]
+    })
+    # test_dataset = pd.read_csv(DATA_IN_PATH + test_set_name, sep='|', na_filter=False)
+    test_dataset = preprocess_dataset(test_dataset)
+    print(len(test_dataset))
+    print(test_dataset)
+    print('base_data_loader 사용 시점점')
+    test_data = TVT_Dataset(test_dataset)
+    train_batch_size = 48
+    # batch_size 만큼 데이터 분할
+    test_dataloader = DataLoader(test_data,
+                                batch_size=train_batch_size,
+                                shuffle=False)
     ### 모델 실행
+    # Put model in evaluation mode
+    model.eval()
+    model.zero_grad()
+    # Tracking variables
+    predictions , true_labels = [], []
+    # Predict
+    for batch in range(test_dataloader):
+        # Add batch to GPU
+        batch = tuple(t.to(device) for t in batch)
+        # Unpack the inputs from our dataloader
+        test_input_ids, test_attention_mask = batch
+        # Telling the model not to compute or store gradients, saving memory and
+        # speeding up prediction
+        with torch.no_grad():
+            # Forward pass, calculate logit predictions
+            outputs = model(test_input_ids, token_type_ids=None, attention_mask=test_attention_mask)
+        logits = outputs.logits
+        # Move logits and labels to CPU
+        logits = logits.detach().cpu().numpy()
     # # 단독 예측 시
     # arg_idx = torch.argmax(logits, dim=1)