import streamlit as st from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline # โหลด Tokenizer และ Model model_name = "Nucha/Nucha_ITSkillNER_BERT" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForTokenClassification.from_pretrained(model_name) # สร้าง NER Pipeline ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer) # กำหนดสีของ Entity แต่ละประเภท ENTITY_COLORS = { "HSKILL": "#FFD700", # สีทอง "SSKILL": "#87CEFA", # สีฟ้าอ่อน } # ฟังก์ชันรวม Entity (B-* และ I-*) def merge_entities(entities): merged = [] current_entity = None for entity in entities: word, label, start, end = entity["word"], entity["entity"].split("-")[-1], entity["start"], entity["end"] if entity["entity"].startswith("B-"): # ถ้าเป็น Entity ตัวแรก if current_entity: merged.append(current_entity) current_entity = {"word": word, "entity": label, "start": start, "end": end} elif entity["entity"].startswith("I-") and current_entity: # ถ้าเป็น Entity ที่ต่อเนื่อง current_entity["word"] += " " + word current_entity["end"] = end # ปรับตำแหน่ง end ใหม่ else: if current_entity: merged.append(current_entity) current_entity = {"word": word, "entity": label, "start": start, "end": end} if current_entity: merged.append(current_entity) return merged # ฟังก์ชันสร้าง Named Entity Annotation แสดงแบบ Tagging def generate_ner_html(text, entities): all_entities = sorted(entities, key=lambda e: e["start"]) # เรียงตามตำแหน่งเริ่มต้น last_idx = 0 annotated_text = "" for entity in all_entities: start, end, word, entity_type = entity["start"], entity["end"], entity["word"], entity["entity"] color = ENTITY_COLORS.get(entity_type, ENTITY_COLORS[entity_type]) # เพิ่มข้อความก่อน Entity annotated_text += text[last_idx:start] # เพิ่ม Entity แบบมีไฮไลต์และ Tagging annotated_text += f''' {word} {entity_type} ''' last_idx = end # อัปเดตตำแหน่งล่าสุด # เพิ่มข้อความที่เหลือหลังจาก Entity สุดท้าย annotated_text += text[last_idx:] return f'