InVoS
/

Sequence_Classification_Symptom_BERT

Safetensors

distilbert

Model card Files Files and versions

xet

Community

InVoS commited on Oct 3, 2024

Commit

dba8b30

verified ·

1 Parent(s): 6e84507

Create main.py

Browse files

Files changed (1) hide show

main.py +89 -0

main.py ADDED Viewed

	@@ -0,0 +1,89 @@

+# Install library yang dibutuhkan
+!pip install transformers datasets
+# Import library yang diperlukan
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
+from datasets import load_dataset
+import torch
+import numpy as np
+from sklearn.metrics import accuracy_score, precision_recall_fscore_support
+# Muat tokenizer dan model
+tokenizer = AutoTokenizer.from_pretrained("medicalai/ClinicalBERT")
+model = AutoModelForSequenceClassification.from_pretrained("medicalai/ClinicalBERT")
+# Load dataset
+ds = load_dataset("celikmus/symptom_text_to_disease_01")
+train_dataset = ds['train']
+test_dataset = ds['test']
+# Daftar gejala sebagai contoh
+symptom_mapping = {
+    0: "emotional pain", 1: "hair falling out", 2: "heart hurts", 3: "infected wound",
+    4: "foot ache", 5: "shoulder pain", 6: "injury from sports", 7: "skin issue",
+    8: "stomach ache", 9: "knee pain", 10: "joint pain", 11: "hard to breath",
+    12: "head ache", 13: "body feels weak", 14: "feeling dizzy", 15: "back pain",
+    16: "open wound", 17: "internal pain", 18: "blurry vision", 19: "acne",
+    20: "muscle pain", 21: "neck pain", 22: "cough", 23: "ear ache", 24: "feeling cold",
+}
+# Tambahkan kolom baru dengan nama gejala
+for entry in train_dataset:
+    entry['symptom_name'] = symptom_mapping[entry['labels']]
+# Tampilkan contoh data
+print(f"Teks: {train_dataset[0]['text']}, Nama Gejala: {train_dataset[0]['symptom_name']}")
+# Fungsi untuk memproses data
+def preprocess_function(examples):
+    return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=256)
+# Terapkan fungsi pemrosesan pada dataset
+train_dataset = train_dataset.map(preprocess_function, batched=True)
+test_dataset = test_dataset.map(preprocess_function, batched=True)
+# Pastikan dataset memiliki kolom input_ids, attention_mask, dan labels
+print(train_dataset.column_names)
+# Ambil semua label dari dataset dan hitung jumlah label unik
+labels = train_dataset['labels']
+unique_labels = set(labels)
+num_labels = len(unique_labels)
+# Muat model dengan jumlah label yang benar
+model = AutoModelForSequenceClassification.from_pretrained("medicalai/ClinicalBERT", num_labels=num_labels)
+# Tentukan argumen pelatihan
+training_args = TrainingArguments(
+    output_dir='./results',
+    evaluation_strategy='epoch',  # Evaluasi setiap epoch
+    learning_rate=2e-5,
+    per_device_train_batch_size=8,
+    per_device_eval_batch_size=8,
+    num_train_epochs=3,
+    weight_decay=0.01,
+)
+# Fungsi untuk menghitung metrik
+def compute_metrics(p):
+    predictions, labels = p
+    preds = np.argmax(predictions, axis=1)
+    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='weighted')
+    acc = accuracy_score(labels, preds)
+    return {'accuracy': acc, 'precision': precision, 'recall': recall, 'f1': f1}
+# Buat trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=test_dataset,
+    compute_metrics=compute_metrics  # Tambahkan fungsi compute_metrics di sini
+)
+# Mulai pelatihan
+trainer.train()
+# Lakukan evaluasi
+results = trainer.evaluate()
+print(results)