poltextlab
/

illframes-climate-binary

PyTorch

English

xlm-roberta

Model card Files Files and versions Community

poltextlab commited on 4 days ago

Commit

4e1f9ee

verified ·

1 Parent(s): 8b7617d

Delete binary_trainer_finetune_climate.py

Browse files

Files changed (1) hide show

binary_trainer_finetune_climate.py +0 -198

binary_trainer_finetune_climate.py DELETED Viewed

@@ -1,198 +0,0 @@
-import os
-os.environ["WANDB_DISABLED"] = "true"
-import pandas as pd
-import numpy as np
-import torch
-import evaluate
-from sklearn.metrics import classification_report
-from datasets import Dataset
-from transformers import (
-    AutoTokenizer,
-    AutoModelForSequenceClassification,
-    Trainer,
-    TrainingArguments,
-    EarlyStoppingCallback
-)
-from sklearn.metrics import precision_recall_curve, f1_score
-# --- Settings ---
-language_model = 'xlm-roberta-large'
-train_path = './data/climate/binary_train_illframes_climate.csv'
-val_path = './data/climate/binary_val_illframes_climate.csv'
-test_path = './data/climate/binary_test_illframes_climate.csv'
-lr = 5e-6
-batch_size = 8
-epochs = 5
-maxlen = 256
-output_dir = "./binary_model_output"
-data_train = pd.read_csv(train_path)
-data_val = pd.read_csv(val_path)
-data_test = pd.read_csv(test_path)
-def balance_dataframe(df):
-    class_counts = df['label'].value_counts()
-    min_class = class_counts.idxmin()
-    max_class = class_counts.idxmax()
-    n = class_counts.min()
-    df_min = df[df['label'] == min_class]
-    df_max = df[df['label'] == max_class].sample(n=n, random_state=42)
-    return pd.concat([df_min, df_max]).sample(frac=1, random_state=42).reset_index(drop=True)
-val_bal = balance_dataframe(data_val)
-test_bal = balance_dataframe(data_test)
-# --- Label maps ---
-id2label = {0: "No_frame", 1: "Frame"}
-label2id = {v: k for k, v in id2label.items()}
-# --- Tokenizer ---
-tokenizer = AutoTokenizer.from_pretrained(language_model)
-def tokenize(batch):
-    return tokenizer(batch["text"], padding="max_length", truncation=True, max_length=maxlen)
-# --- Hugging Face Datasets ---
-train_ds = Dataset.from_pandas(data_train)
-test_ds = Dataset.from_pandas(data_test)
-test_bal_ds = Dataset.from_pandas(test_bal)
-val_ds = Dataset.from_pandas(data_val)
-val_bal_ds = Dataset.from_pandas(val_bal)
-train_ds = train_ds.map(tokenize, batched=True)
-test_ds = test_ds.map(tokenize, batched=True)
-test_bal_ds = test_bal_ds.map(tokenize, batched=True)
-val_ds = val_ds.map(tokenize, batched=True)
-val_bal_ds = val_bal_ds.map(tokenize, batched=True)
-# Remove unnecessary columns
-train_ds = train_ds.remove_columns(["text", "__index_level_0__"]) if "__index_level_0__" in train_ds.column_names else train_ds.remove_columns(["text"])
-test_ds = test_ds.remove_columns(["text", "__index_level_0__"]) if "__index_level_0__" in test_ds.column_names else test_ds.remove_columns(["text"])
-test_bal_ds = test_bal_ds.remove_columns(["text", "__index_level_0__"]) if "__index_level_0__" in test_bal_ds.column_names else test_bal_ds.remove_columns(["text"])
-val_ds = val_ds.remove_columns(["text", "__index_level_0__"]) if "__index_level_0__" in val_ds.column_names else val_ds.remove_columns(["text"])
-val_bal_ds = val_bal_ds.remove_columns(["text", "__index_level_0__"]) if "__index_level_0__" in val_bal_ds.column_names else val_bal_ds.remove_columns(["text"])
-# --- Model ---
-model = AutoModelForSequenceClassification.from_pretrained(
-    language_model,
-    num_labels=2,
-    id2label=id2label,
-    label2id=label2id
-)
-# --- Metrics ---
-def compute_metrics(eval_pred):
-    metric = evaluate.load("f1")
-    logits, labels = eval_pred
-    preds = np.argmax(logits, axis=1)
-    return metric.compute(predictions=preds, references=labels, average="weighted")
-# --- Trainer ---
-training_args = TrainingArguments(
-    output_dir=output_dir,
-    evaluation_strategy="epoch",
-    save_strategy="epoch",
-    learning_rate=lr,
-    per_device_train_batch_size=batch_size,
-    per_device_eval_batch_size=batch_size,
-    num_train_epochs=epochs,
-    weight_decay=0.01,
-    logging_dir="./logs",
-    load_best_model_at_end=True,
-    save_total_limit=1,
-)
-trainer = Trainer(
-    model=model,
-    args=training_args,
-    train_dataset=train_ds,
-    eval_dataset=val_bal_ds,
-    tokenizer=tokenizer,
-    compute_metrics=compute_metrics,
-    callbacks=[EarlyStoppingCallback(early_stopping_patience=3)]
-)
-# --- Train ---
-trainer.train()
-from transformers import AutoModelForSequenceClassification
-#import subprocess
-#subprocess.check_call(["pip", "install", "safetensors"])
-#import safetensors
-#model = trainer.model
-# Save using safetensors
-#model.save_pretrained(
-#    f"{output_dir}/model_3",
-#    safe_serialization=True
-#)
-trainer.save_model(f"{output_dir}/model_3")
-# --- Inference on unbalanced data ---
-val_outputs = trainer.predict(val_ds)
-val_probs = torch.softmax(torch.tensor(val_outputs.predictions), dim=1)[:, 1].numpy()
-val_labels = val_outputs.label_ids
-# Find best threshold based on val F1
-prec, rec, thresholds = precision_recall_curve(val_labels, val_probs)
-f1s = 2 * (prec * rec) / (prec + rec + 1e-8)
-best_thresh = thresholds[np.argmax(f1s)]
-print(f"Best threshold from validation: {best_thresh:.3f}")
-# --- Predict & Save with best threshold ---
-test_outputs = trainer.predict(test_ds)
-test_probs = torch.softmax(torch.tensor(test_outputs.predictions), dim=1)[:, 1].numpy()
-test_labels = test_outputs.label_ids
-# Apply threshold
-test_preds = (test_probs >= best_thresh).astype(int)
-# Save results
-test_results_df = data_test.copy()
-test_results_df['prob'] = test_probs
-test_results_df['pred'] = test_preds
-# Save classification report
-cr = classification_report(test_labels, test_preds, output_dict=True)
-pd.DataFrame(cr).transpose().to_csv("threshold_classification_report.csv")
-print(cr)
-# Save predictions
-test_results_df.to_csv("threshold_test_predictions.csv", index=False)
-#preds = trainer.predict(test_bal_ds)
-#preds = trainer.predict(test_ds)
-#test_preds = np.argmax(preds.predictions, axis=1)
-# Add to DataFrame
-#test_bal['pred'] = test_preds
-#data_test['pred'] = test_preds
-# Save prediction and classification report
-#data_test.to_csv("./binary_results.csv", index=False)
-#report = classification_report(data_test["label"], data_test["pred"], output_dict=True)
-#report_df = pd.DataFrame(report).transpose()
-#report_df.to_csv("./binary_classification_report.csv")
-#report = classification_report(test_bal["label"], test_bal["pred"], output_dict=True)
-#report_df = pd.DataFrame(report).transpose()
-#report_df.to_csv("./binary_classification_report.csv")
-#print(report_df)