new model, trained on 36000 articles from allsides

Browse files

Files changed (16) hide show

.gitignore +0 -0
inference.py +1 -1
training/bert-allsides-bias-detector/checkpoint-10494/model.safetensors +3 -0
training/bert-allsides-bias-detector/checkpoint-10494/rng_state.pth +3 -0
training/bert-allsides-bias-detector/checkpoint-10494/training_args.bin +3 -0
training/bert-allsides-bias-detector/checkpoint-10494/vocab.txt +0 -0
training/bert-allsides-bias-detector/checkpoint-3498/model.safetensors +3 -0
training/bert-allsides-bias-detector/checkpoint-3498/rng_state.pth +3 -0
training/bert-allsides-bias-detector/checkpoint-3498/training_args.bin +3 -0
training/bert-allsides-bias-detector/checkpoint-3498/vocab.txt +0 -0
training/bert-allsides-bias-detector/checkpoint-6996/model.safetensors +3 -0
training/bert-allsides-bias-detector/checkpoint-6996/rng_state.pth +3 -0
training/bert-allsides-bias-detector/checkpoint-6996/training_args.bin +3 -0
training/bert-allsides-bias-detector/checkpoint-6996/vocab.txt +0 -0
training/berttrainedonallsides.py +74 -26
training/cleanallsidesdata.py +36 -0

.gitignore CHANGED Viewed

Binary files a/.gitignore and b/.gitignore differ

inference.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
-model_path = "./bert-bias-detector/checkpoint-4894"
 tokenizer = AutoTokenizer.from_pretrained(model_path)
 model = AutoModelForSequenceClassification.from_pretrained(model_path)

 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
+model_path = "./training/bert-allsides-bias-detector/checkpoint-10494"
 tokenizer = AutoTokenizer.from_pretrained(model_path)
 model = AutoModelForSequenceClassification.from_pretrained(model_path)

training/bert-allsides-bias-detector/checkpoint-10494/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25691d8b332dba45dc84710c03e463f422b3c1e44b3a38d0c404c04ed3abe24b
+size 437961724

training/bert-allsides-bias-detector/checkpoint-10494/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6048d49ebb2c9ab388c031266dde0f631c475cd4b841900ce7d5bcacc56d044c
+size 14244

training/bert-allsides-bias-detector/checkpoint-10494/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0ae8261d8f9389fb1049f4819320deb00f3601aa96e7909934aae9620f13394
+size 5304

training/bert-allsides-bias-detector/checkpoint-10494/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training/bert-allsides-bias-detector/checkpoint-3498/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0edeb86ac4e270604b2d79e14f0beeac75009a87e228a55a98eefd5a581471bb
+size 437961724

training/bert-allsides-bias-detector/checkpoint-3498/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ee7949f35878e7083f3115f072a31251b534b3a057989dfe232049bc65f85d6
+size 14244

training/bert-allsides-bias-detector/checkpoint-3498/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0ae8261d8f9389fb1049f4819320deb00f3601aa96e7909934aae9620f13394
+size 5304

training/bert-allsides-bias-detector/checkpoint-3498/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training/bert-allsides-bias-detector/checkpoint-6996/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd843685c0ce4fed68465cfe74a2878492732feda513d8ae10fc682263712cd0
+size 437961724

training/bert-allsides-bias-detector/checkpoint-6996/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d88a900976ce3868a15a753bcd9b50f45d11ad95326f47bfcae45724f9fe073
+size 14244

training/bert-allsides-bias-detector/checkpoint-6996/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0ae8261d8f9389fb1049f4819320deb00f3601aa96e7909934aae9620f13394
+size 5304

training/bert-allsides-bias-detector/checkpoint-6996/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training/berttrainedonallsides.py CHANGED Viewed

@@ -1,40 +1,71 @@
-from datasets import load_dataset
-from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
 import torch
-model_name = "bert-base-uncased"
-tokenizer = BertTokenizer.from_pretrained(model_name)
-model = BertForSequenceClassification.from_pretrained(model_name, num_labels=3)
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
-print("Model loaded and moved to device:", device)
-# Load the dataset
-dataset = load_dataset(
-    "csv",
-    data_files="Qbias/allsides_balanced_news_headlines-texts.csv"
-)["train"]
-# Map string labels to integers
-def label_map(example):
-    mapping = {"left": 0, "center": 1, "right": 2}
-    example["label"] = mapping[example["bias_rating"].strip().lower()]
-    return example
-dataset = dataset.map(label_map)
-# Train/test split
-dataset = dataset.train_test_split(test_size=0.1)
-# Tokenization
 def tokenize_function(example):
     return tokenizer(example["text"], padding="max_length", truncation=True, max_length=512)
 tokenized_dataset = dataset.map(tokenize_function, batched=True)
 tokenized_dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
-# Training setup
 training_args = TrainingArguments(
     output_dir="./bert-allsides-bias-detector",
     evaluation_strategy="epoch",
@@ -44,16 +75,33 @@ training_args = TrainingArguments(
     num_train_epochs=3,
     weight_decay=0.01,
     logging_dir="./logs",
-    logging_steps=500,
 )
 trainer = Trainer(
     model=model,
     args=training_args,
     train_dataset=tokenized_dataset["train"],
-    eval_dataset=tokenized_dataset["test"],
     tokenizer=tokenizer,
 )
 # Train
-#trainer.train()

+import os
+import json
+import pandas as pd
+from datasets import Dataset, DatasetDict
+from transformers import (
+    AutoTokenizer,
+    AutoModelForSequenceClassification,
+    TrainingArguments,
+    Trainer
+)
 import torch
+# Load all JSON articles
+json_dir = "../Article-Bias-Prediction/data/jsons"
+id_to_article = {}
+print("Loading JSON articles...")
+for filename in os.listdir(json_dir):
+    with open(os.path.join(json_dir, filename), 'r', encoding='utf-8') as f:
+        data = json.load(f)
+        if data.get("content"):  # only use if content is not empty
+            id_to_article[data["ID"]] = data
+# Load TSV split and match to JSON
+def load_split(split_path):
+    df = pd.read_csv(split_path, sep="\t", header=None, names=["id", "label"])
+    articles = []
+    for _, row in df.iterrows():
+        article = id_to_article.get(row["id"])
+        if article:
+            articles.append({
+                "text": article["content"],
+                "label": int(row["label"])  # <-- convert label to int
+            })
+    return Dataset.from_pandas(pd.DataFrame(articles))
+print("Loading splits and building dataset...")
+train_ds = load_split("../Article-Bias-Prediction/data/splits/random/train.tsv")
+val_ds = load_split("../Article-Bias-Prediction/data/splits/random/valid.tsv")
+test_ds = load_split("../Article-Bias-Prediction/data/splits/random/test.tsv")
+dataset = DatasetDict({
+    "train": train_ds,
+    "validation": val_ds,
+    "test": test_ds
+})
+# Tokenize
+print("Tokenizing...")
+tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
 def tokenize_function(example):
     return tokenizer(example["text"], padding="max_length", truncation=True, max_length=512)
 tokenized_dataset = dataset.map(tokenize_function, batched=True)
 tokenized_dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
+# Load model
+model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=3)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+print("Model loaded and moved to device:", device)
+print(tokenized_dataset["train"][0]["label"], type(tokenized_dataset["train"][0]["label"]))
+# Training config
 training_args = TrainingArguments(
     output_dir="./bert-allsides-bias-detector",
     evaluation_strategy="epoch",
     num_train_epochs=3,
     weight_decay=0.01,
     logging_dir="./logs",
+    logging_steps=100,
+    load_best_model_at_end=True,
+    metric_for_best_model="accuracy",
 )
+# Accuracy function
+def compute_metrics(eval_pred):
+    predictions, labels = eval_pred
+    preds = predictions.argmax(axis=1)
+    acc = (preds == labels).astype(float).mean().item()
+    return {"accuracy": acc}
+# Trainer
 trainer = Trainer(
     model=model,
     args=training_args,
     train_dataset=tokenized_dataset["train"],
+    eval_dataset=tokenized_dataset["validation"],
     tokenizer=tokenizer,
+    compute_metrics=compute_metrics
 )
 # Train
+print("Training...")
+trainer.train()
+# Evaluate
+print("Evaluating on test set...")
+results = trainer.evaluate(eval_dataset=tokenized_dataset["test"])
+print("Test Results:", results)

training/cleanallsidesdata.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import os, json
+import pandas as pd
+from datasets import Dataset, DatasetDict
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+import torch
+#load json into a dictionary
+json_dir = "../Article-Bias-Prediction/data/jsons"
+id_to_article = {}
+for filename in os.listdir(json_dir):
+    with open(os.path.join(json_dir, filename), 'r', encoding='utf-8') as f:
+        data = json.load(f)
+        id_to_article[data["ID"]] = data
+#load TSV splits
+def load_split(split_path):
+    df = pd.read_csv(split_path, sep="\t", header=None, names=["id", "label"])
+    articles = []
+    for _, row in df.iterrows():
+        article = id_to_article.get(row["id"])
+        if article and article["content"]:  # Skip empty ones
+            articles.append({
+                "text": article["content"],
+                "label": row["label"]
+            })
+    return Dataset.from_pandas(pd.DataFrame(articles))
+train = load_split("../Article-Bias-Prediction/data/splits/random/train.tsv")
+valid = load_split("../Article-Bias-Prediction/data/splits/random/valid.tsv")
+test = load_split("../Article-Bias-Prediction/data/splits/random/test.tsv")
+dataset = DatasetDict({
+    "train": train,
+    "test": test,
+    "validation": valid
+})