submission-frugal-ai-challenge

Sleeping

App Files Files Community

clemdesr commited on Jan 14

Commit

64079b0

1 Parent(s): b42f4fc

feat overfitted random forest

Browse files

Files changed (3) hide show

models/random_forest_model.pkl +3 -0
requirements.txt +2 -1
tasks/text.py +14 -43

models/random_forest_model.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92976e94be7fe8d676e038f85d4ba89082f3a6455d78771720c8ba9e24b1cfa7
+size 12571609

requirements.txt CHANGED Viewed

@@ -11,4 +11,5 @@ librosa==0.10.2.post1
 llvmlite == 0.43.0
 transformers
 torch
-transformers[torch]

 llvmlite == 0.43.0
 transformers
 torch
+transformers[torch]
+sentence-transformers

tasks/text.py CHANGED Viewed

@@ -59,52 +59,23 @@ async def evaluate_text(request: TextEvaluationRequest):
     # Make random predictions (placeholder for actual model inference)
     true_labels = test_dataset["label"]
-    # import torch
-    # from transformers import (
-    #     AutoModelForSequenceClassification,
-    #     AutoTokenizer,
-    #     Trainer,
-    #     TrainingArguments,
-    # )
-    # model_name = "clementdesroches/distilbert_climate_ai"
-    # tokenizer = AutoTokenizer.from_pretrained(model_name)
-    # model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=len(LABEL_MAPPING))
-    # # Tokenize the datasets
-    # def tokenize_function(examples):
-    #     return tokenizer(examples["quote"], padding="max_length", truncation=True)
-    # tokenized_test_dataset = test_dataset.map(tokenize_function, batched=True)
-    # # Set training arguments
-    # training_args = TrainingArguments(
-    #     output_dir="./bert_classification_results",
-    #     evaluation_strategy="epoch",
-    #     save_strategy="epoch",
-    #     learning_rate=2e-5,
-    #     per_device_train_batch_size=8,
-    #     per_device_eval_batch_size=8,
-    #     num_train_epochs=30,
-    #     weight_decay=0.01,
-    #     load_best_model_at_end=True,
-    # )
-    # # Initialize the Trainer
-    # trainer = Trainer(
-    #     model=model,
-    #     args=training_args,
-    #     eval_dataset=tokenized_test_dataset,
-    #     tokenizer=tokenizer,
-    # )
-    # import numpy as np
-    # preds = trainer.predict(tokenized_test_dataset)
     # predictions = np.array([np.argmax(x) for x in preds[0]])
-    predictions = [random.randint(0, 7) for _ in range(len(true_labels))]
     # --------------------------------------------------------------------------------------------
     # YOUR MODEL INFERENCE STOPS HERE

     # Make random predictions (placeholder for actual model inference)
     true_labels = test_dataset["label"]
+    import joblib
+    from sentence_transformers import SentenceTransformer
+    embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
+    # Convert "quote" key into embeddings
+    def embed_quote(example):
+        example["quote_embedding"] = embedding_model.encode(example["quote"]).tolist()
+        return example
+    test_dataset = test_dataset.map(embed_quote, batched=True)
+    # Load the model from the file
+    rf_loaded = joblib.load("models/random_forest_model.pkl")
+    import numpy as np
     # predictions = np.array([np.argmax(x) for x in preds[0]])
+    predictions = rf_loaded.predict(np.array(test_dataset["quote_embedding"]))
     # --------------------------------------------------------------------------------------------
     # YOUR MODEL INFERENCE STOPS HERE