csocsci
/

xlm-roberta-large-binary-cs-iib

@@ -3,25 +3,23 @@
 # Doc / guide: https://huggingface.co/docs/hub/model-cards
 license: mit
 language:
-- multilingual
 ---
 # Model Card for xlm-roberta-large-binary-cs-iib
 <!-- Provide a quick summary of what the model is/does. -->
-This model is fine-tuned for text classification of Supportive Interactions in Instant Messenger dialogs of Adolescents. The classification is binary and the model outputs probablities for labels> 0,1: Supportive Interactions present or not.
-## Model Details
-### Model Description
-Fine-tuned on the machine-translated version of a dataset of Instant Messenger dialogs of Adolescents originally in the Czech language.
 - **Developed by:** Anonymous
-- **Language(s):** multi-lingual
-- **Finetuned from:** xlm-roberta-large
-### Model Sources
 <!-- Provide the basic links for the model. -->
@@ -32,12 +30,41 @@ Fine-tuned on the machine-translated version of a dataset of Instant Messenger d
 Here is how to use this model to classify a context-window of a dialogue:
 ```python
-from transformers import AutoTokenizer, AutoModel
-tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
-model = AutoModelForSequenceClassification.from_pretrained("chi2024/xlm-roberta-large-binary-cs-iib")
-# prepare input
-utterances = "Hi, how are you?;I am fine, how about you?;Thanks for asking."
-encoded_input = tokenizer(text, return_tensors='pt')
-# forward pass
-output = model(**encoded_input)
-```

 # Doc / guide: https://huggingface.co/docs/hub/model-cards
 license: mit
 language:
+- cs
 ---
 # Model Card for xlm-roberta-large-binary-cs-iib
 <!-- Provide a quick summary of what the model is/does. -->
+This model is fine-tuned for binary text classification of Supportive Interactions in Instant Messenger dialogs of Adolescents in Czech.
+## Model Description
+The model was fine-tuned on a Czech dataset of Instant Messenger dialogs of Adolescents. The classification is binary and the model outputs probablities for labels {0,1}: Supportive Interactions present or not.
 - **Developed by:** Anonymous
+- **Language(s):** cs
+- **Finetuned from:** xml-roberta-large
+## Model Sources
 <!-- Provide the basic links for the model. -->
 Here is how to use this model to classify a context-window of a dialogue:
 ```python
+import numpy as np
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+# Prepare input texts. This model is pretrained and fine-tuned for Czech
+test_texts = ['Utterance1;Utterance2;Utterance3']
+# Load the model and tokenizer
+model = AutoModelForSequenceClassification.from_pretrained(
+    'chi2024/xlm-roberta-large-binary-cs-iib', num_labels=2).to("cuda")
+tokenizer = AutoTokenizer.from_pretrained(
+    'chi2024/xlm-roberta-large-binary-cs-iib',
+    use_fast=False, truncation_side='left')
+assert tokenizer.truncation_side == 'left'
+# Define helper functions
+def get_probs(text, tokenizer, model):
+    inputs = tokenizer(text, padding=True, truncation=True, max_length=256,
+                       return_tensors="pt").to("cuda")
+    outputs = model(**inputs)
+    return outputs[0].softmax(1)
+def preds2class(probs, threshold=0.5):
+    pclasses = np.zeros(probs.shape)
+    pclasses[np.where(probs >= threshold)] = 1
+    return pclasses.argmax(-1)
+def print_predictions(texts):
+    probabilities = [get_probs(
+        texts[i], tokenizer, model).cpu().detach().numpy()[0]
+                     for i in range(len(texts))]
+    predicted_classes = preds2class(np.array(probabilities))
+    for c, p in zip(predicted_classes, probabilities):
+        print(f'{c}: {p}')
+# Run the prediction
+print_predictions(test_texts)
+```