Spaces:

norygano
/

causev

Running

App Files Files Community

norygano commited on Oct 27, 2024

Commit

96be409

0 Parent(s):

Initialize repository with .gitattributes, README.md, and causenv.py

Browse files

Files changed (3) hide show

.gitattributes +35 -0
README.md +13 -0
causenv.py +82 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Causenv
+emoji: 📈
+colorFrom: pink
+colorTo: red
+sdk: streamlit
+sdk_version: 1.39.0
+app_file: app.py
+pinned: false
+short_description: Extracts causes of explicit causality attribution.
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

causenv.py ADDED Viewed

	@@ -0,0 +1,82 @@

+import streamlit as st
+import torch
+from transformers import AutoTokenizer, AutoModelForTokenClassification
+# Load the trained model and tokenizer
+model_directory = "norygano/causalBERT"
+tokenizer = AutoTokenizer.from_pretrained(model_directory, add_prefix_space=True)
+model = AutoModelForTokenClassification.from_pretrained(model_directory)
+# Set model to evaluation mode
+model.eval()
+# Define the label map
+label_map = {0: "O", 1: "B-INDICATOR", 2: "I-INDICATOR", 3: "B-CAUSE", 4: "I-CAUSE"}
+# Streamlit App
+st.title("Attribution of Causality")
+st.write("Tags indicators and causes. GER only (for now)")
+# Text input for sentences
+sentences_input = st.text_area("Sentences (one per line)", "\n".join([
+    "Laub könnte verantwortlich für den Klimawandel sein.",
+    "Nach dem Verursachergrundsatz spielt das keine Rolle.",
+    #"Backenzähne verursachen Artensterben.",
+    "Fußball führt zu Waldschäden.",
+    #"Das hängt mit vielen Faktoren zusammen.",
+    "Haustüren tragen zum Betonsterben bei.",
+    #"Autos stehen im verdacht, Bienensterben auszulösen.",
+    #"Lösen Straßen Waldsterben aus?"
+]))
+# Split the input text into individual sentences
+sentences = [sentence.strip() for sentence in sentences_input.splitlines() if sentence.strip()]
+# Button to run the model
+if st.button("Analyze Sentences"):
+    for sentence in sentences:
+        # Tokenize the sentence
+        inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)
+        # Run inference
+        with torch.no_grad():
+            outputs = model(**inputs)
+        # Get the logits and predicted label IDs
+        logits = outputs.logits
+        predicted_label_ids = torch.argmax(logits, dim=2)
+        # Convert token IDs back to tokens
+        tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])
+        # Map label IDs to human-readable labels
+        predicted_labels = [label_map[label_id.item()] for label_id in predicted_label_ids[0]]
+        # Reconstruct words from subwords
+        reconstructed_tokens = []
+        reconstructed_labels = []
+        for token, label in zip(tokens, predicted_labels):
+            if token in ['[CLS]', '[SEP]']:  # Exclude special tokens
+                continue
+            if token.startswith("##"):
+                reconstructed_tokens[-1] += token[2:]  # Append subword
+            else:
+                reconstructed_tokens.append(token)
+                reconstructed_labels.append(label)
+        # Format output with square brackets
+        formatted_output = []
+        for token, label in zip(reconstructed_tokens, reconstructed_labels):
+            if label != "O":
+                # Use square brackets around label names
+                formatted_output.append(f"[{label}] <b>{token}</b> [/{label}]")
+            else:
+                formatted_output.append(token)
+        # Join tokens for display
+        output_sentence = " ".join(formatted_output)
+        # Display formatted sentence with Streamlit
+        st.write(f"**Original Sentence:** {sentence}")
+        st.markdown(f"**Labeled Output:** {output_sentence}", unsafe_allow_html=True)
+        st.write("---")