Spaces:

seemapatil
/

text_tagging

Build error

seemapatil commited on Jul 4, 2023

Commit

1f75f58

1 Parent(s): 8fdf77c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,34 +1,36 @@
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments
 from datasets import load_dataset
-import json
 # Read requirements.txt file
 with open('requirements.txt', 'r') as req_file:
-        requirements = req_file.read().splitlines()
-# Load and preprocess the IMDB dataset in JSON format
-with open('IMDB Dataset.json', 'r') as json_file:
-        imdb_data = json.load(json_file)
-# Select only 30 words from the dataset
 preprocessed_data = []
-for entry in imdb_data:
-        text = entry['text']
-        words = text.split()[:30]
         preprocessed_entry = {
-        'text': ' '.join(words),
-        'label': entry['label']
-    }
         preprocessed_data.append(preprocessed_entry)
 # Convert the preprocessed data to a dataset
-dataset = load_dataset('json', data=preprocessed_data)
 # Tokenize the dataset
 tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
 def tokenize_function(examples):
-        return tokenizer(examples["text"], padding="max_length", truncation=True)
 tokenized_datasets = dataset.map(tokenize_function, batched=True)

 from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments
 from datasets import load_dataset
+import csv
 # Read requirements.txt file
 with open('requirements.txt', 'r') as req_file:
+    requirements = req_file.read().splitlines()
+# Install the required libraries
+for requirement in requirements:
+    # Use your preferred method to install the libraries
+    # e.g., subprocess, pip, etc.
+# Load and preprocess the IMDB dataset from CSV
 preprocessed_data = []
+with open('IMDB Dataset.csv', 'r') as csv_file:
+    csv_reader = csv.DictReader(csv_file)
+    for row in csv_reader:
+        text = row['review']
+        label = row['sentiment']
         preprocessed_entry = {
+            'text': text,
+            'label': label
+        }
         preprocessed_data.append(preprocessed_entry)
 # Convert the preprocessed data to a dataset
+dataset = load_dataset('csv', data=preprocessed_data, delimiter=',')
 # Tokenize the dataset
 tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-560m")
 def tokenize_function(examples):
+    return tokenizer(examples["text"], padding="max_length", truncation=True)
 tokenized_datasets = dataset.map(tokenize_function, batched=True)