Spaces:

fschwartzer
/

text_generation_with_feedback

Runtime error

fschwartzer commited on Jul 23, 2024

Commit

82a021e

verified ·

1 Parent(s): be2fac2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,24 +6,26 @@ from transformers import GPT2Tokenizer, GPT2LMHeadModel
 tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
 model = GPT2LMHeadModel.from_pretrained('gpt2')
-# Dados iniciais
-data = {
-    'Nome': ['Alice', 'Bob', 'Charlie'],
-    'Idade': [25, 30, 35],
-    'Cidade': ['Nova York', 'Los Angeles', 'Chicago'],
-    'Feedback': [None, None, None]
-}
-#df = pd.DataFrame(data)
 df = pd.read_csv('anomalies.csv')
 df['Feedback'] = None
 # Função para responder perguntas com GPT-2
 def answer_question_with_gpt(question):
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
-    prompt = f"Considerando os dados, em que 'ds' é datetime, 'real' é valor monetário e 'Group' é o grupo ao qual pretence o valor: {df.to_string(index=False)}. Pergunta: {question} Resposta:"
     inputs = tokenizer(prompt, return_tensors='pt', padding='max_length', truncation=True, max_length=512)
     attention_mask = inputs['attention_mask']
     input_ids = inputs['input_ids']

 tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
 model = GPT2LMHeadModel.from_pretrained('gpt2')
 df = pd.read_csv('anomalies.csv')
 df['Feedback'] = None
+# Preprocessing steps
+df['ds'] = pd.to_datetime(df['ds']).dt.strftime('%Y-%m-%d')  # Format the datetime values
+df['real'] = df['real'].apply(lambda x: f"{x:.2f}")  # Format the float values to two decimal places
+# Convert each row into a structured natural language sentence
+def tokenize_row(row):
+    return f"On {row['ds']}, the expense in the group '{row['Group']}' was ${row['real']}."
+# Apply the tokenization function to each row
+df['tokenized'] = df.apply(tokenize_row, axis=1)
 # Função para responder perguntas com GPT-2
 def answer_question_with_gpt(question):
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
+    prompt = f"Considerando as seguintes sentenças: {df['tokenized'].to_string(index=False)}. Pergunta: {question} Resposta:"
     inputs = tokenizer(prompt, return_tensors='pt', padding='max_length', truncation=True, max_length=512)
     attention_mask = inputs['attention_mask']
     input_ids = inputs['input_ids']