Spaces:

gnosticdev
/

botboss2

Runtime error

gnosticdev commited on Jan 11

Commit

fa325fd

verified ·

1 Parent(s): 3f3b45a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,15 +9,16 @@ model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-large")
 # Cargar tu conjunto de datos
 try:
-    dataset = load_dataset('csv', data_files='alpaca.csv')
     print("Conjunto de datos cargado correctamente.")
 except Exception as e:
     print(f"Error al cargar el conjunto de datos: {e}")
 # Preprocesar los datos
 def preprocess_function(examples):
-    inputs = [ex for ex in examples['input_text']]
-    outputs = [ex for ex in examples['response_text']]
     model_inputs = tokenizer(inputs, max_length=512, truncation=True)
     # Configurar las etiquetas
@@ -27,6 +28,7 @@ def preprocess_function(examples):
     model_inputs["labels"] = labels["input_ids"]
     return model_inputs
 tokenized_dataset = dataset.map(preprocess_function, batched=True)
 # Configurar los argumentos de entrenamiento
@@ -79,4 +81,3 @@ def chat_with_bot(user_input):
 # Crear la interfaz de Gradio
 iface = gr.Interface(fn=chat_with_bot, inputs="text", outputs="text", title="Chatbot Entrenado")
 iface.launch()

 # Cargar tu conjunto de datos
 try:
+    dataset = load_dataset('csv', data_files='alpaca.csv', delimiter='\t')  # Especificar el delimitador como tabulación
     print("Conjunto de datos cargado correctamente.")
+    print("Columnas disponibles:", dataset['train'].column_names)  # Imprimir nombres de columnas
 except Exception as e:
     print(f"Error al cargar el conjunto de datos: {e}")
 # Preprocesar los datos
 def preprocess_function(examples):
+    inputs = [ex['instruction'] for ex in examples]  # Usar solo la columna de instruction
+    outputs = [ex['output'] for ex in examples]  # Usar solo la columna de output
     model_inputs = tokenizer(inputs, max_length=512, truncation=True)
     # Configurar las etiquetas
     model_inputs["labels"] = labels["input_ids"]
     return model_inputs
+# Mapear el conjunto de datos
 tokenized_dataset = dataset.map(preprocess_function, batched=True)
 # Configurar los argumentos de entrenamiento
 # Crear la interfaz de Gradio
 iface = gr.Interface(fn=chat_with_bot, inputs="text", outputs="text", title="Chatbot Entrenado")
 iface.launch()