Spaces:

kasim90
/

GradioMistral

Runtime error

App Files Files Community

kasim90 commited on 14 days ago

Commit

c139ec7

verified ·

1 Parent(s): 536a6d6

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -55

app.py CHANGED Viewed

@@ -1,19 +1,13 @@
-import os
 import torch
-import gradio as gr
 import spaces
 from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
 from peft import LoraConfig, get_peft_model
-from datasets import load_dataset, Dataset
-from huggingface_hub import notebook_login, HfApi
 # === 1️⃣ MODEL VE TOKENIZER YÜKLEME ===
 MODEL_NAME = "mistralai/Mistral-7B-v0.1"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-device = "cuda" if torch.cuda.is_available() else "cpu"
-model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.float32).to(device)
 # === 2️⃣ LoRA AYARLARI ===
 lora_config = LoraConfig(
     r=8,
@@ -22,35 +16,19 @@ lora_config = LoraConfig(
     bias="none",
     target_modules=["q_proj", "v_proj"],
 )
-model = get_peft_model(model, lora_config)
 # === 3️⃣ VERİ SETİ ===
-DATASET_PATH = "/home/user/app/oscar_tr.parquet"
-from datasets import Dataset
-DATASET_PATH = "/home/user/app/oscar_tr.parquet"
-if os.path.exists(DATASET_PATH):
-    print("📂 Kaydedilmiş dataset bulundu, yükleniyor...")
-    dataset = Dataset.from_parquet(DATASET_PATH)
-else:
-    print("🌍 Veri seti indiriliyor ve kaydediliyor...")
-    raw_dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", streaming=True, trust_remote_code=True)
-    dataset_list = list(raw_dataset.take(10000))  # İlk 10.000 veriyi listeye al
-    dataset = Dataset.from_list(dataset_list)  # Listeyi Dataset formatına çevir
-    dataset.to_parquet(DATASET_PATH)  # İlk çalışmada kaydet
-# === 4️⃣ TOKENLEŞTİRME ===
 def tokenize_function(examples):
     return tokenizer(examples["text"], truncation=True, max_length=512)
 tokenized_datasets = dataset.map(tokenize_function, batched=True)
-# === 5️⃣ EĞİTİM AYARLARI ===
 training_args = TrainingArguments(
-    output_dir="./mistral_lora_cpu",
     per_device_train_batch_size=1,
     gradient_accumulation_steps=16,
     learning_rate=5e-4,
@@ -62,9 +40,13 @@ training_args = TrainingArguments(
     optim="adamw_torch",
 )
-# === 6️⃣ GPU İLE EĞİTİM BAŞLATMA ===
 @spaces.GPU
 def train_model():
     trainer = Trainer(
         model=model,
         args=training_args,
@@ -73,32 +55,6 @@ def train_model():
     trainer.train()
     return "✅ Model Eğitimi Tamamlandı!"
-# === 7️⃣ MODELİ HUGGING FACE HUB'A YÜKLEME ===
-def upload_model():
-    notebook_login()  # Hugging Face hesabına giriş yap
-    api = HfApi()
-    api.upload_folder(
-        folder_path="./mistral_lora_cpu",
-        repo_id="kullanici_adin/mistral-lora-modeli",
-        repo_type="model",
-    )
-    return "✅ Model Hugging Face Hub'a Yüklendi!"
-# === 8️⃣ GRADIO ARAYÜZÜ ===
-def generate_text(prompt):
-    inputs = tokenizer(prompt, return_tensors="pt").to(device)
-    output = model.generate(**inputs, max_length=100)
-    return tokenizer.decode(output[0], skip_special_tokens=True)
-iface = gr.Interface(
-    fn=generate_text,
-    inputs=gr.Textbox(lines=2, placeholder="Buraya bir şeyler yaz..."),
-    outputs="text",
-    live=True
-)
-# === 9️⃣ BAŞLATMA ===
 if __name__ == "__main__":
     train_model()  # Eğitimi başlat
-    upload_model()  # Modeli Hugging Face Hub'a yükle
-    iface.launch()  # Gradio UI başlat

 import torch
 import spaces
 from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
 from peft import LoraConfig, get_peft_model
+from datasets import load_dataset
 # === 1️⃣ MODEL VE TOKENIZER YÜKLEME ===
 MODEL_NAME = "mistralai/Mistral-7B-v0.1"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 # === 2️⃣ LoRA AYARLARI ===
 lora_config = LoraConfig(
     r=8,
     bias="none",
     target_modules=["q_proj", "v_proj"],
 )
 # === 3️⃣ VERİ SETİ ===
+dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", streaming=True, trust_remote_code=True)
+dataset = dataset.shuffle(seed=42).take(10000)
 def tokenize_function(examples):
     return tokenizer(examples["text"], truncation=True, max_length=512)
 tokenized_datasets = dataset.map(tokenize_function, batched=True)
+# === 4️⃣ EĞİTİM AYARLARI ===
 training_args = TrainingArguments(
+    output_dir="./mistral_lora",
     per_device_train_batch_size=1,
     gradient_accumulation_steps=16,
     learning_rate=5e-4,
     optim="adamw_torch",
 )
+# === 5️⃣ GPU BAŞLATMA VE EĞİTİM ===
 @spaces.GPU
 def train_model():
+    device = "cuda" if torch.cuda.is_available() else "cpu"  # CUDA'yı sadece burada başlat!
+    model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.float32).to(device)
+    model = get_peft_model(model, lora_config)
     trainer = Trainer(
         model=model,
         args=training_args,
     trainer.train()
     return "✅ Model Eğitimi Tamamlandı!"
+# === 6️⃣ BAŞLATMA ===
 if __name__ == "__main__":
     train_model()  # Eğitimi başlat