Spaces:

kasim90
/

GradioMistral

Runtime error

kasim90 commited on 22 days ago

Commit

c89668a

verified ·

1 Parent(s): 9cb9d28

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,8 +9,8 @@ import os
 MODEL_NAME = "mistralai/Mistral-7B-v0.1"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-# === 2️⃣ CPU OPTİMİZASYONU ===
-torch_dtype = torch.float32  # CPU için float32 en iyisi
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
@@ -24,7 +24,7 @@ lora_config = LoraConfig(
 )
 model = get_peft_model(model, lora_config)
-# === 4️⃣ VERİ SETİ (OPTİMİZE) ===
 DATASET_PATH = "oscar_tr.parquet"
 if os.path.exists(DATASET_PATH):
@@ -33,8 +33,8 @@ if os.path.exists(DATASET_PATH):
     dataset = Dataset.from_parquet(DATASET_PATH)
 else:
     print("🌍 Veri seti indiriliyor ve kaydediliyor...")
-    dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train")
-    dataset = dataset.shuffle(seed=42).select(range(10000))  # 10K veri ile sınırladık
     dataset.to_parquet(DATASET_PATH)  # İlk çalışmada veriyi kaydediyoruz
 # === 5️⃣ TOKENLEŞTİRME (OPTİMİZE) ===

 MODEL_NAME = "mistralai/Mistral-7B-v0.1"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+# === 2️⃣ CPU/GPU OPTİMİZASYONU ===
+torch_dtype = torch.float32  # CPU için en iyi seçenek
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
 )
 model = get_peft_model(model, lora_config)
+# === 4️⃣ VERİ SETİ YÜKLEME VE CACHE (OPTİMİZE) ===
 DATASET_PATH = "oscar_tr.parquet"
 if os.path.exists(DATASET_PATH):
     dataset = Dataset.from_parquet(DATASET_PATH)
 else:
     print("🌍 Veri seti indiriliyor ve kaydediliyor...")
+    dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", trust_remote_code=True)
+    dataset = dataset.shuffle(seed=42).select(range(10000))  # Küçük subset alıyoruz
     dataset.to_parquet(DATASET_PATH)  # İlk çalışmada veriyi kaydediyoruz
 # === 5️⃣ TOKENLEŞTİRME (OPTİMİZE) ===