Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
@@ -9,8 +9,8 @@ import os
|
|
9 |
MODEL_NAME = "mistralai/Mistral-7B-v0.1"
|
10 |
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
|
11 |
|
12 |
-
# === 2️⃣ CPU OPTİMİZASYONU ===
|
13 |
-
torch_dtype = torch.float32 # CPU için
|
14 |
device = "cuda" if torch.cuda.is_available() else "cpu"
|
15 |
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
|
16 |
|
@@ -24,7 +24,7 @@ lora_config = LoraConfig(
|
|
24 |
)
|
25 |
model = get_peft_model(model, lora_config)
|
26 |
|
27 |
-
# === 4️⃣ VERİ SETİ (OPTİMİZE) ===
|
28 |
DATASET_PATH = "oscar_tr.parquet"
|
29 |
|
30 |
if os.path.exists(DATASET_PATH):
|
@@ -33,8 +33,8 @@ if os.path.exists(DATASET_PATH):
|
|
33 |
dataset = Dataset.from_parquet(DATASET_PATH)
|
34 |
else:
|
35 |
print("🌍 Veri seti indiriliyor ve kaydediliyor...")
|
36 |
-
dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train")
|
37 |
-
dataset = dataset.shuffle(seed=42).select(range(10000)) #
|
38 |
dataset.to_parquet(DATASET_PATH) # İlk çalışmada veriyi kaydediyoruz
|
39 |
|
40 |
# === 5️⃣ TOKENLEŞTİRME (OPTİMİZE) ===
|
|
|
9 |
MODEL_NAME = "mistralai/Mistral-7B-v0.1"
|
10 |
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
|
11 |
|
12 |
+
# === 2️⃣ CPU/GPU OPTİMİZASYONU ===
|
13 |
+
torch_dtype = torch.float32 # CPU için en iyi seçenek
|
14 |
device = "cuda" if torch.cuda.is_available() else "cpu"
|
15 |
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
|
16 |
|
|
|
24 |
)
|
25 |
model = get_peft_model(model, lora_config)
|
26 |
|
27 |
+
# === 4️⃣ VERİ SETİ YÜKLEME VE CACHE (OPTİMİZE) ===
|
28 |
DATASET_PATH = "oscar_tr.parquet"
|
29 |
|
30 |
if os.path.exists(DATASET_PATH):
|
|
|
33 |
dataset = Dataset.from_parquet(DATASET_PATH)
|
34 |
else:
|
35 |
print("🌍 Veri seti indiriliyor ve kaydediliyor...")
|
36 |
+
dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", trust_remote_code=True)
|
37 |
+
dataset = dataset.shuffle(seed=42).select(range(10000)) # Küçük subset alıyoruz
|
38 |
dataset.to_parquet(DATASET_PATH) # İlk çalışmada veriyi kaydediyoruz
|
39 |
|
40 |
# === 5️⃣ TOKENLEŞTİRME (OPTİMİZE) ===
|