kasim90 commited on
Commit
c89668a
·
verified ·
1 Parent(s): 9cb9d28

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +5 -5
app.py CHANGED
@@ -9,8 +9,8 @@ import os
9
  MODEL_NAME = "mistralai/Mistral-7B-v0.1"
10
  tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
11
 
12
- # === 2️⃣ CPU OPTİMİZASYONU ===
13
- torch_dtype = torch.float32 # CPU için float32 en iyisi
14
  device = "cuda" if torch.cuda.is_available() else "cpu"
15
  model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
16
 
@@ -24,7 +24,7 @@ lora_config = LoraConfig(
24
  )
25
  model = get_peft_model(model, lora_config)
26
 
27
- # === 4️⃣ VERİ SETİ (OPTİMİZE) ===
28
  DATASET_PATH = "oscar_tr.parquet"
29
 
30
  if os.path.exists(DATASET_PATH):
@@ -33,8 +33,8 @@ if os.path.exists(DATASET_PATH):
33
  dataset = Dataset.from_parquet(DATASET_PATH)
34
  else:
35
  print("🌍 Veri seti indiriliyor ve kaydediliyor...")
36
- dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train")
37
- dataset = dataset.shuffle(seed=42).select(range(10000)) # 10K veri ile sınırladık
38
  dataset.to_parquet(DATASET_PATH) # İlk çalışmada veriyi kaydediyoruz
39
 
40
  # === 5️⃣ TOKENLEŞTİRME (OPTİMİZE) ===
 
9
  MODEL_NAME = "mistralai/Mistral-7B-v0.1"
10
  tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
11
 
12
+ # === 2️⃣ CPU/GPU OPTİMİZASYONU ===
13
+ torch_dtype = torch.float32 # CPU için en iyi seçenek
14
  device = "cuda" if torch.cuda.is_available() else "cpu"
15
  model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
16
 
 
24
  )
25
  model = get_peft_model(model, lora_config)
26
 
27
+ # === 4️⃣ VERİ SETİ YÜKLEME VE CACHE (OPTİMİZE) ===
28
  DATASET_PATH = "oscar_tr.parquet"
29
 
30
  if os.path.exists(DATASET_PATH):
 
33
  dataset = Dataset.from_parquet(DATASET_PATH)
34
  else:
35
  print("🌍 Veri seti indiriliyor ve kaydediliyor...")
36
+ dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", trust_remote_code=True)
37
+ dataset = dataset.shuffle(seed=42).select(range(10000)) # Küçük subset alıyoruz
38
  dataset.to_parquet(DATASET_PATH) # İlk çalışmada veriyi kaydediyoruz
39
 
40
  # === 5️⃣ TOKENLEŞTİRME (OPTİMİZE) ===