kasim90 commited on
Commit
536a6d6
·
verified ·
1 Parent(s): 0f0fcd5

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +9 -3
app.py CHANGED
@@ -27,14 +27,20 @@ model = get_peft_model(model, lora_config)
27
  # === 3️⃣ VERİ SETİ ===
28
  DATASET_PATH = "/home/user/app/oscar_tr.parquet"
29
 
 
 
 
 
30
  if os.path.exists(DATASET_PATH):
31
  print("📂 Kaydedilmiş dataset bulundu, yükleniyor...")
32
  dataset = Dataset.from_parquet(DATASET_PATH)
33
  else:
34
  print("🌍 Veri seti indiriliyor ve kaydediliyor...")
35
- dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", streaming=True, trust_remote_code=True)
36
- dataset = dataset.shuffle(seed=42).take(10000) # Küçük subset
37
- dataset.to_parquet(DATASET_PATH) # İlk çalışmada kaydediyoruz
 
 
38
 
39
  # === 4️⃣ TOKENLEŞTİRME ===
40
  def tokenize_function(examples):
 
27
  # === 3️⃣ VERİ SETİ ===
28
  DATASET_PATH = "/home/user/app/oscar_tr.parquet"
29
 
30
+ from datasets import Dataset
31
+
32
+ DATASET_PATH = "/home/user/app/oscar_tr.parquet"
33
+
34
  if os.path.exists(DATASET_PATH):
35
  print("📂 Kaydedilmiş dataset bulundu, yükleniyor...")
36
  dataset = Dataset.from_parquet(DATASET_PATH)
37
  else:
38
  print("🌍 Veri seti indiriliyor ve kaydediliyor...")
39
+ raw_dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", streaming=True, trust_remote_code=True)
40
+ dataset_list = list(raw_dataset.take(10000)) # İlk 10.000 veriyi listeye al
41
+ dataset = Dataset.from_list(dataset_list) # Listeyi Dataset formatına çevir
42
+ dataset.to_parquet(DATASET_PATH) # İlk çalışmada kaydet
43
+
44
 
45
  # === 4️⃣ TOKENLEŞTİRME ===
46
  def tokenize_function(examples):