Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
@@ -27,14 +27,20 @@ model = get_peft_model(model, lora_config)
|
|
27 |
# === 3️⃣ VERİ SETİ ===
|
28 |
DATASET_PATH = "/home/user/app/oscar_tr.parquet"
|
29 |
|
|
|
|
|
|
|
|
|
30 |
if os.path.exists(DATASET_PATH):
|
31 |
print("📂 Kaydedilmiş dataset bulundu, yükleniyor...")
|
32 |
dataset = Dataset.from_parquet(DATASET_PATH)
|
33 |
else:
|
34 |
print("🌍 Veri seti indiriliyor ve kaydediliyor...")
|
35 |
-
|
36 |
-
|
37 |
-
dataset.
|
|
|
|
|
38 |
|
39 |
# === 4️⃣ TOKENLEŞTİRME ===
|
40 |
def tokenize_function(examples):
|
|
|
27 |
# === 3️⃣ VERİ SETİ ===
|
28 |
DATASET_PATH = "/home/user/app/oscar_tr.parquet"
|
29 |
|
30 |
+
from datasets import Dataset
|
31 |
+
|
32 |
+
DATASET_PATH = "/home/user/app/oscar_tr.parquet"
|
33 |
+
|
34 |
if os.path.exists(DATASET_PATH):
|
35 |
print("📂 Kaydedilmiş dataset bulundu, yükleniyor...")
|
36 |
dataset = Dataset.from_parquet(DATASET_PATH)
|
37 |
else:
|
38 |
print("🌍 Veri seti indiriliyor ve kaydediliyor...")
|
39 |
+
raw_dataset = load_dataset("oscar", "unshuffled_deduplicated_tr", split="train", streaming=True, trust_remote_code=True)
|
40 |
+
dataset_list = list(raw_dataset.take(10000)) # İlk 10.000 veriyi listeye al
|
41 |
+
dataset = Dataset.from_list(dataset_list) # Listeyi Dataset formatına çevir
|
42 |
+
dataset.to_parquet(DATASET_PATH) # İlk çalışmada kaydet
|
43 |
+
|
44 |
|
45 |
# === 4️⃣ TOKENLEŞTİRME ===
|
46 |
def tokenize_function(examples):
|