Spaces:
Runtime error
Runtime error
File size: 4,084 Bytes
ec4f2ef ae02e13 ec4f2ef ae02e13 ec4f2ef 240564d ec4f2ef 380f757 ec4f2ef e3f81d9 ec4f2ef af694fe ec4f2ef ae02e13 ec4f2ef bb32b93 ec4f2ef 06df438 ec4f2ef 06df438 ae02e13 ec4f2ef bb32b93 ec4f2ef |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 |
#GPT2 FINE TUNE
# library
import gradio as gr
import tensorflow as tf
from transformers import pipeline, AutoTokenizer, TFGPT2LMHeadModel
# function to run
def run_model(input_text, max_length):
#GPT2 FT Transformer
model_gpt2 = TFGPT2LMHeadModel.from_pretrained("Sultannn/gpt2-ft-id-puisi")
token_gpt2 = AutoTokenizer.from_pretrained("Sultannn/gpt2-ft-id-puisi")
# preprocessing text input
input_text = str(input_text)
input_text = ' '.join(input_text.split()).upper() + '\n' # hapus white space dan ubah judul kata ke huruf besar
#encode input to vector
text_prompt = token_gpt2.encode(input_text,add_special_tokens=True, return_tensors="tf")
#generate input
summary_ids = model_gpt2.generate(text_prompt, # raw token
# param penting
max_length = max_length + len(input_text), # max token to generate
do_sample = True, # to sampling text
#length_penalty = length_penalty, #Atur ke nilai <1.0 untuk menghasilkan urutan yang lebih pendek, ke nilai > 1.0 untuk menghasilkan urutan yang lebih panjang)
# pencarian modern
top_k = 50, # ambil top kata dengan probability tertinggi / kata yang paling mungkin
top_p = 0.95, # ambil kata dan jumlah kan probalitiy nya sesuai yang di definisikan
# no_repeat_ngram_size=2 , # agar tidak ada 2 gram/kata yang muncul dua kali:
# temperature=1.0, # untuk mengatur probability next word
# trick / metode pencarian tradisional
# num_beams=3, # Pencarian mengurangi risiko hilangnya urutan kata probabilitas tinggi yang tersembunyi dengan menjaga hipotesis yang paling mungkin pada setiap langkah waktu dan akhirnya memilih hipotesis yang memiliki probabilitas tertinggi secara keseluruhan
# early_stopping=True, # gunakan jika pakai num_beams > 1
# repetition_penalty=1.0, # mencegah kata pengulangan
# jika ingin lebih dari 1 output
# num_return_sequences=3,# num_return_sequences <= num_beams! jumlah balok skor tertinggi yang harus dikembalikan ? jumlah sample yang ingin dikeluarkan sesuai yang didefinisikan
)
#decode output to text
output = token_gpt2.decode(summary_ids[0], clean_up_tokenization_spaces=False)
return output # get output to str
# end
#example
contoh = [["TAMPAN", 100],["TIDAK JELAS", 100]]
#judul
title = "indonesia Puisi Generator"
#deskripsi
description = "Demo for Puisi Generator ID. Models are GPT-2"
#footer
article = "<p style='text-align: center'><a href='https://github.com/sultanbst123/Hugging-Face-indo' target='_blank'><u>Untuk penjelasan lihat di repo ku</u> 😁</a></p>"
#run gradio
run = gr.Interface(
fn=run_model,
#input text
inputs=[
gr.inputs.Textbox(
lines=5,
placeholder="Ketik disini...",
label="Text",
),
#fine tune
#max length
gr.inputs.Slider(
minimum=100,
maximum=150,
step=5,
default=100,
label="Max Length(panjang maksimum urutan kata yang di generate)",
),
],
#output text
outputs=
gr.outputs.Textbox(
label="Output text",
),
title=title,
description=description,
article=article,
examples=contoh)
run.launch(debug = True)
## GOOD LUCK
|