edisnord/hut5-base-question-generation

This model is finetuned on a question generation task. Example usage:

qg_pipeline = pipeline("text2text-generation",
                 model="edisnord/hut5-base-question-generation",
                 max_new_tokens=200,
                 temperature=1.0,
                 do_sample=True,
                 no_repeat_ngram_size=4,
                 num_beams=5)
qg_pipeline("qgen: title: Shkodra: context: A város legfőbb nevezetessége az illír időkre datálható,"
            " de mai alakjában középkori Rozafa vára (Kalaja e Rozafës), a várhegy aljában elterülő "
            "18. századi bazár és az Ólom-mecset (Xhamia e Plumbit). A vár felépítéséhez a magyar "
            "Kőműves Kelemen balladájával rokon legenda kötődik: a három kőműves fivérnek be kellett "
            "falaznia a legkisebb fiú feleségét, Rozafát, hogy amitnappal felépítenek, éjszaka ne omoljon "
            "le. A modern városközpontban megtekintésre érdemes az ország legnagyobb katolikus istenháza, "
            "a Szent István-székesegyház. Ugyancsak itt található az ország legnagyobb stadionja, a Loro "
            "Boriçi Stadion.")[0]["generated_text"]
              .split("<sep>")
"""
Out: ['Mikor épült a Rozafa vára?',
 ' Melyik évszázadban épült az Ólom-mecset?',
 ' Ki építtette a Rozafát?',
 ' Miért kellett falaznia a kőműves fivérnek Rozafát, hogy éjszaka ne omoljon le?',
 ' Hol van a Szent István-székesegyház?',
 ' Mikor építették a Roza várat?',
 ' Hol található a Loro Boriçi Stadion?',
 ' Milyen stílusban épült eredetileg az ország legnagyobb katolikus istenháza?',
 ' Miről kapta a nevét az ország legmagasabb katolikus stadionja?',
 ' Mi a neve az ország legrégebbi katolikus székesegyházának?',
 ' Mekkora a korkülönbség a korábbi és a nyugati front között?',
 ' van-e olyan, amikor az ország leghosszabb']
"""

It isn't perfect, but filtering the questions by checking impossible ones using ZTamas/xlm-roberta-large-squad2_impossible_long_answer seems to be useful for filtering out poor questions.

It was trained on at most 512-token long context sequences.

Here's a longer example of usage: https://colab.research.google.com/drive/1Atv2RqgdTGtXGvIeQ7R6ErCulI2ohqKC?usp=sharing

edisnord
/

hut5-base-question-generation

Model tree for edisnord/hut5-base-question-generation

Dataset used to train edisnord/hut5-base-question-generation