sho93 commited on
Commit
a971c6e
1 Parent(s): ef0f1cd

Add application file

Browse files
Files changed (2) hide show
  1. app.py +195 -0
  2. requirements.txt +4 -0
app.py ADDED
@@ -0,0 +1,195 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import gradio as gr
2
+ import torch
3
+ from transformers import T5ForConditionalGeneration, T5Tokenizer, AutoTokenizer, AutoModelForSeq2SeqLM, RobertaForQuestionAnswering
4
+
5
+ # 0.モデルのロード, Examplesの準備
6
+ # 評価対象の要約モデル
7
+ tokenizer_sum = AutoTokenizer.from_pretrained("tsmatz/mt5_summarize_japanese")
8
+ model_sum = AutoModelForSeq2SeqLM.from_pretrained("tsmatz/mt5_summarize_japanese")
9
+
10
+ # 質問文の生成
11
+ tokenizer_gen_q = T5Tokenizer.from_pretrained("sonoisa/t5-base-japanese-question-generation")
12
+ model_gen_q = T5ForConditionalGeneration.from_pretrained("sonoisa/t5-base-japanese-question-generation")
13
+
14
+ # 回答の生成
15
+ tokenizer_qa = AutoTokenizer.from_pretrained("tsmatz/roberta_qa_japanese")
16
+ model_qa = RobertaForQuestionAnswering.from_pretrained("tsmatz/roberta_qa_japanese")
17
+
18
+ # Example 1
19
+ eg_text_1 = """
20
+ ポケットモンスターの原点は、1996年2月27日に発売されたゲームボーイ用ソフト『ポケットモンスター 赤・緑』である。
21
+ 開発元はゲームフリーク。コンセプトメーカーにしてディレクターを務めたのは、同社代表取締役でもある田尻智。
22
+ この作品が小学生を中心に、口コミから火が点き大ヒットとなり、以降も多くの続編が発売されている(詳しくは「ポケットモンスター(ゲーム)」を参照)。
23
+ ゲーム本編作品だけでなく、派生作品や関連作品が数多く発売されている(詳しくはポケットモンスターの関連ゲームを参照)。
24
+
25
+ ポケモンはゲームのみならず、アニメ化、キャラクター商品化、カードゲーム、アーケードゲームと様々なメディアミックス展開がなされ、日本国外でも人気を獲得している。
26
+
27
+ ポケモン関連ゲームソフトの累計出荷数は、全世界で2017年11月時点で3億本以上[1]、2022年3月時点で4億4000万本以上に達している[2]。
28
+ その中で、メインシリーズの累計販売本数は2016年2月時点での最新作、ニンテンドー3DS『オメガルビー・アルファサファイア』までの25作品で2億100万本となる[3]。
29
+ """
30
+ eg_ans_1_1 = "2月27日"
31
+ eg_ans_1_2 = "ポケットモンスター 赤・緑"
32
+
33
+ # Example 2
34
+ eg_text_2 = """
35
+ アンパンマンの生みの親であるやなせたかしの作品で1968年に「バラの花とジョー」、
36
+ 「チリンの鈴」の絵本や映画にいち早くアンパンマンが登場しているが、この時はまだ人間の姿。
37
+ この童話は一年間連載された。[5]アンパンマン、やなせたかしの作品としての、「アンパンマン」は、
38
+ PHP研究所が発行する青年向け雑誌『PHP』の通巻第257号に当たる、『こどものえほん』の1969年10月号[6](同年10月1日刊行)に掲載された青年向け読物、
39
+ やなせたかし(絵と文)「アンパンマン」という形が初出である[7][8][9]。
40
+ この時期、やなせが『こどものえほん』のために執筆した読物は連載12本の短編で、「アンパンマン」はその6本目の作品であった。
41
+ これら12篇は、株式会社山梨シルクセンター(※3年後、株式会社サンリオへ社名変更)より単行本『十二の真珠』名義で1970年に刊行された。
42
+
43
+ 空腹に喘ぐ人の所へ駆け付けて、自らの大事な持ち物であるパンを差し出して食べるよう勧めるという、のちのアンパンマンに通じる物語の骨組みが、
44
+ この作品のおいて早くも整えられている[10][6]。
45
+ 絵本・漫画・アニメなど、のちに描かれるアンパンマンとの大きな違いと言えば、第一に主人公のアンパンマンが普通の人間のおじさんであり[10][6]、
46
+ パンは所有物に過ぎなかったことである。
47
+ """
48
+ eg_ans_2_1 = "アンパンマン"
49
+ eg_ans_2_2 = "やなせたかし"
50
+
51
+ # 1. イベント用の関数
52
+ def summy(text):
53
+ """要約
54
+
55
+ Args
56
+ text: str
57
+ 要約対象のテキスト
58
+
59
+ Returns
60
+ summarize_text: str
61
+ 要約結果のテキスト
62
+ """
63
+ inputs = tokenizer_sum("summarize: " + text, return_tensors="pt")
64
+ output = model_sum.generate(
65
+ inputs["input_ids"],
66
+ max_new_tokens=300, # 生成数の上限
67
+ min_length=150, # 生成数の下限
68
+ num_beams=5 # ビームサーチの設定
69
+ )
70
+ summarize_text = tokenizer_sum.decode(output[0], skip_special_tokens=True)
71
+
72
+ return summarize_text
73
+
74
+ def generate_questions(answer_1, answer_2, text):
75
+ """質問生成
76
+
77
+ Args
78
+ answers: list[str]
79
+ 質問生成のための正解単語のリスト
80
+ text: str
81
+ 質問文を生成する際に参照するテキスト
82
+
83
+ Returns
84
+ generated_questions: list[str]
85
+ 生成された質問文のリスト
86
+ """
87
+ answer_context_list = [(answer, text) for answer in [answer_1, answer_2]] # 解答を質問生成する元となる文(要約結果)とセットにする。
88
+ generated_questions = []
89
+
90
+ for answer, context in answer_context_list:
91
+ # モデルに入力可能な形式に変換する
92
+ # 「answer: 」と「context: 」を使った形式に変換にする
93
+ input = tokenizer_gen_q(f"answer: {answer} context: {context}", return_tensors="pt")
94
+
95
+ # 質問文を生成する
96
+ output = model_gen_q.generate(
97
+ input['input_ids'],
98
+ max_new_tokens=100,
99
+ num_beams=4 # ビームサーチの設定
100
+ )
101
+
102
+ # 生成された問題文のトークン列を文字列に変換する。
103
+ output = tokenizer_gen_q.decode(output[0], skip_special_tokens=True)
104
+
105
+ generated_questions.append(output)
106
+
107
+ return generated_questions
108
+
109
+ def extract_answer(question, text):
110
+ """質問応答
111
+
112
+ Args
113
+ question: str
114
+ 質問文のテキスト
115
+ text: str
116
+ 質問に回答するために参照するテキスト
117
+
118
+ Returns
119
+ answer: str
120
+ 回答のテキスト
121
+ """
122
+ inputs = tokenizer_qa(question, text, return_tensors="pt") # tokenizerには複数のテキストを与える
123
+
124
+ # 正解箇所の予測
125
+ outputs = model_qa(**inputs)
126
+ answer_start_scores = outputs.start_logits
127
+ answer_end_scores = outputs.end_logits
128
+
129
+ # 予測結果の開始と終了のインデックスを取得
130
+ answer_start = torch.argmax(answer_start_scores)
131
+ answer_end = torch.argmax(answer_end_scores) + 1
132
+
133
+ # tokenizerの結果から正解を抽出する
134
+ input_ids = inputs["input_ids"].tolist()[0]
135
+
136
+ answer = tokenizer_qa.decode(input_ids[answer_start:answer_end])
137
+
138
+ return answer
139
+
140
+ def extract_answer_all(gen_q_1, gen_q_2, source_text, sum_text):
141
+ """extract_answer()をまとめて実行する
142
+ """
143
+ a_source_1 = extract_answer(gen_q_1, source_text)
144
+ a_sum_1 = extract_answer(gen_q_1, sum_text)
145
+ a_source_2 = extract_answer(gen_q_2, source_text)
146
+ a_sum_2 = extract_answer(gen_q_2, sum_text)
147
+
148
+ return a_source_1, a_sum_1, a_source_2, a_sum_2
149
+
150
+ # 2. UIの定義
151
+ with gr.Blocks() as demo:
152
+ gr.Markdown("### 1. 要約生成")
153
+ source_text = gr.Textbox(label="要約対象")
154
+ btn_summy = gr.Button("要約生成")
155
+ sum_text = gr.Textbox(label="要約結果")
156
+
157
+ gr.Markdown("### 2. 質問生成")
158
+ with gr.Row():
159
+ with gr.Column():
160
+ answer_1 = gr.Text(label="正解1")
161
+ with gr.Column():
162
+ answer_2 = gr.Text(label="正解2")
163
+ btn_generate_questions = gr.Button("質問生成")
164
+
165
+ gr.Markdown("### 3. 回答生成")
166
+ with gr.Row():
167
+ with gr.Column():
168
+ gen_q_1 = gr.Text(label="1番目の質問")
169
+ with gr.Column():
170
+ gen_q_2 = gr.Text(label="2番目の質問")
171
+ btn_extract_answer = gr.Button("回答生成")
172
+ with gr.Row():
173
+ with gr.Column():
174
+ a_source_1 = gr.Text(label="sourceからの答え")
175
+ a_sum_1 = gr.Text(label="sumからの答え")
176
+ with gr.Column():
177
+ a_source_2 = gr.Text(label="sourceからの答え")
178
+ a_sum_2 = gr.Text(label="sumからの答え")
179
+
180
+ # 2. イベント発火
181
+ btn_summy.click(summy, inputs=[source_text], outputs=[sum_text])
182
+ btn_generate_questions.click(generate_questions, inputs=[answer_1, answer_2, sum_text], outputs=[gen_q_1, gen_q_2])
183
+ btn_extract_answer.click(extract_answer_all,
184
+ inputs=[gen_q_1, gen_q_2, source_text, sum_text],
185
+ outputs=[a_source_1, a_sum_1, a_source_2, a_sum_2]
186
+ )
187
+
188
+ # Examplesの定義
189
+ gr.Markdown("## Examples")
190
+ gr.Examples(
191
+ [[eg_text_1, eg_ans_1_1, eg_ans_1_2], [eg_text_2, eg_ans_2_1, eg_ans_2_2]],
192
+ [source_text, answer_1, answer_2],
193
+ )
194
+
195
+ demo.launch()
requirements.txt ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ gradio
2
+ torch
3
+ transformers
4
+ sentencepiece