File size: 6,484 Bytes
4b1a870
 
 
 
 
 
 
 
 
 
 
571bf3a
4b1a870
571bf3a
 
 
4b1a870
 
5077254
0dfa748
 
571bf3a
5077254
 
6034b6d
571bf3a
4b1a870
 
246cb3f
 
 
 
 
 
 
 
 
4b1a870
246cb3f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fc603e1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
246cb3f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
571bf3a
 
 
246cb3f
 
 
 
fc603e1
246cb3f
074cb75
246cb3f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
571bf3a
 
 
074cb75
571bf3a
 
2432396
571bf3a
 
 
246cb3f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4b1a870
 
246cb3f
fc603e1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
import spaces
import json
import subprocess
from llama_cpp import Llama
from llama_cpp_agent import LlamaCppAgent, MessagesFormatterType
from llama_cpp_agent.providers import LlamaCppPythonProvider
from llama_cpp_agent.chat_history import BasicChatHistory
from llama_cpp_agent.chat_history.messages import Roles
import gradio as gr
from huggingface_hub import hf_hub_download

# モデルのダウンロード
hf_hub_download(
   repo_id="bartowski/gemma-2-9b-it-GGUF",
   filename="gemma-2-9b-it-Q5_K_M.gguf",
   local_dir="./models"
)

hf_hub_download(
   repo_id="bartowski/Gemma-2-9B-It-SPPO-Iter3-GGUF",
   filename="Gemma-2-9B-It-SPPO-Iter3-Q5_K_M.gguf",
   local_dir="./models"
)


# 推論関数
@spaces.GPU(duration=120)
def respond(
    message,
    history: list[tuple[str, str]],
    model,
    system_message,
    max_tokens,
    temperature,
    top_p,
    top_k,
    repeat_penalty,
):
    chat_template = MessagesFormatterType.GEMMA_2

    llm = Llama(
        model_path=f"models/{model}",
        flash_attn=True,
        n_gpu_layers=81,
        n_batch=1024,
        n_ctx=8192,
    )
    provider = LlamaCppPythonProvider(llm)

    agent = LlamaCppAgent(
        provider,
        system_prompt=f"{system_message}",
        predefined_messages_formatter_type=chat_template,
        debug_output=True
    )

    settings = provider.get_provider_default_settings()
    settings.temperature = temperature
    settings.top_k = top_k
    settings.top_p = top_p
    settings.max_tokens = max_tokens
    settings.repeat_penalty = repeat_penalty
    settings.stream = True

    messages = BasicChatHistory()

    # 1ショットプロンプトを追加
    one_shot_prompt = """
    あなたは優れた翻訳者です。以下の文章を日本語から英語に翻訳してください。翻訳は文法的に正しく、自然な表現を使用し、文脈に適した内容にしてください。また、専門用語や文化的なニュアンスを正確に伝えるよう心がけてください。
    
    期待する品質基準:
    1. 文法的に正確であること。
    2. 自然な英語表現を使用すること。
    3. 文脈に適した訳を提供すること。
    4. 専門用語や文化的なニュアンスを正確に伝えること。
    
    以下に翻訳の例を示します。
    
    例:
    日本語: 優れた翻訳は、原文の意味を正確に伝えるだけでなく、読み手にとって自然な表現である必要があります。文法的な正確さはもちろんのこと、文化的なニュアンスも重要です。専門用語の正確な訳も求められます。さらに、文脈に適した訳を提供することが、翻訳の品質を高めます。最終的には、読み手にとってわかりやすい訳を目指してください。
    英語: A good translation should not only convey the meaning of the original text accurately but also be expressed in a natural way for the reader. In addition to grammatical accuracy, cultural nuances are important. Accurate translation of technical terms is also required. Furthermore, providing a translation that fits the context enhances the quality of the translation. Ultimately, aim for a translation that is easy for the reader to understand.
    
    """


    system_message = one_shot_prompt + system_message

    for msn in history:
        user = {
            'role': Roles.user,
            'content': msn[0]
        }
        assistant = {
            'role': Roles.assistant,
            'content': msn[1]
        }
        messages.add_message(user)
        messages.add_message(assistant)

    stream = agent.get_chat_response(
        message,
        llm_sampling_settings=settings,
        chat_history=messages,
        returns_streaming_generator=True,
        print_output=False
    )

    outputs = ""
    for output in stream:
        outputs += output
        yield [(message, outputs)]

# Gradioのインターフェースを作成
def create_interface(model_name, description):
    return gr.ChatInterface(
        respond,
        additional_inputs=[
            gr.Textbox(value=model_name, label="Model", interactive=False),
            gr.Textbox(value="以下の英語の文章を日本語に翻訳してください:", label="System message"),
            gr.Slider(minimum=1, maximum=4096, value=2048, step=1, label="Max tokens"),
            gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
            gr.Slider(
                minimum=0.1,
                maximum=1.0,
                value=0.95,
                step=0.05,
                label="Top-p",
            ),
            gr.Slider(
                minimum=0,
                maximum=100,
                value=40,
                step=1,
                label="Top-k",
            ),
            gr.Slider(
                minimum=0.0,
                maximum=2.0,
                value=1.1,
                step=0.1,
                label="Repetition penalty",
            ),
        ],
        retry_btn="Retry",
        undo_btn="Undo",
        clear_btn="Clear",
        submit_btn=None,  # Remove the individual submit button
        title=f"Chat with Gemma 2 using llama.cpp - {model_name}",
        description=description,
        chatbot=gr.Chatbot(
            scale=1,
            likeable=False,
            show_copy_button=True
        )
    )

# 各モデルのインターフェース
description_9b = """<p align="center">Gemma-2 9B it Model</p>"""
description_27b = """<p align="center">Gemma-2-9B-It-SPPO-Iter3 Model</p>"""

interface_9b = create_interface('gemma-2-9b-it-Q5_K_M.gguf', description_9b)
interface_27b = create_interface('Gemma-2-9B-It-SPPO-Iter3-Q5_K_M.gguf', description_27b)

# Gradio Blocksで2つのインターフェースを並べて表示
with gr.Blocks() as demo:
    #gr.Markdown("# Compare Gemma-2 9B and 27B Models")
    with gr.Row():
        with gr.Column():
            input_field = gr.Textbox(label="Input", interactive=True)
        with gr.Column():
            interface_9b.render()
        with gr.Column():
            interface_27b.render()

    submit_btn = gr.Button("Send")

    def send_to_both(input_text):
        return input_text, input_text

    submit_btn.click(
        fn=send_to_both,
        inputs=input_field,
        outputs=[interface_9b.chatbot, interface_27b.chatbot]
    )

if __name__ == "__main__":
    demo.launch(share=True)
```