Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Apr 7, 2024

Commit

e8c1be7

1 Parent(s): 439054b

model to 3.5

Browse files

Files changed (2) hide show

app.py +37 -35
chatbot.py +13 -14

app.py CHANGED Viewed

@@ -1629,7 +1629,7 @@ def chat_with_ai(ai_name, password, video_id, trascript_state, key_moments, user
     chatbot_config = {
         "video_id": video_id,
-        "trascript": simple_transcript,
         "key_moments": key_moments,
         "content_subject": content_subject,
         "content_grade": content_grade,
@@ -1656,7 +1656,7 @@ def chat_with_ai(ai_name, password, video_id, trascript_state, key_moments, user
         print(f"Error: {e}")
         return "请求失败，请稍后再试！", chat_history
-def chat_with_opan_ai_assistant(password, youtube_id, thread_id, trascript, key_moments, user_message, chat_history, content_subject, content_grade, socratic_mode=False):
     verify_password(password)
     # 先計算 user_message 是否超過 500 個字
@@ -1670,26 +1670,33 @@ def chat_with_opan_ai_assistant(password, youtube_id, thread_id, trascript, key_
         raise gr.Error(error_msg)
     try:
-        assistant_id = "asst_kmvZLNkDUYaNkMNtZEAYxyPq"
         client = OPEN_AI_CLIENT
         # 直接安排逐字稿資料 in instructions
-        trascript_json = json.loads(trascript)
         # 移除 embed_url, screenshot_path
         for entry in trascript_json:
-            entry.pop('embed_url', None)
-            entry.pop('screenshot_path', None)
         trascript_text = json.dumps(trascript_json, ensure_ascii=False)
         if len(trascript_text) > 25000:
-            if isinstance(key_moments, str):
-                key_moments_json = json.loads(key_moments)
-            else:
-                key_moments_json = key_moments
-            # key_moments_json remove images
-            for moment in key_moments_json:
-                moment.pop('images', None)
-            content_text = json.dumps(key_moments_json, ensure_ascii=False)
             print("=== transcript_text is too long, replace by key_moments_text ===")
         else:
             content_text = trascript_text
@@ -1702,28 +1709,26 @@ def chat_with_opan_ai_assistant(password, youtube_id, thread_id, trascript, key_
             -------------------------------------
             你是一個專業的{content_subject}老師， user 為{content_grade}的學生
             socratic_mode = {socratic_mode}
             if socratic_mode is True，
             - 請用蘇格拉底式的提問方式，引導學生思考，並且給予學生一些提示
             - 一次只問一個問題，字數在100字以內
             - 不要直接給予答案，讓學生自己思考
             - 但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
-            if socratic_mode is False，
-            - 直接回答學生問題，字數在100字以內
             rule:
             - 請一定要用繁體中文回答 zh-TW，並用台灣人的口語表達，回答時不用特別說明這是台灣人的語氣，也不用說這是「台語的說法」
-            - 不用提到「逐字稿」這個詞，用「內容」代替
             - 如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
             - 或者你可以反問學生一些問題，幫助學生更好的理解資料，字數在100字以內
             - 如果學生的問題與資料文本無關，請告訴學生你「無法回答超出影片範圍的問題」，並告訴他可以怎麼問什麼樣的問題（一個就好）
-            - 只要是參考逐字稿資料，please use the timestamp format, example:【參考資料：00:00:00】
             - 回答範圍一定要在逐字稿資料內，不要引用其他資料，請嚴格執行
             - 並在重複問句後給予學生鼓勵，讓學生有學習的動力
-            - 請用 {content_grade} 的學生能懂的方式回答
         """
         # 创建线程
         if not thread_id:
             thread = client.beta.threads.create()
@@ -1866,7 +1871,8 @@ def streaming_chat_with_open_ai(user_message, chat_history, password, thread_id,
     socratic_mode = True
     try:
-        assistant_id = "asst_kmvZLNkDUYaNkMNtZEAYxyPq"
         client = OPEN_AI_CLIENT
         # 直接安排逐字稿資料 in instructions
         if isinstance(trascript, str):
@@ -1904,20 +1910,16 @@ def streaming_chat_with_open_ai(user_message, chat_history, password, thread_id,
             - 一次只問一個問題，字數在100字以內
             - 不要直接給予答案，讓學生自己思考
             - 但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
-            if socratic_mode is False，
-            - 直接回答學生問題，字數在100字以內
             rule:
             - 請一定要用繁體中文回答 zh-TW，並用台灣人的口語表達，回答時不用特別說明這是台灣人的語氣，也不用說這是「台語的說法」
-            - 不用提到「逐字稿」這個詞，用「內容」代替
             - 如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
             - 或者你可以反問學生一些問題，幫助學生更好的理解資料，字數在100字以內
             - 如果學生的問題與資料文本無關，請告訴學生你「無法回答超出影片範圍的問題」，並告訴他可以怎麼問什麼樣的問題（一個就好）
-            - 只要是參考逐字稿資料，請在回答的最後標註【參考資料：（分）：（秒）】
             - 回答範圍一定要在逐字稿資料內，不要引用其他資料，請嚴格執行
             - 並在重複問句後給予學生鼓勵，讓學生有學習的動力
-            - 請用 {content_grade} 的學生能懂的方式回答
         """
         # 创建线程
@@ -2321,7 +2323,7 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
     # OPENAI ASSISTANT CHATBOT 模式
     send_button.click(
         chat_with_opan_ai_assistant,
-        inputs=[password, video_id, thread_id, df_string_output, key_moments, msg, chatbot, content_subject, content_grade, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     openai_chatbot_audio_input.change(
@@ -2330,9 +2332,9 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
         outputs=[msg]
     )
     # OPENAI ASSISTANT CHATBOT 連接按鈕點擊事件
-    btn_1_chat_with_opan_ai_assistant_input =[password, video_id, thread_id, df_string_output, key_moments, btn_1, chatbot, content_subject, content_grade, ai_chatbot_socratic_mode_btn]
-    btn_2_chat_with_opan_ai_assistant_input =[password, video_id, thread_id, df_string_output, key_moments, btn_2, chatbot, content_subject, content_grade, ai_chatbot_socratic_mode_btn]
-    btn_3_chat_with_opan_ai_assistant_input =[password, video_id, thread_id, df_string_output, key_moments, btn_3, chatbot, content_subject, content_grade, ai_chatbot_socratic_mode_btn]
     btn_1.click(
         chat_with_opan_ai_assistant,
         inputs=btn_1_chat_with_opan_ai_assistant_input,

     chatbot_config = {
         "video_id": video_id,
+        "transcript": simple_transcript,
         "key_moments": key_moments,
         "content_subject": content_subject,
         "content_grade": content_grade,
         print(f"Error: {e}")
         return "请求失败，请稍后再试！", chat_history
+def chat_with_opan_ai_assistant(password, youtube_id, thread_id, trascript_state, key_moments, user_message, chat_history, content_subject, content_grade, socratic_mode=False):
     verify_password(password)
     # 先計算 user_message 是否超過 500 個字
         raise gr.Error(error_msg)
     try:
+        # assistant_id = "asst_kmvZLNkDUYaNkMNtZEAYxyPq" #GPT 4 turbo
+        assistant_id = "asst_5SaUElqvL3U0ybSi9PRM8x3P" #GPT 3.5 turbo
         client = OPEN_AI_CLIENT
         # 直接安排逐字稿資料 in instructions
+        if isinstance(trascript_state, str):
+            trascript_json = json.loads(trascript_state)
+        else:
+            trascript_json = trascript_state
         # 移除 embed_url, screenshot_path
         for entry in trascript_json:
+            entry.pop('end_time', None)
         trascript_text = json.dumps(trascript_json, ensure_ascii=False)
+        if isinstance(key_moments, str):
+            key_moments_json = json.loads(key_moments)
+        else:
+            key_moments_json = key_moments
+        # key_moments_json remove images
+        for moment in key_moments_json:
+            moment.pop('images', None)
+            moment.pop('end', None)
+            moment.pop('text', None)
+        key_moments_text = json.dumps(key_moments_json, ensure_ascii=False)
         if len(trascript_text) > 25000:
+            content_text = key_moments_text
             print("=== transcript_text is too long, replace by key_moments_text ===")
         else:
             content_text = trascript_text
             -------------------------------------
             你是一個專業的{content_subject}老師， user 為{content_grade}的學生
             socratic_mode = {socratic_mode}
             if socratic_mode is True，
             - 請用蘇格拉底式的提問方式，引導學生思考，並且給予學生一些提示
             - 一次只問一個問題，字數在100字以內
             - 不要直接給予答案，讓學生自己思考
             - 但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
             rule:
             - 請一定要用繁體中文回答 zh-TW，並用台灣人的口語表達，回答時不用特別說明這是台灣人的語氣，也不用說這是「台語的說法」
+            - 請用 {content_grade} 的學生能懂的方式回答，不用提到「逐字稿」這個詞
             - 如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
             - 或者你可以反問學生一些問題，幫助學生更好的理解資料，字數在100字以內
             - 如果學生的問題與資料文本無關，請告訴學生你「無法回答超出影片範圍的問題」，並告訴他可以怎麼問什麼樣的問題（一個就好）
             - 回答範圍一定要在逐字稿資料內，不要引用其他資料，請嚴格執行
             - 並在重複問句後給予學生鼓勵，讓學生有學習的動力
+            - 回答時數學式請用數學符號代替文字（Latex 用 $ 字號 render)
+            - 只要是參考逐字稿資料，please use the timestamp format, example:【參考資料：00:00:00】
         """
+        print("=== instructions ===")
+        print(instructions)
         # 创建线程
         if not thread_id:
             thread = client.beta.threads.create()
     socratic_mode = True
     try:
+        # assistant_id = "asst_kmvZLNkDUYaNkMNtZEAYxyPq" #GPT 4 turbo
+        assistant_id = "asst_5SaUElqvL3U0ybSi9PRM8x3P" #GPT 3.5 turbo
         client = OPEN_AI_CLIENT
         # 直接安排逐字稿資料 in instructions
         if isinstance(trascript, str):
             - 一次只問一個問題，字數在100字以內
             - 不要直接給予答案，讓學生自己思考
             - 但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
             rule:
             - 請一定要用繁體中文回答 zh-TW，並用台灣人的口語表達，回答時不用特別說明這是台灣人的語氣，也不用說這是「台語的說法」
+            - 請用 {content_grade} 的學生能懂的方式回答，不用提到「逐字稿」這個詞
             - 如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
             - 或者你可以反問學生一些問題，幫助學生更好的理解資料，字數在100字以內
             - 如果學生的問題與資料文本無關，請告訴學生你「無法回答超出影片範圍的問題」，並告訴他可以怎麼問什麼樣的問題（一個就好）
             - 回答範圍一定要在逐字稿資料內，不要引用其他資料，請嚴格執行
             - 並在重複問句後給予學生鼓勵，讓學生有學習的動力
+            - 回答時數學式請用數學符號代替文字（Latex 用 $ 字號 render)
+            - 只要是參考逐字稿資料，please use the timestamp format, example:【參考資料：00:00:00】
         """
         # 创建线程
     # OPENAI ASSISTANT CHATBOT 模式
     send_button.click(
         chat_with_opan_ai_assistant,
+        inputs=[password, video_id, thread_id, trascript_state, key_moments, msg, chatbot, content_subject, content_grade, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     openai_chatbot_audio_input.change(
         outputs=[msg]
     )
     # OPENAI ASSISTANT CHATBOT 連接按鈕點擊事件
+    btn_1_chat_with_opan_ai_assistant_input =[password, video_id, thread_id, trascript_state, key_moments, btn_1, chatbot, content_subject, content_grade, ai_chatbot_socratic_mode_btn]
+    btn_2_chat_with_opan_ai_assistant_input =[password, video_id, thread_id, trascript_state, key_moments, btn_2, chatbot, content_subject, content_grade, ai_chatbot_socratic_mode_btn]
+    btn_3_chat_with_opan_ai_assistant_input =[password, video_id, thread_id, trascript_state, key_moments, btn_3, chatbot, content_subject, content_grade, ai_chatbot_socratic_mode_btn]
     btn_1.click(
         chat_with_opan_ai_assistant,
         inputs=btn_1_chat_with_opan_ai_assistant_input,

chatbot.py CHANGED Viewed

@@ -8,7 +8,7 @@ class Chatbot:
         self.content_subject = config.get('content_subject')
         self.content_grade = config.get('content_grade')
         self.jutor_chat_key = config.get('jutor_chat_key')
-        self.transcript_text = self.get_transcript_text(config.get('trascript'))
         self.key_moments_text = self.get_key_moments_text(config.get('key_moments'))
         self.ai_name = config.get('ai_name')
         self.ai_client = config.get('ai_client')
@@ -18,6 +18,8 @@ class Chatbot:
             transcript_json = json.loads(transcript_data)
         else:
             transcript_json = transcript_data
         transcript_text = json.dumps(transcript_json, ensure_ascii=False)
         return transcript_text
@@ -47,18 +49,18 @@ class Chatbot:
         content_subject = self.content_subject
         content_grade = self.content_grade
         video_id = self.video_id
-        trascript_text = self.transcript_text
         key_moments_text = self.key_moments_text
         socratic_mode = str(socratic_mode)
         ai_name = self.ai_name
         # string with maximum length 32768
-        # if trascript_text is too long, replace by key_moments_text
-        if len(trascript_text) > 25000:
             content_text = key_moments_text
             print("=== transcript_text is too long, replace by key_moments_text ===")
         else:
-            content_text = trascript_text
             print("=== transcript_text is used ===")
         system_prompt = f"""
@@ -73,21 +75,16 @@ class Chatbot:
             - 一次只問一個問題，字數在100字以內
             - 不要直接給予答案，讓學生自己思考
             - 但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
-            if socratic_mode is False，
-            - 直接回答學生問題，字數在100字以內
             rule:
             - 請一定要用繁體中文回答 zh-TW，並用台灣人的口語表達，回答時不用特別說明這是台灣人的語氣，也不用說這是「台語的說法」
-            - 不用提到「逐字稿」這個詞
             - 如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
             - 或者你可以反問學生一些問題，幫助學生更好的理解資料，字數在100字以內
             - 如果學生的問題與資料文本無關，請告訴學生你「無法回答超出影片範圍的問題」，並告訴他可以怎麼問什麼樣的問題（一個就好）
-            - 只要是參考逐字稿資料，please use the timestamp format, example:【參考資料：00:00:00】
             - 回答範圍一定要在逐字稿資料內，不要引用其他資料，請嚴格執行
-            - 並在重複問句後給予學生鼓勵，讓學生有學習的動力
-            - 請用 {content_grade} 的學生能懂的方式回答
             - 回答時數學式請用數學符號代替文字（Latex 用 $ 字號 render)
         """
         return system_prompt
@@ -126,12 +123,14 @@ class Chatbot:
             "Content-Type": "application/json",
             "x-api-key": self.jutor_chat_key,
         }
         data = {
             "data": {
                 "messages": messages,
                 "max_tokens": 512,
                 "temperature": 0.9,
-                "model": "gpt-4-1106-preview",
                 "stream": False,
             }
         }

         self.content_subject = config.get('content_subject')
         self.content_grade = config.get('content_grade')
         self.jutor_chat_key = config.get('jutor_chat_key')
+        self.transcript_text = self.get_transcript_text(config.get('transcript'))
         self.key_moments_text = self.get_key_moments_text(config.get('key_moments'))
         self.ai_name = config.get('ai_name')
         self.ai_client = config.get('ai_client')
             transcript_json = json.loads(transcript_data)
         else:
             transcript_json = transcript_data
+        for entry in transcript_json:
+            entry.pop('end_time', None)
         transcript_text = json.dumps(transcript_json, ensure_ascii=False)
         return transcript_text
         content_subject = self.content_subject
         content_grade = self.content_grade
         video_id = self.video_id
+        transcript_text = self.transcript_text
         key_moments_text = self.key_moments_text
         socratic_mode = str(socratic_mode)
         ai_name = self.ai_name
         # string with maximum length 32768
+        # if transcript_text is too long, replace by key_moments_text
+        if len(transcript_text) > 25000:
             content_text = key_moments_text
             print("=== transcript_text is too long, replace by key_moments_text ===")
         else:
+            content_text = transcript_text
             print("=== transcript_text is used ===")
         system_prompt = f"""
             - 一次只問一個問題，字數在100字以內
             - 不要直接給予答案，讓學生自己思考
             - 但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
             rule:
             - 請一定要用繁體中文回答 zh-TW，並用台灣人的口語表達，回答時不用特別說明這是台灣人的語氣，也不用說這是「台語的說法」
+            - 請用 {content_grade} 的學生能懂的方式回答，不用提到「逐字稿」這個詞
             - 如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
             - 或者你可以反問學生一些問題，幫助學生更好的理解資料，字數在100字以內
             - 如果學生的問題與資料文本無關，請告訴學生你「無法回答超出影片範圍的問題」，並告訴他可以怎麼問什麼樣的問題（一個就好）
             - 回答範圍一定要在逐字稿資料內，不要引用其他資料，請嚴格執行
+            - 並給予學生鼓勵，讓學生有學習的動力
             - 回答時數學式請用數學符號代替文字（Latex 用 $ 字號 render)
+            - 只要是參考逐字稿資料，please use the timestamp format and give only one reference, example:【參考資料：00:00:00】
         """
         return system_prompt
             "Content-Type": "application/json",
             "x-api-key": self.jutor_chat_key,
         }
+        # model = "gpt-4-1106-preview"
+        model = "gpt-3.5-turbo-0125"
         data = {
             "data": {
                 "messages": messages,
                 "max_tokens": 512,
                 "temperature": 0.9,
+                "model": model,
                 "stream": False,
             }
         }