Spaces:

youngtsai
/

NBLM

Sleeping

App Files Files Community

youngtsai commited on Dec 28, 2024

Commit

31cd061

1 Parent(s): aad76cf

refactor

Browse files

Files changed (1) hide show

app.py +164 -145

app.py CHANGED Viewed

@@ -16,26 +16,55 @@ from initializer import initialize_clients, initialize_password
 GCS_SERVICE, GENAI_CLIENT = initialize_clients()
 GCS_CLIENT = GCS_SERVICE.client
 PASSWORD = initialize_password()
 def toggle_visibility(toggle_value):
     return gr.update(visible=toggle_value)
-def mock_question_answer(question, history):
-    # 假資料模擬回答
-    answers = {
-        "文件的核心觀點是什麼？": "這份文件的核心觀點是關於人工智慧如何提升工作效率。",
-        "有哪些關鍵詞或數據？": "關鍵詞包括：人工智慧、工作效率、數據分析。",
-        "文件的摘要是什麼？": "這份文件討論了如何利用人工智慧工具，提升企業的運營效率和決策速度。"
-    }
-    response = answers.get(question, "抱歉，我無法回答這個問題。請嘗試其他問題！")
-    history.append({"role": "user", "content": question})
-    history.append({"role": "assistant", "content": response})
-    return history, ""
-def mock_summary():
-    # 假資料模擬摘要
-    return "這份文件主要討論人工智慧在工作效率提升方面的應用，並提供了實際案例來說明其價值。"
 def get_youtube_title_from_gemini(url):
     """使用 Gemini 獲取 YouTube 標題"""
@@ -108,6 +137,7 @@ def get_youtube_title(url):
         print(f"獲取標題失敗: {str(e)}")
         return url
 def add_to_file_list(file, file_list):
     if file:
         temp_dir = tempfile.gettempdir()
@@ -117,27 +147,96 @@ def add_to_file_list(file, file_list):
     display_list = [os.path.basename(path) if os.path.basename(path) else path for path in file_list]
     return gr.update(choices=display_list), None
-def add_youtube_to_list(youtube_link, file_list):
-    if not youtube_link:
-        return gr.update(choices=[item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]), ""
-    # 獲取標題
-    title = get_youtube_title(youtube_link)
-    # 確保 URL 格式完整
-    if not youtube_link.startswith('http'):
-        if 'watch?v=' in youtube_link:
-            youtube_link = f'https://www.youtube.com/{youtube_link}'
-        else:
-            youtube_link = f'https://www.youtube.com/watch?v={youtube_link}'
-    # 存儲格式：[title]|||[url]
-    file_list.append(f"{title}|||{youtube_link}")
-    display_list = [item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]
-    print(f"File list: {file_list}")
-    print(f"Display list: {display_list}")
-    return file_list, ""
 def generate_transcript(youtube_link):
     print(f"\n開始生成 YouTube 逐字稿: {youtube_link}")
     try:
@@ -198,25 +297,40 @@ def generate_summary(transcript):
     try:
         print("\n開始生成摘要...")
         model = "gemini-2.0-flash-exp"
         contents = [
             types.Content(
                 role="user",
                 parts=[
-                    types.Part.from_text(
-                        f"""請根據以下逐字稿生成重點摘要，以條列方式呈現主要觀點：
-{transcript}
-請以下列格式輸出：
-# 主要觀點：
-1. [重點1]
-2. [重點2]
-...
-# 結論：
-[整體結論]
-"""
-                    )
                 ]
             )
         ]
@@ -227,107 +341,12 @@ def generate_summary(transcript):
         )
         print("摘要生成完成！")
-        return response.text
     except Exception as e:
         print(f"\n生成摘要時發生錯誤: {str(e)}")
         raise
-def process_all_files(file_list):
-    """處理所有選中的文件"""
-    if not file_list:
-        return "請選擇要處理的文件", ""
-    all_text = []
-    status_messages = []
-    for item in file_list:
-        try:
-            if "|||" in item:
-                # YouTube 連結
-                title, url = item.split("|||")
-                print(f"處理 YouTube: {title}")
-                try:
-                    transcript = generate_transcript(url)
-                    if transcript:
-                        all_text.append(f"=== {title} ===\n{transcript}")
-                        status_messages.append(f"🟢 成功處理 YouTube 影片：{title}")
-                    else:
-                        status_messages.append(f"🔴 無法獲取影片逐字稿：{title}")
-                except Exception as e:
-                    if "無法取得影片資訊" in str(e):
-                        # 可能是影片標題問題，但還是有內容
-                        all_text.append(f"=== YouTube 影片 ===\n{e.transcript if hasattr(e, 'transcript') else ''}")
-                        status_messages.append(f"🟡 影片資訊不完整，但已處理內容：{url}")
-                    else:
-                        status_messages.append(f"🔴 處理失敗：{title}（{str(e)}）")
-            else:
-                # 本地文件
-                filename = os.path.basename(item)
-                print(f"處理文件: {filename}")
-                try:
-                    with open(item, 'r', encoding='utf-8') as f:
-                        content = f.read()
-                        try:
-                            # 嘗試解碼文件名
-                            decoded_name = filename.encode('latin1').decode('utf-8')
-                            all_text.append(f"=== {decoded_name} ===\n{content}")
-                            status_messages.append(f"🟢 成功處理文件：{decoded_name}")
-                        except:
-                            # 文件名有問題，但內容可用
-                            all_text.append(f"=== 文件內容 ===\n{content}")
-                            status_messages.append(f"🟡 文件名稱無法正確顯示，但已處理內容：{filename}")
-                except UnicodeDecodeError:
-                    try:
-                        # 嘗試其他編碼
-                        for encoding in ['big5', 'gbk', 'shift-jis']:
-                            try:
-                                with open(item, 'r', encoding=encoding) as f:
-                                    content = f.read()
-                                    all_text.append(f"=== {filename} ===\n{content}")
-                                    status_messages.append(f"🟡 使用 {encoding} 編碼成功讀取文件：{filename}")
-                                    break
-                            except:
-                                continue
-                        else:
-                            status_messages.append(f"🔴 無法讀取文件內容：{filename}（編碼問題）")
-                    except Exception as e:
-                        status_messages.append(f"🔴 讀取文件失敗：{filename}（{str(e)}）")
-                except Exception as e:
-                    status_messages.append(f"🔴 讀取文件失敗：{filename}（{str(e)}）")
-        except Exception as e:
-            status_messages.append(f"🔴 處理失敗：{item}（{str(e)}）")
-    if not all_text:
-        return "❌ 沒有成功處理任何文件", ""
-    # 合併所有文本
-    combined_text = "\n\n".join(all_text)
-    status_text = "\n".join(status_messages)
-    return f"處理完成\n{status_text}", combined_text
-def process_with_auth(password, file_list, file_display):
-    """帶密碼驗證的文件處理"""
-    if not file_display:  # 使用 file_display 而不是 file_list
-        return "請選擇要處理的文件", "", gr.update(visible=False)
-    if password != PASSWORD:
-        return "���輸入正確的密碼", "", gr.update(visible=False)
-    # 根據顯示的選項找到對應的完整項目
-    selected_files = []
-    for item in file_list:
-        if "|||" in item:
-            title = item.split("|||")[0]
-            if title in file_display:
-                selected_files.append(item)
-        else:
-            if os.path.basename(item) in file_display:
-                selected_files.append(item)
-    result_text, transcript_text = process_all_files(selected_files)
-    return result_text, transcript_text, gr.update(visible=True)
 def on_summary_click(transcript):
     if not transcript:
         return "請先上傳文件或輸入 YouTube 連結並處理完成後再生成摘要。"

 GCS_SERVICE, GENAI_CLIENT = initialize_clients()
 GCS_CLIENT = GCS_SERVICE.client
+# 密碼
 PASSWORD = initialize_password()
+def process_with_auth(password, file_list, file_display):
+    """帶密碼驗證的文件處理"""
+    if not file_display:  # 使用 file_display 而不是 file_list
+        return "請選擇要處理的文件", "", gr.update(visible=False)
+    if password != PASSWORD:
+        return "請輸入正確的密碼", "", gr.update(visible=False)
+    # 根據顯示的選項找到對應的完整項目
+    selected_files = []
+    for item in file_list:
+        if "|||" in item:
+            title = item.split("|||")[0]
+            if title in file_display:
+                selected_files.append(item)
+        else:
+            if os.path.basename(item) in file_display:
+                selected_files.append(item)
+    result_text, transcript_text = process_all_files(selected_files)
+    return result_text, transcript_text, gr.update(visible=True)
+# UI 收合
 def toggle_visibility(toggle_value):
     return gr.update(visible=toggle_value)
+# 來源 youtube
+def add_youtube_to_list(youtube_link, file_list):
+    if not youtube_link:
+        return gr.update(choices=[item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]), ""
+    # 獲取標題
+    title = get_youtube_title(youtube_link)
+    # 確保 URL 格式完整
+    if not youtube_link.startswith('http'):
+        if 'watch?v=' in youtube_link:
+            youtube_link = f'https://www.youtube.com/{youtube_link}'
+        else:
+            youtube_link = f'https://www.youtube.com/watch?v={youtube_link}'
+    # 存儲格式：[title]|||[url]
+    file_list.append(f"{title}|||{youtube_link}")
+    display_list = [item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]
+    print(f"File list: {file_list}")
+    print(f"Display list: {display_list}")
+    return file_list, ""
 def get_youtube_title_from_gemini(url):
     """使用 Gemini 獲取 YouTube 標題"""
         print(f"獲取標題失敗: {str(e)}")
         return url
+# 上傳檔案
 def add_to_file_list(file, file_list):
     if file:
         temp_dir = tempfile.gettempdir()
     display_list = [os.path.basename(path) if os.path.basename(path) else path for path in file_list]
     return gr.update(choices=display_list), None
+# RAG 處理
+def process_all_files(file_list):
+    """處理所有選中的文件"""
+    if not file_list:
+        return "請選擇要處理的文件", ""
+    all_text = []
+    status_messages = []
+    for item in file_list:
+        try:
+            if "|||" in item:
+                # YouTube 連結
+                title, url = item.split("|||")
+                print(f"處理 YouTube: {title}")
+                try:
+                    transcript = generate_transcript(url)
+                    if transcript:
+                        all_text.append(f"=== {title} ===\n{transcript}")
+                        status_messages.append(f"🟢 成功處理 YouTube 影片：{title}")
+                    else:
+                        status_messages.append(f"🔴 無法獲取影片逐字稿：{title}")
+                except Exception as e:
+                    if "無法取得影片資訊" in str(e):
+                        # 可能是影片標題問題，但還是有內容
+                        all_text.append(f"=== YouTube 影片 ===\n{e.transcript if hasattr(e, 'transcript') else ''}")
+                        status_messages.append(f"🟡 影片資訊不完整，但已處理內容：{url}")
+                    else:
+                        status_messages.append(f"🔴 處理失敗：{title}（{str(e)}）")
+            else:
+                # 本地文件
+                filename = os.path.basename(item)
+                print(f"處理文件: {filename}")
+                try:
+                    with open(item, 'r', encoding='utf-8') as f:
+                        content = f.read()
+                        try:
+                            # 嘗試解碼文件名
+                            decoded_name = filename.encode('latin1').decode('utf-8')
+                            all_text.append(f"=== {decoded_name} ===\n{content}")
+                            status_messages.append(f"🟢 成功處理文件：{decoded_name}")
+                        except:
+                            # 文件名有問題，但內容可用
+                            all_text.append(f"=== 文件內容 ===\n{content}")
+                            status_messages.append(f"🟡 文件名稱無法正確顯示，但已處理內容：{filename}")
+                except UnicodeDecodeError:
+                    try:
+                        # 嘗試其他編碼
+                        for encoding in ['big5', 'gbk', 'shift-jis']:
+                            try:
+                                with open(item, 'r', encoding=encoding) as f:
+                                    content = f.read()
+                                    all_text.append(f"=== {filename} ===\n{content}")
+                                    status_messages.append(f"🟡 使用 {encoding} 編碼成功讀取文件：{filename}")
+                                    break
+                            except:
+                                continue
+                        else:
+                            status_messages.append(f"🔴 無法讀取文件內容：{filename}（編碼問題）")
+                    except Exception as e:
+                        status_messages.append(f"🔴 讀取文件失敗：{filename}（{str(e)}）")
+                except Exception as e:
+                    status_messages.append(f"🔴 讀取文件失敗：{filename}（{str(e)}）")
+        except Exception as e:
+            status_messages.append(f"🔴 處理失敗：{item}（{str(e)}）")
+    if not all_text:
+        return "❌ 沒有成功處理任何文件", ""
+    # 合併所有文本
+    combined_text = "\n\n".join(all_text)
+    status_text = "\n".join(status_messages)
+    return f"處理完成\n{status_text}", combined_text
+# 對話
+def mock_question_answer(question, history):
+    # 假資料模擬回答
+    answers = {
+        "文件的核心觀點是什麼？": "這份文件的核心觀點是關於人工智慧如何提升工作效率。",
+        "有哪些關鍵詞或數據？": "關鍵詞包括：人工智慧、工作效率、數據分析。",
+        "文件的摘要是什麼？": "這份文件討論了如何利用人工智慧工具，提升企業的運營效率和決策速度。"
+    }
+    response = answers.get(question, "抱歉，我無法回答這個問題。請嘗試其他問題！")
+    history.append({"role": "user", "content": question})
+    history.append({"role": "assistant", "content": response})
+    return history, ""
+# 功能卡片
 def generate_transcript(youtube_link):
     print(f"\n開始生成 YouTube 逐字稿: {youtube_link}")
     try:
     try:
         print("\n開始生成摘要...")
         model = "gemini-2.0-flash-exp"
+        prompt = f"""
+        Inputs:
+        - 請根據以下逐字稿或文本生成重點摘要：{transcript}
+        Rules:
+        - 如果有課程名稱，請圍繞「課程名稱」為學習重點，進行重點整理，不要整理跟情境故事相關的問題
+        - 整體摘要在一百字以內
+        - 重點概念列出 bullet points，至少三個，最多五個
+        - 以及可能的結論與結尾延伸小問題提供學生作反思
+        - 敘述中，請把數學或是專業術語，用 Latex 包覆（$...$）
+        - 加減乘除、根號、次方等等的運算式口語也換成 LATEX 數學符號
+        Example:
+        請以下列 markdown 格式輸出：
+        ## 🌟 主題： (如果沒有 title 就省略)
+        ## 📚 整體摘要
+            - (一個 bullet point....)
+        ## 🔖 重點概念
+            - xxx
+            - xxx
+            - xxx
+        ## 💡 為什麼我們要學這個？
+            - (一個 bullet point....)
+        ## ❓ 延伸小問題
+            - (一個 bullet point....請圍繞學習重點，進行重點延伸思考，不要整理跟情境故事相關的問題)
+        """
         contents = [
             types.Content(
                 role="user",
                 parts=[
+                    types.Part.from_text(prompt)
                 ]
             )
         ]
         )
         print("摘要生成完成！")
+        summary = response.text
+        return summary
     except Exception as e:
         print(f"\n生成摘要時發生錯誤: {str(e)}")
         raise
 def on_summary_click(transcript):
     if not transcript:
         return "請先上傳文件或輸入 YouTube 連結並處理完成後再生成摘要。"