Spaces:

youngtsai
/

NBLM

Sleeping

App Files Files Community

youngtsai commited on Dec 28, 2024

Commit

ff03c35

1 Parent(s): e485414

fetch video title

Browse files

Files changed (2) hide show

app.py +148 -47
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ import shutil
 import tempfile
 from google import genai
 from google.genai import types
 from initializer import initialize_clients, initialize_password
@@ -36,6 +37,30 @@ def mock_summary():
     # 假資料模擬摘要
     return "這份文件主要討論人工智慧在工作效率提升方面的應用，並提供了實際案例來說明其價值。"
 def add_to_file_list(file, file_list):
     if file:
         temp_dir = tempfile.gettempdir()
@@ -46,10 +71,25 @@ def add_to_file_list(file, file_list):
     return gr.update(choices=display_list), None
 def add_youtube_to_list(youtube_link, file_list):
-    if youtube_link:
-        file_list.append(youtube_link)
-    display_list = [os.path.basename(path) if os.path.basename(path) else path for path in file_list]
-    return gr.update(choices=display_list), ""
 def generate_transcript(youtube_link):
     print(f"\n開始生成 YouTube 逐字稿: {youtube_link}")
@@ -146,45 +186,100 @@ def generate_summary(transcript):
         raise
 def process_all_files(file_list):
-    print("\n=== 開始處理檔案 ===")
-    print(f"待處理檔案數量: {len(file_list)}")
-    result_text = ""
-    transcript_text = ""
-    for index, file in enumerate(file_list, 1):
-        print(f"\n處理第 {index}/{len(file_list)} 個檔案: {file}")
-        if "youtube.com" in file or "youtu.be" in file:
-            print(f"檢測到 YouTube 連結，開始生成逐字稿...")
-            try:
-                transcript = generate_transcript(file)
-                print("✓ YouTube 逐字稿生成成功")
-                result_text += f"🟢 YouTube 影片處理完成: {file}\n"
-                transcript_text += f"\n=== {file} 的逐字稿 ===\n{transcript}\n"
-            except Exception as e:
-                print(f"✗ YouTube 逐字稿生成失敗: {str(e)}")
-                result_text += f"🔴 YouTube 影片處理失敗: {file}\n"
-        else:
-            print(f"處理一般檔案: {file}")
-            try:
-                # 這裡可以加入其他檔案的處理邏輯
-                print("✓ 檔案處理成功")
-                result_text += f"🟢 檔案處理完成: {file}\n"
-            except Exception as e:
-                print(f"✗ 檔案處理失敗: {str(e)}")
-                result_text += f"🔴 檔案處理失敗: {file}\n"
-    print("\n=== 檔案處理完成 ===")
-    return result_text, transcript_text
-def process_with_auth(password, file_list):
-    """包含密碼驗證的處理函數"""
-    if not password or password != PASSWORD:
         return "請輸入正確的密碼", "", gr.update(visible=False)
-    result_text, transcript_text = process_all_files(file_list)
-    return result_text, transcript_text
 def on_summary_click(transcript):
     if not transcript:
@@ -209,24 +304,31 @@ with gr.Blocks() as demo:
             gr.Markdown("### 來源選單")
             file_list = gr.State([])
             with gr.Tab("YouTube 連結"):
                 youtube_link = gr.Textbox(label="輸入 YouTube 連結")
                 add_youtube_button = gr.Button("添加到來源列表")
                 add_youtube_button.click(add_youtube_to_list, inputs=[youtube_link, file_list], outputs=[file_list, youtube_link])
-            with gr.Tab("上傳檔案"):
                 upload_file = gr.File(label="從電腦添加文件", file_types=[".txt", ".pdf", ".docx"])
                 add_file_button = gr.Button("添加到來源列表")
                 add_file_button.click(add_to_file_list, inputs=[upload_file, file_list], outputs=[file_list, upload_file])
-            file_display = gr.CheckboxGroup(label="已上傳的文件", interactive=True)
             process_files_button = gr.Button("處理檔案")
             rag_result = gr.Textbox(label="處理狀態", interactive=False)
-            file_list.change(lambda x: gr.update(choices = [os.path.basename(path) if os.path.basename(path) else path for path in x]), inputs=file_list, outputs=file_display)
         with gr.Column(visible=True) as chat_column:
             gr.Markdown("### 對話區域")
             chatbot = gr.Chatbot(label="聊天記錄", type="messages")
@@ -247,7 +349,7 @@ with gr.Blocks() as demo:
                 transcript_display = gr.Textbox(
                     label="YouTube 逐字稿",
                     interactive=False,
-                    lines=10,
                     show_copy_button=True,
                     placeholder="處理 YouTube 影片後，逐字稿將顯示在這裡..."
                 )
@@ -261,10 +363,11 @@ with gr.Blocks() as demo:
     # 更新處理檔案按鈕的事件處理
     process_files_button.click(
         fn=process_with_auth,
-        inputs=[password_input, file_list],
         outputs=[
             rag_result,
-            transcript_display
         ]
     ).then(
         fn=on_summary_click,
@@ -280,6 +383,4 @@ with gr.Blocks() as demo:
         outputs=[summary_output]
     )
 demo.launch(share=True)

 import tempfile
 from google import genai
 from google.genai import types
+import yt_dlp
 from initializer import initialize_clients, initialize_password
     # 假資料模擬摘要
     return "這份文件主要討論人工智慧在工作效率提升方面的應用，並提供了實際案例來說明其價值。"
+def get_youtube_title(url):
+    """獲取 YouTube 影片標題"""
+    try:
+        # 確保 URL 格式完整
+        if not url.startswith('http'):
+            if 'watch?v=' in url:
+                url = f'https://www.youtube.com/{url}'
+            else:
+                url = f'https://www.youtube.com/watch?v={url}'
+        ydl_opts = {
+            'quiet': True,
+            'no_warnings': True,
+            'extract_flat': True
+        }
+        with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+            info = ydl.extract_info(url, download=False)
+            title = info.get('title', url)
+            print(f"YouTube title: {title}")
+            return title
+    except Exception as e:
+        print(f"Error fetching YouTube title: {str(e)}")
+        return url
 def add_to_file_list(file, file_list):
     if file:
         temp_dir = tempfile.gettempdir()
     return gr.update(choices=display_list), None
 def add_youtube_to_list(youtube_link, file_list):
+    if not youtube_link:
+        return gr.update(choices=[item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]), ""
+    # 獲取標題
+    title = get_youtube_title(youtube_link)
+    # 確保 URL 格式完整
+    if not youtube_link.startswith('http'):
+        if 'watch?v=' in youtube_link:
+            youtube_link = f'https://www.youtube.com/{youtube_link}'
+        else:
+            youtube_link = f'https://www.youtube.com/watch?v={youtube_link}'
+    # 存儲格式：[title]|||[url]
+    file_list.append(f"{title}|||{youtube_link}")
+    display_list = [item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]
+    print(f"File list: {file_list}")
+    print(f"Display list: {display_list}")
+    return file_list, ""
 def generate_transcript(youtube_link):
     print(f"\n開始生成 YouTube 逐字稿: {youtube_link}")
         raise
 def process_all_files(file_list):
+    """處理所有選中的文件"""
+    if not file_list:
+        return "請選擇要處理的文件", ""
+    all_text = []
+    status_messages = []
+    for item in file_list:
+        try:
+            if "|||" in item:
+                # YouTube 連結
+                title, url = item.split("|||")
+                print(f"處理 YouTube: {title}")
+                try:
+                    transcript = generate_transcript(url)
+                    if transcript:
+                        all_text.append(f"=== {title} ===\n{transcript}")
+                        status_messages.append(f"🟢 成功處理 YouTube 影片：{title}")
+                    else:
+                        status_messages.append(f"🔴 無法獲取影片逐字稿：{title}")
+                except Exception as e:
+                    if "無法取得影片資訊" in str(e):
+                        # 可能是影片標題問題，但還是有內容
+                        all_text.append(f"=== YouTube 影片 ===\n{e.transcript if hasattr(e, 'transcript') else ''}")
+                        status_messages.append(f"🟡 影片資訊不完整，但已處理內容：{url}")
+                    else:
+                        status_messages.append(f"🔴 處理失敗：{title}（{str(e)}）")
+            else:
+                # 本地文件
+                filename = os.path.basename(item)
+                print(f"處理文件: {filename}")
+                try:
+                    with open(item, 'r', encoding='utf-8') as f:
+                        content = f.read()
+                        try:
+                            # 嘗試解碼文件名
+                            decoded_name = filename.encode('latin1').decode('utf-8')
+                            all_text.append(f"=== {decoded_name} ===\n{content}")
+                            status_messages.append(f"🟢 成功處理文件：{decoded_name}")
+                        except:
+                            # 文件名有問題，但內容可用
+                            all_text.append(f"=== 文件內容 ===\n{content}")
+                            status_messages.append(f"🟡 文件名稱無法正確顯示，但已處理內容：{filename}")
+                except UnicodeDecodeError:
+                    try:
+                        # 嘗試其他編碼
+                        for encoding in ['big5', 'gbk', 'shift-jis']:
+                            try:
+                                with open(item, 'r', encoding=encoding) as f:
+                                    content = f.read()
+                                    all_text.append(f"=== {filename} ===\n{content}")
+                                    status_messages.append(f"🟡 使用 {encoding} 編碼成功讀取文件：{filename}")
+                                    break
+                            except:
+                                continue
+                        else:
+                            status_messages.append(f"🔴 無法讀取文件內容：{filename}（編碼問題）")
+                    except Exception as e:
+                        status_messages.append(f"🔴 讀取文件失敗：{filename}（{str(e)}）")
+                except Exception as e:
+                    status_messages.append(f"🔴 讀取文件失敗：{filename}（{str(e)}）")
+        except Exception as e:
+            status_messages.append(f"🔴 處理失敗：{item}（{str(e)}）")
+    if not all_text:
+        return "❌ 沒有成功處理任何文件", ""
+    # 合併所有文本
+    combined_text = "\n\n".join(all_text)
+    status_text = "\n".join(status_messages)
+    return f"處理完成\n{status_text}", combined_text
+def process_with_auth(password, file_list, file_display):
+    """帶密碼驗證的文件處理"""
+    if not file_display:  # 使用 file_display 而不是 file_list
+        return "請選擇要處理的文件", "", gr.update(visible=False)
+    if password != PASSWORD:
         return "請輸入正確的密碼", "", gr.update(visible=False)
+    # 根據顯示的選項找到對應的完整項目
+    selected_files = []
+    for item in file_list:
+        if "|||" in item:
+            title = item.split("|||")[0]
+            if title in file_display:
+                selected_files.append(item)
+        else:
+            if os.path.basename(item) in file_display:
+                selected_files.append(item)
+    result_text, transcript_text = process_all_files(selected_files)
+    return result_text, transcript_text, gr.update(visible=True)
 def on_summary_click(transcript):
     if not transcript:
             gr.Markdown("### 來源選單")
             file_list = gr.State([])
+            file_display = gr.State([])
             with gr.Tab("YouTube 連結"):
                 youtube_link = gr.Textbox(label="輸入 YouTube 連結")
                 add_youtube_button = gr.Button("添加到來源列表")
                 add_youtube_button.click(add_youtube_to_list, inputs=[youtube_link, file_list], outputs=[file_list, youtube_link])
+            with gr.Tab("上傳檔案（TODO）"):
                 upload_file = gr.File(label="從電腦添加文件", file_types=[".txt", ".pdf", ".docx"])
                 add_file_button = gr.Button("添加到來源列表")
                 add_file_button.click(add_to_file_list, inputs=[upload_file, file_list], outputs=[file_list, upload_file])
+            file_display_input = gr.CheckboxGroup(label="已上傳的文件", interactive=True)
+            # 更新顯示邏輯
+            def update_display(file_list):
+                display_list = [item.split("|||")[0] if "|||" in item else os.path.basename(item) for item in file_list]
+                print(f"Updating display with: {display_list}")
+                return gr.update(choices=display_list, value=[])
+            file_list.change(update_display, inputs=file_list, outputs=file_display_input)
             process_files_button = gr.Button("處理檔案")
             rag_result = gr.Textbox(label="處理狀態", interactive=False)
         with gr.Column(visible=True) as chat_column:
             gr.Markdown("### 對話區域")
             chatbot = gr.Chatbot(label="聊天記錄", type="messages")
                 transcript_display = gr.Textbox(
                     label="YouTube 逐字稿",
                     interactive=False,
+                    lines=20,
                     show_copy_button=True,
                     placeholder="處理 YouTube 影片後，逐字稿將顯示在這裡..."
                 )
     # 更新處理檔案按鈕的事件處理
     process_files_button.click(
         fn=process_with_auth,
+        inputs=[password_input, file_list, file_display_input],
         outputs=[
             rag_result,
+            transcript_display,
+            summary_button
         ]
     ).then(
         fn=on_summary_click,
         outputs=[summary_output]
     )
 demo.launch(share=True)

requirements.txt CHANGED Viewed

@@ -8,4 +8,5 @@ google-auth-oauthlib
 google-cloud-storage
 google-cloud-bigquery
 google-generativeai
-google-genai

 google-cloud-storage
 google-cloud-bigquery
 google-generativeai
+google-genai
+yt-dlp