Spaces:

youngtsai
/

NBLM

Sleeping

App Files Files Community

youngtsai commited on Dec 27, 2024

Commit

9b4503a

1 Parent(s): a8f6954

def generate_transcript(youtube_link):

Browse files

Files changed (4) hide show

.gitignore +2 -0
app.py +119 -38
config/config.py +0 -1
initializer.py +75 -0

.gitignore CHANGED Viewed

@@ -1,2 +1,4 @@
 local_config.json
 *.pyc

 local_config.json
 *.pyc
+*.pem
+*.key

app.py CHANGED Viewed

@@ -1,14 +1,20 @@
 import gradio as gr
 import os
 import shutil
 import tempfile
-from openai import OpenAI
-from storage_service import GoogleCloudStorage
-from google.oauth2.service_account import Credentials
-import vertexai
-from vertexai.generative_models import GenerativeModel, Part
 def mock_question_answer(question, history):
     # 假資料模擬回答
@@ -32,40 +38,102 @@ def add_to_file_list(file, file_list):
         temp_path = os.path.join(temp_dir, os.path.basename(file.name))
         shutil.copy(file.name, temp_path)  # 將文件存儲到臨時目錄
         file_list.append(temp_path)
-    display_list = [os.path.basename(path) for path in file_list]
-    return gr.update(choices=display_list), None  # 清空文件選擇框
-def process_selected_files(selected_files, file_list):
-    selected_paths = [path for path in file_list if os.path.basename(path) in selected_files]
-    # 假資料模擬處理 RAG
-    return f"已處理的文件: {', '.join(selected_paths)}"
-def toggle_visibility(toggle_value):
-    return gr.update(visible=toggle_value)
-def get_youtube_playlist():
-    # 假資料模擬 YouTube 播放清單
-    return [
-        {"id": "yPmgHBRUdns", "title": "【觀念】比與比值"},
-        {"id": "CgLdZpnr_h8", "title": "【觀念】相等的比"},
-        {"id": "-7HVxER-rb0", "title": "【觀念】比例式的運算性質"},
-    ]
-def format_youtube_choices(youtube_data):
-    return [f"{item['id']} - {item['title']}" for item in youtube_data]
-def process_selected_videos(selected_videos):
-    # 假資料模擬處理選擇的影片
-    return f"已選擇的影片: {', '.join(selected_videos)}"
 def add_youtube_to_list(youtube_link, file_list):
-  if youtube_link:
-    file_list.append(youtube_link)
     display_list = [os.path.basename(path) if os.path.basename(path) else path for path in file_list]
-  return gr.update(choices=display_list), ""
 def process_all_files(file_list):
-  return f"已處理的文件: {', '.join(file_list)}"
 with gr.Blocks() as demo:
     gr.Markdown("# AI Notes Assistant")
@@ -96,7 +164,6 @@ with gr.Blocks() as demo:
             process_files_button = gr.Button("處理檔案")
             rag_result = gr.Textbox(label="處理結果", interactive=False)
-            process_files_button.click(process_all_files, inputs=[file_list], outputs=[rag_result])
             file_list.change(lambda x: gr.update(choices = [os.path.basename(path) if os.path.basename(path) else path for path in x]), inputs=file_list, outputs=file_display)
         with gr.Column(visible=True) as chat_column:
@@ -110,6 +177,13 @@ with gr.Blocks() as demo:
             with gr.Tab("摘要生成"):
                 summary_button = gr.Button("生成摘要")
                 summary = gr.Textbox(label="摘要", interactive=False)
             with gr.Tab("其他功能"):
                 gr.Markdown("此處可以添加更多功能卡片")
@@ -117,8 +191,15 @@ with gr.Blocks() as demo:
     chat_toggle.change(toggle_visibility, inputs=chat_toggle, outputs=chat_column)
     feature_toggle.change(toggle_visibility, inputs=feature_toggle, outputs=feature_column)
     history = gr.State([])
-    ask_button.click(mock_question_answer, inputs=[question, history], outputs=[chatbot, chatbot])
-    summary_button.click(mock_summary, inputs=[], outputs=[summary])
-demo.launch()

+# -*- coding: utf-8 -*-
 import gradio as gr
 import os
 import shutil
 import tempfile
+from google import genai
+from google.genai import types
+from initializer import initialize_clients
+# 初始化 Google Cloud Storage 服務和 GENAI 客戶端
+GCS_SERVICE, GENAI_CLIENT = initialize_clients()
+GCS_CLIENT = GCS_SERVICE.client
+def toggle_visibility(toggle_value):
+    return gr.update(visible=toggle_value)
 def mock_question_answer(question, history):
     # 假資料模擬回答
         temp_path = os.path.join(temp_dir, os.path.basename(file.name))
         shutil.copy(file.name, temp_path)  # 將文件存儲到臨時目錄
         file_list.append(temp_path)
+    display_list = [os.path.basename(path) if os.path.basename(path) else path for path in file_list]
+    return gr.update(choices=display_list), None
 def add_youtube_to_list(youtube_link, file_list):
+    if youtube_link:
+        file_list.append(youtube_link)
     display_list = [os.path.basename(path) if os.path.basename(path) else path for path in file_list]
+    return gr.update(choices=display_list), ""
+def generate_transcript(youtube_link):
+    print(f"\n開始生成 YouTube 逐字稿: {youtube_link}")
+    try:
+        print("初始化 Gemini 模型設定...")
+        video = types.Part.from_uri(
+            file_uri=youtube_link,
+            mime_type="video/*",
+        )
+        model = "gemini-2.0-flash-exp"
+        contents = [
+            types.Content(
+                role="user",
+                parts=[
+                    video,
+                    types.Part.from_text("""請給我帶時間軸的逐字稿，請統一用 zhTW語言""")
+                ]
+            )
+        ]
+        generate_content_config = types.GenerateContentConfig(
+            temperature=1,
+            top_p=0.95,
+            max_output_tokens=8192,
+            response_modalities=["TEXT"],
+            safety_settings=[
+                types.SafetySetting(category="HARM_CATEGORY_HATE_SPEECH", threshold="OFF"),
+                types.SafetySetting(category="HARM_CATEGORY_DANGEROUS_CONTENT", threshold="OFF"),
+                types.SafetySetting(category="HARM_CATEGORY_SEXUALLY_EXPLICIT", threshold="OFF"),
+                types.SafetySetting(category="HARM_CATEGORY_HARASSMENT", threshold="OFF")
+            ],
+        )
+        print("開始串流生成逐字稿...")
+        transcript_text = ""
+        for chunk in GENAI_CLIENT.models.generate_content_stream(
+            model=model,
+            contents=contents,
+            config=generate_content_config,
+        ):
+            # Extract only text content from candidates
+            if hasattr(chunk, 'candidates') and chunk.candidates:
+                for candidate in chunk.candidates:
+                    if (hasattr(candidate, 'content') and
+                        hasattr(candidate.content, 'parts')):
+                        for part in candidate.content.parts:
+                            if hasattr(part, 'text') and part.text:
+                                transcript_text += part.text
+            print(".", end="", flush=True)
+        print("\n逐字稿生成完成！")
+        return transcript_text
+    except Exception as e:
+        print(f"\n生成逐字稿時發生錯誤: {str(e)}")
+        raise
 def process_all_files(file_list):
+    print("\n=== 開始處理檔案 ===")
+    print(f"待處理檔案數量: {len(file_list)}")
+    result_text = ""
+    transcript_text = ""
+    for index, file in enumerate(file_list, 1):
+        print(f"\n處理第 {index}/{len(file_list)} 個檔案: {file}")
+        if "youtube.com" in file or "youtu.be" in file:
+            print(f"檢測到 YouTube 連結，開始生成逐字稿...")
+            try:
+                transcript = generate_transcript(file)
+                print("✓ YouTube 逐字稿生成成功")
+                result_text += f"🟢 YouTube 影片處理完成: {file}\n"
+                transcript_text += f"\n=== {file} 的逐字稿 ===\n{transcript}\n"
+            except Exception as e:
+                print(f"✗ YouTube 逐字稿生成失敗: {str(e)}")
+                result_text += f"🔴 YouTube 影片處理失敗: {file}\n"
+        else:
+            print(f"處理一般檔案: {file}")
+            try:
+                # 這裡可以加入其他檔案的處理邏輯
+                print("✓ 檔案處理成功")
+                result_text += f"🟢 檔案處理完成: {file}\n"
+            except Exception as e:
+                print(f"✗ 檔案處理失敗: {str(e)}")
+                result_text += f"🔴 檔案處理失敗: {file}\n"
+    print("\n=== 檔案處理完成 ===")
+    return result_text, transcript_text
 with gr.Blocks() as demo:
     gr.Markdown("# AI Notes Assistant")
             process_files_button = gr.Button("處理檔案")
             rag_result = gr.Textbox(label="處理結果", interactive=False)
             file_list.change(lambda x: gr.update(choices = [os.path.basename(path) if os.path.basename(path) else path for path in x]), inputs=file_list, outputs=file_display)
         with gr.Column(visible=True) as chat_column:
             with gr.Tab("摘要生成"):
                 summary_button = gr.Button("生成摘要")
                 summary = gr.Textbox(label="摘要", interactive=False)
+            with gr.Tab("逐字稿"):
+                transcript_display = gr.Textbox(
+                    label="YouTube 逐字稿",
+                    interactive=False,
+                    lines=15,
+                    placeholder="處理 YouTube 影片後，逐字稿將顯示在這裡..."
+                )
             with gr.Tab("其他功能"):
                 gr.Markdown("此處可以添加更多功能卡片")
     chat_toggle.change(toggle_visibility, inputs=chat_toggle, outputs=chat_column)
     feature_toggle.change(toggle_visibility, inputs=feature_toggle, outputs=feature_column)
+    # 更新處理檔案按鈕的事件處理
+    process_files_button.click(
+        process_all_files,
+        inputs=[file_list],
+        outputs=[rag_result, transcript_display]
+    )
     history = gr.State([])
+    ask_button.click(mock_question_answer, inputs=[question, history], outputs=[chatbot, question])
+    summary_button.click(mock_summary, outputs=summary)
+demo.launch(share=True)

config/config.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import os
 import json
-import gradio as gr
 # KEY CONFIG
 is_env_local = os.getenv("IS_ENV_LOCAL", "false") == "true"

 import os
 import json
 # KEY CONFIG
 is_env_local = os.getenv("IS_ENV_LOCAL", "false") == "true"

initializer.py ADDED Viewed

	@@ -0,0 +1,75 @@

+import json
+import os
+from google.oauth2 import service_account
+from google.cloud import storage
+from google import genai
+from storage_service import GoogleCloudStorage
+def initialize_google_credentials():
+    is_env_local = os.getenv("IS_ENV_LOCAL", "false") == "true"
+    print(f"Environment is local: {is_env_local}")
+    try:
+        if is_env_local:
+            config_path = os.path.join(os.path.dirname(__file__), "local_config.json")
+            print(f"Trying to load config from: {config_path}")
+            if not os.path.exists(config_path):
+                print(f"Warning: {config_path} does not exist")
+                return None
+            with open(config_path) as f:
+                config = json.load(f)
+                google_credentials_key = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
+        else:
+            google_credentials_key = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+            if not google_credentials_key:
+                print("Warning: GOOGLE_APPLICATION_CREDENTIALS_JSON environment variable not set")
+        return google_credentials_key
+    except Exception as e:
+        print(f"Error initializing credentials: {str(e)}")
+        return None
+def initialize_gcs_service(google_credentials_key):
+    if not google_credentials_key:
+        print("Warning: No credentials provided, GCS service will not be initialized")
+        return None
+    return GoogleCloudStorage(google_credentials_key)
+def initialize_genai_client(google_credentials_key):
+    try:
+        if not google_credentials_key:
+            print("Warning: No credentials provided, using default authentication")
+            return genai.Client(
+                vertexai=True,
+                project='junyiacademy',
+                location='us-central1'
+            )
+        google_service_account_info_dict = json.loads(google_credentials_key)
+        GOOGPE_SCOPES = ["https://www.googleapis.com/auth/cloud-platform"]
+        credentials = service_account.Credentials.from_service_account_info(
+            google_service_account_info_dict, scopes=GOOGPE_SCOPES
+        )
+        return genai.Client(
+            vertexai=True,
+            project='junyiacademy',
+            location='us-central1',
+            credentials=credentials
+        )
+    except Exception as e:
+        print(f"Error initializing GenAI client: {str(e)}")
+        print("Falling back to default authentication")
+        return genai.Client(
+            vertexai=True,
+            project='junyiacademy',
+            location='us-central1'
+        )
+def initialize_clients():
+    google_credentials_key = initialize_google_credentials()
+    gcs_service = initialize_gcs_service(google_credentials_key)
+    genai_client = initialize_genai_client(google_credentials_key)
+    return gcs_service, genai_client