Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Jun 19

Commit

3e8ecd3

1 Parent(s): 36e3da3

add WebshareProxyConfig

Browse files

Files changed (2) hide show

app.py +50 -19
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -48,6 +48,8 @@ from pydub import AudioSegment
 from youtube_transcript_api import YouTubeTranscriptApi
 from youtube_transcript_api._errors import NoTranscriptFound
 import yt_dlp
@@ -106,6 +108,8 @@ if is_env_local:
         AWS_SECRET_KEY = config["AWS_SECRET_KEY"]
         AWS_REGION_NAME = config["AWS_REGION_NAME"]
         OUTPUT_PATH = config["OUTPUT_PATH"]
 else:
     IS_ENV_PROD = os.getenv("IS_ENV_PROD", "False")
@@ -124,6 +128,8 @@ else:
     AWS_SECRET_KEY = os.getenv("AWS_SECRET_KEY")
     AWS_REGION_NAME = 'us-west-2'
     OUTPUT_PATH = 'videos'
 TRANSCRIPTS = []
 CURRENT_INDEX = 0
@@ -391,40 +397,65 @@ def extract_youtube_id(url):
     else:
         return None
-def get_transcript_by_yt_api(video_id):
-    print("====get_transcript_by_yt_api====")
-    transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
-    languages = []
-    for t in transcript_list:
-        languages.append(t.language_code)
     for language in languages:
         try:
-            yt_api_transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[language])
             print("===transcript===")
             print(yt_api_transcript)
             original_transcript = ""
             for entry in yt_api_transcript:
                 transcript_part = (f"{entry['start']:.0f}s: {entry['text']}")
                 print(transcript_part)
                 original_transcript += f"{transcript_part} \n"
             print("===transcript===")
             transcript = convert_transcription_to_json(original_transcript)
-            return transcript  # 成功獲取字幕，直接返回結果
         except NoTranscriptFound:
-            continue  # 當前語言的字幕沒有找到，繼續嘗試下一個語言
-    return None  # 所有嘗試都失敗，返回None
 def generate_transcription_by_gemini(video_id):
     """使用 Google Gemini 生成影片逐字稿"""
     print("====generate_transcription_by_gemini====")
     # 準備 YouTube 影片 URL
     video_url = f"https://www.youtube.com/watch?v={video_id}"
-    # 初始化 Gemini Pro Vision 模型
-    model = vertexai.generative_models.GenerativeModel("gemini-2.5-flash-preview-05-20")
     # 建立影片部分
     video_part = Part.from_uri(
@@ -481,7 +512,7 @@ def convert_transcription_to_json(original_transcription):
         return None
     # 使用 Vertex AI 來處理轉換
-    model = vertexai.generative_models.GenerativeModel("gemini-2.5-flash-preview-05-20")
     # 設定每段最大字數
     # 考慮到：
@@ -535,7 +566,7 @@ def convert_transcription_to_json(original_transcription):
         4. 回傳格式為 JSON array
         5. 合理的合併句子，不要有不合理的斷句，一句話至少要有完整的主詞、謂詞
         6. 每句話盡量在 10~15 個字左右，但要��完整語意為主
-        7. 如果遇到 [Music] 這類的標記，可以直接忽略不計
         8. 這是第 {i+1}/{len(chunks)} 段，請確保時間軸的連續性
         請直接返回 JSON 格式，不要加入任何說明文字或 markdown 標記。
@@ -659,7 +690,7 @@ def process_transcript_and_screenshots_on_gcs(video_id):
             # transcript = generate_transcription_by_gemini(video_id)
         except Exception as e:
             print(f" Error generating transcription: {str(e)}")
-            transcript = generate_transcription_by_gemini(video_id)
             # transcript = generate_transcription_by_whisper(video_id)
         upload_transcript_to_gcs(video_id, transcript)

 from youtube_transcript_api import YouTubeTranscriptApi
+from youtube_transcript_api.proxies import WebshareProxyConfig
 from youtube_transcript_api._errors import NoTranscriptFound
 import yt_dlp
         AWS_SECRET_KEY = config["AWS_SECRET_KEY"]
         AWS_REGION_NAME = config["AWS_REGION_NAME"]
         OUTPUT_PATH = config["OUTPUT_PATH"]
+        PROXY_USERNAME = config["PROXY_USERNAME"]
+        PROXY_PASSWORD = config["PROXY_PASSWORD"]
 else:
     IS_ENV_PROD = os.getenv("IS_ENV_PROD", "False")
     AWS_SECRET_KEY = os.getenv("AWS_SECRET_KEY")
     AWS_REGION_NAME = 'us-west-2'
     OUTPUT_PATH = 'videos'
+    PROXY_USERNAME = os.getenv("PROXY_USERNAME")
+    PROXY_PASSWORD = os.getenv("PROXY_PASSWORD")
 TRANSCRIPTS = []
 CURRENT_INDEX = 0
     else:
         return None
+def try_get_transcript(video_id, use_proxy=False):
+    if use_proxy:
+        proxy_config = WebshareProxyConfig(
+            proxy_username=PROXY_USERNAME,
+            proxy_password=PROXY_PASSWORD
+        )
+        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id, proxies=proxy_config)
+    else:
+        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
+    # 指定語言優先順序
+    language_priority = ["en", "zh-TW", "zh-CN", "ja"]
+    # 取得 transcript_list 中有的語言，並依照 priority 排序
+    available_languages = [t.language_code for t in transcript_list]
+    languages = [lang for lang in language_priority if lang in available_languages]
     for language in languages:
+        print("===language===")
+        print(f"use language: {language}")
+        print("===language===")
         try:
+            if use_proxy:
+                yt_api_transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[language], proxies=proxy_config)
+            else:
+                yt_api_transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[language])
             print("===transcript===")
             print(yt_api_transcript)
             original_transcript = ""
             for entry in yt_api_transcript:
                 transcript_part = (f"{entry['start']:.0f}s: {entry['text']}")
                 print(transcript_part)
                 original_transcript += f"{transcript_part} \n"
             print("===transcript===")
             transcript = convert_transcription_to_json(original_transcript)
+            return transcript
         except NoTranscriptFound:
+            continue
+    raise NoTranscriptFound("No transcript found for supported languages.")
+def get_transcript_by_yt_api(video_id):
+    print("====get_transcript_by_yt_api====")
+    # 先不用 proxy
+    try:
+        print("====try_get_transcript without proxy====")
+        return try_get_transcript(video_id, use_proxy=False)
+    except Exception as e1:
+        print(f"No proxy transcript error: {e1}")
+        # 再用 proxy
+        try:
+            print("====try_get_transcript with proxy====")
+            return try_get_transcript(video_id, use_proxy=True)
+        except Exception as e2:
+            print(f"With proxy transcript error: {e2}")
+            raise e2
 def generate_transcription_by_gemini(video_id):
     """使用 Google Gemini 生成影片逐字稿"""
     print("====generate_transcription_by_gemini====")
     # 準備 YouTube 影片 URL
     video_url = f"https://www.youtube.com/watch?v={video_id}"
+    model = vertexai.generative_models.GenerativeModel("gemini-2.5-flash")
     # 建立影片部分
     video_part = Part.from_uri(
         return None
     # 使用 Vertex AI 來處理轉換
+    model = vertexai.generative_models.GenerativeModel("gemini-2.5-flash")
     # 設定每段最大字數
     # 考慮到：
         4. 回傳格式為 JSON array
         5. 合理的合併句子，不要有不合理的斷句，一句話至少要有完整的主詞、謂詞
         6. 每句話盡量在 10~15 個字左右，但要��完整語意為主
+        7. 如果遇到 [Music] [Laughter] [Crowd] [Cheering] [Applause]這類的標記，可以直接忽略不計
         8. 這是第 {i+1}/{len(chunks)} 段，請確保時間軸的連續性
         請直接返回 JSON 格式，不要加入任何說明文字或 markdown 標記。
             # transcript = generate_transcription_by_gemini(video_id)
         except Exception as e:
             print(f" Error generating transcription: {str(e)}")
+            # transcript = generate_transcription_by_gemini(video_id)
             # transcript = generate_transcription_by_whisper(video_id)
         upload_transcript_to_gcs(video_id, transcript)

requirements.txt CHANGED Viewed

@@ -3,7 +3,7 @@ pandas
 openai>=1.16.2
 requests
 python-docx
-youtube-transcript-api
 moviepy==1.0.3
 pytube
 google-auth

 openai>=1.16.2
 requests
 python-docx
+youtube-transcript-api >= 1.1.0
 moviepy==1.0.3
 pytube
 google-auth