Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Feb 4, 2024

Commit

a931b41

1 Parent(s): cf25313

check_file_exists

Browse files

Files changed (1) hide show

app.py +63 -37

app.py CHANGED Viewed

@@ -19,23 +19,23 @@ from urllib.parse import urlparse, parse_qs
 # 假设您的环境变量或Secret的名称是GOOGLE_APPLICATION_CREDENTIALS_JSON
-credentials_json_string = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
-credentials_dict = json.loads(credentials_json_string)
-SCOPES = ['https://www.googleapis.com/auth/drive']
-credentials = service_account.Credentials.from_service_account_info(
-        credentials_dict, scopes=SCOPES)
-service = build('drive', 'v3', credentials=credentials)
-# 列出 Google Drive 上的前10個文件
-results = service.files().list(pageSize=10, fields="nextPageToken, files(id, name)").execute()
-items = results.get('files', [])
-if not items:
-    print('No files found.')
-else:
-    print("=====Google Drive 上的前10個文件=====")
-    print('Files:')
-    for item in items:
-        print(u'{0} ({1})'.format(item['name'], item['id']))
@@ -45,6 +45,35 @@ OUTPUT_PATH = 'videos'
 OPEN_AI_KEY = os.getenv("OPEN_AI_KEY")
 client = OpenAI(api_key=OPEN_AI_KEY)
 def process_file(file):
     # 读取文件
     if file.name.endswith('.csv'):
@@ -106,9 +135,22 @@ def process_youtube_link(link):
     # 使用 YouTube API 获取逐字稿
     # 假设您已经获取了 YouTube 视频的逐字稿并存储在变量 `transcript` 中
     video_id = extract_youtube_id(link)
-    # 先下載 video
-    download_youtube_video(video_id, output_path=OUTPUT_PATH)
     # 再取得 transcript
     transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['zh-TW'])
     # 基于逐字稿生成其他所需的输出
@@ -175,6 +217,8 @@ def download_youtube_video(youtube_id, output_path=OUTPUT_PATH):
 def screenshot_youtube_video(youtube_id, snapshot_sec):
     # 这里假设视频已经在适当的位置
     video_path = f'{OUTPUT_PATH}/{youtube_id}.mp4'
@@ -185,24 +229,6 @@ def screenshot_youtube_video(youtube_id, snapshot_sec):
     return screenshot_path
-def process_video(youtube_id):
-    download_youtube_video(youtube_id)
-    video_path = f'{OUTPUT_PATH}/{youtube_id}.mp4'
-    video = VideoFileClip(video_path)
-    duration = int(video.duration)
-    output_path = f'{OUTPUT_PATH}/screenshots/{youtube_id}'
-    os.makedirs(output_path, exist_ok=True)
-    #  fake duration
-    duration = 10
-    screenshot_paths = []
-    for i in range(1, duration):
-        screenshot_path = screenshot_youtube_video(youtube_id, i)
-        screenshot_paths.append(screenshot_path)
-    return screenshot_paths
 def get_screenshot_from_video(video_link, start_time):
     # 实现从视频中提取帧的逻辑
     # 由于这需要服务器端处理，你可能需要一种方法来下载视频，

 # 假设您的环境变量或Secret的名称是GOOGLE_APPLICATION_CREDENTIALS_JSON
+# credentials_json_string = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+# credentials_dict = json.loads(credentials_json_string)
+# SCOPES = ['https://www.googleapis.com/auth/drive']
+# credentials = service_account.Credentials.from_service_account_info(
+#         credentials_dict, scopes=SCOPES)
+# service = build('drive', 'v3', credentials=credentials)
+# # 列出 Google Drive 上的前10個文件
+# results = service.files().list(pageSize=10, fields="nextPageToken, files(id, name)").execute()
+# items = results.get('files', [])
+# if not items:
+#     print('No files found.')
+# else:
+#     print("=====Google Drive 上的前10個文件=====")
+#     print('Files:')
+#     for item in items:
+#         print(u'{0} ({1})'.format(item['name'], item['id']))
 OPEN_AI_KEY = os.getenv("OPEN_AI_KEY")
 client = OpenAI(api_key=OPEN_AI_KEY)
+# 初始化Google Drive服务
+def init_drive_service():
+    credentials_json_string = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+    credentials_dict = json.loads(credentials_json_string)
+    SCOPES = ['https://www.googleapis.com/auth/drive']
+    credentials = service_account.Credentials.from_service_account_info(
+            credentials_dict, scopes=SCOPES)
+    service = build('drive', 'v3', credentials=credentials)
+    return service
+# 检查Google Drive上是否存在文件
+def check_file_exists(service, folder_name, file_name):
+    query = f"name = '{file_name}' and '{folder_name}' in parents and trashed = false"
+    response = service.files().list(q=query).execute()
+    files = response.get('files', [])
+    return len(files) > 0, files[0]['id'] if files else None
+# 上传文件到Google Drive
+def upload_to_drive(service, file_name, folder_id, content):
+    file_metadata = {
+        'name': file_name,
+        'parents': [folder_id]
+    }
+    media = MediaIoBaseUpload(io.BytesIO(content.encode()), mimetype='text/plain')
+    file = service.files().create(body=file_metadata, media_body=media, fields='id').execute()
+    return file.get('id')
 def process_file(file):
     # 读取文件
     if file.name.endswith('.csv'):
     # 使用 YouTube API 获取逐字稿
     # 假设您已经获取了 YouTube 视频的逐字稿并存储在变量 `transcript` 中
     video_id = extract_youtube_id(link)
+    service = init_drive_service()
+    folder_name = 'youtube逐字稿圖檔/{video_id}'  # Google Drive上的文件夹ID
+    file_name = f"{video_id}_transcript.txt"
+    # 检查逐字稿是否存在
+    exists, file_id = check_file_exists(service, folder_name, file_name)
+    if not exists:
+        # 获取逐字稿
+        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['en'])
+        transcript_text = "\n".join([f"{item['start']}: {item['text']}" for item in transcript])
+        # 上传到Google Drive
+        upload_to_drive(service, file_name, folder_name, transcript_text)
+        print("逐字稿已上传到Google Drive")
+    else:
+        print("逐字稿已存在于Google Drive中")
     # 再取得 transcript
     transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['zh-TW'])
     # 基于逐字稿生成其他所需的输出
 def screenshot_youtube_video(youtube_id, snapshot_sec):
+    # 先下載 video
+    download_youtube_video(youtube_id, output_path=OUTPUT_PATH)
     # 这里假设视频已经在适当的位置
     video_path = f'{OUTPUT_PATH}/{youtube_id}.mp4'
     return screenshot_path
 def get_screenshot_from_video(video_link, start_time):
     # 实现从视频中提取帧的逻辑
     # 由于这需要服务器端处理，你可能需要一种方法来下载视频，