Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Apr 22, 2024

Commit

be2b49a

1 Parent(s): ef7d9c3

moment['transcript'] = "，".join([entry['text'] for entry in formatted_simple_transcript

Browse files

Files changed (1) hide show

app.py +17 -7

app.py CHANGED Viewed

@@ -1277,19 +1277,19 @@ def generate_key_moments(formatted_simple_transcript, formatted_transcript):
         1. 小範圍切出不同段落的相對應時間軸的重點摘要，
         2. 每一小段最多不超過 1/5 的總內容，也就是大約 3~5段的重點（例如五～十分鐘的影片就一段大約1~2分鐘，最多三分鐘，但如果是超過十分鐘的影片，那一小段大約 2~3分鐘，以此類推）
         3. 注意不要遺漏任何一段時間軸的內容 從零秒開始
-        4. 如果頭尾的情節不是重點，就併入到附近的段落，特別是打招呼或是介紹人物就是不重要的情節
-        5. transcript 逐字稿的集合（要有合理的標點符號)，要完整跟原來的一樣，不要省略
-        以這種方式分析整個文本，從零秒開始分析，直到結束。這很重要
         6. 關鍵字從transcript  extract to keyword，保留專家名字、專業術語、年份、數字、期刊名稱、地名、數學公式
-        7. text, transcript, keywords please use or transfer zh-TW, it's very important
-        並用 JSON 格式返回 key_moments:[{{
             "start": "00:00",
             "end": "01:00",
             "text": "逐字稿的重點摘要",
-            "transcript": "逐字稿的集合（要有合理的標點符號)，要完整跟原來的一樣，不要省略",
             "keywords": ["關鍵字", "關鍵字"]
-        }}]
     """
     try:
@@ -1337,8 +1337,18 @@ def generate_key_moments(formatted_simple_transcript, formatted_transcript):
         response = BEDROCK_CLIENT.invoke_model(**kwargs)
         response_body = json.loads(response.get('body').read())
         response_completion = response_body.get('content')[0].get('text')
         key_moments = json.loads(response_completion)["key_moments"]
     print("=====key_moments=====")
     print(key_moments)
     print("=====key_moments=====")

         1. 小範圍切出不同段落的相對應時間軸的重點摘要，
         2. 每一小段最多不超過 1/5 的總內容，也就是大約 3~5段的重點（例如五～十分鐘的影片就一段大約1~2分鐘，最多三分鐘，但如果是超過十分鐘的影片，那一小段大約 2~3分鐘，以此類推）
         3. 注意不要遺漏任何一段時間軸的內容 從零秒開始
+        4. 如果頭尾的情節不是重點，特別是打招呼或是介紹人物、或是say goodbye 就是不重要的情節，就不用擷取
+        5. 以這種方式分析整個文本，從零秒開始分析，直到結束。這很重要
         6. 關鍵字從transcript  extract to keyword，保留專家名字、專業術語、年份、數字、期刊名稱、地名、數學公式
+        7. text, keywords please use or transfer zh-TW, it's very important
+        Example: retrun JSON
+        {{key_moments:[{{
             "start": "00:00",
             "end": "01:00",
             "text": "逐字稿的重點摘要",
             "keywords": ["關鍵字", "關鍵字"]
+            }}]
+        }}
     """
     try:
         response = BEDROCK_CLIENT.invoke_model(**kwargs)
         response_body = json.loads(response.get('body').read())
         response_completion = response_body.get('content')[0].get('text')
+        print(f"response_completion: {response_completion}")
         key_moments = json.loads(response_completion)["key_moments"]
+    # "transcript": get text from formatted_simple_transcript
+    for moment in key_moments:
+        start_time = parse_time(moment['start'])
+        end_time = parse_time(moment['end'])
+        # 使用轉換後的 timedelta 物件進行時間
+        moment['transcript'] = "，".join([entry['text'] for entry in formatted_simple_transcript
+                                        if start_time <= parse_time(entry['start_time']) <= end_time])
     print("=====key_moments=====")
     print(key_moments)
     print("=====key_moments=====")