Spaces:

minnehwg
/

youtube-summarizer

Runtime error

minnehwg commited on Jun 2, 2024

Commit

915c9b5

verified ·

1 Parent(s): f213cf3

Update util.py

Files changed (1) hide show

util.py CHANGED Viewed

@@ -37,6 +37,7 @@ def get_subtitles(video_url):
         video_id = video_url.split("v=")[1]
         transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['en'])
         subs = " ".join(entry['text'] for entry in transcript)
         return transcript, subs
@@ -95,14 +96,12 @@ def split_into_chunks(text, max_words=800, overlap_sentences=2):
         else:
             if len(current_chunk) >= overlap_sentences:
                 overlap = current_chunk[-overlap_sentences:]
-                print(f"Overlapping sentences: {' '.join(overlap)}")
             chunks.append(' '.join(current_chunk))
             current_chunk = current_chunk[-overlap_sentences:] + [sentence]
             current_word_count = sum(len(sent.split()) for sent in current_chunk)
     if current_chunk:
         if len(current_chunk) >= overlap_sentences:
             overlap = current_chunk[-overlap_sentences:]
-            print(f"Overlapping sentences: {' '.join(overlap)}")
         chunks.append(' '.join(current_chunk))
     return chunks
@@ -130,7 +129,7 @@ def pipeline(url, model, tokenizer):
     chunks = split_into_chunks(vie_sub, 700, 2)
     sum_para = []
     for i in chunks:
-        tmp = summarize(i, model, tokenizer, num_beams=5)
         sum_para.append(tmp)
     sum = ''.join(sum_para)
     del sub, vie_sub, sum_para, chunks

         video_id = video_url.split("v=")[1]
         transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['en'])
         subs = " ".join(entry['text'] for entry in transcript)
+        print(sub)
         return transcript, subs
         else:
             if len(current_chunk) >= overlap_sentences:
                 overlap = current_chunk[-overlap_sentences:]
             chunks.append(' '.join(current_chunk))
             current_chunk = current_chunk[-overlap_sentences:] + [sentence]
             current_word_count = sum(len(sent.split()) for sent in current_chunk)
     if current_chunk:
         if len(current_chunk) >= overlap_sentences:
             overlap = current_chunk[-overlap_sentences:]
         chunks.append(' '.join(current_chunk))
     return chunks
     chunks = split_into_chunks(vie_sub, 700, 2)
     sum_para = []
     for i in chunks:
+        tmp = summarize(i, model, tokenizer, num_beams=3)
         sum_para.append(tmp)
     sum = ''.join(sum_para)
     del sub, vie_sub, sum_para, chunks