Spaces:

eusholli
/

ttv-ec

Build error

eusholli commited on Nov 18, 2024

Commit

810b5d2

1 Parent(s): 03ec9cb

suppress moviepy console output

Files changed (1) hide show

ttv_web_scraper.py CHANGED Viewed

@@ -18,6 +18,10 @@ os.environ["TOKENIZERS_PARALLELISM"] = "false"
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 CACHE_DIR = "cache/"
 DB_METADATA_FILE = os.path.join(CACHE_DIR, "db_metadata.json")
 SUBJECTS = [
@@ -115,7 +119,8 @@ def parse_transcript(content: str) -> List[TranscriptSegment]:
     parsed_segments = []
     saved_info = None
-    segments = [segment.strip() for segment in re.split(r'(<br><br>.*?\((?:\d{2}:)?\d{2}:\d{2}\):<br>)', content) if segment.strip()]
     for i, segment in enumerate(segments):
         speaker_info = extract_speaker_info(segment)
@@ -226,7 +231,9 @@ async def process_urls(urls: List[str]) -> List[Optional[VideoInfo]]:
     return await asyncio.gather(*[process_url(url) for url in urls])
-def db_save_metadata_sets(processed_urls: Set[str], speakers: Set[str], companies: Dict[str, Set[str]], sentiments: Set[str], subjects: Set[str]):
     metadata = {
         'processed_urls': list(processed_urls),
         'speakers': list(speakers),

 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
+# Configure logging to suppress MoviePy's console output
+logging.getLogger("moviepy").setLevel(logging.WARNING)
 CACHE_DIR = "cache/"
 DB_METADATA_FILE = os.path.join(CACHE_DIR, "db_metadata.json")
 SUBJECTS = [
     parsed_segments = []
     saved_info = None
+    segments = [segment.strip() for segment in re.split(r'(<br><br>.*?\((?:\d{2}:)?\d{2}:\d{2}\):<br>)',
+                                                        content) if segment.strip()]
     for i, segment in enumerate(segments):
         speaker_info = extract_speaker_info(segment)
     return await asyncio.gather(*[process_url(url) for url in urls])
+def db_save_metadata_sets(processed_urls: Set[str], speakers: Set[str],
+                          companies: Dict[str, Set[str]],
+                          sentiments: Set[str], subjects: Set[str]):
     metadata = {
         'processed_urls': list(processed_urls),
         'speakers': list(speakers),