import os import re import json import pdfkit import requests import warnings import tempfile # import textract import html2text import inscriptis import trafilatura from pathlib import Path from markdownify import markdownify from json_repair import repair_json from bs4 import BeautifulSoup, Comment from html_chunking import get_html_chunks from urllib.error import URLError, HTTPError from html_to_markdown import convert_to_markdown from readabilipy import simple_json_from_html_string from docling.document_converter import DocumentConverter from dateparser_scripts.update_supported_languages_and_locales import to_string def clean_html(html_content: str) -> str: """ Cleans up the given HTML content by: - Removing