Bentham commited on
Commit
f9e968e
·
verified ·
1 Parent(s): 07d7a74

bypass replace_with

Browse files
Files changed (1) hide show
  1. main.py +6 -5
main.py CHANGED
@@ -395,7 +395,7 @@ async def clean_html_content(html_content: str, image_counter: List[int], images
395
  else:
396
  for img in img_tags:
397
  src = img.get('src', '')
398
- logging.debug(f"DEBUG CLEAN_HTML: Traitement de la balise <img> avec src='{src[:100]}...'") # Afficher le début du src
399
  X = image_counter[0]
400
  if src.startswith('data:image/'):
401
  logging.debug(f"DEBUG CLEAN_HTML: src commence par data:image/")
@@ -405,10 +405,11 @@ async def clean_html_content(html_content: str, image_counter: List[int], images
405
  'base64_image': base64_image
406
  }
407
  placeholder = f"<!--IMG_{X}-->"
408
- logging.debug(f"DEBUG CLEAN_HTML: Remplacement par le commentaire : {placeholder}")
409
- img.replace_with(BeautifulSoup(placeholder, 'html.parser'))
410
- logging.debug(f"DEBUG CLEAN_HTML: Après remplacement, recherche du commentaire dans soup : {soup.find(string=lambda text: isinstance(text, Comment) and str(text) == placeholder)}")
411
- logging.debug(f"DEBUG CLEAN_HTML: Nombre de commentaires dans soup après remplacement : {len(soup.find_all(string=lambda text: isinstance(text, Comment)))}")
 
412
  image_counter[0] += 1
413
  else:
414
  logging.debug(f"DEBUG CLEAN_HTML: Erreur lors de l'encodage base64, suppression de l'image.")
 
395
  else:
396
  for img in img_tags:
397
  src = img.get('src', '')
398
+ logging.debug(f"DEBUG CLEAN_HTML: Traitement de la balise <img> avec src='{src[:100]}...'")
399
  X = image_counter[0]
400
  if src.startswith('data:image/'):
401
  logging.debug(f"DEBUG CLEAN_HTML: src commence par data:image/")
 
405
  'base64_image': base64_image
406
  }
407
  placeholder = f"<!--IMG_{X}-->"
408
+ comment_tag = soup.new_string(placeholder, builder=soup.builder) # Create a comment node
409
+ img.insert_before(comment_tag)
410
+ logging.debug(f"DEBUG CLEAN_HTML: Insertion du commentaire avant l'image : {comment_tag}")
411
+ img.decompose() # Remove the image tag
412
+ logging.debug(f"DEBUG CLEAN_HTML: Suppression de la balise img.")
413
  image_counter[0] += 1
414
  else:
415
  logging.debug(f"DEBUG CLEAN_HTML: Erreur lors de l'encodage base64, suppression de l'image.")