accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 17, 2024

Commit

2b4e713

verified ·

1 Parent(s): de8d022

réintégration du prompt

Browse files

Files changed (1) hide show

main.py +41 -15

main.py CHANGED Viewed

@@ -147,18 +147,18 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
         if ext == '.pdf':
             # PDF -> HTML avec pages
             html_content = pdf_to_html(input_filename)
-            # Pour le PDF, on a déjà des <!--PAGE_X--> par page, pas besoin d'en ajouter toutes les 15 lignes
         elif ext in ['.ppt', '.pptx']:
             # PPT/PPTX -> texte -> HTML minimal
             text = convert_ppt_to_text(input_filename)
             html_content = text_to_html(text)
-            # Ajouter les <!--PAGE_X--> toutes les 15 lignes pour ce format
-            html_content = insert_page_comments_every_15_paragraphs(html_content)
         elif ext == '.doc':
             # DOC -> texte (textract) -> HTML minimal
             text = convert_doc_to_text(input_filename)
             html_content = text_to_html(text)
-            html_content = insert_page_comments_every_15_paragraphs(html_content)
         elif ext in ['.html', '.htm']:
             with open(input_filename, 'r', encoding='utf-8') as f:
                 html_content = f.read()
@@ -167,14 +167,14 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
                 html_content = doc.summary()
             except Exception as e:
                 logging.error(f"Erreur lors du nettoyage HTML avec readability-lxml : {str(e)}")
-            # Ajouter les <!--PAGE_X--> toutes les 15 lignes
-            html_content = insert_page_comments_every_15_paragraphs(html_content)
         else:
             # Formats gérés par Pandoc
             input_format = get_pandoc_format(ext)
             html_content = convert_with_pandoc(input_filename, input_format)
-            # Ajouter les <!--PAGE_X--> toutes les 15 lignes
-            html_content = insert_page_comments_every_15_paragraphs(html_content)
         # Nettoyage
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
@@ -214,14 +214,14 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
         logging.error(f"Erreur lors de la conversion : {str(e)}")
         return None
-def insert_page_comments_every_15_paragraphs(html_content: str) -> str:
-    # Insère un commentaire <!--PAGE_X--> toutes les 15 balises <p>
     soup = BeautifulSoup(html_content, 'html.parser')
     paragraphs = soup.find_all('p')
     page_number = 1
     count = 0
     for i, p in enumerate(paragraphs, start=1):
-        if i % 15 == 1:  # Avant le premier <p> d'un "bloc"
             comment = soup.new_string(f"<!--PAGE_{page_number}-->")
             p.insert_before(comment)
             page_number += 1
@@ -430,10 +430,36 @@ async def get_image_description(base64_image: str) -> str:
 async def rewrite_html_accessible(html_content: str) -> str:
     prompt = (
-        "Je vais te donner un fichier HTML, et je voudrais que tu le réécrives pour permettre l'accessibilité "
-        "à toutes les formes de handicap, tout en **préservant strictement l'ordre du contenu original**.\n"
-        "Commence à analyser le plan du document... (règles définies dans le code d'origine)...\n"
-        "Voici le fichier HTML d'origine :\n" + html_content
     )
     try:

         if ext == '.pdf':
             # PDF -> HTML avec pages
             html_content = pdf_to_html(input_filename)
+            # Pour le PDF, on a déjà des <!--PAGE_X--> par page, pas besoin d'en ajouter toutes les 20 lignes
         elif ext in ['.ppt', '.pptx']:
             # PPT/PPTX -> texte -> HTML minimal
             text = convert_ppt_to_text(input_filename)
             html_content = text_to_html(text)
+            # Ajouter les <!--PAGE_X--> toutes les 20 lignes pour ce format
+            html_content = insert_page_comments_every_20_paragraphs(html_content)
         elif ext == '.doc':
             # DOC -> texte (textract) -> HTML minimal
             text = convert_doc_to_text(input_filename)
             html_content = text_to_html(text)
+            html_content = insert_page_comments_every_20_paragraphs(html_content)
         elif ext in ['.html', '.htm']:
             with open(input_filename, 'r', encoding='utf-8') as f:
                 html_content = f.read()
                 html_content = doc.summary()
             except Exception as e:
                 logging.error(f"Erreur lors du nettoyage HTML avec readability-lxml : {str(e)}")
+            # Ajouter les <!--PAGE_X--> toutes les 20 lignes
+            html_content = insert_page_comments_every_20_paragraphs(html_content)
         else:
             # Formats gérés par Pandoc
             input_format = get_pandoc_format(ext)
             html_content = convert_with_pandoc(input_filename, input_format)
+            # Ajouter les <!--PAGE_X--> toutes les 20 lignes
+            html_content = insert_page_comments_every_20_paragraphs(html_content)
         # Nettoyage
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
         logging.error(f"Erreur lors de la conversion : {str(e)}")
         return None
+def insert_page_comments_every_20_paragraphs(html_content: str) -> str:
+    # Insère un commentaire <!--PAGE_X--> toutes les 20 balises <p>
     soup = BeautifulSoup(html_content, 'html.parser')
     paragraphs = soup.find_all('p')
     page_number = 1
     count = 0
     for i, p in enumerate(paragraphs, start=1):
+        if i % 20 == 1:  # Avant le premier <p> d'un "bloc"
             comment = soup.new_string(f"<!--PAGE_{page_number}-->")
             p.insert_before(comment)
             page_number += 1
 async def rewrite_html_accessible(html_content: str) -> str:
     prompt = (
+        "Je vais te donner un fichier HTML, et je voudrais que tu le réécrives pour permettre l'accessibilité à toutes les formes de handicap, tout en **préservant strictement l'ordre du contenu original**.\n"
+		"Commence à analyser le plan du document. Il faut d'abord identifier les titres et comprendre leur logique :\n"
+        "- A priori, les titres qui sont préfixés par une écriture romaine (I, II, III), "
+        "par un nombre (1, 2, 3) ou par une lettre (a, b, c, ou bien A, B, C) doivent être de même niveau."
+        "Idem pour les titres rédigés en majuscules.\n"
+        "- Quand une expression très courte qui ne ressemble pas syntaxiquement à une phrase est présentée sur une seule ligne,"
+        "il y a des chances qu'il s'agisse d'un titre : dans ce cas (et si c'est pertinent) traite-la comme telle.\n"
+        "- Au contraire, **une phrase longue ne doit JAMAIS être traitée comme un titre**,"
+        "même quand elle est précédée par un numéro ou une lettre."
+        "De même, ne traite jamais comme un titre un ensemble de plusieurs phrases. Je repète : les balises <h1>, <h2>, etc., ne sont destinées qu'à encadrer des expressions relativement courtes, et rien d'autre.\n\n"
+        "Tu ne dois **rien réorganiser**, **ne rien supprimer** et **ne rien ajouter** en termes de structure ou de contenu. "
+        "Ton intervention doit se faire exclusivement sur la **forme** du document : le contenu doit être **intégralement préservé dans le même ordre**, jusqu'à la fin. "
+        "Laisse la balise <head> vide.\n"
+        "IMPORTANT : Tu dois **respecter scrupuleusement l'ordre indiqué par les commentaires HTML de la forme <!--PAGE_X-->,** s'ils existent. On doit avoir <!--PAGE_1--> [...] <!--PAGE_2--> [...] <!--PAGE_3--> [...], et ainsi de suite, dans l'ordre exact et sans en oublier un seul. C'est très important ! Ces marqueurs te permettent de t'assurer que la page est bien retranscrite dans le bon ordre. Ne déplace, ne supprime, et ne modifie pas ces commentaires.\n"
+        "Attention, ce document est peut-être issu d'un PDF ou d'un DOCX. Il faut donc être attentif :\n"
+        "- Aux balises <p> qui suivent immédiatement les marqueurs <!--PAGE_X--> : il peut s'agir de headers. Pour le savoir, il faut les comparer entre eux pour savoir s'ils sont à peu près similaires.\n"
+        "- Aux balises <p> qui précèdent immédiatement les marqueurs <!--PAGE_X--> : il peut s'agir de footers. De même, il faut les comparer entre eux pour savoir s'ils sont à peu près similaires.\n"
+        "Dans tous les cas, il faut supprimer les balises <p> correspondant aux headers et les footers identifiés. Attention, ces suppressions ne doivent pas affecter les autres éléments.\n"
+        "S'il y a des retours à la ligne injustifiés, il faut rétablir l'intégrité des phrases, et constituer de véritables paragraphes complets. L'ensemble du code doit être inclus entre des balises <html></html>\n"
+        "Tu donneras la totalité du HTML réécrit, et rien d'autre, ni avant ni après. "
+        "Ne résume jamais les informations, ne réorganise pas le contenu et ne supprime aucune section.\n\n"
+        "Voici tout d'abord les règles à suivre pour avoir un document accessible :\n\n"
+        "1. Limiter l'italique et les soulignements.\n"
+        "2. S'il y a des tableaux, insérer un tiret dans les cellules ne contenant pas d’information, et associer une légende aux tableaux.\n"
+        "3. Pour les titres, utilise absolument les balises h1, h2, h3, h4, h5 et h6. Utilise la balise h1 pour le titre qui a le plus grand niveau.\n\n"
+        "On évite les balises <ul> et <li>\n"
+        "Encore une fois, fais bien attention à reproduire fidèlement l'ordre des marqueurs <!--PAGE_X-->, dans l'ordre croissant des X : c'est ta tâche principale. Recompte régulièrement les X des PAGE_X pour être sûr qu'il n'en manque aucun.\n"
+        "N'oublie pas qu'on ne doit avoir AUCUN header et AUCUN footer, c'est très important.\n"
+        "Voici maintenant le fichier HTML d'origine :\n"
+        + html_content
     )
     try: