Spaces:
Running
Running
[email protected]
commited on
Commit
·
328456e
1
Parent(s):
06eeb91
feat: Add Markdown to HTML conversion for PDF generation
Browse files- Implemented markdown_to_html function to convert Markdown text to HTML format.
- Enhanced PDF generation process to include formatted messages with appropriate styling.
- Updated config.yaml to streamline context and objective presentation.
- config.yaml +6 -8
- utils/document.py +77 -7
config.yaml
CHANGED
@@ -21,21 +21,19 @@ chapters:
|
|
21 |
- "Quels sont les objectifs principaux ?"
|
22 |
prompt_system: "ROLE : Tu es conseiller d'entreprise agricole\n
|
23 |
|
24 |
-
CONTEXTE / RESSOURCES
|
25 |
|
26 |
-
OBJECTIF
|
27 |
-
|
|
|
28 |
|
29 |
-
CONTRAINTE :\n
|
30 |
-
Tu dois le présenter rigoureusement de la façon suivante :
|
31 |
-
\n\n
|
32 |
1. CONTEXTE ET OBJECTIFS\n
|
33 |
|
34 |
* Présentation de l’exploitation à reprendre (Historique/ situation actuelle)
|
35 |
-
[Section 01 : à compléter avec maximum 100 mots]
|
36 |
|
37 |
* Présentation du candidat / Parcours de vie
|
38 |
-
[Section 02 : à compléter avec maximum 100 mots]
|
39 |
|
40 |
* Motivation et présentation du projet du candidat
|
41 |
[Section 03 : à compléter avec maximum 60 mots]"
|
|
|
21 |
- "Quels sont les objectifs principaux ?"
|
22 |
prompt_system: "ROLE : Tu es conseiller d'entreprise agricole\n
|
23 |
|
24 |
+
CONTEXTE / RESSOURCES : Tu as accès à l'entretien que le conseiller a eu avec l'exploitant agricole. Cet entretien est fourni sous forme de transcript à cette conversation (voir pièce jointe)\n
|
25 |
|
26 |
+
OBJECTIF : Tu dois réaliser le paragraphe ' 1 Contexte et objectifs ' du DIAGNOSTIC PRE INSALLATION\n
|
27 |
+
|
28 |
+
CONTRAINTE : Tu dois le présenter rigoureusement de la façon suivante :
|
29 |
|
|
|
|
|
|
|
30 |
1. CONTEXTE ET OBJECTIFS\n
|
31 |
|
32 |
* Présentation de l’exploitation à reprendre (Historique/ situation actuelle)
|
33 |
+
[Section 01 : à compléter avec maximum 100 mots]\n
|
34 |
|
35 |
* Présentation du candidat / Parcours de vie
|
36 |
+
[Section 02 : à compléter avec maximum 100 mots]\n
|
37 |
|
38 |
* Motivation et présentation du projet du candidat
|
39 |
[Section 03 : à compléter avec maximum 60 mots]"
|
utils/document.py
CHANGED
@@ -1,5 +1,7 @@
|
|
1 |
import pymupdf
|
2 |
import tiktoken
|
|
|
|
|
3 |
|
4 |
from io import BytesIO
|
5 |
from reportlab.lib.pagesizes import A4
|
@@ -113,6 +115,69 @@ def audit_descriptif_pdf(file,max_img_width=500) -> dict:
|
|
113 |
|
114 |
return global_audit
|
115 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
116 |
|
117 |
def generate_pdf(chapter_data: list):
|
118 |
buffer = BytesIO()
|
@@ -142,20 +207,25 @@ def generate_pdf(chapter_data: list):
|
|
142 |
for msg in chapter["messages"]:
|
143 |
if isinstance(msg, HumanMessage):
|
144 |
color = "blue"
|
145 |
-
sender = "
|
146 |
elif isinstance(msg, AIMessage):
|
147 |
color = "green"
|
148 |
-
sender = "
|
149 |
elif isinstance(msg, SystemMessage):
|
150 |
color = "red"
|
151 |
-
sender = "
|
152 |
else:
|
153 |
color = "black"
|
154 |
-
sender = "
|
|
|
|
|
|
|
|
|
|
|
|
|
155 |
|
156 |
-
|
157 |
-
elements.append(
|
158 |
-
elements.append(Spacer(1, 5))
|
159 |
|
160 |
elements.append(Spacer(1, 15)) # Espacement entre discussions
|
161 |
|
|
|
1 |
import pymupdf
|
2 |
import tiktoken
|
3 |
+
import markdown
|
4 |
+
import re
|
5 |
|
6 |
from io import BytesIO
|
7 |
from reportlab.lib.pagesizes import A4
|
|
|
115 |
|
116 |
return global_audit
|
117 |
|
118 |
+
# Fonction pour convertir le Markdown en HTML pour le PDF
|
119 |
+
def markdown_to_html(md_text):
|
120 |
+
return markdown.markdown(md_text, output_format='html' )
|
121 |
+
html = """
|
122 |
+
<html>
|
123 |
+
<head>
|
124 |
+
<style>
|
125 |
+
body { font-family: Arial, sans-serif; margin: 40px; }
|
126 |
+
h1 { text-align: center; color: #333; }
|
127 |
+
h2 { border-bottom: 2px solid #666; padding-bottom: 5px; margin-top: 30px; }
|
128 |
+
.message { margin-bottom: 10px; padding: 10px; border-radius: 5px; }
|
129 |
+
.human { background-color: #e1f5fe; }
|
130 |
+
.ai { background-color: #e8f5e9; }
|
131 |
+
.system { background-color: #ffebee; }
|
132 |
+
</style>
|
133 |
+
</head>
|
134 |
+
<body>
|
135 |
+
<h1>Conseiller augmenté CEGARA</h1>
|
136 |
+
"""
|
137 |
+
|
138 |
+
# Trier les chapitres par "num"
|
139 |
+
chapters = sorted(chapter_data, key=lambda x: x["num"])
|
140 |
+
|
141 |
+
for chapter in chapters:
|
142 |
+
html += f"<h2>Chapitre {chapter['num']}: {chapter['title']}</h2>"
|
143 |
+
|
144 |
+
if len(chapter["messages"]) > 1 :
|
145 |
+
# Affichage des messages
|
146 |
+
for msg in chapter["messages"]:
|
147 |
+
|
148 |
+
if isinstance(msg, HumanMessage):
|
149 |
+
sender = "Utilisateur"
|
150 |
+
css_class = "human"
|
151 |
+
elif isinstance(msg, AIMessage):
|
152 |
+
sender = "IA"
|
153 |
+
css_class = "ai"
|
154 |
+
elif isinstance(msg, SystemMessage):
|
155 |
+
sender = "Système"
|
156 |
+
css_class = "system"
|
157 |
+
else:
|
158 |
+
sender = "Message"
|
159 |
+
css_class = ""
|
160 |
+
|
161 |
+
html += f"""
|
162 |
+
<div class="message {css_class}">
|
163 |
+
<b>{sender} :</b> {markdown_to_html(msg.content)}
|
164 |
+
</div>
|
165 |
+
"""
|
166 |
+
|
167 |
+
html += "</body></html>"
|
168 |
+
|
169 |
+
return generate_pdf_from_html(html)
|
170 |
+
|
171 |
+
# Fonction pour convertir le Markdown en texte enrichi compatible ReportLab
|
172 |
+
def markdown_to_reportlab(text):
|
173 |
+
# text = text.replace("**", "<b>").replace("__", "<b>") # Gras
|
174 |
+
# text = text.replace("*", "<i>").replace("_", "<i>") # Italique
|
175 |
+
text = text.replace("\n", "<br/>") # Italique
|
176 |
+
# text = re.sub(r"\n- (.+)", r"\n• \1", text) # Listes à puces
|
177 |
+
# text = re.sub(r"^# (.+)", r"<b><font size='16'>\1</font></b>", text, flags=re.MULTILINE) # Titre H1
|
178 |
+
# text = re.sub(r"^## (.+)", r"<b><font size='14'>\1</font></b>", text, flags=re.MULTILINE) # Titre H2
|
179 |
+
# text = re.sub(r"^### (.+)", r"<b><font size='12'>\1</font></b>", text, flags=re.MULTILINE) # Titre H3
|
180 |
+
return text
|
181 |
|
182 |
def generate_pdf(chapter_data: list):
|
183 |
buffer = BytesIO()
|
|
|
207 |
for msg in chapter["messages"]:
|
208 |
if isinstance(msg, HumanMessage):
|
209 |
color = "blue"
|
210 |
+
sender = "Utilisateur"
|
211 |
elif isinstance(msg, AIMessage):
|
212 |
color = "green"
|
213 |
+
sender = "Conseiller augmenté CEGARA"
|
214 |
elif isinstance(msg, SystemMessage):
|
215 |
color = "red"
|
216 |
+
sender = "Système"
|
217 |
else:
|
218 |
color = "black"
|
219 |
+
sender = "Message"
|
220 |
+
|
221 |
+
elements.append(Paragraph(f"<b><font color='{color}'>{sender}</font></b>", style_message))
|
222 |
+
|
223 |
+
content = msg.content
|
224 |
+
content = markdown_to_html(content)
|
225 |
+
content = markdown_to_reportlab(content)
|
226 |
|
227 |
+
elements.append(Paragraph(content, style_message))
|
228 |
+
elements.append(Spacer(1, 10))
|
|
|
229 |
|
230 |
elements.append(Spacer(1, 15)) # Espacement entre discussions
|
231 |
|