Spaces:

GABRIELSZK
/

EXAMES

Sleeping

App Files Files Community

GABRIELSZK commited on Apr 22

Commit

3b20acd

verified ·

1 Parent(s): 2f8b152

Upload 3 files

Browse files

Files changed (3) hide show

README.md +20 -0
app.py +109 -0
requirements.txt +2 -0

README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+title: Extrator de Exames Laboratoriais
+emoji: 🧪
+colorFrom: blue
+colorTo: green
+sdk: gradio
+sdk_version: "4.21.0"
+app_file: app.py
+pinned: false
+---
+# Extrator de Exames Laboratoriais (PDF → Texto Compacto)
+Este app Gradio permite carregar um PDF com resultados laboratoriais e extrai automaticamente os dados mais relevantes (HB, HT, Leuco, PCR, CKMB, etc.) no formato compacto.
+**Exemplo de saída:**
+`HB: 14.5 / HT: 41.5 / LEUCO: 9.1K + 1% B + 66% SS / PLT: 215K / ...`
+A ferramenta é tolerante a diferentes formatações, títulos e layouts de PDFs clínicos.

app.py ADDED Viewed

	@@ -0,0 +1,109 @@

+import fitz
+import re
+import gradio as gr
+def extrair_exames_formatado(pdf_file):
+    if pdf_file is None:
+        return "Nenhum arquivo enviado."
+    doc = fitz.open(pdf_file.name)
+    texto = ""
+    for page in doc:
+        texto += page.get_text()
+    def extrair_valor(padrao):
+        match = re.search(padrao, texto, re.IGNORECASE)
+        if match:
+            return match.group(1).replace(",", ".").strip()
+        return None
+    def k_format(v):
+        try:
+            n = float(v.replace(".", "").replace(",", "."))
+            if n >= 1000:
+                return f"{round(n / 1000, 1)}K"
+            return str(n)
+        except:
+            return v
+    eas_leuc = re.search(r"leucócitos[\s\n]*(\d+-\d+)", texto, re.IGNORECASE)
+    eas_hem = re.search(r"hem[áa]cias[\s\n]*(\d+-\d+)", texto, re.IGNORECASE)
+    eas_bact = re.search(r"bact[ée]rias[\s\n]*(\w+)", texto, re.IGNORECASE)
+    eas_final = ""
+    if eas_leuc and eas_hem and eas_bact:
+        eas_final = f"EAS: {eas_leuc.group(1)} LEUCÓCITOS + {eas_hem.group(1)} HEMÁCIAS + BACTÉRIAS {eas_bact.group(1).upper()} //"
+    campos = [
+        ("LAC", r"lactato[\s\n]+([\d,\.]+)"),
+        ("AMIL", r"amilase[\s\n]+([\d,\.]+)"),
+        ("AC UR", r"[áa]cido[ \n]+[úu]rico[\s\n]+([\d,\.]+)"),
+        ("BT", r"bilirrubina total[\s\n]+([\d,\.]+)"),
+        ("BD", r"bilirrubina direta[\s\n]+([\d,\.]+)"),
+        ("BI", r"bilirrubina indireta[\s\n]+([\d,\.]+)"),
+        ("CAI", r"ioniz[áa]vel[\s\n]+([\d,\.]+)"),
+        ("CL-", r"cl[óo]ro[\s\n]+([\d,\.]+)"),
+        ("CR", r"creatinina[\s\n]+([\d,\.]+)"),
+        ("FAL", r"fosfatase alcalina[\s\n]+([\d,\.]+)"),
+        ("P", r"f[óo]sforo[\s\n]+([\d,\.]+)"),
+        ("GGT", r"gama.?gt[\s\n]+([\d,\.]+)"),
+        ("GLI", r"glicose[\s\n]+([\d,\.]+)"),
+        ("HB", r"hemoglobina[\s\n]+([\d,\.]+)"),
+        ("HT", r"hemat[óo]crito[\s\n]+([\d,\.]+)"),
+        ("LEUCO", r"leuc[óo]citos[\s\n]+([\d,\.]+)"),
+        ("B", r"bastonetes[\s\n]+([\d,\.]+)"),
+        ("SS", r"segmentados[\s\n]+([\d,\.]+)"),
+        ("PLT", r"plaquetas[\s\n]+([\d,\.]+)"),
+        ("LIP", r"lipase[\s\n]+([\d,\.]+)"),
+        ("MG++", r"magn[ée]sio[\s\n]+([\d,\.]+)"),
+        ("PCR", r"PCR[\s\n]+([\d,\.]+)"),
+        ("K+", r"pot[áa]ssio[\s\n]+([\d,\.]+)"),
+        ("PTN", r"prote[ií]na[s]? totais?[\s\n]+([\d,\.]+)"),
+        ("ALB", r"albumina[\s\n]+([\d,\.]+)"),
+        ("NA+", r"s[óo]dio[\s\n]+([\d,\.]+)"),
+        ("TGO", r"TGO[\s\n]+([\d,\.]+)"),
+        ("TGP", r"TGP[\s\n]+([\d,\.]+)"),
+        ("TAP", r"TAP.*?([\d,\.]+)"),
+        ("INR", r"INR.*?([\d,\.]+)"),
+        ("TTP", r"TTP.*?([\d,\.]+)"),
+        ("RELAÇÃO", r"relaç[aã]o.*?([\d,\.]+)"),
+        ("UR", r"ureia[\s\n]+([\d,\.]+)"),
+        ("CPK", r"CPK.*?([\d,\.]+)"),
+        ("CKMB", r"CKMB.*?([\d,\.]+)"),
+        ("TROPO", r"tropo.*?([<>=]?[\d,\.]+)")
+    ]
+    output = [eas_final] if eas_final else []
+    temp_dict = {}
+    for rotulo, regex in campos:
+        val = extrair_valor(regex)
+        if val:
+            temp_dict[rotulo] = val
+    if "LEUCO" in temp_dict:
+        l = k_format(temp_dict["LEUCO"])
+        b = f"{temp_dict['B']}% B" if "B" in temp_dict else ""
+        ss = f"{temp_dict['SS']}% SS" if "SS" in temp_dict else ""
+        combo = f"LEUCO {l}" + (f" + {b}" if b else "") + (f" + {ss}" if ss else "")
+        output.append(combo)
+        temp_dict.pop("LEUCO")
+        temp_dict.pop("B", None)
+        temp_dict.pop("SS", None)
+    ordem = [k for k, _ in campos if k not in ["LEUCO", "B", "SS"]]
+    for campo in ordem:
+        if campo in temp_dict:
+            output.append(f"{campo} {temp_dict[campo]}")
+    return " / ".join(output) if output else "Nenhum dado encontrado."
+with gr.Blocks() as demo:
+    gr.Markdown("## Extrator de Exames - PDF Clínico Compactado")
+    with gr.Row():
+        pdf = gr.File(label="PDF de exames", file_types=[".pdf"])
+        btn = gr.Button("Extrair")
+    resultado = gr.Textbox(label="Exames extraídos", lines=4)
+    btn.click(fn=extrair_exames_formatado, inputs=pdf, outputs=resultado)
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio>=4.44.1
2	+ PyMuPDF