Spaces:

GABRIELSZK
/

EXAMES

Sleeping

App Files Files Community

GABRIELSZK commited on Apr 25

Commit

bd30344

verified ·

1 Parent(s): f522265

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -73

app.py CHANGED Viewed

@@ -1,35 +1,72 @@
 import fitz
 import re
 import gradio as gr
 def extrair_exames_formatado(pdf_file):
     if pdf_file is None:
-        return "Nenhum arquivo enviado."
     texto = ""
     with fitz.open(pdf_file.name) as doc:
         for page in doc:
             texto += page.get_text()
-    # Remove quebras de linha para facilitar os regex
     texto = texto.replace('\n', ' ').replace('\r', ' ')
-    def buscar(padrao):
-        match = re.search(padrao, texto, re.IGNORECASE)
-        if match:
-            return match.group(1).replace(",", ".").strip()
         return None
     def k_format(v):
         try:
-            n = float(v.replace(".", "").replace(",", "."))
             return f"{round(n / 1000, 1)}K" if n >= 1000 else str(n)
         except:
             return v
-    leuco = buscar(r"leuc[óo]citos\s+(\d{3,5})")
-    bastonetes = buscar(r"bastonetes\s+(\d+)\s*%")
-    segmentados = buscar(r"segmentados\s+(\d+)\s*%")
     leuco_str = ""
     if leuco:
         leuco_str = f"LEUCO {k_format(leuco)}"
@@ -38,76 +75,62 @@ def extrair_exames_formatado(pdf_file):
         if segmentados:
             leuco_str += f" + {segmentados}% SS"
-    exames = {
-        "🟠 Renal / Eletrólitos": {
-            "UREIA": buscar(r"ureia[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*mg"),
-            "CR": buscar(r"creatinina[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*mg"),
-            "K+": buscar(r"(?:pot[áa]ssio|k\+)[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*mmol"),
-            "NA+": buscar(r"(?:s[óo]dio|na\+)[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*mmol"),
-            "CL-": buscar(r"(?:cl[óo]ro|c\s*l\s*[óo]?)\s*[:=]?\s*([\d.,]+)"),
-            "CAI": buscar(r"(?:c[áa]lcio ioniz[áa]vel|ioniz[áa]vel)[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "CA TOTAL": buscar(r"(?:c[áa]lcio total)[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "MG++": buscar(r"(?:magn[ée]sio)[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "FÓS": buscar(r"(?:f[óo]sforo)[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-        },
-        "🟡 Hepático": {
-            "BT": buscar(r"bilirrubina total[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "BD": buscar(r"bilirrubina direta[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "BI": buscar(r"bilirrubina indireta[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "TGO": buscar(r"TGO[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "TGP": buscar(r"TGP[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "GGT": buscar(r"gama[\- ]?gt[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "FAL": buscar(r"fosfatase alcalina[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "ALB": buscar(r"albumina[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "PTN TOTAL": buscar(r"prote[ií]nas? totais?[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "GLOB": buscar(r"globulina[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "RELAÇÃO": buscar(r"relaç[aã]o\s*(A\/G)?[^:\d]{0,10}[:=]?\s*([\d.,]+)")
-        },
-        "🔴 Hematológico": {
-            "HB": buscar(r"hemoglobina[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "HT": buscar(r"hemat[óo]crito[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "PLT": buscar(r"plaquetas[^:\d]{0,10}[:=]?\s*([\d.,]+)")
-        },
-        "🔵 Coagulação": {
-            "TAP": buscar(r"TP\s*[:=]?\s*([\d.,]+)\s*seg"),  # Tempo de Protrombina
-            "INR": buscar(r"INR\s*[:=]?\s*([\d.,]+)"),
-            "TTP": buscar(r"TTPA.*?tempo[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*seg"),
-            "RELAÇÃO": buscar(r"relaç[aã]o\s*paciente.*?[:=]?\s*([\d.,]+)"),
-            "D-DÍMERO": buscar(r"d[íi]mero[ -]?d.*?[:=]?\s*([<>]?\s*[\d.,]+)")
-        },
-        "🟢 Metabólico": {
-            "GLI": buscar(r"(glicose)[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "LIP": buscar(r"lipase[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "AMIL": buscar(r"amilase[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "AC UR": buscar(r"[áa]cido[ \n]+[úu]rico[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "LAC": buscar(r"lactato[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "PCR": buscar(r"PCR[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*mg")
-        },
-        "❤️ Cardíaco": {
-            "CPK": buscar(r"creatinofosfoquinase.*?[:=]?\s*([\d.,]+)"),
-            "CKMB": buscar(r"CKMB(?:\s*massa)?[^:\d]{0,10}[:=]?\s*([\d.,]+)"),
-            "TROPO": buscar(r"troponina.*?[:=]?\s*([<>]?\s*[\d.,]+)")
-        }
     }
-    output = []
     if leuco_str:
-        output.append(leuco_str)
-    for sistema, dados in exames.items():
-        linha = []
-        for k, v in dados.items():
-            linha.append(f"{k}: {v if v else '—'}")
-        output.append(f"{sistema} → " + " / ".join(linha))
-    return "\n".join(output)
-# Interface Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("## 🧪 Extrator de Exames PDF – Versão Robusta")
     pdf_file = gr.File(label="📄 PDF de exames", file_types=[".pdf"])
-    output_text = gr.Textbox(label="📋 Resultado Estruturado", lines=25)
-    extract_button = gr.Button("🔍 Extrair")
-    extract_button.click(fn=extrair_exames_formatado, inputs=pdf_file, outputs=output_text)
 demo.launch()

 import fitz
 import re
 import gradio as gr
+import pandas as pd
+import tempfile
+# Faixas de referência básicas para classificação (valores em mg/dL, g/dL, etc.)
+faixas = {
+    "HB": (12, 17),
+    "HT": (36, 50),
+    "GLI": (70, 99),
+    "UREIA": (10, 50),
+    "CR": (0.6, 1.3),
+    "K+": (3.5, 5.5),
+    "NA+": (135, 145),
+    "TGO": (0, 40),
+    "TGP": (0, 40),
+    "ALB": (3.5, 5.0),
+    "INR": (0.8, 1.2),
+    "TAP": (10, 14),
+    "TTP": (25, 35),
+    "LAC": (0.5, 2.2),
+    "PLT": (150000, 450000),
+    "LEUCO": (4000, 11000)
+}
+def classificar(nome, valor):
+    try:
+        val = float(valor.replace("K", "000").replace(">", "").replace("<", "").strip())
+        if nome in faixas:
+            min_v, max_v = faixas[nome]
+            if val < min_v:
+                return f"{valor} ↓"
+            elif val > max_v:
+                return f"{valor} ↑"
+        return valor
+    except:
+        return valor
 def extrair_exames_formatado(pdf_file):
     if pdf_file is None:
+        return "Nenhum arquivo enviado.", None
     texto = ""
     with fitz.open(pdf_file.name) as doc:
         for page in doc:
             texto += page.get_text()
     texto = texto.replace('\n', ' ').replace('\r', ' ')
+    def buscar(padrao, excluir_protocolo=True):
+        matches = re.findall(padrao, texto, re.IGNORECASE)
+        for match in matches:
+            val = match.strip().replace(",", ".")
+            if excluir_protocolo and len(val.replace(".", "").replace(">", "").replace("<", "")) > 5:
+                continue  # ignora IDs longos como 2500267046
+            return val
         return None
     def k_format(v):
         try:
+            n = float(v)
             return f"{round(n / 1000, 1)}K" if n >= 1000 else str(n)
         except:
             return v
+    leuco = buscar(r"leuc[óo]citos[^:\d]{0,10}[:=]?\s*(\d{3,5})")
+    bastonetes = buscar(r"bastonetes[^:\d]{0,10}[:=]?\s*(\d+)\s*%")
+    segmentados = buscar(r"segmentados[^:\d]{0,10}[:=]?\s*(\d+)\s*%")
     leuco_str = ""
     if leuco:
         leuco_str = f"LEUCO {k_format(leuco)}"
         if segmentados:
             leuco_str += f" + {segmentados}% SS"
+    campos = {
+        "UREIA": r"ureia[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "CR": r"creatinina[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "K+": r"(?:pot[áa]ssio|k\+)[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "NA+": r"(?:s[óo]dio|na\+)[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "CL-": r"(?:cl[óo]ro)[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "CAI": r"ioniz[áa]vel[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "CA TOTAL": r"c[áa]lcio total[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "MG++": r"magn[ée]sio[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "FÓS": r"f[óo]sforo[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "GLI": r"glicose[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "HB": r"hemoglobina[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "HT": r"hemat[óo]crito[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "PLT": r"plaquetas[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "INR": r"INR[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "TAP": r"\bTP[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*seg",
+        "TTP": r"TTPA[^:\d]{0,10}[:=]?\s*([\d.,]+)\s*seg",
+        "RELAÇÃO": r"relaç[aã]o.*?(?:paciente|a\/g)[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "LAC": r"lactato[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "TGO": r"\bTGO[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "TGP": r"\bTGP[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "ALB": r"albumina[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "PCR": r"PCR[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "CPK": r"creatinofosfoquinase.*?[:=]?\s*([\d.,]+)",
+        "CKMB": r"CKMB(?:\s*massa)?[^:\d]{0,10}[:=]?\s*([\d.,]+)",
+        "TROPO": r"troponina.*?[:=]?\s*([<>]?\s*[\d.,]+)",
     }
+    resultados = []
     if leuco_str:
+        resultados.append(("LEUCO", leuco_str))
+    for rotulo, padrao in campos.items():
+        val = buscar(padrao)
+        if val:
+            val = classificar(rotulo, val)
+            resultados.append((rotulo, val))
+        else:
+            resultados.append((rotulo, "—"))
+    df = pd.DataFrame(resultados, columns=["Exame", "Valor"])
+    texto_final = "\n".join([f"{r[0]}: {r[1]}" for r in resultados])
+    # Exportação CSV temporária
+    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
+    df.to_csv(temp_file.name, index=False)
+    return texto_final, temp_file.name
 with gr.Blocks() as demo:
+    gr.Markdown("## 🧪 Extrator Inteligente de Exames Laboratoriais - PDF para Diagnóstico")
     pdf_file = gr.File(label="📄 PDF de exames", file_types=[".pdf"])
+    extract_button = gr.Button("🔍 Extrair Exames")
+    output_text = gr.Textbox(label="📋 Exames extraídos e classificados", lines=25)
+    download_button = gr.File(label="📥 Baixar CSV")
+    extract_button.click(fn=extrair_exames_formatado, inputs=pdf_file, outputs=[output_text, download_button])
 demo.launch()