Spaces:

GABRIELSZK
/

EXAMES

Sleeping

App Files Files Community

GABRIELSZK commited on May 13

Commit

07c89f0

verified ·

1 Parent(s): 9afb7d7

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -15

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import pytesseract
 from PIL import Image, ImageEnhance, ImageFilter
 import io
-# 🎯 Faixas de referência
 faixas = {
     "LEUCO": (4000, 11000),
     "B": (0, 1), "SS": (45, 59), "EOS": (1, 6), "LINF": (30, 50), "MONO": (1, 8),
@@ -41,19 +41,34 @@ def classificar(nome, valor):
     except:
         return valor
 def melhorar_imagem(img: Image.Image) -> Image.Image:
     img = img.convert("L")
     img = ImageEnhance.Contrast(img).enhance(2)
     return img.filter(ImageFilter.SHARPEN)
 def extrair_texto_pdf(pdf_input):
-    # ... (mesma função de antes)
-    # retorna texto nativo e OCR como uma única linha, com espaços
-    ...
-# Padrões de extração — agora com word‐boundaries e unidades obrigatórias
 exames = {
-    # Hemograma
     "LEUCO": r"\bleuc[óo]citos\b.*?([\d.,]+)\s*/u?l",
     "B":    r"\bbastonetes\b.*?([\d.,]+)\s?%",
     "SS":   r"\bsegmentados\b.*?([\d.,]+)\s?%",
@@ -63,7 +78,6 @@ exames = {
     "HB":   r"\bhemoglobina\b.*?([\d.,]+)\s?g/dl",
     "HT":   r"\bhemat[óo]crito\b.*?([\d.,]+)\s?%",
     "PLT":  r"\bplaquetas\b.*?([\d.,]+)\s*/u?l",
-    # Bioquímica
     "AMIL": r"\bamilase\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
     "BT":   r"\bbilirrubina total\b.*?([\d.,]+)\s?mg/dl",
     "BD":   r"\bbilirrubina direta\b.*?([\d.,]+)\s?mg/dl",
@@ -77,18 +91,15 @@ exames = {
     "GLI":  r"\bglicose\b(?! qualitativa).*?resultado[:\s]*([\d.,]+)\s?mg/dl",
     "LIP":  r"\blipase\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
     "MG++": r"\bmagn[eé]sio\b.*?resultado[:\s]*([\d.,]+)\s?mg/dl",
-    # Coagulação
     "TAP":      r"\btempo de protrombina\b.*?resultado[:\s]*([\d.,]+)",
     "INR":      r"\binr\b.*?([\d.,]+)",
     "TTP":      r"\bttpa\b.*?resultado[:\s]*([\d.,]+)",
     "DIMERO D": r"\bd[ií]mero d\b.*?resultado[:\s]*([\d.,]+)",
-    # Inflamatório e Cardíacos
     "PCR":       r"\bpcr\b.*?resultado[:\s]*([\d.,]+)\s?mg/dl",
     "CKMB":      r"\bck[- ]?mb\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
     "CPK":       r"\bcpk\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
-    "TROPONINA": r"troponina(?! qualitativa).*?resultado[:\s]*([><\d.,]+)(?=\s*ng\/?m[lL])",
     "TROPONINA QUAL": r"troponina qualitativa.*?resultado[:\s]*(positivo|negativo)",
-    # EAS completo (Urina)
     "PROTEINA UR":    r"\bprote[ií]na\b.*?\b(ausente|positivo|negativo)",
     "GLI UR":         r"\bglicose\b.*?\b(ausente|positivo|negativo)",
     "CETONAS UR":     r"\bcorpos cet[oô]nicos\b.*?\b(ausente|positivo|negativo)",
@@ -100,13 +111,13 @@ exames = {
     "BACTERIAS UR":   r"\bbact[ée]rias?\b.*?\b(raras|ausentes|positivas|negativas)"
 }
 ordem = [
     "LEUCO","B","SS","EOS","LINF","MONO",
     "HB","HT","PLT","AMIL","BT","BD","BI",
     "CR","UREIA","FAL","GGT","TGO","TGP","GLI","LIP","MG++",
     "PCR","CKMB","CPK","TROPONINA","TROPONINA QUAL",
     "TAP","INR","TTP","DIMERO D",
-    # EAS
     "PROTEINA UR","GLI UR","CETONAS UR","SANGUE UR","LEUC ESTERASE","NITRITO UR","LEUCO EAS","HEMA EAS","BACTERIAS UR"
 ]
@@ -132,14 +143,15 @@ def extrair_exames_formatado(pdf_file):
     line_main = ' / '.join(main_fields)
     final = '\n'.join([l for l in (line_eas, line_main) if l])
-# Gera CSV
     df = pd.DataFrame([[k, resultados[k]] for k in resultados], columns=["Exame", "Valor"])
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
     df.to_csv(tmp.name, index=False)
     return final, tmp.name
-# UI Gradio
-with gr.Blocks() as demo:
     gr.Markdown("## 🧪 Extrator Avançado com OCR + EAS + Troponina (Quant. e Qual.)")
     pdf_input = gr.File(file_types=[".pdf"], label="📄 PDF de exames")
     btn = gr.Button("🔍 Extrair")

 from PIL import Image, ImageEnhance, ImageFilter
 import io
+# 🎯 Faixas de referência (valores de referência mínimos e máximos)
 faixas = {
     "LEUCO": (4000, 11000),
     "B": (0, 1), "SS": (45, 59), "EOS": (1, 6), "LINF": (30, 50), "MONO": (1, 8),
     except:
         return valor
+# Ajustes para melhorar OCR
 def melhorar_imagem(img: Image.Image) -> Image.Image:
     img = img.convert("L")
     img = ImageEnhance.Contrast(img).enhance(2)
     return img.filter(ImageFilter.SHARPEN)
+# Extrai texto nativo + OCR do PDF
 def extrair_texto_pdf(pdf_input):
+    if isinstance(pdf_input, dict):
+        pdf_path = pdf_input.get("name") or pdf_input.get("file_path")
+    elif hasattr(pdf_input, "name") and isinstance(pdf_input.name, str):
+        pdf_path = pdf_input.name
+    else:
+        pdf_path = str(pdf_input)
+    texto_nativo, ocr_imgs = [], []
+    with fitz.open(pdf_path) as doc:
+        for page in doc:
+            texto_nativo.append(page.get_text())
+            pix = page.get_pixmap(dpi=300)
+            img = Image.open(io.BytesIO(pix.tobytes("png")))
+            ocr_imgs.append(melhorar_imagem(img))
+    tn = re.sub(r"\s+", " ", "".join(texto_nativo))
+    tocr = re.sub(r"\s+", " ", " ".join(pytesseract.image_to_string(im) for im in ocr_imgs))
+    return tn, tocr
+# Padrões de extração com word boundaries e unidades obrigatórias
 exames = {
     "LEUCO": r"\bleuc[óo]citos\b.*?([\d.,]+)\s*/u?l",
     "B":    r"\bbastonetes\b.*?([\d.,]+)\s?%",
     "SS":   r"\bsegmentados\b.*?([\d.,]+)\s?%",
     "HB":   r"\bhemoglobina\b.*?([\d.,]+)\s?g/dl",
     "HT":   r"\bhemat[óo]crito\b.*?([\d.,]+)\s?%",
     "PLT":  r"\bplaquetas\b.*?([\d.,]+)\s*/u?l",
     "AMIL": r"\bamilase\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
     "BT":   r"\bbilirrubina total\b.*?([\d.,]+)\s?mg/dl",
     "BD":   r"\bbilirrubina direta\b.*?([\d.,]+)\s?mg/dl",
     "GLI":  r"\bglicose\b(?! qualitativa).*?resultado[:\s]*([\d.,]+)\s?mg/dl",
     "LIP":  r"\blipase\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
     "MG++": r"\bmagn[eé]sio\b.*?resultado[:\s]*([\d.,]+)\s?mg/dl",
     "TAP":      r"\btempo de protrombina\b.*?resultado[:\s]*([\d.,]+)",
     "INR":      r"\binr\b.*?([\d.,]+)",
     "TTP":      r"\bttpa\b.*?resultado[:\s]*([\d.,]+)",
     "DIMERO D": r"\bd[ií]mero d\b.*?resultado[:\s]*([\d.,]+)",
     "PCR":       r"\bpcr\b.*?resultado[:\s]*([\d.,]+)\s?mg/dl",
     "CKMB":      r"\bck[- ]?mb\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
     "CPK":       r"\bcpk\b.*?resultado[:\s]*([\d.,]+)\s?u/l",
+    "TROPONINA": r"troponina(?! qualitativa).*?resultado[:\s]*([><\d.,]+)(?=\s*ng\/m[lL])",
     "TROPONINA QUAL": r"troponina qualitativa.*?resultado[:\s]*(positivo|negativo)",
     "PROTEINA UR":    r"\bprote[ií]na\b.*?\b(ausente|positivo|negativo)",
     "GLI UR":         r"\bglicose\b.*?\b(ausente|positivo|negativo)",
     "CETONAS UR":     r"\bcorpos cet[oô]nicos\b.*?\b(ausente|positivo|negativo)",
     "BACTERIAS UR":   r"\bbact[ée]rias?\b.*?\b(raras|ausentes|positivas|negativas)"
 }
+# Ordem de exibição
 ordem = [
     "LEUCO","B","SS","EOS","LINF","MONO",
     "HB","HT","PLT","AMIL","BT","BD","BI",
     "CR","UREIA","FAL","GGT","TGO","TGP","GLI","LIP","MG++",
     "PCR","CKMB","CPK","TROPONINA","TROPONINA QUAL",
     "TAP","INR","TTP","DIMERO D",
     "PROTEINA UR","GLI UR","CETONAS UR","SANGUE UR","LEUC ESTERASE","NITRITO UR","LEUCO EAS","HEMA EAS","BACTERIAS UR"
 ]
     line_main = ' / '.join(main_fields)
     final = '\n'.join([l for l in (line_eas, line_main) if l])
+    # Gera CSV
     df = pd.DataFrame([[k, resultados[k]] for k in resultados], columns=["Exame", "Valor"])
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
     df.to_csv(tmp.name, index=False)
     return final, tmp.name
+# Interface Gradio
+demo = gr.Blocks()
+with demo:
     gr.Markdown("## 🧪 Extrator Avançado com OCR + EAS + Troponina (Quant. e Qual.)")
     pdf_input = gr.File(file_types=[".pdf"], label="📄 PDF de exames")
     btn = gr.Button("🔍 Extrair")