Spaces:

nanoapple
/

LangmyOCR

Sleeping

nanoapple commited on 18 days ago

Commit

e4d3eeb

verified ·

1 Parent(s): ba2a841

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -1,15 +1,31 @@
-# 📄 OCR + LangExtract Web App (Hugging Face Spaces)
-一个极简示例：
-1. 用户上传 ≤ 5 页的 PDF（扫描或数字文档皆可）；
-2. 调用 **OCRmyPDF** 为扫描页添加不可见文字层；
-3. 从全文中提取结构化信息（借助 [LangExtract](https://github.com/google/langextract)）；
-4. 将提取结果在界面中展示，并可下载 JSON。
-> **必备**
-> • 在 **Spaces → Settings → Secrets** 里添加 `LANGEXTRACT_API_KEY`（如果用 Gemini API）。
-> • 资源免费层仅供演示，上传文件 ≤ 5 MB 且 ≤ 5 页以控制内存和执行时间。
->
-> 如需扩展：
-> • 提示词、示例、模型 ID 都可在 `app.py` 里调整；
-> • 可接入 Postgres / S3 存储历史记录，或增加登录鉴权。

+---
+title: LangmyOCR
+emoji: 📄
+colorFrom: indigo
+colorTo: blue
+sdk: docker
+pinned: false
+---
+LangmyOCR 是一个基于 Streamlit 的简洁 Web 应用，允许用户上传最多 5 页的 PDF 文件（可为扫描件），自动进行 OCR 识别（使用 OCRmyPDF）并调用 LangExtract 执行结构化信息提取，适用于法律、医疗、评估等场景中的文档智能处理。
+### ✨ 功能特色
+- 自动为 PDF 添加不可见文本图层（支持扫描件）
+- 中文 + 英文 OCR（Tesseract）
+- 使用 LangExtract 提取人名、角色、事件等结构化内容
+- JSON 结构化输出，支持下载
+- 免费部署，开源可复用
+### 📦 技术栈
+- Python 3.10
+- Streamlit
+- OCRmyPDF
+- Tesseract OCR（支持 eng + chi_sim）
+- LangExtract（通过 Gemini API 或本地模型）
+### 🔐 环境变量（可选）
+如果使用 LangExtract 的 Gemini 模型，请在 Hugging Face 设置中添加 secret：