nanoapple commited on
Commit
e4d3eeb
·
verified ·
1 Parent(s): ba2a841

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +31 -15
README.md CHANGED
@@ -1,15 +1,31 @@
1
- # 📄 OCR + LangExtract Web App (Hugging Face Spaces)
2
-
3
- 一个极简示例:
4
- 1. 用户上传 ≤ 5 页的 PDF(扫描或数字文档皆可);
5
- 2. 调用 **OCRmyPDF** 为扫描页添加不可见文字层;
6
- 3. 从全文中提取结构化信息(借助 [LangExtract](https://github.com/google/langextract));
7
- 4. 将提取结果在界面中展示,并可下载 JSON。
8
-
9
- > **必备**
10
- > **Spaces Settings Secrets** 里添加 `LANGEXTRACT_API_KEY`(如果用 Gemini API)。
11
- > • 资源免费层仅供演示,上传文件 ≤ 5 MB 且 ≤ 5 页以控制内存和执行时间。
12
- >
13
- > 如需扩展:
14
- > 提示词、示例、模型 ID 都可在 `app.py` 里调整;
15
- > 可接入 Postgres / S3 存储历史记录,或增加登录鉴权。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ title: LangmyOCR
3
+ emoji: 📄
4
+ colorFrom: indigo
5
+ colorTo: blue
6
+ sdk: docker
7
+ pinned: false
8
+ ---
9
+
10
+ LangmyOCR 是一个基于 Streamlit 的简洁 Web 应用,允许用户上传最多 5 页的 PDF 文件(可为扫描件),自动进行 OCR 识别(使用 OCRmyPDF)并调用 LangExtract 执行结构化信息提取,适用于法律、医疗、评估等场景中的文档智能处理。
11
+
12
+ ### ✨ 功能特色
13
+
14
+ - 自动为 PDF 添加不可见文本图层(支持扫描件)
15
+ - 中文 + 英文 OCR(Tesseract)
16
+ - 使用 LangExtract 提取人名、角色、事件等结构化内容
17
+ - JSON 结构化输出,支持下载
18
+ - 免费部署,开源可复用
19
+
20
+ ### 📦 技术栈
21
+
22
+ - Python 3.10
23
+ - Streamlit
24
+ - OCRmyPDF
25
+ - Tesseract OCR(支持 eng + chi_sim)
26
+ - LangExtract(通过 Gemini API 或本地模型)
27
+
28
+ ### 🔐 环境变量(可选)
29
+
30
+ 如果使用 LangExtract 的 Gemini 模型,请在 Hugging Face 设置中添加 secret:
31
+