Update README.md
Browse files
README.md
CHANGED
@@ -1,15 +1,31 @@
|
|
1 |
-
|
2 |
-
|
3 |
-
|
4 |
-
|
5 |
-
|
6 |
-
|
7 |
-
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
|
13 |
-
|
14 |
-
|
15 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
title: LangmyOCR
|
3 |
+
emoji: 📄
|
4 |
+
colorFrom: indigo
|
5 |
+
colorTo: blue
|
6 |
+
sdk: docker
|
7 |
+
pinned: false
|
8 |
+
---
|
9 |
+
|
10 |
+
LangmyOCR 是一个基于 Streamlit 的简洁 Web 应用,允许用户上传最多 5 页的 PDF 文件(可为扫描件),自动进行 OCR 识别(使用 OCRmyPDF)并调用 LangExtract 执行结构化信息提取,适用于法律、医疗、评估等场景中的文档智能处理。
|
11 |
+
|
12 |
+
### ✨ 功能特色
|
13 |
+
|
14 |
+
- 自动为 PDF 添加不可见文本图层(支持扫描件)
|
15 |
+
- 中文 + 英文 OCR(Tesseract)
|
16 |
+
- 使用 LangExtract 提取人名、角色、事件等结构化内容
|
17 |
+
- JSON 结构化输出,支持下载
|
18 |
+
- 免费部署,开源可复用
|
19 |
+
|
20 |
+
### 📦 技术栈
|
21 |
+
|
22 |
+
- Python 3.10
|
23 |
+
- Streamlit
|
24 |
+
- OCRmyPDF
|
25 |
+
- Tesseract OCR(支持 eng + chi_sim)
|
26 |
+
- LangExtract(通过 Gemini API 或本地模型)
|
27 |
+
|
28 |
+
### 🔐 环境变量(可选)
|
29 |
+
|
30 |
+
如果使用 LangExtract 的 Gemini 模型,请在 Hugging Face 设置中添加 secret:
|
31 |
+
|