|
---
|
|
language:
|
|
- zh
|
|
- en
|
|
license: apache-2.0
|
|
library_name: transformers
|
|
pipeline_tag: feature-extraction
|
|
tags:
|
|
- pdf-to-markdown
|
|
- feature-extraction
|
|
---
|
|
|
|
# MinerU PDF to Markdown Model
|
|
|
|
这个模型可以将PDF文档转换为Markdown格式。
|
|
|
|
## Model Description
|
|
|
|
MinerU使用多模型组合架构:
|
|
- Layout: 文档布局分析 (Detectron2)
|
|
- MFD: 数学公式检测 (PyTorch)
|
|
- MFR: 数学公式识别 (BERT-based)
|
|
- TabRec: 表格识别与重建 (T5-based)
|
|
|
|
## Intended Uses
|
|
|
|
本模型用于将PDF文档自动转换为Markdown格式,支持:
|
|
- 文本布局分析
|
|
- 数学公式识别
|
|
- 表格结构重建
|
|
|
|
## Usage
|
|
|
|
```python
|
|
from transformers import pipeline
|
|
|
|
converter = pipeline("document-conversion", model="kitjesen/MinerU")
|
|
markdown = converter("document.pdf")
|
|
```
|
|
|
|
## Limitations and Bias
|
|
|
|
- 最大支持页数:100页
|
|
- PDF文件大小限制:50MB
|
|
- 支持语言:中文、英文
|
|
|
|
## Training Data
|
|
|
|
模型使用以下数据训练:
|
|
- 学术论文数据集
|
|
- 教材文档数据集
|
|
- 技术文档数据集
|
|
|
|
## Training Procedure
|
|
|
|
使用多阶段训练流程:
|
|
1. 预训练各个子模型
|
|
2. 联合训练优化
|
|
3. 端到端微调
|
|
|
|
## Evaluation Results
|
|
|
|
- 文本识别准确率:95%
|
|
- 公式识别准确率:90%
|
|
- 表格重建准确率:85%
|
|
|
|
## Environmental Impact
|
|
|
|
- 硬件要求:GPU with 8GB+ VRAM
|
|
- 推理时间:~2s/页
|
|
|
|
## Technical Specifications
|
|
|
|
**Model Architecture**
|
|
- Layout: Detectron2 (FasterRCNN)
|
|
- MFD: Custom CNN
|
|
- MFR: BERT-based
|
|
- TabRec: T5-based
|
|
|
|
**Hardware Requirements**
|
|
- RAM: 16GB+
|
|
- GPU: 8GB+ VRAM
|
|
- Storage: 5GB
|
|
|
|
**Software Requirements**
|
|
- Python >= 3.7
|
|
- PyTorch >= 1.9.0
|
|
- transformers >= 4.28.0
|
|
- detectron2 |