kitjesen
/

MinerU

Feature Extraction

pdf-to-markdown

Model card Files Files and versions Community

MinerU / README.md

kitjesen's picture

Upload 14 files

c135d9e verified about 2 months ago

|

history blame contribute delete

1.76 kB

metadata

language:
  - zh
  - en
license: apache-2.0
library_name: transformers
pipeline_tag: feature-extraction
tags:
  - pdf-to-markdown
  - feature-extraction

MinerU PDF to Markdown Model

这个模型可以将PDF文档转换为Markdown格式。

Model Description

MinerU使用多模型组合架构：

Layout: 文档布局分析 (Detectron2)
MFD: 数学公式检测 (PyTorch)
MFR: 数学公式识别 (BERT-based)
TabRec: 表格识别与重建 (T5-based)

Intended Uses

本模型用于将PDF文档自动转换为Markdown格式，支持：

文本布局分析
数学公式识别
表格结构重建

Usage

from transformers import pipeline

converter = pipeline("document-conversion", model="kitjesen/MinerU")
markdown = converter("document.pdf")

Limitations and Bias

最大支持页数：100页
PDF文件大小限制：50MB
支持语言：中文、英文

Training Data

模型使用以下数据训练：

学术论文数据集
教材文档数据集
技术文档数据集

Training Procedure

使用多阶段训练流程：

预训练各个子模型
联合训练优化
端到端微调

Evaluation Results

文本识别准确率：95%
公式识别准确率：90%
表格重建准确率：85%

Environmental Impact

硬件要求：GPU with 8GB+ VRAM
推理时间：~2s/页

Technical Specifications

Model Architecture

Layout: Detectron2 (FasterRCNN)
MFD: Custom CNN
MFR: BERT-based
TabRec: T5-based

Hardware Requirements

RAM: 16GB+
GPU: 8GB+ VRAM
Storage: 5GB

Software Requirements

Python >= 3.7
PyTorch >= 1.9.0
transformers >= 4.28.0
detectron2