MinerU / README.md
kitjesen's picture
Upload 14 files
c135d9e verified
metadata
language:
  - zh
  - en
license: apache-2.0
library_name: transformers
pipeline_tag: feature-extraction
tags:
  - pdf-to-markdown
  - feature-extraction

MinerU PDF to Markdown Model

这个模型可以将PDF文档转换为Markdown格式。

Model Description

MinerU使用多模型组合架构:

  • Layout: 文档布局分析 (Detectron2)
  • MFD: 数学公式检测 (PyTorch)
  • MFR: 数学公式识别 (BERT-based)
  • TabRec: 表格识别与重建 (T5-based)

Intended Uses

本模型用于将PDF文档自动转换为Markdown格式,支持:

  • 文本布局分析
  • 数学公式识别
  • 表格结构重建

Usage

from transformers import pipeline

converter = pipeline("document-conversion", model="kitjesen/MinerU")
markdown = converter("document.pdf")

Limitations and Bias

  • 最大支持页数:100页
  • PDF文件大小限制:50MB
  • 支持语言:中文、英文

Training Data

模型使用以下数据训练:

  • 学术论文数据集
  • 教材文档数据集
  • 技术文档数据集

Training Procedure

使用多阶段训练流程:

  1. 预训练各个子模型
  2. 联合训练优化
  3. 端到端微调

Evaluation Results

  • 文本识别准确率:95%
  • 公式识别准确率:90%
  • 表格重建准确率:85%

Environmental Impact

  • 硬件要求:GPU with 8GB+ VRAM
  • 推理时间:~2s/页

Technical Specifications

Model Architecture

  • Layout: Detectron2 (FasterRCNN)
  • MFD: Custom CNN
  • MFR: BERT-based
  • TabRec: T5-based

Hardware Requirements

  • RAM: 16GB+
  • GPU: 8GB+ VRAM
  • Storage: 5GB

Software Requirements

  • Python >= 3.7
  • PyTorch >= 1.9.0
  • transformers >= 4.28.0
  • detectron2