PDFTranslate / README.md
sanbo
update sth. at 2024-11-26 16:15:47
9b0f4a0
metadata
title: PDFTranslate
emoji: 📚
colorFrom: red
colorTo: yellow
sdk: docker
pinned: false
short_description: pdf翻译

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

PDFTranslate

科学 PDF 文档翻译及双语对照工具

欢迎在 GitHub IssuesTelegram 用户群 中提供反馈。

近期更新

  • [Nov. 26 2024] CLI 现在已支持(多个)在线 PDF 文件 (by @reycn)
  • [Nov. 24 2024] 为降低依赖大小,提供 ONNX 支持 (by @Wybxc)
  • [Nov. 23 2024] 🌟 免费公共服务 上线! (by @Byaidu)
  • [Nov. 23 2024] 防止网页爬虫的防火墙 (by @Byaidu)
  • [Nov. 22 2024] 图形用户界面现已支持意大利语,并获得了一些更新 (by @Byaidu, @reycn)
  • [Nov. 22 2024] 现在你可以将自己部署的服务分享给朋友了 (by @Zxis233)
  • [Nov. 22 2024] 支持腾讯翻译 (by @hellofinch)
  • [Nov. 21 2024] 图形用户界面现在支持下载双语文档 (by @reycn)
  • [Nov. 20 2024] 🌟 提供了 在线演示(by @reycn)

效果预览

在线演示 🌟

免费服务 (https://pdf2zh.com/)

你可以立即尝试 免费公共服务 而无需安装。

Hugging Face 在线演示

你可以立即尝试 在 HuggingFace 上的在线演示 而无需安装。 请注意,演示的计算资源有限,因此请避免滥用。

安装和使用

我们提供了三种使用该项目的方法:命令行工具图形交互界面容器化部署.

方法一、命令行工具

  1. 确保安装了版本大于 3.8 且小于 3.12 的 Python

  2. 安装此程序:

    pip install pdf2zh
    
  3. 开始使用:

    pdf2zh document.pdf
    

方法二、图形交互界面

  1. 确保安装了版本大于 3.8 且小于 3.12 的 Python

  2. 安装此程序:

    pip install pdf2zh
    
  3. 开始在浏览器中使用:

    pdf2zh -i
    
  4. 如果您的浏览器没有自动启动并跳转,请用浏览器打开:

    http://localhost:7860/
    

查看 documentation for GUI 获取细节说明.

方法三、容器化部署

  1. 拉取 Docker 镜像并运行:

    docker pull byaidu/pdf2zh
    docker run -d -p 7860:7860 byaidu/pdf2zh
    
  2. 通过浏览器打开:

    http://localhost:7860/
    

用于在云服务上部署容器镜像:

Deploy Deploy to Koyeb Deploy on Zeabur Deploy to Koyeb

高级选项

在命令行中执行翻译命令,生成译文文档 example-zh.pdf 和双语对照文档 example-dual.pdf,默认使用 Google 翻译服务

我们在下表中列出了所有高级选项,以供参考:

Option Function Example
(文档) 本地(多个)文件 pdf2zh ~/local.pdf
在线(多个)文件 pdf2zh http://web.com/online.pdf
-i 进入图形界面 pdf2zh -i
-p 仅翻译部分文档 pdf2zh example.pdf -p 1
-li 源语言 pdf2zh example.pdf -li en
-lo 目标语言 pdf2zh example.pdf -lo zh
-s 指定翻译服务 pdf2zh example.pdf -s deepl
-t 多线程 pdf2zh example.pdf -t 1
-f, -c 例外规则 pdf2zh example.pdf -f "(MS.*)"

某些服务需要设置环境变量。关于设置环境变量的详细说明,请参考 ChatGPT

全文或部分文档翻译

  • 全文翻译
pdf2zh example.pdf
  • 部分翻译
pdf2zh example.pdf -p 1-3,5

指定源语言和目标语言

参考 Google Languages Codes, DeepL Languages Codes

pdf2zh example.pdf -li en -lo ja

使用不同的翻译服务

  • DeepL

参考 DeepL

设置环境变量构建接入点:{DEEPL_SERVER_URL}/translate

  • DEEPL_SERVER_URL(可选), e.g., export DEEPL_SERVER_URL=https://api.deepl.com
  • DEEPL_AUTH_KEY, e.g., export DEEPL_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
  • DeepLX

参考 DeepLX

设置环境变量构建接入点:{DEEPLX_SERVER_URL}/translate

  • DEEPLX_SERVER_URL(可选), e.g., export DEEPLX_SERVER_URL=https://api.deepl.com
  • DEEPLX_AUTH_KEY, e.g., export DEEPLX_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
  • Ollama

参考 Ollama

设置环境变量构建接入点:{OLLAMA_HOST}/api/chat

  • OLLAMA_HOST(可选), e.g., export OLLAMA_HOST=https://localhost:11434
pdf2zh example.pdf -s ollama:gemma2
  • 支持 OpenAI 协议的 LLM(如 OpenAI、SiliconCloud、Zhipu)

参考 SiliconCloud, Zhipu

设置环境变量构建接入点:{OPENAI_BASE_URL}/chat/completions

  • OPENAI_BASE_URL(可选), e.g., export OPENAI_BASE_URL=https://api.openai.com/v1
  • OPENAI_API_KEY, e.g., export OPENAI_API_KEY=xxx
pdf2zh example.pdf -s openai:gpt-4o
  • Azure

参考 Azure Text Translation

需设置以下环境变量:

  • AZURE_APIKEY, e.g., export AZURE_APIKEY=xxx
  • AZURE_ENDPOINT, e.g., export AZURE_ENDPOINT=https://api.translator.azure.cn/
  • AZURE_REGION, e.g., export AZURE_REGION=chinaeast2
pdf2zh example.pdf -s azure
  • 腾讯机器翻译

参考 腾讯机器翻译

需设置以下环境变量:

  • TENCENT_SECRET_ID, e.g., export TENCENT_SECRET_ID=AKIDxxx
  • TENCENT_SECRET_KEY, e.g., export TENCENT_SECRET_KEY=xxx
pdf2zh example.pdf -s tmt

指定例外规则

使用正则表达式指定需保留的公式字体与字符

pdf2zh example.pdf -f "(CM[^RT].*|MS.*|.*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"

指定线程数量

使用 -t 指定翻译时使用的线程数量:

pdf2zh example.pdf -t 1

致谢