dseditor commited on
Commit
718071b
·
verified ·
1 Parent(s): a355cd9

Delete readme.md

Browse files
Files changed (1) hide show
  1. readme.md +0 -64
readme.md DELETED
@@ -1,64 +0,0 @@
1
- # PDF論文資料自動處理系統
2
-
3
- 這是一個自動化處理學術論文PDF文件的Hugging Face Space應用程序,能夠從JSON數據中提取論文資訊,自動下載PDF文件,並提取完整的元數據。
4
-
5
- ## 功能特色
6
-
7
- - 📄 **PDF自動下載**: 根據JSON中的下載連結自動獲取PDF文件
8
- - 🔍 **智能內容提取**: 使用PyMuPDF提取標題、作者、摘要等關鍵資訊
9
- - 🚫 **重複內容處理**: 自動識別並避免名稱與論文集名稱的重複
10
- - 💾 **JSON格式化輸出**: 生成結構化的完整JSON資料
11
- - 📁 **文件保存功能**: 支持自定義文件名保存處理結果
12
-
13
- ## 使用方法
14
-
15
- 1. **準備JSON數據**: 包含論文集名稱、作者、下載位置等基本資訊
16
- 2. **輸入處理**: 將JSON貼入應用界面
17
- 3. **自動處理**: 系統自動下載PDF並提取缺失資訊
18
- 4. **結果輸出**: 獲得包含完整欄位的JSON數據
19
-
20
- ## 輸入格式
21
-
22
- ```json
23
- [
24
- {
25
- "論文集名稱": "刑事政策與犯罪防治研究36",
26
- "作者": "犯罪防治研究中心彙編",
27
- "下載位置": "https://example.com/paper.pdf"
28
- }
29
- ]
30
- ```
31
-
32
- ## 輸出格式
33
-
34
- ```json
35
- [
36
- {
37
- "論文集名稱": "刑事政策與犯罪防治研究36",
38
- "作者": "實際作者姓名",
39
- "下載位置": "https://example.com/paper.pdf",
40
- "名稱": "具體論文標題",
41
- "摘要": "論文摘要內容..."
42
- }
43
- ]
44
- ```
45
-
46
- ## 技術特點
47
-
48
- - **智能標題提取**: 避免與論文集名稱重複,提供更精準的論文標題
49
- - **多語言支援**: 支援中英文內容的智能識別和處理
50
- - **錯誤處理**: 完善的異常處理機制,確保處理穩定性
51
- - **臨時文件管理**: 自動清理下載的臨時PDF文件
52
-
53
- ## 依賴套件
54
-
55
- - gradio: Web界面框架
56
- - requests: HTTP請求處理
57
- - PyMuPDF: PDF文件解析
58
- - unicodedata2: 字符正規化處理
59
-
60
- ## 注意事項
61
-
62
- - 處理時間取決於PDF文件的大小和網絡狀況
63
- - 系統會自動處理PDF下載失敗的情況
64
- - 建議對大量文件分批處理以獲得最佳效果