Delete readme.md
Browse files
readme.md
DELETED
@@ -1,64 +0,0 @@
|
|
1 |
-
# PDF論文資料自動處理系統
|
2 |
-
|
3 |
-
這是一個自動化處理學術論文PDF文件的Hugging Face Space應用程序,能夠從JSON數據中提取論文資訊,自動下載PDF文件,並提取完整的元數據。
|
4 |
-
|
5 |
-
## 功能特色
|
6 |
-
|
7 |
-
- 📄 **PDF自動下載**: 根據JSON中的下載連結自動獲取PDF文件
|
8 |
-
- 🔍 **智能內容提取**: 使用PyMuPDF提取標題、作者、摘要等關鍵資訊
|
9 |
-
- 🚫 **重複內容處理**: 自動識別並避免名稱與論文集名稱的重複
|
10 |
-
- 💾 **JSON格式化輸出**: 生成結構化的完整JSON資料
|
11 |
-
- 📁 **文件保存功能**: 支持自定義文件名保存處理結果
|
12 |
-
|
13 |
-
## 使用方法
|
14 |
-
|
15 |
-
1. **準備JSON數據**: 包含論文集名稱、作者、下載位置等基本資訊
|
16 |
-
2. **輸入處理**: 將JSON貼入應用界面
|
17 |
-
3. **自動處理**: 系統自動下載PDF並提取缺失資訊
|
18 |
-
4. **結果輸出**: 獲得包含完整欄位的JSON數據
|
19 |
-
|
20 |
-
## 輸入格式
|
21 |
-
|
22 |
-
```json
|
23 |
-
[
|
24 |
-
{
|
25 |
-
"論文集名稱": "刑事政策與犯罪防治研究36",
|
26 |
-
"作者": "犯罪防治研究中心彙編",
|
27 |
-
"下載位置": "https://example.com/paper.pdf"
|
28 |
-
}
|
29 |
-
]
|
30 |
-
```
|
31 |
-
|
32 |
-
## 輸出格式
|
33 |
-
|
34 |
-
```json
|
35 |
-
[
|
36 |
-
{
|
37 |
-
"論文集名稱": "刑事政策與犯罪防治研究36",
|
38 |
-
"作者": "實際作者姓名",
|
39 |
-
"下載位置": "https://example.com/paper.pdf",
|
40 |
-
"名稱": "具體論文標題",
|
41 |
-
"摘要": "論文摘要內容..."
|
42 |
-
}
|
43 |
-
]
|
44 |
-
```
|
45 |
-
|
46 |
-
## 技術特點
|
47 |
-
|
48 |
-
- **智能標題提取**: 避免與論文集名稱重複,提供更精準的論文標題
|
49 |
-
- **多語言支援**: 支援中英文內容的智能識別和處理
|
50 |
-
- **錯誤處理**: 完善的異常處理機制,確保處理穩定性
|
51 |
-
- **臨時文件管理**: 自動清理下載的臨時PDF文件
|
52 |
-
|
53 |
-
## 依賴套件
|
54 |
-
|
55 |
-
- gradio: Web界面框架
|
56 |
-
- requests: HTTP請求處理
|
57 |
-
- PyMuPDF: PDF文件解析
|
58 |
-
- unicodedata2: 字符正規化處理
|
59 |
-
|
60 |
-
## 注意事項
|
61 |
-
|
62 |
-
- 處理時間取決於PDF文件的大小和網絡狀況
|
63 |
-
- 系統會自動處理PDF下載失敗的情況
|
64 |
-
- 建議對大量文件分批處理以獲得最佳效果
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|