jslin09 commited on
Commit
52736cb
1 Parent(s): ce86e8b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +76 -0
README.md CHANGED
@@ -32,3 +32,79 @@ widget:
32
  example_title: 偽造特種文書(契約、車牌等)詐財
33
  library_name: transformers
34
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32
  example_title: 偽造特種文書(契約、車牌等)詐財
33
  library_name: transformers
34
  ---
35
+ # 判決書「犯罪事實」欄草稿自動生成
36
+ 本模型是以司法院公開之「詐欺」案件判決書做成之資料集,基於 [Llama 3.2-1b](https://huggingface.co/meta-llama/Llama-3.2-1B) 模型進行微調訓練,可以自動生成詐欺及竊盜案件之犯罪事實段落之草稿。資料集之資料範圍從100年1月1日至110年12月31日,所蒐集到的原始資料共有 74823 篇(判決以及裁定),我們只取判決書的「犯罪事實」欄位內容,並把這原始的資料分成三份,用於訓練的資料集有59858篇,約佔原始資料的80%,剩下的20%,則是各分配10%給驗證集(7482篇),10%給測試集(7483篇)。在本網頁進行測試時,請在模型載入完畢並生成第一小句後,持續按下Compute按鈕,就能持續生成文字。或是輸入自己想要測試的資料到文字框中進行測試。或是可以到[這裡](https://huggingface.co/spaces/jslin09/legal_document_drafting)有更完整的使用體驗。
37
+
38
+ # 使用範例
39
+ 如果要在自己的程式中調用本模型,可以參考下列的 Python 程式碼,藉由呼叫 API 的方式來生成刑事判決書「犯罪事實」欄的內容。
40
+ <details>
41
+ <summary> 點擊後展開 </summary>
42
+ <pre>
43
+ <code>
44
+ import requests, json
45
+ from time import sleep
46
+ from tqdm.auto import tqdm, trange
47
+
48
+ # Load model directly
49
+ from transformers import AutoTokenizer, AutoModelForCausalLM
50
+
51
+ API_URL = "https://api-inference.huggingface.co/models/jslin09/llama-3.2-1b-fraud"
52
+ API_TOKEN = 'XXXXXXXXXXXXXXX' # 調用模型的 API token
53
+ headers = {"Authorization": f"Bearer {API_TOKEN}"}
54
+
55
+ def query(payload):
56
+ response = requests.post(API_URL, headers=headers, json=payload)
57
+ return json.loads(response.content.decode("utf-8"))
58
+
59
+ prompt = "森上梅前明知其無資力支付酒店消費,亦無付款意願,竟意圖為自己不法之所有,"
60
+ query_dict = {
61
+ "inputs": prompt,
62
+ }
63
+ text_len = 300
64
+ t = trange(text_len, desc= '生成例稿', leave=True)
65
+ for i in t:
66
+ response = query(query_dict)
67
+ try:
68
+ response_text = response[0]['generated_text']
69
+ query_dict["inputs"] = response_text
70
+ t.set_description(f"{i}: {response[0]['generated_text']}")
71
+ t.refresh()
72
+ except KeyError:
73
+ sleep(30) # 如果伺服器太忙無回應,等30秒後再試。
74
+ pass
75
+ print(response[0]['generated_text'])
76
+ </code>
77
+ </pre>
78
+ </details>
79
+
80
+ 或是,你要使用 transformers 套件來實作你的程式,將本模型下載至你本地端的電腦中執行,可以參考下列程式碼:
81
+ <details>
82
+ <summary> 點擊後展開 </summary>
83
+ <pre>
84
+ <code>
85
+ # Load model directly
86
+ from transformers import AutoTokenizer, AutoModelForCausalLM
87
+
88
+ tokenizer = AutoTokenizer.from_pretrained("jslin09/llama-3.2-1b-fraud")
89
+ model = AutoModelForCausalLM.from_pretrained("jslin09/llama-3.2-1b-fraud")
90
+
91
+ </code>
92
+ </pre>
93
+ </details>
94
+
95
+ # 致謝
96
+ 微調本模型所需要的算力,是由[評律網](https://www.pingluweb.com.tw/)提供 NVIDIA H100。特此致謝。
97
+
98
+ # 引文訊息
99
+
100
+ ```
101
+ @misc{lin2024legal,
102
+ title={Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model},
103
+ author={Chun-Hsien Lin and Pu-Jen Cheng},
104
+ year={2024},
105
+ eprint={2406.04202},
106
+ archivePrefix={arXiv},
107
+ primaryClass={cs.CL}
108
+ url = {https://arxiv.org/abs/2406.04202}
109
+ }
110
+ ```