inu-ai commited on
Commit
f3e44e5
1 Parent(s): 9d9cc1a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +24 -21
README.md CHANGED
@@ -11,7 +11,7 @@ tags:
11
  license: unknown
12
  datasets:
13
  - JosephusCheung/GuanacoDataset
14
- - https://github.com/shi3z/alpaca_ja
15
  widget:
16
  - text: <s>\\n以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\\n[SEP]\\n指示:\\n日本で一番広い湖は?\\n[SEP]\\n応答:\\n
17
  ---
@@ -20,12 +20,13 @@ widget:
20
 
21
  1.3Bパラメータの日本語GPTモデルを使用した対話AIです。VRAM 7GB または RAM 7GB が必要で、問題なく動作すると思われます。
22
 
23
- rinna社の「japanese-gpt-1b」を、日本語データセット「alpaca_ja」および「GuanacoDataset」から抽出された日本語データを使用して学習させました。
24
 
25
  学習データやモデルを作成および配布してくださった方々に心から感謝申し上げます。
26
 
27
  # モデルの使用方法
28
- モデルの読み込み
 
29
 
30
  ```python
31
  import torch
@@ -36,19 +37,7 @@ tokenizer = AutoTokenizer.from_pretrained("inu-ai/alpaca-guanaco-japanese-gpt-1b
36
  model = AutoModelForCausalLM.from_pretrained("inu-ai/alpaca-guanaco-japanese-gpt-1b").to(device)
37
  ```
38
 
39
- - ChatGPT4によるサンプルコードと説明
40
-
41
- このコードは、与えられた役割指示と会話履歴に基づいて、新しい質問に対して応答を生成する機能を持っています。以下に、コードの各部分を簡単に説明します。
42
-
43
- 1. `prepare_input` 関数は、役割指示、会話履歴、および新しい会話(質問)を受け取り、入力テキストを準備します。
44
- 2. `format_output` 関数は、生成された応答を整形して、不要な部分を削除し、適切な形式に変換します。
45
- 3. `generate_response` 関数は、指定された役割指示、会話履歴、および新しい会話を使用して、AIの応答を生成し、整形します。また、会話履歴を更新します。
46
- 4. `role_instruction` は、AIに適用する役割指示のリストです。
47
- 5. `conversation_history` は、これまでの会話履歴を格納するリストです。
48
- 6. `questions` は、AIに質問するリストです。
49
-
50
- 最後に、`questions`リスト内の各質問に対して、AIの応答を生成し、表示しています。
51
- このコードを実行すると、AIが指定された役割指示に従って、リスト内の質問に応答します。
52
 
53
  ```python
54
  MAX_LENGTH = 1024
@@ -125,8 +114,22 @@ for question in questions:
125
  print(response)
126
  ```
127
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
128
 
129
- 出力
130
  ```
131
  Assistant:日本で一番高い山は富士山です。
132
  Assistant:日本で一番広い湖は琵琶湖です。湖は長さ約6,400 km、面積は約33,600 km2で、世界最大の湖です。
@@ -136,17 +139,17 @@ Assistant:ずんだもんは、東北ずん子のキャラクターです。一
136
  Assistant:今、私は何問目でしょうか?
137
  ```
138
 
139
- ### 評価
140
  100回の「入力」質問を行い、それらに対する「応答」文字列が最も正確なエポックのモデルを選択しました。
141
  なお、サンプルコードのように「入力」が長くなると正答率が50%ぐらいに下がりました。
142
 
143
  | 入力 | 応答 | 正答率[%] |
144
  |-----------------------|-------------|-------|
145
  | 日本で一番広い湖は? | 琵琶湖 | 96 |
146
- | 日本で一番高い山は? | エベレスト | 86 |
147
 
148
 
149
- ### トレーニングのハイパーパラメータ
150
 
151
  学習時には以下のハイパーパラメータを使用:
152
  ```
@@ -169,7 +172,7 @@ python.exe transformers/examples/pytorch/language-modeling/run_clm.py ^
169
  --logging_dir logs
170
  ```
171
 
172
- ### フレームワークのバージョン
173
 
174
  - Transformers 4.28.0.dev0
175
  - Pytorch 2.0.0+cu117
 
11
  license: unknown
12
  datasets:
13
  - JosephusCheung/GuanacoDataset
14
+ - tatsu-lab/alpaca
15
  widget:
16
  - text: <s>\\n以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\\n[SEP]\\n指示:\\n日本で一番広い湖は?\\n[SEP]\\n応答:\\n
17
  ---
 
20
 
21
  1.3Bパラメータの日本語GPTモデルを使用した対話AIです。VRAM 7GB または RAM 7GB が必要で、問題なく動作すると思われます。
22
 
23
+ rinna社の「[japanese-gpt-1b](https://huggingface.co/rinna/japanese-gpt-1b)」を、日本語データセット「[alpaca_ja](https://github.com/shi3z/alpaca_ja)」および「[GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset)」から抽出された日本語データを使用して学習させました。
24
 
25
  学習データやモデルを作成および配布してくださった方々に心から感謝申し上げます。
26
 
27
  # モデルの使用方法
28
+
29
+ ## モデルの読み込み
30
 
31
  ```python
32
  import torch
 
37
  model = AutoModelForCausalLM.from_pretrained("inu-ai/alpaca-guanaco-japanese-gpt-1b").to(device)
38
  ```
39
 
40
+ ## ChatGPT4によるサンプルコード
 
 
 
 
 
 
 
 
 
 
 
 
41
 
42
  ```python
43
  MAX_LENGTH = 1024
 
114
  print(response)
115
  ```
116
 
117
+ ## ChatGPT4による説明
118
+
119
+ このコードは、与えられた役割指示と会話履歴に基づいて、新しい質問に対して応答を生成する機能を持っています。以下に、コードの各部分を簡単に説明します。
120
+
121
+ 1. `prepare_input` 関数は、役割指示、会話履歴、および新しい会話(質問)を受け取り、入力テキストを準備します。
122
+ 2. `format_output` 関数は、生成された応答を整形して、不要な部分を削除し、適切な形式に変換します。
123
+ 3. `generate_response` 関数は、指定された役割指示、会話履歴、および新しい会話を使用して、AIの応答を生成し、整形します。また、会話履歴を更新します。
124
+ 4. `role_instruction` は、AIに適用する役割指示のリストです。
125
+ 5. `conversation_history` は、これまでの会話履歴を格納するリストです。
126
+ 6. `questions` は、AIに質問するリストです。
127
+
128
+ 最後に、`questions`リスト内の各質問に対して、AIの応答を生成し、表示しています。
129
+ このコードを実行すると、AIが指定された役割指示に従って、リスト内の質問に応答します。
130
+
131
+ ## 出力
132
 
 
133
  ```
134
  Assistant:日本で一番高い山は富士山です。
135
  Assistant:日本で一番広い湖は琵琶湖です。湖は長さ約6,400 km、面積は約33,600 km2で、世界最大の湖です。
 
139
  Assistant:今、私は何問目でしょうか?
140
  ```
141
 
142
+ # 評価
143
  100回の「入力」質問を行い、それらに対する「応答」文字列が最も正確なエポックのモデルを選択しました。
144
  なお、サンプルコードのように「入力」が長くなると正答率が50%ぐらいに下がりました。
145
 
146
  | 入力 | 応答 | 正答率[%] |
147
  |-----------------------|-------------|-------|
148
  | 日本で一番広い湖は? | 琵琶湖 | 96 |
149
+ | 世界で一番高い山は? | エベレスト | 86 |
150
 
151
 
152
+ # トレーニングのハイパーパラメータ
153
 
154
  学習時には以下のハイパーパラメータを使用:
155
  ```
 
172
  --logging_dir logs
173
  ```
174
 
175
+ # フレームワークのバージョン
176
 
177
  - Transformers 4.28.0.dev0
178
  - Pytorch 2.0.0+cu117