keitokei1994 commited on
Commit
09c8243
·
verified ·
1 Parent(s): 405363a

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +49 -0
README.md ADDED
@@ -0,0 +1,49 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: llama3
3
+ language:
4
+ - ja
5
+ - en
6
+ tags:
7
+ - moe
8
+ - japanese
9
+ - sql
10
+ ---
11
+ ### モデルの説明(English explanation is below.)
12
+ このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルをGGUF形式で量子化したものです。
13
+ 量子化していないものは [こちら](https://huggingface.co/keitokei1994/swallow-3-8B-sqlcoder-2x8B) 。
14
+
15
+ ### モデルの詳細
16
+ - **モデル名**: swallow-3-8B-sqlcoder-2x8B-GGUF
17
+ - **モデルアーキテクチャ**: Mixture of Experts (MoE)
18
+ - **ベースモデル**:
19
+ - [tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1](https://huggingface.co/tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1)
20
+ - [defog/llama-3-sqlcoder-8b](https://huggingface.co/defog/llama-3-sqlcoder-8b)
21
+ - **マージツール**: MergeKit
22
+ このMoEモデルは、Llama-3-Swallow-8B-Instruct-v0.1の日本語能力とLlama-3-sqlcoder-8bのSQL生成能力を組み合わせることで、より強力で多機能な言語モデルを目指しています。
23
+ #### 特徴
24
+ - 日本語と英語の両方に対応
25
+ - Llama-3-Swallow-8B-Instruct-v0.1による優れた日本語処理能力
26
+ - Llama-3-sqlcoder-8bによる高度なSQL生成と処理能力
27
+ #### 要求スペック
28
+ Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。
29
+ 筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行っています。
30
+
31
+ ---
32
+ ### Model Description
33
+ This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.
34
+ The gguf version can be found [こちら](https://huggingface.co/keitokei1994/swallow-3-8B-sqlcoder-2x8B).
35
+ ### Model Details
36
+ - **Model Name**: swallow-3-8B-sqlcoder-2x8B-GGUF
37
+ - **Model Architecture**: Mixture of Experts (MoE)
38
+ - **Base Models**:
39
+ - [tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1](https://huggingface.co/tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1)
40
+ - [defog/llama-3-sqlcoder-8b](https://huggingface.co/defog/llama-3-sqlcoder-8b)
41
+ - **Merge Tool**: MergeKit
42
+ This MoE model aims to create a more powerful and versatile language model by combining the Japanese language capabilities of Llama-3-Swallow-8B-Instruct-v0.1 with the SQL generation abilities of Llama-3-sqlcoder-8b.
43
+ #### Features
44
+ - Support for both Japanese and English languages
45
+ - Excellent Japanese processing capabilities from Llama-3-Swallow-8B-Instruct-v0.1
46
+ - Advanced SQL generation and processing capabilities from Llama-3-sqlcoder-8b
47
+ #### System Requirements
48
+ If using the Q4_K_M quantized model, it can be fully loaded on an RTX3060 12GB.
49
+ The author has created the model using WSL2 and Google Colaboratory Pro, and has tested it using Llama.cpp and LMstudio.