Upload README.md with huggingface_hub
Browse files
README.md
ADDED
@@ -0,0 +1,70 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
# CNN ๊ธฐ๋ฐ ์์
๊ฐ์ ๋ถ๋ฅ๊ธฐ ๐ต
|
3 |
+
|
4 |
+
## ๊ฐ์
|
5 |
+
|
6 |
+
์ด ๋ชจ๋ธ์ ์์
์ด ์ ๋ฌํ๋ ๊ฐ์ ์ Convolutional Neural Network (CNN) ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๋ฅํฉ๋๋ค.
|
7 |
+
๋ชจ๋ธ์ ์์
์ํ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
์์ ๊ฐ์ ๋ฒ์ฃผ(Angry, Fear, Happy, Tender, Sad) ์ค ํ๋๋ก ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ต๋๋ค.
|
8 |
+
|
9 |
+
๋ชจ๋ธ์ ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ Mel-spectrogram์ผ๋ก ๋ณํํ ํ, CNN ๋ ์ด์ด๋ฅผ ํตํด ์์
์์ ๊ฐ์ ์ํ์ ๊ด๋ จ๋ ํจํด์ ํ์ตํฉ๋๋ค.
|
10 |
+
|
11 |
+
### ์ฃผ์ ๊ธฐ๋ฅ:
|
12 |
+
- **์
๋ ฅ**: Mel-spectrogram์ผ๋ก ๋ณํ๋ 5์ด ๊ธธ์ด์ ์ค๋์ค ์ธ๊ทธ๋จผํธ
|
13 |
+
- **์ถ๋ ฅ**: ๋ค์ ๊ฐ์ ์ค ํ๋
|
14 |
+
- Angry (0)
|
15 |
+
- Fear (1)
|
16 |
+
- Happy (2)
|
17 |
+
- Tender (3)
|
18 |
+
- Sad (4)
|
19 |
+
|
20 |
+
- **์ํคํ
์ฒ**: 3๊ฐ์ ์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด์ ์์ ์ฐ๊ฒฐ์ธต์ผ๋ก ๊ตฌ์ฑ๋ CNN ๋ชจ๋ธ
|
21 |
+
|
22 |
+
## ๋ฐ์ดํฐ์
|
23 |
+
|
24 |
+
์ด ๋ชจ๋ธ์ ๋ ๊ฐ์ง ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ ํ์ต๋์์ต๋๋ค:
|
25 |
+
1. **MER_audio_taffc_dataset**: ์ด ๋ฐ์ดํฐ์
์ ํน์ ์ฌ๋ถ๋ฉด(Q1~Q4)์ ๋ฐ๋ผ ๋ผ๋ฒจ๋ง๋ ์์
ํ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
|
26 |
+
2. **OSF_IO Dataset**: ๋ ๋ค๋ฅธ ์์
ํ์ผ ๋ฐ ๊ฐ์ ๋ผ๋ฒจ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
์
๋๋ค.
|
27 |
+
|
28 |
+
### ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ:
|
29 |
+
- ๊ฐ ์ค๋์ค ํ์ผ์ 5์ด ๋จ์๋ก ๋ถํ
|
30 |
+
- ๋ถํ ๋ ์ค๋์ค ์ธ๊ทธ๋จผํธ๋ฅผ Mel-spectrogram์ผ๋ก ๋ณํ
|
31 |
+
- ๋ ๋ฐ์ดํฐ์
์ ์์ด์ ํ์ต ๋ฐ ๊ฒ์ฆ์ฉ์ผ๋ก ๋ณํฉ
|
32 |
+
|
33 |
+
## ๋ชจ๋ธ ์์ธ ์ ๋ณด
|
34 |
+
|
35 |
+
### ์ํคํ
์ฒ:
|
36 |
+
- **์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด**:
|
37 |
+
- Conv1: 32๊ฐ์ ํํฐ, ์ปค๋ ํฌ๊ธฐ 3x3
|
38 |
+
- Conv2: 64๊ฐ์ ํํฐ, ์ปค๋ ํฌ๊ธฐ 3x3
|
39 |
+
- Conv3: 128๊ฐ์ ํํฐ, ์ปค๋ ํฌ๊ธฐ 3x3
|
40 |
+
- **ํ๋ง**: ๊ฐ ์ปจ๋ณผ๋ฃจ์
ํ MaxPooling ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ฐจ์์ ์ถ์
|
41 |
+
- **๋๋กญ์์**: ๋๋กญ์์ ์ ๊ทํ๋ฅผ ์ฌ์ฉํ์ฌ ์ค๋ฒํผํ
๋ฐฉ์ง (ํ๋ฅ 0.5)
|
42 |
+
- **์์ ์ฐ๊ฒฐ์ธต**:
|
43 |
+
- ์ฒซ ๋ฒ์งธ FC ๋ ์ด์ด: 256 ์ ๋
|
44 |
+
- ์ถ๋ ฅ ๋ ์ด์ด: 5๊ฐ์ ์ ๋ (5๊ฐ์ ๊ฐ์ ๋ฒ์ฃผ)
|
45 |
+
|
46 |
+
### ์์ค ํจ์:
|
47 |
+
- **CrossEntropyLoss**: ๋ค์ค ํด๋์ค ๋ถ๋ฅ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์ฌ์ฉ
|
48 |
+
|
49 |
+
### ์ตํฐ๋ง์ด์ :
|
50 |
+
- **Adam**: ํ์ต๋ฅ 1e-4๋ก ์ค์
|
51 |
+
|
52 |
+
## ํ์ต
|
53 |
+
|
54 |
+
์ด ๋ชจ๋ธ์ ๋ณํฉ๋ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ 10 ์ํญ ๋์ ํ์ต๋์์ต๋๋ค. ํ์ต๊ณผ ๊ฒ์ฆ ๋ฐ์ดํฐ ๋น์จ์ 80:20์ผ๋ก ๋๋์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
|
55 |
+
|
56 |
+
๊ฒ์ฆ ์ ํ๋๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ ํํ์ฌ ์ ์ฅํ์์ต๋๋ค.
|
57 |
+
|
58 |
+
## ์ฑ๋ฅ
|
59 |
+
|
60 |
+
- **์ต๊ณ ๊ฒ์ฆ ์ ํ๋**: ์ฌ๋ฌ ์ํญ ๋์ ํ๋ํ ๊ฒฐ๊ณผ, ์ต๊ณ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
|
61 |
+
- ์ต์ข
๋ชจ๋ธ์ ๋ค์ํ ์์
์ํ์์ ๊ฐ์ ์ ์ธ์ํ๋ ๋ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
|
62 |
+
|
63 |
+
## ์ฌ์ฉ ๋ฐฉ๋ฒ
|
64 |
+
|
65 |
+
์์ ์ ์์
๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ๋ถ๋ฅํ๋ ๋ฐ ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ค๋ฉด Hugging Face Hub์์ ์ง์ ๋ก๋ํ ์ ์์ต๋๋ค:
|
66 |
+
|
67 |
+
```python
|
68 |
+
from transformers import AutoModel
|
69 |
+
model = AutoModel.from_pretrained("jeonghyeon97/music_emotion_classifier_4")
|
70 |
+
```
|