|
translated_content = """ |
|
# ๊ฐ์๊ธฐ ์ ํ |
|
|
|
๋ถ์ฐ ํ๋ จ ์ค์๋ ์ฌ์ฉํ ๊ฐ์๊ธฐ(CUDA, XPU, MPS, HPU ๋ฑ)์ ๊ฐ์์ ์์๋ฅผ ์ง์ ํ ์ ์์ต๋๋ค. ์ด๋ ์๋ก ๋ค๋ฅธ ์ปดํจํ
์ฑ๋ฅ์ ๊ฐ์ง ๊ฐ์๊ธฐ๋ค์ด ์์ ๋ ๋ ๋น ๋ฅธ ๊ฐ์๊ธฐ๋ฅผ ๋จผ์ ์ฌ์ฉํ๊ณ ์ถ๊ฑฐ๋, ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฐ์๊ธฐ ์ค ์ผ๋ถ๋ง ์ฌ์ฉํ๊ณ ์ถ์ ๋ ์ ์ฉํฉ๋๋ค. ์ ํ ๊ณผ์ ์ [DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html)๊ณผ [DataParallel](https://pytorch.org/docs/stable/generated/torch.nn.DataParallel.html) ๋ชจ๋์์ ์๋ํฉ๋๋ค. Accelerate๋ [DeepSpeed integration](./main_classes/deepspeed)์ด ํ์ํ์ง ์์ต๋๋ค. |
|
|
|
์ด ๊ฐ์ด๋์์๋ ์ฌ์ฉํ ๊ฐ์๊ธฐ์ ๊ฐ์์ ์ฌ์ฉ ์์๋ฅผ ์ ํํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ๋๋ฆฝ๋๋ค. |
|
|
|
## ๊ฐ์๊ธฐ ๊ฐ์ |
|
|
|
์๋ฅผ ๋ค์ด, 4๊ฐ์ ๊ฐ์๊ธฐ๊ฐ ์๊ณ ์ฒ์ 2๊ฐ๋ง ์ฌ์ฉํ๊ณ ์ถ๋ค๋ฉด ์๋ ๋ช
๋ น์ด๋ฅผ ์คํํ์ธ์. |
|
|
|
<hfoptions id="select-accelerator"> |
|
<hfoption id="torchrun"> |
|
|
|
์ฌ์ฉํ ๊ฐ์๊ธฐ ๊ฐ์๋ฅผ ์ ํํ๋ ค๋ฉด `--nproc_per_node`๋ฅผ ์ฌ์ฉํ์ธ์. |
|
|
|
</hfoption> |
|
<hfoption id="Accelerate"> |
|
|
|
์ฌ์ฉํ ๊ฐ์๊ธฐ ๊ฐ์๋ฅผ ์ ํํ๋ ค๋ฉด `--num_processes`๋ฅผ ์ฌ์ฉํ์ธ์. |
|
|
|
</hfoption> |
|
<hfoption id="๐ค DeepSpeed"> |
|
|
|
์ฌ์ฉํ GPU ๊ฐ์๋ฅผ ์ ํํ๋ ค๋ฉด `--num_gpus`๋ฅผ ์ฌ์ฉํ์ธ์. |
|
|
|
</hfoption> |
|
</hfoptions> |
|
|
|
## ๊ฐ์๊ธฐ ์์ |
|
์ฌ์ฉํ ํน์ ๊ฐ์๊ธฐ์ ๊ทธ ์์๋ฅผ ์ ํํ๋ ค๋ฉด ํ๋์จ์ด์ ์ ํฉํ ํ๊ฒฝ ๋ณ์๋ฅผ ์ฌ์ฉํ์ธ์. ์ด๋ ๋ณดํต ๊ฐ ์คํ๋ง๋ค ๋ช
๋ น์ค์์ ์ค์ ๋์ง๋ง, `~/.bashrc`๋ ๋ค๋ฅธ ์์ ์ค์ ํ์ผ์ ์ถ๊ฐํ ์๋ ์์ต๋๋ค. |
|
|
|
์๋ฅผ ๋ค์ด, 4๊ฐ์ ๊ฐ์๊ธฐ(0, 1, 2, 3)๊ฐ ์๊ณ ๊ฐ์๊ธฐ 0๊ณผ 2๋ง ์คํํ๊ณ ์ถ๋ค๋ฉด: |
|
|
|
<hfoptions id="accelerator-type"> |
|
<hfoption id="CUDA"> |
|
|
|
GPU 0๊ณผ 2๋ง PyTorch์ "๋ณด์ด๋ฉฐ" ๊ฐ๊ฐ `cuda:0`๊ณผ `cuda:1`๋ก ๋งคํ๋ฉ๋๋ค. |
|
์์๋ฅผ ๋ฐ๊พธ๋ ค๋ฉด(GPU 2๋ฅผ `cuda:0`์ผ๋ก, GPU 0์ `cuda:1`๋ก ์ฌ์ฉ): |
|
|
|
GPU ์์ด ์คํํ๋ ค๋ฉด: |
|
|
|
`CUDA_DEVICE_ORDER`๋ฅผ ์ฌ์ฉํ์ฌ CUDA ์ฅ์น์ ์์๋ฅผ ์ ์ดํ ์๋ ์์ต๋๋ค: |
|
|
|
- PCIe ๋ฒ์ค ID ์์(`nvidia-smi`์ ์ผ์น): |
|
|
|
|
|
|
|
- ์ปดํจํ
์ฑ๋ฅ ์์(๊ฐ์ฅ ๋น ๋ฅธ ๊ฒ๋ถํฐ): |
|
|
|
|
|
|
|
</hfoption> |
|
<hfoption id="Intel XPU"> |
|
|
|
XPU 0๊ณผ 2๋ง PyTorch์ "๋ณด์ด๋ฉฐ" ๊ฐ๊ฐ `xpu:0`๊ณผ `xpu:1`๋ก ๋งคํ๋ฉ๋๋ค. |
|
์์๋ฅผ ๋ฐ๊พธ๋ ค๋ฉด(XPU 2๋ฅผ `xpu:0`์ผ๋ก, XPU 0์ `xpu:1`๋ก ์ฌ์ฉ): |
|
|
|
๋ค์์ผ๋ก Intel XPU์ ์์๋ฅผ ์ ์ดํ ์๋ ์์ต๋๋ค: |
|
|
|
Intel XPU์์์ ์ฅ์น ์ด๊ฑฐ ๋ฐ ์ ๋ ฌ์ ๋ํ ์์ธํ ์ ๋ณด๋ [Level Zero](https://github.com/oneapi-src/level-zero/blob/master/README.md?plain=1#L87) ๋ฌธ์๋ฅผ ์ฐธ์กฐํ์ธ์. |
|
|
|
</hfoption> |
|
</hfoptions> |
|
|
|
> [!WARNING] |
|
> ํ๊ฒฝ ๋ณ์๋ ๋ช
๋ น์ค์ ์ถ๊ฐํ๋ ๋์ exportํ ์ ์์ต๋๋ค. ํ๊ฒฝ ๋ณ์๊ฐ ์ด๋ป๊ฒ ์ค์ ๋์๋์ง ์์ด๋ฒ๋ฆฌ๊ณ ์๋ชป๋ ๊ฐ์๊ธฐ๋ฅผ ์ฌ์ฉํ๊ฒ ๋ ์ ์์ด ํผ๋์ค๋ฌ์ธ ์ ์์ผ๋ฏ๋ก ๊ถ์ฅํ์ง ์์ต๋๋ค. ๋์ ํน์ ํ๋ จ ์คํ์ ์ํ ํ๊ฒฝ ๋ณ์๋ฅผ ๊ฐ์ ๋ช
๋ น์ค์์ ์ค์ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ธ ๊ดํ์
๋๋ค. |
|
""" |
|
|