File size: 1,700 Bytes

00bec6d
 
 
 
89eaf5c
00bec6d

### 개요 
- 한국어 요약 Task를 수행하는 모델입니다. 

### Base Model
- [beomi/open-llama-2-ko-7b](https://huggingface.co/beomi/open-llama-2-ko-7b)

### Dataset  
AI hub에 있는 아래 요약 데이터 중 3만건을 샘플링하여 사용하였습니다.
- [추상 요약 사실성 검증 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71620)  
- [요약문 및 레포트 생성 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=582)  
- [문서요약 텍스트](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=97)  
- [도서자료 요약](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=9)  

### 라이브러리 설치
```bash
pip3 install transformers gradio vllm
```

### 예제 코드

```python
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
import gradio as gr
import os

model_path = "gangyeolkim/open-llama-2-ko-7b-summarization"
sampling_params = SamplingParams(max_tokens=1024, temperature=0.1)
tokenizer = AutoTokenizer.from_pretrained(model_path) 
 
llm = LLM(model=model_path, tokenizer=model_path, tensor_parallel_size=1) 

def gen(text, history):
    
    text = [
            "### 원문:",
            f"{text}\n",
            "### 요약:\n",
        ]

    prompts = "\n".join(text)
    outputs = llm.generate(prompts, sampling_params) 
    
    for output in outputs:
        generated_text = output.outputs[0].text
    return generated_text 
    
demo = gr.ChatInterface(gen)
demo.launch(share=True) 
```