SEOKDONG
/

llama3.1_korean_v0.1_sft_by_aidx

Text Generation

Model card Files Files and versions Community

llama3.1_korean_v0.1_sft_by_aidx / README.md

SEOKDONG's picture

Update README.md

c811970 verified about 1 month ago

|

3.28 kB

	---
	license: apache-2.0
	language:
	- ko
	- en
	base_model:
	- meta-llama/Llama-3.1-8B-Instruct
	pipeline_tag: text-generation
	---
	### ⛱ 해당 모델은은 llama3.1 instruct를 Foundation 모델로 하는 한국어 및
	### 한국의 다양한 문화에 적용할 수 있도록 하기 위해 개발 되었으며
	### 자체 제작한 53영역의 한국어 데이터를 활용하여 한국 사회 가치와 문화를 이해하는
	### 모델 입니다. Thanks for ktds ✌


	# ❶ 학습 데이터
	- 해당 모델은은 자체 개발한 총 3.6GB 크기의 데이터를 바탕으로 학습되었습니다. 모두 233만 건의 QnA, 요약, 분류 등 데이터를 포함하며,
	그 중 133만 건은 53개 영역의 객관식 문제로 구성되었습니다. 이 영역에는 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등이 포함되며,
	Chain of Thought 방식으로 학습되었습니다. 또한 130만 건의 주관식 문제는 한국사, 재무, 법률, 세무, 수학 등 38개 영역에 걸쳐 학습되었습니다.
	학습 데이터 중 한국의 사회 가치와 인간의 감정을 이해하고 지시한 사항에 따라 출력할 수 있는 데이터를 학습하였습니다.
	- 학습 Instruction Datasets Format:
	<pre><code>{"prompt": "prompt text", "completion": "ideal generated text"}</code></pre>

	# ❷ 사용 사례
	해당 모델은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어:
	- 교육 분야: 역사, 수학, 과학 등 다양한 학습 자료에 대한 질의응답 및 설명 생성.
	- 비즈니스: 법률, 재무, 세무 관련 질의에 대한 답변 제공 및 문서 요약.
	- 연구 및 문화: 한국 사회와 문화에 맞춘 자연어 처리 작업, 감정 분석, 문서 생성 및 번역.
	- 고객 서비스: 사용자와의 대화 생성 및 맞춤형 응답 제공.
	- 이 모델은 다양한 자연어 처리 작업에서 높은 활용도를 가집니다.

	# ❸ 한계 ⛈⛈
	- 해당 모델은 한국어와 한국 문화에 특화되어 있으나,
	특정 영역(예: 최신 국제 자료, 전문 분야)의 데이터 부족으로 인해 다른 언어 또는
	문화에 대한 응답의 정확성이 떨어질 수 있습니다.
	또한, 복잡한 논리적 사고를 요구하는 문제에 대해 제한된 추론 능력을 보일 수 있으며,
	편향된 데이터가 포함될 경우 편향된 응답이 생성될 가능성도 존재합니다.

	# ❺ 사용 방법
	<pre><code>
	from transformers import AutoModel, AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/llama3.1_korean_v0.1_sft_by_aidx")
	model = AutoModel.from_pretrained("SEOKDONG/llama3.1_korean_v0.1_sft_by_aidx")

	input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘"""
	inputs = tokenizer(input_text, return_tensors="pt")
	with torch.no_grad():
	outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
	result = tokenizer.decode(outputs[0], skip_special_tokens=True)
	print(result)
	</code></pre>


	---
	Here’s the English version of the provided text: