metadata

language:
  - ko
  - en
library_name: transformers
base_model: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
tags:
  - vision-language
  - korean
  - image-to-text
  - multilingual
  - fashion
  - e-commerce
  - text-classification
  - text-generation-inference
  - transformers
  - unsloth
  - mllama
  - lora
datasets:
  - hateslopacademy/otpensource_data
inference: true
license: cc-by-4.0
model_name: otpensource-vision-lora
size_categories: 1K<n<10K
task_categories:
  - image-to-text
  - text-classification
task_ids:
  - image-captioning
  - sentiment-analysis

otpensource-vision LoRA

모델 설명

otpensource-vision LoRA는 otpensource-vision 모델을 기반으로 LoRA (Low-Rank Adaptation) 기법을 활용하여 학습된 경량 Vision-Language 모델입니다. 기존 모델 대비 적은 연산량으로 특정 도메인에 최적화된 결과를 제공하며, 한국어와 영어를 지원합니다.

주요 특징

LoRA 기반 경량 어댑터: 기존 모델의 성능을 유지하면서도 적은 자원으로 추가 학습이 가능
Vision-Language 태스크 지원: 이미지를 입력받아 텍스트 정보를 생성하고, 텍스트 입력만으로 자연어 처리 수행
패션 데이터를 활용한 학습: otpensource_data를 활용해 패션 카테고리, 색상, 계절 등의 정보를 분석하는 데 최적화
빠른 적용 및 확장성: 기존 모델을 미세 조정(Fine-tuning)할 때 LoRA 어댑터를 활용하여 빠르게 적용 가능

모델 세부사항

학습 데이터

모델 학습에 사용된 데이터셋:

otpensource_dataset:
- 약 9000개의 패션 데이터로 구성
- 옷의 카테고리, 색상, 계절, 특징, 이미지 URL 등을 포함하여 Vision-Language 학습에 최적화

학습 방식

기반 모델: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
최적화 기법: LoRA 적용
GPU 요구사항: A100 40GB 이상 권장
훈련 효율성: LoRA를 활용하여 기존 모델 대비 2배 빠른 학습 수행

주요 사용 사례

Vision-Language 태스크

이미지 분석 및 설명

입력된 이미지에서 옷의 카테고리, 색상, 계절, 특징을 추출하여 JSON 형식으로 반환.

예시:

{
  "category": "트렌치코트",
  "gender": "여",
  "season": "SS",
  "color": "네이비",
  "material": "",
  "feature": "트렌치코트"
}

텍스트 분석 및 분류
- 텍스트 입력만으로 감정 분석, 질문 응답, 텍스트 요약 등의 자연어 처리 태스크 수행 가능.

코드 예시

Vision-Language 태스크

from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests

model = MllamaForConditionalGeneration.from_pretrained(
  'otpensource-vision-lora',
  torch_dtype=torch.bfloat16,
  device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision-lora')

url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)

messages = [
  {'role': 'user', 'content': [
    {'type': 'image', 'image': image},
    {'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
  ]}
]

input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = processor(
    image=image,
    text=input_text,
    add_special_tokens=False,
    return_tensors="pt",
).to(model.device)

output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))

업로드된 모델 정보

개발자: hateslopacademy
라이선스: CC-BY-4.0
LoRA 학습 모델: otpensource-vision 기반

이 모델은 Unsloth 및 Hugging Face TRL 라이브러리를 활용해 기존 모델 대비 2배 빠르게 학습되었습니다.