In [None]:
# ===============================
# 1. 라이브러리 설치 (Google Colab)
# ===============================
!pip install unsloth xformers faiss-gpu-cu12 -U
!pip install --no-deps --upgrade "flash-attn>=2.6.3"
!pip install -U hf_transfer

In [None]:
# ===============================
# 2. 환경 설정
# ===============================
import os
import torch
import numpy as np
import faiss
import json
import ast
from transformers import TextStreamer
from sentence_transformers import SentenceTransformer
from unsloth import FastLanguageModel
from huggingface_hub import hf_hub_download

os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

In [None]:
# ===============================
# 3. 모델 로드
# ===============================
model, tokenizer = FastLanguageModel.from_pretrained(
 model_name="Austin9/gemma-2-9b-it-Ko-RAG",
 max_seq_length=8192,
 dtype=torch.float16,
 load_in_4bit=True
)
FastLanguageModel.for_inference(model)

In [None]:
# ===============================
# 4. FAISS 인덱스 로드 (Hugging Face Hub에서 직접 다운로드)
# ===============================
repo_id = "Austin9/gemma-2-9b-it-Ko-RAG" # 허깅페이스 저장소 ID
filename = "chunked_data_vectors.npz" # 저장된 npz 파일 이름

vector_db_path = hf_hub_download(repo_id=repo_id, filename=filename)
data = np.load(vector_db_path)
vectors, texts, titles = data["vectors"], data["texts"], data["titles"]

gpu_resources = faiss.StandardGpuResources()
faiss_index = faiss.GpuIndexFlatL2(gpu_resources, vectors.shape[1])
faiss_index.add(vectors)

In [None]:
# ===============================
# 5. 임베딩 모델 로드
# ===============================
embedding_model = SentenceTransformer("nlpai-lab/KURE-v1", device="cuda").to(torch.float16)

In [None]:
# ===============================
# 6. JSON 파싱 함수
# ===============================
def robust_parse_json(response_text):
 response_text = response_text.strip().strip("'").strip('"').replace("'", '"')
 try:
 return json.loads(response_text)
 except:
 try:
 return ast.literal_eval(response_text)
 except:
 return {"search": ""}

# ===============================
# 7. 검색 쿼리 생성 (QCR 단계)
# ===============================
def generate_search_query(conversation_history, user_input):
 instruction = (
 "다음은 대화 기록(Context)와 사용자의 질문(Input)입니다. "
 "사용자의 질문에 답을 제공하기 위해 필요한 단일 문자열 검색 쿼리를 생성하세요. "
 "검색이 필요하지 않거나 검색이 불필요한 경우(인사나, 겉치레, 농담) 빈 문자열을 반환하세요.\n\n"
 "최종 출력 형식은 {'search': '<검색 쿼리>'}입니다."
 )
 prompt = f"""
 # Query Rewriter
 ### Instruction:
 {instruction}
 ### Conversation:
 {'\n'.join([f'{role}: {msg}' for role, msg in conversation_history])}
 ### Input:
 {user_input}
 ### Response:
 """

 inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
 output_tokens = model.generate(**inputs, max_new_tokens=300)
 response_text = tokenizer.decode(output_tokens[0], skip_special_tokens=True).split("### Response:")[-1].strip()
 return robust_parse_json(response_text).get("search", "")

# ===============================
# 8. FAISS 검색
# ===============================
def search_documents(query, k=3):
 if not query:
 return ""
 query_vector = embedding_model.encode([query])[0]
 _, indices = faiss_index.search(np.array([query_vector]), k)
 return "\n\n".join([f"# Index [{i+1}]: {titles[idx]}\n{texts[idx]}" for i, idx in enumerate(indices[0])])

# ===============================
# 9. 답변 생성
# ===============================
def generate_response(conversation_history, context, user_input):
 instruction = (
 "당신은 외부검색을 이용하여 사용자에게 도움을 주는 인공지능 조수입니다.\n"
 "- Context는 외부검색을 통해 반환된 사용자 요청과 관련된 정보들입니다.\n"
 "- Context를 활용할 때 문장 끝에 사용한 문서 조각의 [Index]를 붙이고 자연스러운 답변을 작성하세요. (e.g. [1])\n"
 "- Context의 정보가 사용자 요청과 관련이 없거나 도움이 안될수도 있습니다. 관련있는 정보만 활용하고, 없는 정보를 절대 지어내지 마세요.\n"
 "- 되도록이면 일반 지식으로 답변하지말고, 최대한 Context를 통해서 답변을 하려고 하세요. Context에 없을 경우에는 이 점을 언급하며 사죄하고 다른 주제나 질문을 추천해주세요.\n"
 "- 사용자 요청에 알맞는 자연스러운 대화를 하세요.\n"
 "- 항상 존댓말로 답변하세요."
 )

 prompt = f"""
 # Generator
 ### Instruction:
 {instruction}
 ### Conversation:
 {'\n'.join([f'{role}: {msg}' for role, msg in conversation_history])}
 ### Context:
 {context}
 ### Input:
 {user_input}
 ### Response:
 """

 inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
 output_tokens = model.generate(**inputs, max_new_tokens=2500, do_sample=True)
 return tokenizer.decode(output_tokens[0], skip_special_tokens=True).split("### Response:")[-1].strip()

In [None]:
# ===============================
# 10. 대화 루프
# ===============================
def chat_loop():
 conversation_history = []
 print("대화를 시작합니다. 'exit' 입력 시 종료.")

 while True:
 user_input = input("\nUser> ").strip()
 if user_input.lower() in ["exit", "quit"]:
 print("대화를 종료합니다.")
 break

 print("\n[검색 쿼리 생성 중...]")
 search_query = generate_search_query(conversation_history, user_input)
 context = search_documents(search_query, k=5) if search_query else ""

 print("\n[답변 생성 중...]")
 response = generate_response(conversation_history, context, user_input)

 conversation_history.append(("User", user_input))
 conversation_history.append(("Assistant", response))
 print(f"\nAssistant> {response}")

if __name__ == "__main__":
 chat_loop()