Spaces:

min24ss
/

r-story-selection

Sleeping

App Files Files Community

min24ss commited on 16 days ago

Commit

e1f0e75

verified ·

1 Parent(s): b92d5fd

Update r-story-test.py

Browse files

Files changed (1) hide show

r-story-test.py +28 -120

r-story-test.py CHANGED Viewed

@@ -2,82 +2,28 @@
 # coding: utf-8
 # ## 1. tsv full data load
-# In[1]:
 import pandas as pd
 df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
 print(df.head())
 print("전체 문장 수:", len(df))
 print("컬럼 목록:", df.columns.tolist())
-# 549
-#컬럼 목록: ['에피소드', 'scene_text', 'type']
-# In[2]:
-import pandas as pd
-df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
-print(df.head(3))
-print("컬럼:", df.columns.tolist(), "전체 행:", len(df))
-# In[3]:
-df['row_id'] = df.index #인덱스 컬럼 추가 <- 원본 추적용
 df['text'] = df.apply(
-    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}", #rag 문장 컬럼 생성
     axis=1
 )
-print(df['text'].head(3).tolist())
-# In[4]:
 texts = df['text'].tolist()
 print("최종 문장 수:", len(texts))
-# 549
-# ## 2. Rag 문장 생성
-# In[5]:
-# 2단계: 최종 RAG 문장 생성
-df['row_id'] = df.index  # 원본 추적용 인덱스
-df['text'] = df.apply(
-    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}",
-    axis=1
-)
 print("예시 5개:")
 for t in df['text'].head(5).tolist():
     print("-", t)
-texts = df['text'].tolist()
-print("\n최종 문장 수:", len(texts))
-#549
-# ## 3. 한국어 임베딩 모델 로드, 벡터 db - solo_leveling_faiss_ko
-#
-#
-# In[6]:
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
@@ -85,61 +31,39 @@ embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask'
 db = FAISS.from_texts(texts, embedding_model)
 print(" 벡터DB 생성 완료. 총 문장 수:", len(texts))
 db.save_local("solo_leveling_faiss_ko")
-print(" 'solo_leveling_faiss_ko' 폴더에 저장")
-# In[7]:
 db = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)
 query = "마나석이 뭐지?"
 docs = db.similarity_search(query, k=5)
 for i, doc in enumerate(docs, 1):
     print(f"[{i}] {doc.page_content}")
-# In[8]:
-## rag 확인
-# In[9]:
-from transformers import pipeline
 generator = pipeline(
     "text-generation",
     model="kakaocorp/kanana-nano-2.1b-instruct",
-    device= -1
 )
-# In[10]:
-from langchain.chains import RetrievalQA
-from langchain.vectorstores import FAISS
-from langchain.prompts import PromptTemplate
-from langchain_community.llms import HuggingFacePipeline
-from langchain.embeddings import HuggingFaceEmbeddings
-import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
 vectorstore = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)
 model_name = "kakaocorp/kanana-nano-2.1b-instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
-    model_name, torch_dtype=torch.float32).to("cpu")
 llm_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=128)
 llm = HuggingFacePipeline(pipeline=llm_pipeline)
@@ -154,25 +78,18 @@ qa_chain = RetrievalQA.from_chain_type(
     retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
     chain_type="stuff",
     return_source_documents=True,
-    chain_type_kwargs={
-        "prompt": custom_prompt  }
 )
-#질문
 query = "성진우는 몇 급 헌터지?"
 result = qa_chain({"query": query})
 print("답변:", result["result"])
 print("\n참조 문서:")
 for doc in result["source_documents"]:
     print(doc.page_content)
-# ## 4. 황동석 에피소드
-# In[13]:
 choices = [
     "1: 황동석 무리를 모두 처치한다.",
     "2: 진호를 포함한 황동석 무리를 모두 처치한다.",
@@ -189,8 +106,8 @@ user_choice = choices[user_idx]
 print(f"\n[사용자 선택]: {user_choice}")
 result = qa_chain({"query": user_choice})
 retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
 print("\n[검색된 근거 문서 예시]")
 print(retrieved_context[:600], "...")
@@ -198,28 +115,19 @@ prompt = f"""
 당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.
 현��� 상황:
 {retrieved_context}
 사용자 선택: {user_choice}
 성진우의 말투로 간결하고 자연스러운 대사를 1~2문장 생성하세요.
 중복된 내용이나 비슷한 문장은 만들지 마세요.
 """
-response = generator(prompt,
-                     max_new_tokens=200,
-                     do_sample=True,
-                     temperature=0.6,
-                     top_p = 0.9,
-                     return_full_text=False
 )[0]["generated_text"]
 print("\n[성진우 응답]")
 print(response)
-# In[ ]:
-# ##

 # coding: utf-8
 # ## 1. tsv full data load
 import pandas as pd
 df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
 print(df.head())
 print("전체 문장 수:", len(df))
 print("컬럼 목록:", df.columns.tolist())
+df['row_id'] = df.index  # 인덱스 컬럼 추가
 df['text'] = df.apply(
+    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}",
     axis=1
 )
 texts = df['text'].tolist()
 print("최종 문장 수:", len(texts))
+# ## 2. RAG 문장 생성
 print("예시 5개:")
 for t in df['text'].head(5).tolist():
     print("-", t)
+# ## 3. 한국어 임베딩 모델 로드, 벡터 db
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 db = FAISS.from_texts(texts, embedding_model)
 print(" 벡터DB 생성 완료. 총 문장 수:", len(texts))
 db.save_local("solo_leveling_faiss_ko")
 db = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)
+# 검색 테스트
 query = "마나석이 뭐지?"
 docs = db.similarity_search(query, k=5)
 for i, doc in enumerate(docs, 1):
     print(f"[{i}] {doc.page_content}")
+# ## 4. LLM 로드 (CPU 전용)
+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
+from langchain.chains import RetrievalQA
+from langchain.prompts import PromptTemplate
+from langchain_community.llms import HuggingFacePipeline
+import torch
+# CPU로 강제
 generator = pipeline(
     "text-generation",
     model="kakaocorp/kanana-nano-2.1b-instruct",
+    device=-1   # ✅ CPU 사용
 )
 embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
 vectorstore = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)
 model_name = "kakaocorp/kanana-nano-2.1b-instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float32   # ✅ CPU에서는 float32
+).to("cpu")                      # ✅ CPU 사용
 llm_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=128)
 llm = HuggingFacePipeline(pipeline=llm_pipeline)
     retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
     chain_type="stuff",
     return_source_documents=True,
+    chain_type_kwargs={"prompt": custom_prompt}
 )
+# 질문 테스트
 query = "성진우는 몇 급 헌터지?"
 result = qa_chain({"query": query})
 print("답변:", result["result"])
 print("\n참조 문서:")
 for doc in result["source_documents"]:
     print(doc.page_content)
+# ## 5. 황동석 에피소드
 choices = [
     "1: 황동석 무리를 모두 처치한다.",
     "2: 진호를 포함한 황동석 무리를 모두 처치한다.",
 print(f"\n[사용자 선택]: {user_choice}")
 result = qa_chain({"query": user_choice})
 retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
 print("\n[검색된 근거 문서 예시]")
 print(retrieved_context[:600], "...")
 당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.
 현��� 상황:
 {retrieved_context}
 사용자 선택: {user_choice}
 성진우의 말투로 간결하고 자연스러운 대사를 1~2문장 생성하세요.
 중복된 내용이나 비슷한 문장은 만들지 마세요.
 """
+response = generator(
+    prompt,
+    max_new_tokens=200,
+    do_sample=True,
+    temperature=0.6,
+    top_p=0.9,
+    return_full_text=False
 )[0]["generated_text"]
 print("\n[성진우 응답]")
 print(response)