File size: 3,174 Bytes

13c0d56

from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.document_loaders import UnstructuredMarkdownLoader
from langchain.schema import Document
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
import re
import os
from dotenv import load_dotenv, find_dotenv
# 使用自己封装的智谱 Embedding，需要将封装代码下载到本地使用
from zhipuai_embedding import ZhipuAIEmbeddings

# 读取本地/项目的环境变量。
# find_dotenv()寻找并定位.env文件的路径
# load_dotenv()读取该.env文件，并将其中的环境变量加载到当前的运行环境中  
# 如果你设置的是全局的环境变量，这行代码则没有任何作用。
_ = load_dotenv(find_dotenv())

# 创建一个 PyMuPDFLoader Class 实例，输入为待加载的 pdf 文档路径
loader = PyMuPDFLoader("/Users/chenshuyi/Documents/agent/data_base/knowledge_db/merck.pdf")

# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
pdf_pages = loader.load()
#print(f"载入后的变量类型为：{type(pdf_pages)}，",  f"该 PDF 一共包含 {len(pdf_pages)} 页")

#pdf_page = pdf_pages[1]
#print(f"每一个元素的类型：{type(pdf_page)}.", 
#    f"该文档的描述性数据：{pdf_page.metadata}", 
#    f"查看该文档的内容:\n{pdf_page.page_content}", 
#    sep="\n------\n")

pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)

for pdf_page in pdf_pages:
    # 使用正则表达式替换非中文字符之间的换行符
    pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)
    
    # 移除圆点符号
    pdf_page.page_content = pdf_page.page_content.replace('•', '')
    
    # 将连续的两个换行符替换为单个换行符
    pdf_page.page_content = pdf_page.page_content.replace('\n\n', '\n')

# 切分文档
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50)

split_docs = text_splitter.split_documents(pdf_pages)
#print(f"切分后的文件数量：{len(split_docs)}")
#print(f"切分后的字符数（可以用来大致评估 token 数）：{sum([len(doc.page_content) for doc in split_docs])}")

#构建chroma向量库
embedding = ZhipuAIEmbeddings()

# 定义持久化路径
persist_directory = '../../data_base/vector_db/chroma'
#!rm -rf '../../data_base/vector_db/chroma'  # 删除旧的数据库文件（如果文件夹中有文件的话

vectordb = Chroma.from_documents(
    documents = split_docs,
    embedding=embedding,
    persist_directory=persist_directory #将persist_directory目录保存到磁盘上
     
)
vectordb.persist()
print(f"向量库中存储的数量：{vectordb._collection.count()}")

print(f"Chroma 数据存储在: {vectordb._persist_directory}")

question="headache"
sim_docs = vectordb.similarity_search(question,k=3)
print(f"检索到的内容数：{len(sim_docs)}")

for i, sim_doc in enumerate(sim_docs):
    print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")