Spaces:

kushagrasharma-13
/

patent

Running

kushagrasharma-13 commited on Apr 19, 2024

Commit

7976e52

1 Parent(s): 727d245

Add application file

Files changed (4) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ Data

Dockerfile ADDED Viewed

+# read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
+# you will also find guides on how best to write your Dockerfile
+FROM python:3.9
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+COPY . .
+CMD ["docker run -p 6333:6333 qdrant/qdrant", "python ingest.py"]

ingest.py ADDED Viewed

+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import DirectoryLoader
+from langchain.document_loaders import PyPDFLoader
+from langchain.vectorstores import Qdrant
+from langchain.embeddings import SentenceTransformerEmbeddings
+# embeddings = SentenceTransformerEmbeddings(model_name='NeuML/pubmedbert-base-embeddings')
+# embeddings = SentenceTransformerEmbeddings(model_name='mixedbread-ai/mxbai-embed-large-v1')
+embeddings = SentenceTransformerEmbeddings(model_name='BAAI/bge-large-en')
+print(embeddings)
+loader = DirectoryLoader('Data/', glob='110106081.pdf', show_progress=True, loader_cls=PyPDFLoader)\
+documents = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+texts = text_splitter.split_documents(documents)
+url = "http://localhost:6333/"
+qdrant = Qdrant.from_documents(texts, embeddings, url=url, prefer_grpc=False, collection_name="patent_database")
+print("Vector Database created")

requirements.txt ADDED Viewed

+langchain
+PyPDFLoader
+Qdrant
+SentenceTransformerEmbeddings
+langchain_community