Spaces:

GIZ
/

GIZ-Project-Search

Running on CPU Upgrade

ppsingh commited on Nov 20, 2024

Commit

f5dac9b

verified ·

1 Parent(s): b60ea35

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,9 @@ import streamlit as st
 import pandas as pd
 from langchain_text_splitters import TokenTextSplitter
 from langchain.docstore.document import Document
 st.set_page_config(page_title="SEARCH IATI",layout='wide')
@@ -49,8 +52,28 @@ def get_chunks():
                                         "status":giz_df.loc[i,'status'],
                                         "title_main":giz_df.loc[i,'title_main'],}))
     return placeholder
 chunks = get_chunks()
 button=st.button("search")

 import pandas as pd
 from langchain_text_splitters import TokenTextSplitter
 from langchain.docstore.document import Document
+from torch import cuda
+from langchain_community.embeddings import HuggingFaceEmbeddings, HuggingFaceInferenceAPIEmbeddings
+device = 'cuda' if cuda.is_available() else 'cpu'
 st.set_page_config(page_title="SEARCH IATI",layout='wide')
                                         "status":giz_df.loc[i,'status'],
                                         "title_main":giz_df.loc[i,'title_main'],}))
     return placeholder
+def embed_chunks(chunks):
+    embeddings = HuggingFaceEmbeddings(
+        model_kwargs = {'device': device},
+        encode_kwargs = {'normalize_embeddings': True},
+        model_name='BAAI/bge-m3'
+    )
+    # placeholder for collection
+    qdrant_collections = {}
+    qdrant_collections['all'] = Qdrant.from_documents(
+                chunks,
+                embeddings,
+                path="/data/local_qdrant",
+                collection_name='all',
+            )
+    print(qdrant_collections)
+    print("vector embeddings done")
+    return qdrant_collections
 chunks = get_chunks()
+qdrant_col = embed_chunks(chunks)
 button=st.button("search")