Spaces:

awinml
/

instructor-xl-embeddings

Runtime error

awinml commited on Jun 5, 2023

Commit

694ff38

1 Parent(s): 57e70ed

Upload 6 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -14,6 +14,7 @@ from utils.models import (
     tokenizer,
     get_data,
     get_instructor_embedding_model,
     preprocess_text,
 )
 from utils.retriever import (
@@ -38,6 +39,8 @@ data = get_data()
 col1, col2 = st.columns([3, 3], gap="medium")
 instructor_model = get_instructor_embedding_model()
 question_choice = [
     "What was discussed regarding Ryzen revenue performance?",
@@ -90,7 +93,7 @@ sparse_scores = np.argsort(bm25.get_scores(tokenized_query), axis=0)[::-1]
 indices = get_bm25_search_hits(corpus, sparse_scores, 50)
-json_output_embedding = instructor_model.predict(
     query_embedding_instruction,
     query_text,
     api_name="/predict",
@@ -99,7 +102,11 @@ json_output_embedding = instructor_model.predict(
 json_file = open(json_output_embedding, "r")
 json_dict = json.load(json_file)
 dense_array = np.array(json_dict["data"], dtype=np.float64)
-dense_embedding = dense_array.tolist()
 text_embedding_instructions_choice = [
     "Represent the financial statement for retrieval:",

     tokenizer,
     get_data,
     get_instructor_embedding_model,
+    get_instructor_embedding_model_api,
     preprocess_text,
 )
 from utils.retriever import (
 col1, col2 = st.columns([3, 3], gap="medium")
 instructor_model = get_instructor_embedding_model()
+instructor_model_api = get_instructor_embedding_model_api()
 question_choice = [
     "What was discussed regarding Ryzen revenue performance?",
 indices = get_bm25_search_hits(corpus, sparse_scores, 50)
+json_output_embedding = instructor_model_api.predict(
     query_embedding_instruction,
     query_text,
     api_name="/predict",
 json_file = open(json_output_embedding, "r")
 json_dict = json.load(json_file)
 dense_array = np.array(json_dict["data"], dtype=np.float64)
+dense_embedding_api = dense_array.tolist()
+dense_embedding = instructor_model.encode([[query_embedding_instruction, query_text]]).tolist()
 text_embedding_instructions_choice = [
     "Represent the financial statement for retrieval:",

utils/models.py CHANGED Viewed

@@ -9,6 +9,7 @@ from nltk.tokenize import word_tokenize
 from nltk.corpus import stopwords
 from nltk.stem.porter import PorterStemmer
 import re
 def tokenizer(
@@ -44,7 +45,7 @@ def get_data():
 @st.cache_resource
-def get_instructor_embedding_model():
     client = Client("https://awinml-api-instructor-xl-1.hf.space/")
     return client
@@ -56,3 +57,9 @@ def get_bm25_model(data):
     tokenized_corpus = [doc.split(" ") for doc in corpus_clean]
     bm25 = BM25Plus(tokenized_corpus)
     return corpus, bm25

 from nltk.corpus import stopwords
 from nltk.stem.porter import PorterStemmer
 import re
+from InstructorEmbedding import INSTRUCTOR
 def tokenizer(
 @st.cache_resource
+def get_instructor_embedding_model_api():
     client = Client("https://awinml-api-instructor-xl-1.hf.space/")
     return client
     tokenized_corpus = [doc.split(" ") for doc in corpus_clean]
     bm25 = BM25Plus(tokenized_corpus)
     return corpus, bm25
+@st.cache_resource
+def get_instructor_embedding_model():
+    model = INSTRUCTOR("hkunlp/instructor-xl")
+    return model