Spaces:

somosnlp-hackathon-2023
/

learning-assistance

Runtime error

App Files Files Community

milyiyo commited on Apr 4, 2023

Commit

5355c89

1 Parent(s): c9916d8

Fix error related to faiss

Browse files

Files changed (1) hide show

functions.py +19 -19

functions.py CHANGED Viewed

@@ -29,8 +29,8 @@ def get_nearest_examples(question: str, k: int):
     scores, samples = embeddings_dataset.get_nearest_examples(
         "embeddings", question_embedding, k)
     print(['get_nearest_examples', 'scores and samples'])
-    for i in range(len(scores)):
-        print([scores[i], samples[i]])
     print(['get_nearest_examples', 'end'])
     return samples
@@ -44,10 +44,6 @@ def get_embeddings(text):
     encoded_input = {k: v.to('cuda') for k, v in encoded_input.items()}
     model_output = emb_model(**encoded_input)
     model_output = model_output.last_hidden_state[:, 0]
-    # print(model_output)
-    # Error: AttributeError: 'numpy.ndarray' object has no attribute 'cpu'
-    # emb_item = model_output.detach().cpu().numpy()[0]
-    # print(emb_item)
     print(['get_embeddings', 'end'])
     return model_output
@@ -56,9 +52,11 @@ def build_faiss_index(text):
     print(['build_faiss_index', 'start'])
     text_list = split_text(text)
     emb_list = []
-    for item in text_list:
-        emb_list.append({"embeddings": get_embeddings(item)})
-    # dataset = DatasetDict({'train': emb_list})
     dataset = Dataset.from_list(emb_list)
     dataset.add_faiss_index(column="embeddings")
     shared['embeddings_dataset'] = dataset
@@ -125,13 +123,18 @@ def get_answer_context():
 def answer_question(question: str):
-    # return ', '.join([len(shared['base_text']), len(question)])
     print(['answer_question', 'start'])
     if not shared['embeddings_dataset']:
-        build_faiss_index(shared['full_text'])
-    top_k_samples = get_nearest_examples(question, k=5)
-    context = '\n'.join(top_k_samples)
     input_text = f"""<s>Instruction: Te voy a proporcionar un texto del cual deseo que me respondas una pregunta.
     El texto es el siguiente: `{context}`\nInput: {question}\nOutput: """
@@ -162,9 +165,8 @@ def load_model(peft_model_id):
     return model, tokenizer
-def load_embeddings_model():
     print(['load_embeddings_model', 'start'])
-    model_ckpt = "sentence-transformers/multi-qa-mpnet-base-dot-v1"
     print(['load_embeddings_model', 'loading tokenizer'])
     tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
     print(['load_embeddings_model', 'loading model'])
@@ -174,7 +176,5 @@ def load_embeddings_model():
     return model, tokenizer
-model, tokenizer = load_model(
-    "hackathon-somos-nlp-2023/opt-6.7b-lora-sag-t3000-v300-v2")
-emb_model, emb_tokenizer = load_embeddings_model()

     scores, samples = embeddings_dataset.get_nearest_examples(
         "embeddings", question_embedding, k)
     print(['get_nearest_examples', 'scores and samples'])
+    print(scores)
+    print(samples['id'])
     print(['get_nearest_examples', 'end'])
     return samples
     encoded_input = {k: v.to('cuda') for k, v in encoded_input.items()}
     model_output = emb_model(**encoded_input)
     model_output = model_output.last_hidden_state[:, 0]
     print(['get_embeddings', 'end'])
     return model_output
     print(['build_faiss_index', 'start'])
     text_list = split_text(text)
     emb_list = []
+    for i, item in enumerate(text_list):
+        emb_list.append({
+            "embeddings": get_embeddings(item).cpu().detach().numpy()[0],
+            'id': i
+        })
     dataset = Dataset.from_list(emb_list)
     dataset.add_faiss_index(column="embeddings")
     shared['embeddings_dataset'] = dataset
 def answer_question(question: str):
     print(['answer_question', 'start'])
+    full_text = shared['full_text']
     if not shared['embeddings_dataset']:
+        build_faiss_index(full_text)
+    top_k_samples = get_nearest_examples(question, k=3)
+    index_text = {}
+    for i, t in enumerate(split_text(full_text)):
+        index_text[i] = t
+    context = '\n'.join([index_text[id] for id in top_k_samples['id']])
     input_text = f"""<s>Instruction: Te voy a proporcionar un texto del cual deseo que me respondas una pregunta.
     El texto es el siguiente: `{context}`\nInput: {question}\nOutput: """
     return model, tokenizer
+def load_embeddings_model(model_ckpt:str):
     print(['load_embeddings_model', 'start'])
     print(['load_embeddings_model', 'loading tokenizer'])
     tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
     print(['load_embeddings_model', 'loading model'])
     return model, tokenizer
+model, tokenizer = load_model("hackathon-somos-nlp-2023/opt-6.7b-lora-sag-t3000-v300-v2")
+emb_model, emb_tokenizer = load_embeddings_model("sentence-transformers/multi-qa-mpnet-base-dot-v1")