OpenSearch-AI

Running on T4

App Files Files

prasadnu commited on May 16

Commit

6f4ec47

1 Parent(s): d7b594f

search pipeline updated

Browse files

Files changed (4) hide show

RAG/rag_DocumentSearcher.py +1 -1
pages/Semantic_Search.py +1 -6
semantic_search/all_search_execute.py +0 -25
utilities/re_ranker.py +22 -26

RAG/rag_DocumentSearcher.py CHANGED Viewed

@@ -12,7 +12,7 @@ import re
 import torch
 import base64
 import requests
-import utilities.re_ranker as re_ranker
 import utilities.invoke_models as invoke_models
 #import langchain
 headers = {"Content-Type": "application/json"}

 import torch
 import base64
 import requests
+#import utilities.re_ranker as re_ranker
 import utilities.invoke_models as invoke_models
 #import langchain
 headers = {"Content-Type": "application/json"}

pages/Semantic_Search.py CHANGED Viewed

@@ -24,7 +24,7 @@ import base64
 import shutil
 import re
 from requests.auth import HTTPBasicAuth
-import utilities.re_ranker as re_ranker
 # from nltk.stem import PorterStemmer
 # from nltk.tokenize import word_tokenize
 import query_rewrite
@@ -585,11 +585,6 @@ def handle_input():
     })
     st.session_state.answers_none_rank = st.session_state.answers
-    if(st.session_state.input_reranker == "None"):
-        st.session_state.answers = st.session_state.answers_none_rank
-    else:
-        if(st.session_state.input_reranker == 'Kendra Rescore'):
-            st.session_state.answers = re_ranker.re_rank("search",st.session_state.input_reranker,st.session_state.input_searchType,st.session_state.questions, st.session_state.answers)
     if(st.session_state.input_evaluate == "enabled"):
         llm_eval.eval(st.session_state.questions, st.session_state.answers)
     #st.session_state.input_text=""

 import shutil
 import re
 from requests.auth import HTTPBasicAuth
+#import utilities.re_ranker as re_ranker
 # from nltk.stem import PorterStemmer
 # from nltk.tokenize import word_tokenize
 import query_rewrite
     })
     st.session_state.answers_none_rank = st.session_state.answers
     if(st.session_state.input_evaluate == "enabled"):
         llm_eval.eval(st.session_state.questions, st.session_state.answers)
     #st.session_state.input_text=""

semantic_search/all_search_execute.py CHANGED Viewed

@@ -408,23 +408,12 @@ def handler(input_,session_id):
         hybrid_payload["query"]["hybrid"]["queries"].append(sparse_payload)
-    print("hybrid_payload")
-    print(st.session_state.re_ranker)
-    print("---------------")
     docs = []
     if(st.session_state.input_sql_query!=""):
         url = host +"_plugins/_sql?format=json"
         payload = {"query":st.session_state.input_sql_query}
         r = requests.post(url, auth=awsauth, json=payload, headers=headers)
-        print("^^^^^")
-        print(r.text)
     if(len(hybrid_payload["query"]["hybrid"]["queries"])==1):
         single_query = hybrid_payload["query"]["hybrid"]["queries"][0]
@@ -439,24 +428,14 @@ def handler(input_,session_id):
                                           }
                                         }}
-        print(hybrid_payload)
-        print(url)
         r = requests.get(url, auth=awsauth, json=hybrid_payload, headers=headers)
-        print(r.status_code)
-        print(r.text)
         response_ = json.loads(r.text)
-        print("-------------------------------------------------------------------")
-        #print(response_)
         docs = response_['hits']['hits']
     else:
-        print("hybrid_payload")
-        print(hybrid_payload)
-        print("-------------------------------------------------------------------")
         if( st.session_state.input_hybridType == "OpenSearch Hybrid Query"):
             url_ = url + "?search_pipeline=hybrid_search_pipeline"
@@ -469,12 +448,8 @@ def handler(input_,session_id):
                                              "query_text": query
                                           }
                                         }}
-            print(url_)
             r = requests.get(url_, auth=awsauth, json=hybrid_payload, headers=headers)
-            print(r.status_code)
             response_ = json.loads(r.text)
-            print("-------------------------------------------------------------------")
-            print(response_)
             docs = response_['hits']['hits']
         else:

         hybrid_payload["query"]["hybrid"]["queries"].append(sparse_payload)
     docs = []
     if(st.session_state.input_sql_query!=""):
         url = host +"_plugins/_sql?format=json"
         payload = {"query":st.session_state.input_sql_query}
         r = requests.post(url, auth=awsauth, json=payload, headers=headers)
     if(len(hybrid_payload["query"]["hybrid"]["queries"])==1):
         single_query = hybrid_payload["query"]["hybrid"]["queries"][0]
                                           }
                                         }}
         r = requests.get(url, auth=awsauth, json=hybrid_payload, headers=headers)
         response_ = json.loads(r.text)
         docs = response_['hits']['hits']
     else:
         if( st.session_state.input_hybridType == "OpenSearch Hybrid Query"):
             url_ = url + "?search_pipeline=hybrid_search_pipeline"
                                              "query_text": query
                                           }
                                         }}
             r = requests.get(url_, auth=awsauth, json=hybrid_payload, headers=headers)
             response_ = json.loads(r.text)
             docs = response_['hits']['hits']
         else:

utilities/re_ranker.py CHANGED Viewed

@@ -5,7 +5,7 @@ import time
 import streamlit as st
 from sentence_transformers import CrossEncoder
-model = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2", max_length=512)
 ####### Add this Kendra Rescore ranking
 #kendra_ranking = boto3.client("kendra-ranking",region_name = 'us-east-1')
 #print("Create a rescore execution plan.")
@@ -48,11 +48,7 @@ model = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2", max_length=512)
 def re_rank(self_, rerank_type, search_type, question, answers):
-    print("start")
-    print()
     ans = []
     ids = []
     ques_ans = []
@@ -94,34 +90,34 @@ def re_rank(self_, rerank_type, search_type, question, answers):
     #     re_ranked[0]['id'] = len(question)
     #     return re_ranked
-    if(rerank_type == 'Cross Encoder'):
-        scores = model.predict(
-                    ques_ans
-                        )
-        index__ = 0
-        for i in ans:
-            i['new_score'] = scores[index__]
-            index__ = index__+1
-        ans_sorted = sorted(ans, key=lambda d: d['new_score'],reverse=True)
-        def retreive_only_text(item):
-            return item['text']
-        if(self_ == 'rag'):
-            return list(map(retreive_only_text, ans_sorted))
-        re_ranked[0]['answer']=[]
-        for j in ans_sorted:
-            pos_ = ids.index(j['Id'])
-            re_ranked[0]['answer'].append(answers[0]['answer'][pos_])
-        re_ranked[0]['search_type']= search_type,
-        re_ranked[0]['id'] = len(question)
-        return re_ranked

 import streamlit as st
 from sentence_transformers import CrossEncoder
+#model = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2", max_length=512)
 ####### Add this Kendra Rescore ranking
 #kendra_ranking = boto3.client("kendra-ranking",region_name = 'us-east-1')
 #print("Create a rescore execution plan.")
 def re_rank(self_, rerank_type, search_type, question, answers):
     ans = []
     ids = []
     ques_ans = []
     #     re_ranked[0]['id'] = len(question)
     #     return re_ranked
+    # if(rerank_type == 'Cross Encoder'):
+    #     scores = model.predict(
+    #                 ques_ans
+    #                     )
+    #     index__ = 0
+    #     for i in ans:
+    #         i['new_score'] = scores[index__]
+    #         index__ = index__+1
+    #     ans_sorted = sorted(ans, key=lambda d: d['new_score'],reverse=True)
+    #     def retreive_only_text(item):
+    #         return item['text']
+    #     if(self_ == 'rag'):
+    #         return list(map(retreive_only_text, ans_sorted))
+    #     re_ranked[0]['answer']=[]
+    #     for j in ans_sorted:
+    #         pos_ = ids.index(j['Id'])
+    #         re_ranked[0]['answer'].append(answers[0]['answer'][pos_])
+    #     re_ranked[0]['search_type']= search_type,
+    #     re_ranked[0]['id'] = len(question)
+    #     return re_ranked