Spaces:

DzmitryXXL
/

LLAMA2_QA_RAG

Sleeping

App Files Files Community

DzmitryXXL commited on Apr 8, 2024

Commit

3c4a7fb

verified ·

1 Parent(s): f728c7a

Upload 2 files

Browse files

Files changed (2) hide show

app.py +59 -9
requirements.txt +6 -1

app.py CHANGED Viewed

@@ -1,31 +1,81 @@
 import streamlit as st
-# Пример данных для таблицы
 dataList = [
-    {"Answer": "Ответ 1", "Distance": 0.5},
-    {"Answer": "Ответ 2", "Distance": 0.8},
-    {"Answer": "Ответ 3", "Distance": 0.3}
 ]
-# Основная часть приложения
 def main():
     # Заголовок приложения
-    st.title("Пример приложения с Streamlit")
     # Текстовое поле для ввода вопроса
     input_text = st.text_input("Input", "")
     # Кнопка "Answer"
     if st.button("Answer"):
-        # Здесь может быть код для обработки вопроса
         pass
     # Таблица с данными
-    st.write("Таблица с данными:")
     st.table(dataList)
     # Текстовое поле для вывода текста
-    st.write("Текстовое поле для редактирования:")
     text_output = st.text_area("", "")
 # Запуск основной части приложения

+import json
 import streamlit as st
+import pandas as pd
+import numpy as np
+from tqdm.auto import tqdm
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
 dataList = [
+    {"Answer": "", "Distance": 0},
+    {"Answer": "", "Distance": 0},
+    {"Answer": "", "Distance": 0}
 ]
+def list_to_numpy(obj):
+    if isinstance(obj, list):
+        return np.array(obj)
+    return obj
+def load_documents_from_jsonl(embeddings_model, jsonl_path, createEmbeddings=False):
+    tqdm.pandas(desc="Loading Data")
+    df = pd.read_json(jsonl_path, lines=True).progress_apply(lambda x: x)
+    df.columns = ['Question' if 'Question' in col else 'Answer' if 'Answer' in col else col for col in df.columns]
+    if createEmbeddings:
+        tqdm.pandas(desc="Creating Embeddings")
+        df['Embeddings'] = df.progress_apply(lambda x: embeddings_model.encode(f"Question: {x['Question']} \n Answer: {x['Answer']}").tolist(), axis=1)
+    return df
+def generate_embeddings(model, text):
+    with torch.no_grad():
+        embeddings = model.encode(text, convert_to_tensor=True)
+    return embeddings.cpu().numpy()
+def save_to_faiss(df):
+    dimension = len(df['Embeddings'].iloc[0])
+    db = faiss.IndexFlatL2(dimension)
+    embeddings = np.array(df['Embeddings'].tolist()).astype('float32')
+    db.add(embeddings)
+    faiss.write_index(db, "faiss_index")
+def search_in_faiss(query_vector, df, k=5):
+    db = faiss.read_index("faiss_index")
+    query_vector = np.array(query_vector).astype('float32').reshape(1, -1)
+    distances, indices = db.search(query_vector, k)
+    results = []
+    for idx, dist in zip(indices[0], distances[0]):
+        answer_text = df.iloc[idx]['Answer']
+        dist = np.sqrt(dist)
+        results.append({"Answer": answer_text, "Distance": dist})
+    return results
 def main():
     # Заголовок приложения
+    st.title("Demo for LLAMA-2 RAG with CPU only")
+    df_qa = load_documents_from_jsonl('ExportForAI1.jsonl', model, False)
+    save_to_faiss(df_qa)
     # Текстовое поле для ввода вопроса
     input_text = st.text_input("Input", "")
     # Кнопка "Answer"
     if st.button("Answer"):
+        query_vector = model.encode(input_text.lower())
+        dataList = search_in_faiss(query_vector, df_embed, k=3)
         pass
     # Таблица с данными
+    st.write("Most relevants answers")
     st.table(dataList)
     # Текстовое поле для вывода текста
+    st.write("LLAMA generated answer:")
     text_output = st.text_area("", "")
 # Запуск основной части приложения

requirements.txt CHANGED Viewed

	@@ -1 +1,6 @@
1	- streamlit

+streamlit
+torch
+faiss-cpu
+sentence_transformers
+json
+tqdm