Spaces:

stephaniek791
/

RAG_PEDIATRICS

Paused

App Files Files Community

Stéphanie Kamgnia Wonkap commited on Nov 6, 2024

Commit

a6e92fe

1 Parent(s): 8efbea2

initial commit

Browse files

Files changed (14) hide show

.gitattributes +1 -0
.gitignore +4 -0
README.md +1 -1
app.py +108 -0
config.yml +5 -0
data/college_pediatrie_2024.pdf +3 -0
requirements.txt +586 -0
src/__init__.py +0 -0
src/app.py +108 -0
src/config.yml +5 -0
src/data_preparation.py +48 -0
src/embeddings.py +15 -0
src/generator.py +53 -0
src/retriever.py +41 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.pdf filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+#env files
+.env
+#virtual env
+venv

README.md CHANGED Viewed

@@ -7,7 +7,7 @@ sdk: streamlit
 sdk_version: 1.39.0
 app_file: app.py
 pinned: false
-short_description: UN rag pour explorer le livre le collège de pediatrie
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 sdk_version: 1.39.0
 app_file: app.py
 pinned: false
+short_description: Un rag pour explorer le livre le collège de pediatrie
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,108 @@

+# Databricks notebook source
+import streamlit as st
+import os
+import yaml
+from dotenv import load_dotenv
+from src.generator import answer_with_rag
+from ragatouille import RAGPretrainedModel
+from src.data_preparation import split_documents
+from transformers import pipeline
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from src.retriever import init_vectorDB_from_doc, retriever
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
+from langchain_community.vectorstores import FAISS
+import faiss
+def load_config():
+    with open("./src/config.yml","r") as file_object:
+        try:
+            cfg=yaml.safe_load(file_object)
+        except yaml.YAMLError as exc:
+            logger.error(str(exc))
+            raise
+        else:
+            return cfg
+cfg= load_config()
+load_dotenv("./src/.env")
+EMBEDDING_MODEL_NAME=cfg['EMBEDDING_MODEL_NAME']
+DATA_FILE_PATH=cfg['DATA_FILE_PATH']
+READER_MODEL_NAME=cfg['READER_MODEL_NAME']
+RERANKER_MODEL_NAME=cfg['RERANKER_MODEL_NAME']
+VECTORDB_PATH=cfg['VECTORDB_PATH']
+if __name__ == "__main__":
+    st.title("RAG App to query le College de Pédiatrie")
+    user_query = st.text_input("Entrez votre question:")
+    # Initialize the retriever and LLM
+    loader = PyPDFLoader(DATA_FILE_PATH)
+    #loader = PyPDFDirectoryLoader(DATA_FILE_PATH)
+    raw_document_base = loader.load()
+        MARKDOWN_SEPARATORS = [
+        "\n#{1,6} ",
+        "```\n",
+        "\n\\*\\*\\*+\n",
+        "\n---+\n",
+        "\n___+\n",
+        "\n\n",
+        "\n",
+        " ",
+        "",]
+    docs_processed = split_documents(
+        512,  # We choose a chunk size adapted to our model
+        raw_document_base,
+        tokenizer_name=EMBEDDING_MODEL_NAME,
+        separator=MARKDOWN_SEPARATORS
+    )
+    embedding_model=init_embedding_model(EMBEDDING_MODEL_NAME)
+    if os.path.exists(VECTORDB_PATH):
+        new_vector_store = FAISS.load_local(
+            VECTORDB_PATH, embedding_model,
+            allow_dangerous_deserialization=True)
+    else:
+        KNOWLEDGE_VECTOR_DATABASE=init_vectorDB_from_doc(docs_processed, embedding_model)
+        KNOWLEDGE_VECTOR_DATABASE.save_local(VECTORDB_PATH)
+    if st.button("Get Answer"):
+    # Get the answer and relevant documents
+        bnb_config = BitsAndBytesConfig(
+            load_in_4bit=True,
+            bnb_4bit_use_double_quant=True,
+            bnb_4bit_quant_type="nf4",
+            bnb_4bit_compute_dtype=torch.bfloat16,
+        )
+        model = AutoModelForCausalLM.from_pretrained(READER_MODEL_NAME, quantization_config=bnb_config)
+        tokenizer = AutoTokenizer.from_pretrained(READER_MODEL_NAME)
+        READER_LLM = pipeline(
+            model=model,
+            tokenizer=tokenizer,
+            task="text-generation",
+            do_sample=True,
+            temperature=0.2,
+            repetition_penalty=1.1,
+            return_full_text=False,
+            max_new_tokens=500,
+        )
+        RERANKER = RAGPretrainedModel.from_pretrained(RERANKER_MODEL_NAME)
+        num_doc_before_rerank=15
+        num_final_releveant_docs=5
+        answer, relevant_docs = answer_with_rag(query=user_query, READER_MODEL_NAME=READER_MODEL_NAME,embedding_model=embedding_model,vectorDB=KNOWLEDGE_VECTOR_DATABASE,reranker=RERANKER, llm=READER_LLM,num_doc_before_rerank=num_doc_before_rerank,num_final_relevant_docs=num_final_releveant_docs,rerank=True)
+    #print(answer)
+    # Display the answer
+        st.write("### Answer:")
+        st.write(answer)
+    # Display the relevant documents
+        st.write("### Relevant Documents:")
+        for i, doc in enumerate(relevant_docs):
+            st.write(f"Document {i}:\n{doc.text}")

config.yml ADDED Viewed

	@@ -0,0 +1,5 @@

+EMBEDDING_MODEL_NAME: "OrdalieTech/Solon-embeddings-large-0.1"
+READER_MODEL_NAME: "mistralai/Mistral-7B-Instruct-v0.3"
+RERANKER_MODEL_NAME: "colbert-ir/colbertv2.0"
+VECTORDB_PATH: "./vectorDB/KNOWLEDGE_VECTOR_DATABASE_index"
+DATA_FILE_PATH: "./data/College_pediatrie_2024.pdf"

data/college_pediatrie_2024.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aaa5b6383d120dd1eda9048b230211deeabee2cdba3803caf7e4e40e21774c30
+size 141324090

requirements.txt ADDED Viewed

	@@ -0,0 +1,586 @@

+absl-py==1.4.0
+accelerate==0.34.2
+aiohappyeyeballs==2.4.3
+aiohttp==3.10.10
+aiosignal==1.3.1
+alabaster==0.7.16
+albucore==0.0.19
+albumentations==1.4.20
+altair==4.2.2
+annotated-types==0.7.0
+annoy==1.17.3
+anyio==3.7.1
+argon2-cffi==23.1.0
+argon2-cffi-bindings==21.2.0
+array_record==0.5.1
+arviz==0.20.0
+astropy==6.1.4
+astropy-iers-data==0.2024.10.28.0.34.7
+astunparse==1.6.3
+async-timeout==4.0.3
+atpublic==4.1.0
+attrs==24.2.0
+audioread==3.0.1
+autograd==1.7.0
+babel==2.16.0
+backcall==0.2.0
+beautifulsoup4==4.12.3
+bigframes==1.25.0
+bigquery-magics==0.4.0
+bitarray==3.0.0
+bitsandbytes==0.44.1
+bleach==6.2.0
+blinker==1.4
+blis==0.7.11
+blosc2==2.0.0
+bokeh==3.4.3
+Bottleneck==1.4.2
+bqplot==0.12.43
+branca==0.8.0
+CacheControl==0.14.0
+cachetools==5.5.0
+catalogue==2.0.10
+certifi==2024.8.30
+cffi==1.17.1
+chardet==5.2.0
+charset-normalizer==3.4.0
+chex==0.1.87
+clarabel==0.9.0
+click==8.1.7
+cloudpathlib==0.20.0
+cloudpickle==3.1.0
+cmake==3.30.5
+cmdstanpy==1.2.4
+colbert-ai==0.2.19
+colorcet==3.1.0
+colorlover==0.3.0
+colour==0.1.5
+community==1.0.0b1
+confection==0.1.5
+cons==0.4.6
+contourpy==1.3.0
+cryptography==43.0.3
+cuda-python==12.2.1
+cudf-cu12 @ https://pypi.nvidia.com/cudf-cu12/cudf_cu12-24.10.1-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
+cufflinks==0.17.3
+cupy-cuda12x==12.2.0
+cvxopt==1.3.2
+cvxpy==1.5.3
+cycler==0.12.1
+cymem==2.0.8
+Cython==3.0.11
+dask==2024.10.0
+dataclasses-json==0.6.7
+datascience==0.17.6
+datasets==3.1.0
+db-dtypes==1.3.0
+dbus-python==1.2.18
+debugpy==1.6.6
+decorator==4.4.2
+defusedxml==0.7.1
+Deprecated==1.2.14
+diffusers==0.30.3
+dill==0.3.8
+dirtyjson==1.0.8
+distro==1.9.0
+dlib==19.24.2
+dm-tree==0.1.8
+docker-pycreds==0.4.0
+docstring_parser==0.16
+docutils==0.18.1
+dopamine_rl==4.0.9
+duckdb==1.1.2
+earthengine-api==1.2.0
+easydict==1.13
+ecos==2.0.14
+editdistance==0.8.1
+eerepr==0.0.4
+einops==0.8.0
+en-core-web-sm @ https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl#sha256=86cc141f63942d4b2c5fcee06630fd6f904788d2f0ab005cce45aadb8fb73889
+entrypoints==0.4
+et_xmlfile==2.0.0
+etils==1.10.0
+etuples==0.3.9
+eval_type_backport==0.2.0
+exceptiongroup==1.2.2
+faiss-cpu==1.9.0
+faiss-gpu==1.7.2
+fast-pytorch-kmeans==0.2.0.1
+fastai==2.7.18
+fastcore==1.7.19
+fastdownload==0.0.7
+fastjsonschema==2.20.0
+fastprogress==1.0.3
+fastrlock==0.8.2
+filelock==3.16.1
+firebase-admin==6.5.0
+Flask==2.2.5
+flatbuffers==24.3.25
+flax==0.8.5
+folium==0.18.0
+fonttools==4.54.1
+frozendict==2.4.6
+frozenlist==1.5.0
+fsspec==2024.9.0
+future==1.0.0
+gast==0.6.0
+gcsfs==2024.10.0
+GDAL==3.6.4
+gdown==5.2.0
+geemap==0.35.0
+gensim==4.3.3
+geocoder==1.38.1
+geographiclib==2.0
+geopandas==1.0.1
+geopy==2.4.1
+gin-config==0.5.0
+git-python==1.0.3
+gitdb==4.0.11
+GitPython==3.1.43
+glob2==0.7
+google==2.0.3
+google-ai-generativelanguage==0.6.10
+google-api-core==2.19.2
+google-api-python-client==2.137.0
+google-auth==2.27.0
+google-auth-httplib2==0.2.0
+google-auth-oauthlib==1.2.1
+google-cloud-aiplatform==1.70.0
+google-cloud-bigquery==3.25.0
+google-cloud-bigquery-connection==1.15.5
+google-cloud-bigquery-storage==2.27.0
+google-cloud-bigtable==2.26.0
+google-cloud-core==2.4.1
+google-cloud-datastore==2.19.0
+google-cloud-firestore==2.16.1
+google-cloud-functions==1.16.5
+google-cloud-iam==2.16.0
+google-cloud-language==2.13.4
+google-cloud-pubsub==2.25.0
+google-cloud-resource-manager==1.13.0
+google-cloud-storage==2.8.0
+google-cloud-translate==3.15.5
+google-colab @ file:///colabtools/dist/google_colab-1.0.0.tar.gz
+google-crc32c==1.6.0
+google-generativeai==0.8.3
+google-pasta==0.2.0
+google-resumable-media==2.7.2
+googleapis-common-protos==1.65.0
+googledrivedownloader==0.4
+graphviz==0.20.3
+greenlet==3.1.1
+grpc-google-iam-v1==0.13.1
+grpcio==1.64.1
+grpcio-status==1.48.2
+gspread==6.0.2
+gspread-dataframe==3.3.1
+gym==0.25.2
+gym-notices==0.0.8
+h11==0.14.0
+h5netcdf==1.4.0
+h5py==3.12.1
+holidays==0.59
+holoviews==1.19.1
+html5lib==1.1
+httpcore==1.0.6
+httpimport==1.4.0
+httplib2==0.22.0
+httpx==0.27.2
+httpx-sse==0.4.0
+huggingface-hub==0.24.7
+humanize==4.11.0
+hyperopt==0.2.7
+ibis-framework==9.2.0
+idna==3.10
+imageio==2.36.0
+imageio-ffmpeg==0.5.1
+imagesize==1.4.1
+imbalanced-learn==0.12.4
+imgaug==0.4.0
+immutabledict==4.2.0
+importlib_metadata==8.5.0
+importlib_resources==6.4.5
+imutils==0.5.4
+inflect==7.4.0
+iniconfig==2.0.0
+intel-cmplr-lib-ur==2025.0.0
+intel-openmp==2025.0.0
+ipyevents==2.0.2
+ipyfilechooser==0.6.0
+ipykernel==5.5.6
+ipyleaflet==0.19.2
+ipyparallel==8.8.0
+ipython==7.34.0
+ipython-genutils==0.2.0
+ipython-sql==0.5.0
+ipytree==0.2.2
+ipywidgets==7.7.1
+itsdangerous==2.2.0
+jax==0.4.33
+jax-cuda12-pjrt==0.4.33
+jax-cuda12-plugin==0.4.33
+jaxlib==0.4.33
+jeepney==0.7.1
+jellyfish==1.1.0
+jieba==0.42.1
+Jinja2==3.1.4
+jiter==0.6.1
+joblib==1.4.2
+jsonpatch==1.33
+jsonpickle==3.3.0
+jsonpointer==3.0.0
+jsonschema==4.23.0
+jsonschema-specifications==2024.10.1
+jupyter-client==6.1.12
+jupyter-console==6.1.0
+jupyter-leaflet==0.19.2
+jupyter-server==1.24.0
+jupyter_core==5.7.2
+jupyterlab_pygments==0.3.0
+jupyterlab_widgets==3.0.13
+kaggle==1.6.17
+kagglehub==0.3.3
+keras==3.4.1
+keyring==23.5.0
+kiwisolver==1.4.7
+langchain==0.3.7
+langchain-community==0.3.5
+langchain-core==0.3.15
+langchain-huggingface==0.1.2
+langchain-openai==0.2.6
+langchain-text-splitters==0.3.0
+langcodes==3.4.1
+langsmith==0.1.137
+language_data==1.2.0
+launchpadlib==1.10.16
+lazr.restfulclient==0.14.4
+lazr.uri==1.0.6
+lazy_loader==0.4
+libclang==18.1.1
+libcudf-cu12 @ https://pypi.nvidia.com/libcudf-cu12/libcudf_cu12-24.10.1-py3-none-manylinux_2_28_x86_64.whl
+librosa==0.10.2.post1
+lightgbm==4.5.0
+linkify-it-py==2.0.3
+llama-cloud==0.1.4
+llama-index==0.11.22
+llama-index-agent-openai==0.3.4
+llama-index-cli==0.3.1
+llama-index-core==0.11.22
+llama-index-embeddings-openai==0.2.5
+llama-index-indices-managed-llama-cloud==0.4.0
+llama-index-legacy==0.9.48.post3
+llama-index-llms-openai==0.2.16
+llama-index-multi-modal-llms-openai==0.2.3
+llama-index-program-openai==0.2.0
+llama-index-question-gen-openai==0.2.0
+llama-index-readers-file==0.2.2
+llama-index-readers-llama-parse==0.3.0
+llama-parse==0.5.13
+llvmlite==0.43.0
+locket==1.0.0
+logical-unification==0.4.6
+lxml==5.3.0
+marisa-trie==1.2.1
+Markdown==3.7
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+marshmallow==3.23.1
+matplotlib==3.8.0
+matplotlib-inline==0.1.7
+matplotlib-venn==1.1.1
+mdit-py-plugins==0.4.2
+mdurl==0.1.2
+miniKanren==1.0.3
+missingno==0.5.2
+mistune==3.0.2
+mizani==0.13.0
+mkl==2024.2.2
+ml-dtypes==0.4.1
+mlxtend==0.23.1
+more-itertools==10.5.0
+moviepy==1.0.3
+mpmath==1.3.0
+msgpack==1.1.0
+multidict==6.1.0
+multipledispatch==1.0.0
+multiprocess==0.70.16
+multitasking==0.0.11
+murmurhash==1.0.10
+music21==9.1.0
+mypy-extensions==1.0.0
+namex==0.0.8
+natsort==8.4.0
+nbclassic==1.1.0
+nbclient==0.10.0
+nbconvert==7.16.4
+nbformat==5.10.4
+nest-asyncio==1.6.0
+networkx==3.4.2
+nibabel==5.3.2
+ninja==1.11.1.1
+nltk==3.9.1
+notebook==6.5.5
+notebook_shim==0.2.4
+numba==0.60.0
+numexpr==2.10.1
+numpy==1.26.4
+nvidia-cublas-cu12==12.6.3.3
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvcc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-nccl-cu12==2.23.4
+nvidia-nvjitlink-cu12==12.6.77
+nvtx==0.2.10
+nx-cugraph-cu12 @ https://pypi.nvidia.com/nx-cugraph-cu12/nx_cugraph_cu12-24.10.0-py3-none-any.whl
+oauth2client==4.1.3
+oauthlib==3.2.2
+onnx==1.17.0
+openai==1.54.1
+opencv-contrib-python==4.10.0.84
+opencv-python==4.10.0.84
+opencv-python-headless==4.10.0.84
+openpyxl==3.1.5
+opentelemetry-api==1.16.0
+opentelemetry-sdk==1.16.0
+opentelemetry-semantic-conventions==0.37b0
+opt_einsum==3.4.0
+optax==0.2.3
+optree==0.13.0
+orbax-checkpoint==0.6.4
+orjson==3.10.10
+osqp==0.6.7.post3
+packaging==24.1
+pacmap==0.7.3
+pandas==2.2.2
+pandas-datareader==0.10.0
+pandas-gbq==0.24.0
+pandas-stubs==2.2.2.240909
+pandocfilters==1.5.1
+panel==1.4.5
+param==2.1.1
+parso==0.8.4
+parsy==2.1
+partd==1.4.2
+pathlib==1.0.1
+patsy==0.5.6
+peewee==3.17.7
+peft==0.13.2
+pexpect==4.9.0
+pickleshare==0.7.5
+pillow==10.4.0
+platformdirs==4.3.6
+plotly==5.24.1
+plotnine==0.14.0
+pluggy==1.5.0
+polars==1.9.0
+pooch==1.8.2
+portpicker==1.5.2
+preshed==3.0.9
+prettytable==3.11.0
+proglog==0.1.10
+progressbar2==4.5.0
+prometheus_client==0.21.0
+promise==2.3
+prompt_toolkit==3.0.48
+propcache==0.2.0
+prophet==1.1.6
+proto-plus==1.25.0
+protobuf==3.20.3
+psutil==5.9.5
+psycopg2==2.9.10
+ptyprocess==0.7.0
+py-cpuinfo==9.0.0
+py4j==0.10.9.7
+pyarrow==17.0.0
+pyarrow-hotfix==0.6
+pyasn1==0.6.1
+pyasn1_modules==0.4.1
+pycocotools==2.0.8
+pycparser==2.22
+pydantic==2.9.2
+pydantic-settings==2.6.1
+pydantic_core==2.23.4
+pydata-google-auth==1.8.2
+pydot==3.0.2
+pydotplus==2.0.2
+PyDrive==1.3.1
+PyDrive2==1.20.0
+pyerfa==2.0.1.4
+pygame==2.6.1
+pygit2==1.16.0
+Pygments==2.18.0
+PyGObject==3.42.1
+PyJWT==2.9.0
+pylibcudf-cu12 @ https://pypi.nvidia.com/pylibcudf-cu12/pylibcudf_cu12-24.10.1-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
+pylibcugraph-cu12==24.10.0
+pylibraft-cu12==24.10.0
+pymc==5.17.0
+pymystem3==0.2.0
+pynvjitlink-cu12==0.4.0
+pynvml==11.5.3
+pyogrio==0.10.0
+PyOpenGL==3.1.7
+pyOpenSSL==24.2.1
+pyparsing==3.2.0
+pypdf==5.1.0
+pyperclip==1.9.0
+pyproj==3.7.0
+pyshp==2.3.1
+PySocks==1.7.1
+pyspark==3.5.3
+pytensor==2.25.5
+pytest==7.4.4
+python-apt==0.0.0
+python-box==7.2.0
+python-dateutil==2.8.2
+python-dotenv==1.0.1
+python-louvain==0.16
+python-slugify==8.0.4
+python-utils==3.9.0
+pytz==2024.2
+pyviz_comms==3.0.3
+PyYAML==6.0.2
+pyzmq==24.0.1
+qdldl==0.1.7.post4
+RAGatouille==0.0.8.post4
+ratelim==0.1.6
+referencing==0.35.1
+regex==2024.9.11
+requests==2.32.3
+requests-oauthlib==1.3.1
+requests-toolbelt==1.0.0
+requirements-parser==0.9.0
+rich==13.9.3
+rmm-cu12==24.10.0
+rpds-py==0.20.0
+rpy2==3.4.2
+rsa==4.9
+safetensors==0.4.5
+scikit-image==0.24.0
+scikit-learn==1.5.2
+scipy==1.13.1
+scooby==0.10.0
+scs==3.2.7
+seaborn==0.13.2
+SecretStorage==3.3.1
+Send2Trash==1.8.3
+sentence-transformers==2.7.0
+sentencepiece==0.2.0
+sentry-sdk==2.17.0
+setproctitle==1.3.3
+shap==0.46.0
+shapely==2.0.6
+shellingham==1.5.4
+simple-parsing==0.1.6
+six==1.16.0
+sklearn-pandas==2.2.0
+slicer==0.0.8
+smart-open==7.0.5
+smmap==5.0.1
+sniffio==1.3.1
+snowballstemmer==2.2.0
+soundfile==0.12.1
+soupsieve==2.6
+soxr==0.5.0.post1
+spacy==3.7.5
+spacy-legacy==3.0.12
+spacy-loggers==1.0.5
+Sphinx==5.0.2
+sphinxcontrib-applehelp==2.0.0
+sphinxcontrib-devhelp==2.0.0
+sphinxcontrib-htmlhelp==2.1.0
+sphinxcontrib-jsmath==1.0.1
+sphinxcontrib-qthelp==2.0.0
+sphinxcontrib-serializinghtml==2.0.0
+SQLAlchemy==2.0.35
+sqlglot==25.1.0
+sqlparse==0.5.1
+srsly==2.4.8
+stanio==0.5.1
+statsmodels==0.14.4
+StrEnum==0.4.15
+stringzilla==3.10.6
+striprtf==0.0.26
+sympy==1.13.1
+tables==3.8.0
+tabulate==0.9.0
+tbb==2021.13.1
+tcmlib==1.2.0
+tenacity==8.5.0
+tensorboard==2.17.0
+tensorboard-data-server==0.7.2
+tensorflow==2.17.0
+tensorflow-datasets==4.9.6
+tensorflow-hub==0.16.1
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-metadata==1.16.1
+tensorflow-probability==0.24.0
+tensorstore==0.1.67
+termcolor==2.5.0
+terminado==0.18.1
+text-unidecode==1.3
+textblob==0.17.1
+tf-slim==1.1.0
+tf_keras==2.17.0
+thinc==8.2.5
+threadpoolctl==3.5.0
+tifffile==2024.9.20
+tiktoken==0.8.0
+timm==1.0.11
+tinycss2==1.4.0
+tokenizers==0.19.1
+toml==0.10.2
+tomli==2.0.2
+toolz==0.12.1
+torch @ https://download.pytorch.org/whl/cu121_full/torch-2.5.0%2Bcu121-cp310-cp310-linux_x86_64.whl
+torchaudio @ https://download.pytorch.org/whl/cu121_full/torchaudio-2.5.0%2Bcu121-cp310-cp310-linux_x86_64.whl
+torchsummary==1.5.1
+torchvision @ https://download.pytorch.org/whl/cu121_full/torchvision-0.20.0%2Bcu121-cp310-cp310-linux_x86_64.whl
+tornado==6.3.3
+tqdm==4.66.6
+traitlets==5.7.1
+traittypes==0.2.1
+transformers==4.44.2
+tweepy==4.14.0
+typeguard==4.4.0
+typer==0.12.5
+types-pytz==2024.2.0.20241003
+types-setuptools==75.2.0.20241025
+typing-inspect==0.9.0
+typing_extensions==4.12.2
+tzdata==2024.2
+tzlocal==5.2
+uc-micro-py==1.0.3
+ujson==5.10.0
+umf==0.9.0
+uritemplate==4.1.1
+urllib3==2.2.3
+vega-datasets==0.9.0
+voyager==2.0.9
+wadllib==1.3.6
+wandb==0.18.5
+wasabi==1.1.3
+wcwidth==0.2.13
+weasel==0.4.1
+webcolors==24.8.0
+webencodings==0.5.1
+websocket-client==1.8.0
+Werkzeug==3.0.6
+widgetsnbextension==3.6.10
+wordcloud==1.9.3
+wrapt==1.16.0
+xarray==2024.10.0
+xarray-einstats==0.8.0
+xgboost==2.1.2
+xlrd==2.0.1
+xxhash==3.5.0
+xyzservices==2024.9.0
+yarl==1.17.0
+yellowbrick==1.5
+yfinance==0.2.48
+zipp==3.20.2

src/__init__.py ADDED Viewed

File without changes

src/app.py ADDED Viewed

	@@ -0,0 +1,108 @@

+# Databricks notebook source
+import streamlit as st
+import os
+import yaml
+from dotenv import load_dotenv
+from src.generator import answer_with_rag
+from ragatouille import RAGPretrainedModel
+from src.data_preparation import split_documents
+from transformers import pipeline
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from src.retriever import init_vectorDB_from_doc, retriever
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
+from langchain_community.vectorstores import FAISS
+import faiss
+def load_config():
+    with open("./src/config.yml","r") as file_object:
+        try:
+            cfg=yaml.safe_load(file_object)
+        except yaml.YAMLError as exc:
+            logger.error(str(exc))
+            raise
+        else:
+            return cfg
+cfg= load_config()
+load_dotenv("./src/.env")
+EMBEDDING_MODEL_NAME=cfg['EMBEDDING_MODEL_NAME']
+DATA_FILE_PATH=cfg['DATA_FILE_PATH']
+READER_MODEL_NAME=cfg['READER_MODEL_NAME']
+RERANKER_MODEL_NAME=cfg['RERANKER_MODEL_NAME']
+VECTORDB_PATH=cfg['VECTORDB_PATH']
+if __name__ == "__main__":
+    st.title("RAG App to query le College de Pédiatrie")
+    user_query = st.text_input("Entrez votre question:")
+    # Initialize the retriever and LLM
+    loader = PyPDFLoader(DATA_FILE_PATH)
+    #loader = PyPDFDirectoryLoader(DATA_FILE_PATH)
+    raw_document_base = loader.load()
+        MARKDOWN_SEPARATORS = [
+        "\n#{1,6} ",
+        "```\n",
+        "\n\\*\\*\\*+\n",
+        "\n---+\n",
+        "\n___+\n",
+        "\n\n",
+        "\n",
+        " ",
+        "",]
+    docs_processed = split_documents(
+        512,  # We choose a chunk size adapted to our model
+        raw_document_base,
+        tokenizer_name=EMBEDDING_MODEL_NAME,
+        separator=MARKDOWN_SEPARATORS
+    )
+    embedding_model=init_embedding_model(EMBEDDING_MODEL_NAME)
+    if os.path.exists(VECTORDB_PATH):
+        new_vector_store = FAISS.load_local(
+            VECTORDB_PATH, embedding_model,
+            allow_dangerous_deserialization=True)
+    else:
+        KNOWLEDGE_VECTOR_DATABASE=init_vectorDB_from_doc(docs_processed, embedding_model)
+        KNOWLEDGE_VECTOR_DATABASE.save_local(VECTORDB_PATH)
+    if st.button("Get Answer"):
+    # Get the answer and relevant documents
+        bnb_config = BitsAndBytesConfig(
+            load_in_4bit=True,
+            bnb_4bit_use_double_quant=True,
+            bnb_4bit_quant_type="nf4",
+            bnb_4bit_compute_dtype=torch.bfloat16,
+        )
+        model = AutoModelForCausalLM.from_pretrained(READER_MODEL_NAME, quantization_config=bnb_config)
+        tokenizer = AutoTokenizer.from_pretrained(READER_MODEL_NAME)
+        READER_LLM = pipeline(
+            model=model,
+            tokenizer=tokenizer,
+            task="text-generation",
+            do_sample=True,
+            temperature=0.2,
+            repetition_penalty=1.1,
+            return_full_text=False,
+            max_new_tokens=500,
+        )
+        RERANKER = RAGPretrainedModel.from_pretrained(RERANKER_MODEL_NAME)
+        num_doc_before_rerank=15
+        num_final_releveant_docs=5
+        answer, relevant_docs = answer_with_rag(query=user_query, READER_MODEL_NAME=READER_MODEL_NAME,embedding_model=embedding_model,vectorDB=KNOWLEDGE_VECTOR_DATABASE,reranker=RERANKER, llm=READER_LLM,num_doc_before_rerank=num_doc_before_rerank,num_final_relevant_docs=num_final_releveant_docs,rerank=True)
+    #print(answer)
+    # Display the answer
+        st.write("### Answer:")
+        st.write(answer)
+    # Display the relevant documents
+        st.write("### Relevant Documents:")
+        for i, doc in enumerate(relevant_docs):
+            st.write(f"Document {i}:\n{doc.text}")

src/config.yml ADDED Viewed

	@@ -0,0 +1,5 @@

+EMBEDDING_MODEL_NAME: "OrdalieTech/Solon-embeddings-large-0.1"
+READER_MODEL_NAME: "mistralai/Mistral-7B-Instruct-v0.3"
+RERANKER_MODEL_NAME: "colbert-ir/colbertv2.0"
+VECTORDB_PATH: "./vectorDB/KNOWLEDGE_VECTOR_DATABASE_index"
+DATA_FILE_PATH: "./data/College_pediatrie_2024.pdf"

src/data_preparation.py ADDED Viewed

	@@ -0,0 +1,48 @@

+# Databricks notebook source
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from transformers import AutoTokenizer
+from sentence_transformers import SentenceTransformer
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from transformers import AutoTokenizer, AutoModelForQuestionAnswering,pipeline
+from transformers import AutoTokenizer, pipeline
+from langchain.docstore.document import Document as LangchainDocument
+from typing import List, Optional
+#from langchain import HuggingFacePipeline
+#from langchain.chains import RetrievalQA
+EMBEDDING_MODEL_NAME = "OrdalieTech/Solon-embeddings-large-0.1"
+def split_documents(
+    chunk_size: int,
+    knowledge_base: List[LangchainDocument],
+    tokenizer_name: Optional[str] = EMBEDDING_MODEL_NAME,
+    separator:List[str]=None,
+) -> List[LangchainDocument]:
+    """
+    Split documents into chunks of maximum size `chunk_size` tokens and return a list of documents.
+    """
+    text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
+        AutoTokenizer.from_pretrained(tokenizer_name),
+        chunk_size=chunk_size,
+        chunk_overlap=int(chunk_size / 10),
+        add_start_index=True,
+        strip_whitespace=True,
+        separators=separator,
+    )
+    docs_processed = []
+    for doc in knowledge_base:
+        docs_processed += text_splitter.split_documents([doc])
+    # Remove duplicates
+    unique_texts = {}
+    docs_processed_unique = []
+    for doc in docs_processed:
+        if doc.page_content not in unique_texts:
+            unique_texts[doc.page_content] = True
+            docs_processed_unique.append(doc)
+    return docs_processed_unique

src/embeddings.py ADDED Viewed

	@@ -0,0 +1,15 @@

+# Databricks notebook source
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_community.vectorstores.utils import DistanceStrategy
+def init_embedding_model(EMBEDDING_MODEL_NAME: str):
+    embedding_model = HuggingFaceEmbeddings(
+        model_name=EMBEDDING_MODEL_NAME,
+        multi_process=True,
+        model_kwargs={"device": "cuda"},
+        # model_kwargs={"device": "cpu"},
+        # Set `True` for cosine similarity
+        encode_kwargs={"normalize_embeddings": True},
+    )
+    return embedding_model

src/generator.py ADDED Viewed

	@@ -0,0 +1,53 @@

+# Databricks notebook source
+from src.retriever import init_vectorDB_from_doc, retriever
+from transformers import AutoTokenizer, pipeline
+from typing import List,Optional, Tuple # import the Tuple type
+from langchain.docstore.document import Document as LangchainDocument
+def promt_template(query: str,READER_MODEL_NAME:str,context:str):
+    prompt_in_chat_format = [
+        {
+            "role": "system",
+            "content": """Using the information contained in the context,
+            give a comprehensive answer to the question.
+            Respond only to the question asked, response should be concise and relevant to the question.
+            Provide the number of the source document when relevant.If the nswer cannot be deduced from the context, do not give an answer. Please answer in french""",
+        },
+        {
+            "role": "user",
+            "content": """Context:
+            {context}
+            ---
+            Now here is the question you need to answer.
+            Question: {query}""",
+        },
+        ]
+    tokenizer = AutoTokenizer.from_pretrained(READER_MODEL_NAME)
+    RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
+    prompt_in_chat_format, tokenize=False, add_generation_prompt=True)
+    return RAG_PROMPT_TEMPLATE
+def answer_with_rag(
+    query: str,embedding_model, vectorDB: FAISS,READER_MODEL_NAME:str,
+    reranker,llm: pipeline,  num_doc_before_rerank: int = 5,
+    num_final_relevant_docs: int = 5,
+    rerank: bool = True
+) -> Tuple[str, List[LangchainDocument]]:
+    # Build the final prompt
+    relevant_docs= retriever(query,vectorDB,reranker,num_doc_before_rerank,num_final_relevant_docs,rerank)
+    context = "\nExtracted documents:\n"
+    context += "".join([f"Document {str(i)}:::\n" + doc for i, doc in enumerate(relevant_docs)])
+    #print("=> Context:")
+    #print(context)
+    RAG_PROMPT_TEMPLATE = promt_template(query,READER_MODEL_NAME,context)
+    final_prompt =RAG_PROMPT_TEMPLATE.format(query=query, context=context,READER_MODEL_NAME=READER_MODEL_NAME)
+    print("=> Final prompt:")
+    #print(final_prompt)
+    # Redact an answer
+    print("=> Generating answer...")
+    answer = llm(final_prompt)[0]["generated_text"]
+    return answer, relevant_docs

src/retriever.py ADDED Viewed

	@@ -0,0 +1,41 @@

+# Databricks notebook source
+from typing import List,Optional
+from langchain.vectorstores import FAISS
+from langchain.embeddings.base import Embeddings
+from langchain_community.vectorstores.utils import DistanceStrategy
+from transformers import RagRetriever
+from langchain.docstore.document import Document as LangchainDocument
+def init_vectorDB_from_doc(documents:List[LangchainDocument], embedding_model: Embeddings) -> FAISS:
+    KNOWLEDGE_VECTOR_DATABASE = FAISS.from_documents(
+        documents, embedding_model, distance_strategy=DistanceStrategy.COSINE
+    )
+    return KNOWLEDGE_VECTOR_DATABASE
+def retriever(
+    user_query: str,
+    vectorDB: FAISS,
+    reranker = None,
+    num_doc_before_rerank: int = 5,
+    num_final_relevant_docs: int = 5,
+    rerank: bool = True
+) -> List[str]:
+    relevant_docs = vectorDB.similarity_search(query=user_query, k=num_doc_before_rerank)
+    relevant_docs = [doc.page_content for doc in relevant_docs]  # Keep only the text
+    print("=> Relevant documents:")
+    print(relevant_docs)
+    if rerank and reranker:
+        # Reranking documents
+        relevant_docs = reranker.rerank(user_query, relevant_docs, k=num_final_relevant_docs)
+        final_relevant_docs = [doc["content"] for doc in relevant_docs]
+        print("=> Reranked documents:")
+        print(final_relevant_docs)
+    else:
+        final_relevant_docs = relevant_docs
+        print("=> Final relevant documents:")
+        print(final_relevant_docs)
+    return final_relevant_docs