Spaces:

protectai
/

llm-guard-playground

Running

App Files Files Community

asofter commited on Oct 14, 2023

Commit

ca9549b

1 Parent(s): 91df4d6

* upgrade version of llm-guard with new features

Browse files

Files changed (6) hide show

Dockerfile +0 -1
app.py +0 -4
output.py +137 -8
prompt.py +147 -2
prompt_text.txt +9 -9
requirements.txt +2 -1

Dockerfile CHANGED Viewed

@@ -12,7 +12,6 @@ COPY ./requirements.txt /app/requirements.txt
 RUN pip install --upgrade pip
 RUN pip install -r requirements.txt
-RUN python -m spacy download en_core_web_trf
 EXPOSE 7860

 RUN pip install --upgrade pip
 RUN pip install -r requirements.txt
 EXPOSE 7860

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ import traceback
 from datetime import timedelta
 import pandas as pd
-import spacy
 import streamlit as st
 from output import init_settings as init_output_settings
 from output import scan as scan_output
@@ -13,9 +12,6 @@ from prompt import scan as scan_prompt
 from llm_guard.vault import Vault
-if not spacy.util.is_package("en_core_web_trf"):
-    spacy.cli.download("en_core_web_trf")
 PROMPT = "prompt"
 OUTPUT = "output"
 vault = Vault()

 from datetime import timedelta
 import pandas as pd
 import streamlit as st
 from output import init_settings as init_output_settings
 from output import scan as scan_output
 from llm_guard.vault import Vault
 PROMPT = "prompt"
 OUTPUT = "output"
 vault = Vault()

output.py CHANGED Viewed

@@ -6,11 +6,14 @@ from streamlit_tags import st_tags
 from llm_guard.input_scanners.anonymize import default_entity_types
 from llm_guard.output_scanners import (
     BanSubstrings,
     BanTopics,
     Bias,
     Code,
     Deanonymize,
     MaliciousURLs,
     NoRefusal,
     Refutation,
@@ -18,6 +21,7 @@ from llm_guard.output_scanners import (
     Relevance,
     Sensitive,
 )
 from llm_guard.output_scanners.sentiment import Sentiment
 from llm_guard.output_scanners.toxicity import Toxicity
 from llm_guard.vault import Vault
@@ -32,6 +36,9 @@ def init_settings() -> (List, Dict):
         "Bias",
         "Code",
         "Deanonymize",
         "MaliciousURLs",
         "NoRefusal",
         "Refutation",
@@ -67,12 +74,14 @@ def init_settings() -> (List, Dict):
             st_bs_match_type = st.selectbox("Match type", ["str", "word"])
             st_bs_case_sensitive = st.checkbox("Case sensitive", value=False)
             st_bs_redact = st.checkbox("Redact", value=False)
         settings["BanSubstrings"] = {
             "substrings": st_bs_substrings,
             "match_type": st_bs_match_type,
             "case_sensitive": st_bs_case_sensitive,
             "redact": st_bs_redact,
         }
     if "BanTopics" in st_enabled_scanners:
@@ -85,7 +94,7 @@ def init_settings() -> (List, Dict):
             st_bt_topics = st_tags(
                 label="List of topics",
                 text="Type and press enter",
-                value=["politics", "religion", "money", "crime"],
                 suggestions=[],
                 maxtags=30,
                 key="bt_topics",
@@ -93,7 +102,7 @@ def init_settings() -> (List, Dict):
             st_bt_threshold = st.slider(
                 label="Threshold",
-                value=0.75,
                 min_value=0.0,
                 max_value=1.0,
                 step=0.05,
@@ -137,6 +146,98 @@ def init_settings() -> (List, Dict):
         settings["Code"] = {"languages": st_cd_languages, "mode": st_cd_mode}
     if "MaliciousURLs" in st_enabled_scanners:
         st_murls_expander = st.sidebar.expander(
             "Malicious URLs",
@@ -231,14 +332,15 @@ def init_settings() -> (List, Dict):
             st_rele_threshold = st.slider(
                 label="Threshold",
                 value=0.5,
-                min_value=-1.0,
                 max_value=1.0,
                 step=0.05,
                 key="rele_threshold",
-                help="The minimum cosine similarity (-1 to 1) between the prompt and output for the output to be considered relevant.",
             )
-        settings["Relevance"] = {"threshold": st_rele_threshold}
     if "Sensitive" in st_enabled_scanners:
         st_sens_expander = st.sidebar.expander(
@@ -259,8 +361,21 @@ def init_settings() -> (List, Dict):
             st.caption(
                 "Check all supported entities: https://microsoft.github.io/presidio/supported_entities/#list-of-supported-entities"
             )
-        settings["Sensitive"] = {"entity_types": st_sens_entity_types}
     if "Sentiment" in st_enabled_scanners:
         st_sent_expander = st.sidebar.expander(
@@ -312,6 +427,7 @@ def get_scanner(scanner_name: str, vault: Vault, settings: Dict):
             match_type=settings["match_type"],
             case_sensitive=settings["case_sensitive"],
             redact=settings["redact"],
         )
     if scanner_name == "BanTopics":
@@ -323,6 +439,15 @@ def get_scanner(scanner_name: str, vault: Vault, settings: Dict):
     if scanner_name == "Deanonymize":
         return Deanonymize(vault=vault)
     if scanner_name == "Code":
         mode = settings["mode"]
@@ -359,10 +484,14 @@ def get_scanner(scanner_name: str, vault: Vault, settings: Dict):
         )
     if scanner_name == "Relevance":
-        return Relevance(threshold=settings["threshold"])
     if scanner_name == "Sensitive":
-        return Sensitive(entity_types=settings["entity_types"])
     if scanner_name == "Sentiment":
         return Sentiment(threshold=settings["threshold"])

 from llm_guard.input_scanners.anonymize import default_entity_types
 from llm_guard.output_scanners import (
+    JSON,
     BanSubstrings,
     BanTopics,
     Bias,
     Code,
     Deanonymize,
+    Language,
+    LanguageSame,
     MaliciousURLs,
     NoRefusal,
     Refutation,
     Relevance,
     Sensitive,
 )
+from llm_guard.output_scanners.relevance import all_models as relevance_models
 from llm_guard.output_scanners.sentiment import Sentiment
 from llm_guard.output_scanners.toxicity import Toxicity
 from llm_guard.vault import Vault
         "Bias",
         "Code",
         "Deanonymize",
+        "JSON",
+        "Language",
+        "LanguageSame",
         "MaliciousURLs",
         "NoRefusal",
         "Refutation",
             st_bs_match_type = st.selectbox("Match type", ["str", "word"])
             st_bs_case_sensitive = st.checkbox("Case sensitive", value=False)
             st_bs_redact = st.checkbox("Redact", value=False)
+            st_bs_contains_all = st.checkbox("Contains all", value=False)
         settings["BanSubstrings"] = {
             "substrings": st_bs_substrings,
             "match_type": st_bs_match_type,
             "case_sensitive": st_bs_case_sensitive,
             "redact": st_bs_redact,
+            "contains_all": st_bs_contains_all,
         }
     if "BanTopics" in st_enabled_scanners:
             st_bt_topics = st_tags(
                 label="List of topics",
                 text="Type and press enter",
+                value=["violence"],
                 suggestions=[],
                 maxtags=30,
                 key="bt_topics",
             st_bt_threshold = st.slider(
                 label="Threshold",
+                value=0.6,
                 min_value=0.0,
                 max_value=1.0,
                 step=0.05,
         settings["Code"] = {"languages": st_cd_languages, "mode": st_cd_mode}
+    if "JSON" in st_enabled_scanners:
+        st_json_expander = st.sidebar.expander(
+            "JSON",
+            expanded=False,
+        )
+        with st_json_expander:
+            st_json_required_elements = st.slider(
+                label="Required elements",
+                value=0,
+                min_value=0,
+                max_value=10,
+                step=1,
+                key="json_required_elements",
+                help="The minimum number of JSON elements that should be present",
+            )
+        settings["JSON"] = {"required_elements": st_json_required_elements}
+    if "Language" in st_enabled_scanners:
+        st_lan_expander = st.sidebar.expander(
+            "Language",
+            expanded=False,
+        )
+        with st_lan_expander:
+            st_lan_valid_language = st.multiselect(
+                "Languages",
+                [
+                    "af",
+                    "ar",
+                    "bg",
+                    "bn",
+                    "ca",
+                    "cs",
+                    "cy",
+                    "da",
+                    "de",
+                    "el",
+                    "en",
+                    "es",
+                    "et",
+                    "fa",
+                    "fi",
+                    "fr",
+                    "gu",
+                    "he",
+                    "hi",
+                    "hr",
+                    "hu",
+                    "id",
+                    "it",
+                    "ja",
+                    "kn",
+                    "ko",
+                    "lt",
+                    "lv",
+                    "mk",
+                    "ml",
+                    "mr",
+                    "ne",
+                    "nl",
+                    "no",
+                    "pa",
+                    "pl",
+                    "pt",
+                    "ro",
+                    "ru",
+                    "sk",
+                    "sl",
+                    "so",
+                    "sq",
+                    "sv",
+                    "sw",
+                    "ta",
+                    "te",
+                    "th",
+                    "tl",
+                    "tr",
+                    "uk",
+                    "ur",
+                    "vi",
+                    "zh-cn",
+                    "zh-tw",
+                ],
+                default=["en"],
+            )
+        settings["Language"] = {
+            "valid_languages": st_lan_valid_language,
+        }
     if "MaliciousURLs" in st_enabled_scanners:
         st_murls_expander = st.sidebar.expander(
             "Malicious URLs",
             st_rele_threshold = st.slider(
                 label="Threshold",
                 value=0.5,
+                min_value=0.0,
                 max_value=1.0,
                 step=0.05,
                 key="rele_threshold",
             )
+            st_rele_model = st.selectbox("Embeddings model", relevance_models, index=1)
+        settings["Relevance"] = {"threshold": st_rele_threshold, "model": st_rele_model}
     if "Sensitive" in st_enabled_scanners:
         st_sens_expander = st.sidebar.expander(
             st.caption(
                 "Check all supported entities: https://microsoft.github.io/presidio/supported_entities/#list-of-supported-entities"
             )
+            st_sens_redact = st.checkbox("Redact", value=False)
+            st_sens_threshold = st.slider(
+                label="Threshold",
+                value=0,
+                min_value=0.0,
+                max_value=1.0,
+                step=0.1,
+                key="sens_threshold",
+            )
+        settings["Sensitive"] = {
+            "entity_types": st_sens_entity_types,
+            "redact": st_sens_redact,
+            "threshold": st_sens_threshold,
+        }
     if "Sentiment" in st_enabled_scanners:
         st_sent_expander = st.sidebar.expander(
             match_type=settings["match_type"],
             case_sensitive=settings["case_sensitive"],
             redact=settings["redact"],
+            contains_all=settings["contains_all"],
         )
     if scanner_name == "BanTopics":
     if scanner_name == "Deanonymize":
         return Deanonymize(vault=vault)
+    if scanner_name == "JSON":
+        return JSON(required_elements=settings["required_elements"])
+    if scanner_name == "Language":
+        return Language(valid_languages=settings["valid_languages"])
+    if scanner_name == "LanguageSame":
+        return LanguageSame()
     if scanner_name == "Code":
         mode = settings["mode"]
         )
     if scanner_name == "Relevance":
+        return Relevance(threshold=settings["threshold"], model=settings["model"])
     if scanner_name == "Sensitive":
+        return Sensitive(
+            entity_types=settings["entity_types"],
+            redact=settings["redact"],
+            threshold=settings["threshold"],
+        )
     if scanner_name == "Sentiment":
         return Sentiment(threshold=settings["threshold"])

prompt.py CHANGED Viewed

@@ -9,14 +9,17 @@ from llm_guard.input_scanners import (
     BanSubstrings,
     BanTopics,
     Code,
     PromptInjection,
     PromptInjectionV2,
     Secrets,
     Sentiment,
     TokenLimit,
     Toxicity,
 )
 from llm_guard.input_scanners.anonymize import default_entity_types
 from llm_guard.vault import Vault
 logger = logging.getLogger("llm-guard-playground")
@@ -28,8 +31,10 @@ def init_settings() -> (List, Dict):
         "BanSubstrings",
         "BanTopics",
         "Code",
         "PromptInjection",
         "PromptInjectionV2",
         "Secrets",
         "Sentiment",
         "TokenLimit",
@@ -88,6 +93,19 @@ def init_settings() -> (List, Dict):
             st_anon_use_faker = st.checkbox(
                 "Use Faker", value=False, help="Use Faker library to generate fake data"
             )
         settings["Anonymize"] = {
             "entity_types": st_anon_entity_types,
@@ -95,6 +113,8 @@ def init_settings() -> (List, Dict):
             "allowed_names": st_anon_allowed_names,
             "preamble": st_anon_preamble,
             "use_faker": st_anon_use_faker,
         }
     if "BanSubstrings" in st_enabled_scanners:
@@ -113,12 +133,14 @@ def init_settings() -> (List, Dict):
             st_bs_match_type = st.selectbox("Match type", ["str", "word"])
             st_bs_case_sensitive = st.checkbox("Case sensitive", value=False)
             st_bs_redact = st.checkbox("Redact", value=False)
         settings["BanSubstrings"] = {
             "substrings": st_bs_substrings,
             "match_type": st_bs_match_type,
             "case_sensitive": st_bs_case_sensitive,
             "redact": st_bs_redact,
         }
     if "BanTopics" in st_enabled_scanners:
@@ -131,7 +153,7 @@ def init_settings() -> (List, Dict):
             st_bt_topics = st_tags(
                 label="List of topics",
                 text="Type and press enter",
-                value=["politics", "religion", "money", "crime"],
                 suggestions=[],
                 maxtags=30,
                 key="bt_topics",
@@ -139,7 +161,7 @@ def init_settings() -> (List, Dict):
             st_bt_threshold = st.slider(
                 label="Threshold",
-                value=0.75,
                 min_value=0.0,
                 max_value=1.0,
                 step=0.05,
@@ -171,6 +193,79 @@ def init_settings() -> (List, Dict):
             "mode": st_cd_mode,
         }
     if "PromptInjection" in st_enabled_scanners:
         st_pi_expander = st.sidebar.expander(
             "Prompt Injection",
@@ -211,6 +306,36 @@ def init_settings() -> (List, Dict):
             "threshold": st_piv2_threshold,
         }
     if "Secrets" in st_enabled_scanners:
         st_sec_expander = st.sidebar.expander(
             "Secrets",
@@ -301,6 +426,8 @@ def get_scanner(scanner_name: str, vault: Vault, settings: Dict):
             entity_types=settings["entity_types"],
             preamble=settings["preamble"],
             use_faker=settings["use_faker"],
         )
     if scanner_name == "BanSubstrings":
@@ -309,6 +436,7 @@ def get_scanner(scanner_name: str, vault: Vault, settings: Dict):
             match_type=settings["match_type"],
             case_sensitive=settings["case_sensitive"],
             redact=settings["redact"],
         )
     if scanner_name == "BanTopics":
@@ -326,12 +454,29 @@ def get_scanner(scanner_name: str, vault: Vault, settings: Dict):
         return Code(allowed=allowed_languages, denied=denied_languages)
     if scanner_name == "PromptInjection":
         return PromptInjection(threshold=settings["threshold"])
     if scanner_name == "PromptInjectionV2":
         return PromptInjectionV2(threshold=settings["threshold"])
     if scanner_name == "Secrets":
         return Secrets(redact_mode=settings["redact_mode"])

     BanSubstrings,
     BanTopics,
     Code,
+    Language,
     PromptInjection,
     PromptInjectionV2,
+    Regex,
     Secrets,
     Sentiment,
     TokenLimit,
     Toxicity,
 )
 from llm_guard.input_scanners.anonymize import default_entity_types
+from llm_guard.input_scanners.anonymize_helpers.analyzer import allowed_recognizers
 from llm_guard.vault import Vault
 logger = logging.getLogger("llm-guard-playground")
         "BanSubstrings",
         "BanTopics",
         "Code",
+        "Language",
         "PromptInjection",
         "PromptInjectionV2",
+        "Regex",
         "Secrets",
         "Sentiment",
         "TokenLimit",
             st_anon_use_faker = st.checkbox(
                 "Use Faker", value=False, help="Use Faker library to generate fake data"
             )
+            st_anon_threshold = st.slider(
+                label="Threshold",
+                value=0,
+                min_value=0.0,
+                max_value=1.0,
+                step=0.1,
+                key="anon_threshold",
+            )
+            st_anon_recognizer = st.selectbox(
+                "Recognizer",
+                allowed_recognizers,
+                index=1,
+            )
         settings["Anonymize"] = {
             "entity_types": st_anon_entity_types,
             "allowed_names": st_anon_allowed_names,
             "preamble": st_anon_preamble,
             "use_faker": st_anon_use_faker,
+            "threshold": st_anon_threshold,
+            "recognizer": st_anon_recognizer,
         }
     if "BanSubstrings" in st_enabled_scanners:
             st_bs_match_type = st.selectbox("Match type", ["str", "word"])
             st_bs_case_sensitive = st.checkbox("Case sensitive", value=False)
             st_bs_redact = st.checkbox("Redact", value=False)
+            st_bs_contains_all = st.checkbox("Contains all", value=False)
         settings["BanSubstrings"] = {
             "substrings": st_bs_substrings,
             "match_type": st_bs_match_type,
             "case_sensitive": st_bs_case_sensitive,
             "redact": st_bs_redact,
+            "contains_all": st_bs_contains_all,
         }
     if "BanTopics" in st_enabled_scanners:
             st_bt_topics = st_tags(
                 label="List of topics",
                 text="Type and press enter",
+                value=["violence"],
                 suggestions=[],
                 maxtags=30,
                 key="bt_topics",
             st_bt_threshold = st.slider(
                 label="Threshold",
+                value=0.6,
                 min_value=0.0,
                 max_value=1.0,
                 step=0.05,
             "mode": st_cd_mode,
         }
+    if "Language" in st_enabled_scanners:
+        st_lan_expander = st.sidebar.expander(
+            "Language",
+            expanded=False,
+        )
+        with st_lan_expander:
+            st_lan_valid_language = st.multiselect(
+                "Languages",
+                [
+                    "af",
+                    "ar",
+                    "bg",
+                    "bn",
+                    "ca",
+                    "cs",
+                    "cy",
+                    "da",
+                    "de",
+                    "el",
+                    "en",
+                    "es",
+                    "et",
+                    "fa",
+                    "fi",
+                    "fr",
+                    "gu",
+                    "he",
+                    "hi",
+                    "hr",
+                    "hu",
+                    "id",
+                    "it",
+                    "ja",
+                    "kn",
+                    "ko",
+                    "lt",
+                    "lv",
+                    "mk",
+                    "ml",
+                    "mr",
+                    "ne",
+                    "nl",
+                    "no",
+                    "pa",
+                    "pl",
+                    "pt",
+                    "ro",
+                    "ru",
+                    "sk",
+                    "sl",
+                    "so",
+                    "sq",
+                    "sv",
+                    "sw",
+                    "ta",
+                    "te",
+                    "th",
+                    "tl",
+                    "tr",
+                    "uk",
+                    "ur",
+                    "vi",
+                    "zh-cn",
+                    "zh-tw",
+                ],
+                default=["en"],
+            )
+        settings["Language"] = {
+            "valid_languages": st_lan_valid_language,
+        }
     if "PromptInjection" in st_enabled_scanners:
         st_pi_expander = st.sidebar.expander(
             "Prompt Injection",
             "threshold": st_piv2_threshold,
         }
+    if "Regex" in st_enabled_scanners:
+        st_regex_expander = st.sidebar.expander(
+            "Regex",
+            expanded=False,
+        )
+        with st_regex_expander:
+            st_regex_patterns = st.text_area(
+                "Enter patterns to ban (one per line)",
+                value="Bearer [A-Za-z0-9-._~+/]+",
+                height=200,
+            ).split("\n")
+            st_regex_type = st.selectbox(
+                "Match type",
+                ["good", "bad"],
+                index=1,
+                help="good: allow only good patterns, bad: ban bad patterns",
+            )
+            st_redact = st.checkbox(
+                "Redact", value=False, help="Replace the matched bad patterns with [REDACTED]"
+            )
+        settings["Regex"] = {
+            "patterns": st_regex_patterns,
+            "type": st_regex_type,
+            "redact": st_redact,
+        }
     if "Secrets" in st_enabled_scanners:
         st_sec_expander = st.sidebar.expander(
             "Secrets",
             entity_types=settings["entity_types"],
             preamble=settings["preamble"],
             use_faker=settings["use_faker"],
+            threshold=settings["threshold"],
+            recognizer=settings["recognizer"],
         )
     if scanner_name == "BanSubstrings":
             match_type=settings["match_type"],
             case_sensitive=settings["case_sensitive"],
             redact=settings["redact"],
+            contains_all=settings["contains_all"],
         )
     if scanner_name == "BanTopics":
         return Code(allowed=allowed_languages, denied=denied_languages)
+    if scanner_name == "Language":
+        return Language(valid_languages=settings["valid_languages"])
     if scanner_name == "PromptInjection":
         return PromptInjection(threshold=settings["threshold"])
     if scanner_name == "PromptInjectionV2":
         return PromptInjectionV2(threshold=settings["threshold"])
+    if scanner_name == "Regex":
+        match_type = settings["type"]
+        good_patterns = None
+        bad_patterns = None
+        if match_type == "good":
+            good_patterns = settings["patterns"]
+        elif match_type == "bad":
+            bad_patterns = settings["patterns"]
+        return Regex(
+            good_patterns=good_patterns, bad_patterns=bad_patterns, redact=settings["redact"]
+        )
     if scanner_name == "Secrets":
         return Secrets(redact_mode=settings["redact_mode"])

prompt_text.txt CHANGED Viewed

@@ -2,14 +2,14 @@ Given the personal profile of Johnathan Edward Doe, please summarize the followi
 Profile:
-- Full Name: Johnathan Edward Doe
-- Date of Birth: April 12, 1990
-- Address: 123 Elm Street, Springfield, IL, 62701
-- Email: [email protected]
-- Phone Number: (123) 456-7890
 - Educational Background:
-    - Springfield High School, Graduated in 2008
-    - Springfield University, B.Sc. Computer Science, Graduated in 2012
 - Employment:
-    - ABC Tech Solutions, Software Engineer, 2012-2015
-    - XYZ Global Systems, Senior Software Developer, 2015-2021

 Profile:
+- Full Name: Johnathan Edward Doe.
+- Date of Birth: April 12, 1990.
+- Address: 123 Elm Street, Springfield, IL, 62701.
+- Email: [email protected].
+- Phone Number: (123) 456-7890.
 - Educational Background:
+    - Springfield High School, Graduated in 2008;
+    - Springfield University, B.Sc. Computer Science, Graduated in 2012.
 - Employment:
+    - ABC Tech Solutions, Software Engineer, 2012-2015;
+    - XYZ Global Systems, Senior Software Developer, 2015-2021.

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
-llm-guard==0.2.4
 pandas==2.1.0
 streamlit==1.26.0
 streamlit-tags==1.2.8

+https://huggingface.co/beki/en_spacy_pii_distilbert/resolve/main/en_spacy_pii_distilbert-any-py3-none-any.whl
+llm-guard==0.3.0
 pandas==2.1.0
 streamlit==1.26.0
 streamlit-tags==1.2.8