Spaces:

vialibre
/

edia_lmodels_en

Runtime error

App Files Files Community

nanom commited on Dec 19, 2022

Commit

0a7346e

1 Parent(s): c05d0d5

Added type hinting and config file

Browse files

Files changed (12) hide show

.gitignore +1 -1
app.py +9 -4
examples/examples_en.py +32 -1
interfaces/{interface_sesgoEnFrases.py → interface_biasPhrase.py} +8 -2
interfaces/interface_crowsPairs.py +8 -2
language/.gitignore +1 -1
language/{english.json → en.json} +50 -1
modules/module_connection.py +8 -15
modules/module_crowsPairs.py +6 -18
modules/module_languageModel.py +6 -5
modules/module_rankSents.py +7 -7
tool.cfg +11 -0

.gitignore CHANGED Viewed

@@ -1,3 +1,3 @@
 __pycache__/
 .env
-logs_edia_lmodels_english/

 __pycache__/
 .env
+logs_edia_lmodels_en/

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # --- Imports libs ---
 import gradio as gr
 import pandas as pd
 # --- Imports modules ---
@@ -8,14 +9,18 @@ from modules.module_languageModel import LanguageModel
 # --- Imports interfaces ---
-from interfaces.interface_sesgoEnFrases import interface as interface_sesgoEnFrases
 from interfaces.interface_crowsPairs import interface as interface_crowsPairs
 # --- Tool config ---
-LANGUAGE_MODEL  = "bert-base-multilingual-uncased"
-LANGUAGE        = "english"                                     # [english]
-AVAILABLE_LOGS  = True                                          # [True | False]
 # --- Init classes ---

 # --- Imports libs ---
 import gradio as gr
 import pandas as pd
+import configparser
 # --- Imports modules ---
 # --- Imports interfaces ---
+from interfaces.interface_biasPhrase import interface as interface_sesgoEnFrases
 from interfaces.interface_crowsPairs import interface as interface_crowsPairs
 # --- Tool config ---
+cfg = configparser.ConfigParser()
+cfg.read('tool.cfg')
+LANGUAGE            = cfg['INTERFACE']['language']
+LANGUAGE_MODEL      = cfg['LMODEL']['language_model']
+AVAILABLE_LOGS      = cfg['LOGS'].getboolean('available_logs')
 # --- Init classes ---

examples/examples_en.py CHANGED Viewed

@@ -1,4 +1,35 @@
-# Examples Sesgos en frases
 examples_sesgos_frases = [
     ["The * people are better basketball players.", "black, white"],
     ["Beethoven is a *.", "musician, dog"],

+fem_words = 'woman,girl,her,mother,daughter,feminine'
+masc_words = 'man,boy,him,father,son,masculine'
+young_words = 'young,immature,kid,child'
+old_words = 'old,mature,elderly,adult'
+diagnose_words = 'education,cook,wash,sports,clothes,fight,nurse,win,leader,saw,nurse,surgeon,king,queen'
+positive_money_words = 'save,economize,administer,manage,business,benefits'
+negative_money_words = 'waste,squander'
+diagnose_money = 'german,australian,argentinian,millionaire,rich,poor'
+lazy_words = 'lazy, sluggish, slacker'
+active_words = 'active, effort , worker'
+examples1_explorar_sesgo_en_palabras = [
+    [fem_words, masc_words, diagnose_words],
+    [old_words, young_words, diagnose_words],
+    [positive_money_words, negative_money_words, diagnose_money],
+    [lazy_words, active_words, diagnose_money]
+]
+examples2_explorar_sesgo_en_palabras = [
+    [fem_words, masc_words, young_words, old_words, diagnose_words],
+    [lazy_words, active_words, positive_money_words, negative_money_words,diagnose_money],
+]
+examples_explorar_relaciones_entre_palabras = [
+    [diagnose_words, fem_words, masc_words, young_words, old_words],
+    [diagnose_money, lazy_words, active_words, positive_money_words, negative_money_words],
+]
+# Examples bias phrase
 examples_sesgos_frases = [
     ["The * people are better basketball players.", "black, white"],
     ["Beethoven is a *.", "musician, dog"],

interfaces/{interface_sesgoEnFrases.py → interface_biasPhrase.py} RENAMED Viewed

@@ -3,15 +3,21 @@ import pandas as pd
 from tool_info import TOOL_INFO
 from modules.module_logsManager import HuggingFaceDatasetSaver
 from modules.module_connection import PhraseBiasExplorerConnector
-from examples.examples_en import examples_sesgos_frases
 def interface(
     language_model: str,
     available_logs: bool,
-    lang: str="english"
 ) -> gr.Blocks:
     # --- Init logs ---
     log_callback = HuggingFaceDatasetSaver(
         available_logs=available_logs,

 from tool_info import TOOL_INFO
 from modules.module_logsManager import HuggingFaceDatasetSaver
 from modules.module_connection import PhraseBiasExplorerConnector
 def interface(
     language_model: str,
     available_logs: bool,
+    lang: str="es"
 ) -> gr.Blocks:
+    # -- Load examples --
+    if lang == 'es':
+        from examples.examples_es import examples_sesgos_frases
+    elif lang == 'en':
+        from examples.examples_en import examples_sesgos_frases
     # --- Init logs ---
     log_callback = HuggingFaceDatasetSaver(
         available_logs=available_logs,

interfaces/interface_crowsPairs.py CHANGED Viewed

@@ -3,15 +3,21 @@ import pandas as pd
 from tool_info import TOOL_INFO
 from modules.module_logsManager import HuggingFaceDatasetSaver
 from modules.module_connection import CrowsPairsExplorerConnector
-from examples.examples_en import examples_crows_pairs
 def interface(
     language_model: str,
     available_logs: bool,
-    lang: str="english"
 ) -> gr.Blocks:
     # --- Init logs ---
     log_callback = HuggingFaceDatasetSaver(
         available_logs=available_logs,

 from tool_info import TOOL_INFO
 from modules.module_logsManager import HuggingFaceDatasetSaver
 from modules.module_connection import CrowsPairsExplorerConnector
 def interface(
     language_model: str,
     available_logs: bool,
+    lang: str="es"
 ) -> gr.Blocks:
+    # -- Load examples --
+    if lang == 'es':
+        from examples.examples_es import examples_crows_pairs
+    elif lang == 'en':
+        from examples.examples_en import examples_crows_pairs
     # --- Init logs ---
     log_callback = HuggingFaceDatasetSaver(
         available_logs=available_logs,

language/.gitignore CHANGED Viewed

	@@ -1,2 +1,2 @@
1	__pycache__
2	- ~~spanish~~.json


1	__pycache__
2	+ es.json

language/{english.json → en.json} RENAMED Viewed

@@ -1,8 +1,43 @@
 {
     "app": {
         "phraseExplorer": "Phrase bias",
         "crowsPairsExplorer": "Crows-Pairs"
     },
     "PhraseExplorer_interface": {
         "step1": "1. Enter a sentence",
         "step2": "2. Enter words of interest (Optional)",
@@ -12,7 +47,7 @@
             "placeholder": "Use * to mask the word of interest."
         },
         "wordList": {
-            "title": "Words of interest",
             "placeholder": "The words in the list must be comma separated"
         },
         "bannedWordList": {
@@ -26,6 +61,20 @@
         "plot": "Display of proportions",
         "examples": "Examples"
     },
     "CrowsPairs_interface": {
         "title": "1. Enter sentences to compare",
         "sent0": "Sentence Nº 1 (*)",

 {
     "app": {
+        "wordExplorer": "Word explorer",
+        "biasWordExplorer": "Word bias",
+        "dataExplorer": "Data",
         "phraseExplorer": "Phrase bias",
         "crowsPairsExplorer": "Crows-Pairs"
     },
+    "WordExplorer_interface": {
+        "title": "Write some words to visualize their related ones",
+        "wordList1": "Word list 1",
+        "wordList2": "Word list 2",
+        "wordList3": "Word list 3",
+        "wordList4": "Word list 4",
+        "wordListToDiagnose": "List of words to be diagnosed",
+        "plotNeighbours": {
+            "title": "Plot neighbours words",
+            "quantity": "Quantity"
+        },
+        "options": {
+            "font-size": "Font size",
+            "transparency": "Transparency"
+        },
+        "plot_button": "Plot in the space!",
+        "examples": "Examples"
+    },
+    "BiasWordExplorer_interface": {
+        "step1": "1. Write comma separated words to be diagnosed",
+        "step2&2Spaces": "2. For plotting 2 spaces, fill in the following lists:",
+        "step2&4Spaces": "2. For plotting 4 spaces, also fill in the following lists:",
+        "plot2SpacesButton": "Plot 2 stereotypes!",
+        "plot4SpacesButton": "Plot 4 stereotypes!",
+        "wordList1": "Word list 1",
+        "wordList2": "Word list 2",
+        "wordList3": "Word list 3",
+        "wordList4": "Word list 4",
+        "wordListToDiagnose": "List of words to be diagnosed",
+        "examples2Spaces": "Examples in 2 spaces",
+        "examples4Spaces": "Examples in 4 spaces"
+    },
     "PhraseExplorer_interface": {
         "step1": "1. Enter a sentence",
         "step2": "2. Enter words of interest (Optional)",
             "placeholder": "Use * to mask the word of interest."
         },
         "wordList": {
+            "title": "Word List",
             "placeholder": "The words in the list must be comma separated"
         },
         "bannedWordList": {
         "plot": "Display of proportions",
         "examples": "Examples"
     },
+    "DataExplorer_interface": {
+        "step1": "1. Enter a word of interest",
+        "step2": "2. Select maximum number of contexts to retrieve",
+        "step3": "3. Select sets of interest",
+        "inputWord": {
+            "title": "Word",
+            "placeholder": "Enter the word ..."
+        },
+        "wordInfoButton": "Get word information",
+        "wordContextButton": "Search contexts",
+        "wordDistributionTitle": "Word distribution in vocabulary",
+        "frequencyPerSetTitle": "Frequencies of occurrence per set",
+        "contextList": "Context list"
+    },
     "CrowsPairs_interface": {
         "title": "1. Enter sentences to compare",
         "sent0": "Sentence Nº 1 (*)",

modules/module_connection.py CHANGED Viewed

@@ -1,15 +1,14 @@
 from modules.module_rankSents import RankSents
 from modules.module_crowsPairs import CrowsPairs
 from typing import List, Tuple
-from abc import ABC
 class Connector(ABC):
     def parse_word(
         self,
         word: str
     ) -> str:
         return word.lower().strip()
     def parse_words(
@@ -20,6 +19,7 @@ class Connector(ABC):
         words = array_in_string.strip()
         if not words:
             return []
         words = [
             self.parse_word(word)
             for word in words.split(',') if word.strip() != ''
@@ -31,11 +31,9 @@ class Connector(ABC):
         err: str
     ) -> str:
-        # Mod
         if err:
             err = "<center><h3>" + err + "</h3></center>"
-        return err
 class PhraseBiasExplorerConnector(Connector):
     def __init__(
@@ -43,13 +41,8 @@ class PhraseBiasExplorerConnector(Connector):
         **kwargs
     ) -> None:
-        # Mod
-        if 'language_model' in kwargs:
             language_model = kwargs.get('language_model')
-        else:
-            raise KeyError
-        if 'lang' in kwargs:
             lang =  kwargs.get('lang')
         else:
             raise KeyError
@@ -90,7 +83,6 @@ class PhraseBiasExplorerConnector(Connector):
         all_plls_scores = self.phrase_bias_explorer.Label.compute(all_plls_scores)
         return self.process_error(err), all_plls_scores, ""
 class CrowsPairsExplorerConnector(Connector):
     def __init__(
         self,
@@ -116,15 +108,16 @@ class CrowsPairsExplorerConnector(Connector):
         sent5: str
     ) -> Tuple:
         err = self.crows_pairs_explorer.errorChecking(
-            sent0, sent1, sent2, sent3, sent4, sent5
         )
         if err:
             return self.process_error(err), "", ""
         all_plls_scores = self.crows_pairs_explorer.rank(
-            sent0, sent1, sent2, sent3, sent4, sent5
         )
         all_plls_scores = self.crows_pairs_explorer.Label.compute(all_plls_scores)

+from abc import ABC
 from modules.module_rankSents import RankSents
 from modules.module_crowsPairs import CrowsPairs
 from typing import List, Tuple
 class Connector(ABC):
     def parse_word(
         self,
         word: str
     ) -> str:
         return word.lower().strip()
     def parse_words(
         words = array_in_string.strip()
         if not words:
             return []
         words = [
             self.parse_word(word)
             for word in words.split(',') if word.strip() != ''
         err: str
     ) -> str:
         if err:
             err = "<center><h3>" + err + "</h3></center>"
+        return err
 class PhraseBiasExplorerConnector(Connector):
     def __init__(
         **kwargs
     ) -> None:
+        if 'language_model' in kwargs and 'lang' in kwargs:
             language_model = kwargs.get('language_model')
             lang =  kwargs.get('lang')
         else:
             raise KeyError
         all_plls_scores = self.phrase_bias_explorer.Label.compute(all_plls_scores)
         return self.process_error(err), all_plls_scores, ""
 class CrowsPairsExplorerConnector(Connector):
     def __init__(
         self,
         sent5: str
     ) -> Tuple:
+        sent_list = [sent0, sent1, sent2, sent3, sent4, sent5]
         err = self.crows_pairs_explorer.errorChecking(
+            sent_list
         )
         if err:
             return self.process_error(err), "", ""
         all_plls_scores = self.crows_pairs_explorer.rank(
+            sent_list
         )
         all_plls_scores = self.crows_pairs_explorer.Label.compute(all_plls_scores)

modules/module_crowsPairs.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from modules.module_customPllLabel import CustomPllLabel
 from modules.module_pllScore import PllScore
-from typing import Dict
 class CrowsPairs:
     def __init__(
@@ -15,19 +15,13 @@ class CrowsPairs:
     def errorChecking(
         self,
-        sent0: str,
-        sent1: str,
-        sent2: str,
-        sent3: str,
-        sent4: str,
-        sent5: str
     ) -> str:
         out_msj = ""
-        all_sents = [sent0, sent1, sent2, sent3, sent4, sent5]
         mandatory_sents = [0,1]
-        for sent_id, sent in enumerate(all_sents):
             c_sent = sent.strip()
             if c_sent:
                 if not self.pllScore.sentIsCorrect(c_sent):
@@ -42,21 +36,15 @@ class CrowsPairs:
     def rank(
         self,
-        sent0: str,
-        sent1: str,
-        sent2: str,
-        sent3: str,
-        sent4: str,
-        sent5: str
     ) -> Dict[str, float]:
-        err = self.errorChecking(sent0, sent1, sent2, sent3, sent4, sent5)
         if err:
             raise Exception(err)
-        all_sents = [sent0, sent1, sent2, sent3, sent4, sent5]
         all_plls_scores = {}
-        for sent in all_sents:
             if sent:
                 all_plls_scores[sent] = self.pllScore.compute(sent)

 from modules.module_customPllLabel import CustomPllLabel
 from modules.module_pllScore import PllScore
+from typing import Dict, List
 class CrowsPairs:
     def __init__(
     def errorChecking(
         self,
+        sent_list: List[str],
     ) -> str:
         out_msj = ""
         mandatory_sents = [0,1]
+        for sent_id, sent in enumerate(sent_list):
             c_sent = sent.strip()
             if c_sent:
                 if not self.pllScore.sentIsCorrect(c_sent):
     def rank(
         self,
+        sent_list: List[str],
     ) -> Dict[str, float]:
+        err = self.errorChecking(sent_list)
         if err:
             raise Exception(err)
         all_plls_scores = {}
+        for sent in sent_list:
             if sent:
                 all_plls_scores[sent] = self.pllScore.compute(sent)

modules/module_languageModel.py CHANGED Viewed

@@ -1,22 +1,23 @@
-# --- Imports libs ---
 from transformers import AutoTokenizer, AutoModelForMaskedLM
 class LanguageModel:
     def __init__(
         self,
-        model_name: str
     ) -> None:
         print("Downloading language model...")
         self.__tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.__model = AutoModelForMaskedLM.from_pretrained(model_name)
     def initTokenizer(
         self
-    ):
         return self.__tokenizer
     def initModel(
         self
-    ):
         return self.__model

 from transformers import AutoTokenizer, AutoModelForMaskedLM
 class LanguageModel:
     def __init__(
         self,
+        model_name
     ) -> None:
         print("Downloading language model...")
         self.__tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.__model = AutoModelForMaskedLM.from_pretrained(model_name)
     def initTokenizer(
         self
+    ) -> AutoTokenizer:
         return self.__tokenizer
     def initModel(
         self
+    ) -> AutoModelForMaskedLM:
         return self.__model

modules/module_rankSents.py CHANGED Viewed

@@ -21,7 +21,7 @@ class RankSents:
         )
         self.softmax = torch.nn.Softmax(dim=-1)
-        if lang == "spanish":
             self.articles = [
                 'un','una','unos','unas','el','los','la','las','lo'
             ]
@@ -32,7 +32,7 @@ class RankSents:
                 'y','o','ni','que','pero','si'
             ]
-        elif lang == "english":
             self.articles = [
                 'a','an', 'the'
             ]
@@ -135,11 +135,11 @@ class RankSents:
     def rank(self,
         sent: str,
-        word_list: List[str],
-        banned_word_list: List[str],
-        articles: bool,
-        prepositions: bool,
-        conjunctions: bool
     ) -> Dict[str, float]:
         err = self.errorChecking(sent)

         )
         self.softmax = torch.nn.Softmax(dim=-1)
+        if lang == "es":
             self.articles = [
                 'un','una','unos','unas','el','los','la','las','lo'
             ]
                 'y','o','ni','que','pero','si'
             ]
+        elif lang == "en":
             self.articles = [
                 'a','an', 'the'
             ]
     def rank(self,
         sent: str,
+        word_list: List[str]=[],
+        banned_word_list: List[str]=[],
+        articles: bool=False,
+        prepositions: bool=False,
+        conjunctions: bool=False
     ) -> Dict[str, float]:
         err = self.errorChecking(sent)

tool.cfg ADDED Viewed

	@@ -0,0 +1,11 @@

+[INTERFACE]
+# ['es' | 'en']
+language            = en
+[LMODEL]
+# [bert-base-uncased | dccuchile/bert-base-spanish-wwm-uncased]
+language_model      = bert-base-uncased
+[LOGS]
+# [True | False]
+available_logs      = True