Spaces:

stinoco
/

first_demo

Runtime error

App Files Files Community

stinoco commited on Oct 16, 2022

Commit

9a541e5

1 Parent(s): ac345bb

adding objective and fixing punctuations

Browse files

Files changed (1) hide show

app.py +75 -20

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ from nltk import word_tokenize
 from nltk.util import ngrams
 from unidecode import unidecode
 nltk.download('punkt')
 # leemos diccionario de entidades
 diccionario = pd.read_excel('diccionario.xlsx')
@@ -18,14 +19,30 @@ entities_dict = {}
 for i in all_dicts:
   entities_dict.update(i)
-def predict(text):
   diccionario = entities_dict.copy()
   tokens = word_tokenize(text, language = 'spanish')
-  tokens_lower = [unidecode(token.lower()) for token in tokens] # tokens en minuscula
   dict_tokens = {tokens_lower[i]: tokens[i] for i in range(len(tokens))}
-  dict_keys = {unidecode(key.lower()): key for key in diccionario.keys()}
   # presencia de ngrams
   ngram_range = 5 # rango de ngramas a evaluar
@@ -39,7 +56,7 @@ def predict(text):
       grams_detected.update({nmin: intersection})
   sep = '%$·'
-  tmp_text = text
   for i in range(5, 1, -1):
     try:
       # obtener todos los ngramas de nivel "i"
@@ -69,6 +86,10 @@ def predict(text):
         labeled_tokens.append((token, None))
   # SERNAC CLASSIFICATION
   with open('sernac_model.pkl', 'rb') as model:
@@ -76,36 +97,70 @@ def predict(text):
   labels = [label for label in clf.classes_]
-  sernac_probas = clf.predict_proba([text])
-  sernac_probas = {labels[i]: float(sernac_probas[0][i]) for i in range(sernac_probas.shape[1])}
-  # SERNAC CATEGORIES CLASSIFICATION
-  with open('sernac_categories_model.pkl', 'rb') as model:
-    clf = pickle.load(model)
-  labels = [label for label in clf.classes_]
-  probas = clf.predict_proba([text])
-  sernac_categories = {labels[i]: float(probas[0][i]) for i in range(probas.shape[1])}
-  return labeled_tokens, sernac_probas, sernac_categories
 # DEMO
 demo = gr.Interface(
     predict,
-    inputs = gr.Textbox(placeholder = "Ingresa el texto acá", label = 'Texto'),
-    outputs = [gr.Highlightedtext(label = 'Etiquetas'), gr.outputs.Label(label = 'Clasificación Sernac'), gr.outputs.Label(label = 'Clasificación Categorías Sernac')],
     examples=[
-        ['este septiembre iremos manejando a temuco en un toyota para pasar las fiestas patrias'],
-        ['no puedo, tengo que irme desde san pedro hasta la reina y luego hasta san pedro de la paz'],
-        ['Buenas tardes, hace unas semanas compre un suzuki swift a derco de santiago, llevaba 2 semanas y la caja de cambios se echó a perder. Tengo asegurado el auto con BCI, pero aun no obtengo respuesta. ']
     ],
-    title = 'Detección de Entidades'
 )
 demo.launch()

 from nltk.util import ngrams
 from unidecode import unidecode
 nltk.download('punkt')
+import re
 # leemos diccionario de entidades
 diccionario = pd.read_excel('diccionario.xlsx')
 for i in all_dicts:
   entities_dict.update(i)
+def f_remove_accents(old: str):
+    '''
+    Función que limpia acentos de las letras.
+    old: texto a limpiar (str)
+    '''
+    new = re.sub(r'[àáâãäå]', 'a', old)
+    new = re.sub(r'[èéêë]', 'e', new)
+    new = re.sub(r'[ìíîï]', 'i', new)
+    new = re.sub(r'[òóôõö]', 'o', new)
+    new = re.sub(r'[ùúûü]', 'u', new)
+    return new
+def predict(text: str, goal = ''):
   diccionario = entities_dict.copy()
   tokens = word_tokenize(text, language = 'spanish')
+  #tokens_lower = [unidecode(token.lower()) for token in tokens] # tokens en minuscula
+  tokens_lower = [f_remove_accents(token.lower()) for token in tokens] # tokens en minuscula
   dict_tokens = {tokens_lower[i]: tokens[i] for i in range(len(tokens))}
+  #dict_keys = {unidecode(key.lower()): key for key in diccionario.keys()}
+  dict_keys = {f_remove_accents(key.lower()): key for key in diccionario.keys()}
   # presencia de ngrams
   ngram_range = 5 # rango de ngramas a evaluar
       grams_detected.update({nmin: intersection})
   sep = '%$·'
+  tmp_text = ' '.join(tokens_lower)
   for i in range(5, 1, -1):
     try:
       # obtener todos los ngramas de nivel "i"
         labeled_tokens.append((token, None))
+  # CLASSIFICATION
+  input = np.array([text, goal], ndmin = 2)
   # SERNAC CLASSIFICATION
   with open('sernac_model.pkl', 'rb') as model:
   labels = [label for label in clf.classes_]
+  probas = clf.predict_proba(input)
+  sernac_probas = {labels[i]: float(probas[0][i]) for i in range(probas.shape[1])}
+  sernac_categories, other_categories = {}, {}
+  if clf.predict(input) == 'SERNAC':
+    # SERNAC CATEGORIES CLASSIFICATION
+    with open('sernac_categories_model.pkl', 'rb') as model:
+      clf = pickle.load(model)
+    labels = [label for label in clf.classes_]
+    probas = clf.predict_proba(input)
+    sernac_categories = {labels[i]: float(probas[0][i]) for i in range(probas.shape[1])}
+  else:
+    # OTHER CATEGORIES CLASSIFICATION
+    with open('other_categories_model.pkl', 'rb') as model:
+      clf = pickle.load(model)
+    labels = [label for label in clf.classes_]
+    probas = clf.predict_proba(input)
+    other_categories = {labels[i]: float(probas[0][i]) for i in range(probas.shape[1])}
+  objective_categories = {}
+  if goal != '':
+    with open('objective_model.pkl', 'rb') as model:
+      clf = pickle.load(model)
+    labels = [label for label in clf.classes_]
+    probas = clf.predict_proba(input)
+    objective_categories = {labels[i]: float(probas[0][i]) for i in range(probas.shape[1])}
+  # RETURN
+  return labeled_tokens, sernac_probas, sernac_categories, other_categories, objective_categories
 # DEMO
 demo = gr.Interface(
     predict,
+    inputs = [gr.Textbox(placeholder = "Ingresa el reclamo acá", label = 'Reclamo'), gr.Textbox(placeholder = "Ingresa el objetivo acá (opcional)", label = 'Objetivo')],
+    outputs = [gr.Highlightedtext(label = 'Entidades detectadas'),
+               gr.outputs.Label(label = 'Clasificación SERNAC'),
+               gr.outputs.Label(label = 'Clasificación categorías SERNAC'),
+               gr.outputs.Label(label = 'Clasificación categorías No SERNAC'),
+               gr.outputs.Label(label = 'Clasificación objetivo')],
     examples=[
+        ['este septiembre iremos manejando a tEmUco en un tóyòtA para pasar las fiestas patrias', 'ir a temuco'],
+        ['no puedo, tengo que irme desde san pedro hasta la reina y luego hasta san pedro de la paz', ''],
+        ['Buenas tardes, hace unas semanas compre un suzuki swift a derco de santiago, llevaba 2 semanas y la caja de cambios se echó a perder. Tengo asegurado el auto con BCI, pero aun no obtengo respuesta.', 'exijo una explicación!'],
+        ['Tengo un toyota urban cruiser 1.3 año 2010 el cual consume mucho aceite y nunca me han respondido si tiene alguna solución o garantía me gustaría que fueran más concretas las respuestas gracias', 'Obtener una solucion Que reparación hay que hacer o si tiene garantía?'],
+        ['Mi auto del año presenta Falla de motor y sensores siendo que lo compre nuevo 0km y tiene recién 5400kms.. Es un Peugeot 2008 gti... El servicio es como las pelotas.. Me mandaron a un servicio técnico en Calama que estaba cerrado', '']
     ],
+    title = 'Demo ML'
 )
 demo.launch()