DavidFM43 commited on
Commit
4ca3c57
·
1 Parent(s): c62748c
Files changed (3) hide show
  1. app.py +25 -59
  2. article.txt +36 -0
  3. requirements.txt +1 -2
app.py CHANGED
@@ -1,34 +1,35 @@
1
  import gradio as gr
2
- import torch
3
- from peft import PeftModel, PeftConfig
4
- from transformers import AutoModelForCausalLM, AutoTokenizer
5
-
6
- peft_model_id = "hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es"
7
- config = PeftConfig.from_pretrained(peft_model_id)
8
- model = AutoModelForCausalLM.from_pretrained(
9
- "DavidFM43/bertin-gpt-j-6b-half-sharded",
10
- return_dict=True,
11
- load_in_8bit=True,
12
- device_map="auto",
13
- )
14
- tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
15
- # load the Lora model
16
- model = PeftModel.from_pretrained(model, peft_model_id)
17
- model.eval()
18
 
19
 
20
  def gen_entities(text):
21
  """Does Named Entity Recognition in the given text."""
22
 
23
- text = f"<SP> text: {text}\n\n entities:"
24
- batch = tokenizer(text, return_tensors="pt")
25
- batch["input_ids"] = batch["input_ids"].to("cuda")
26
- with torch.cuda.amp.autocast():
27
- output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)
28
 
29
- response = tokenizer.batch_decode(output_tokens.detach().cpu().numpy(), skip_special_tokens=False)[0]
30
 
31
- return response[response.find("entities") : response.find("<EP>")]
 
32
 
33
 
34
  iface = gr.Interface(
@@ -47,41 +48,6 @@ iface = gr.Interface(
47
  "El viaje de Chihiro es una película de animación japonesa estrenada "
48
  " el 20 de julio de 2001. Fue dirigida por Hayao Miyazaki y producida en el Studio Ghibli",
49
  ],
50
- article="""
51
- ## Motivación
52
- Los podcasts son una increíble fuente de información e inspiración. Los escuchamos de camino al trabajo, mientras practicamos deportes o cocinando nuestra receta favorita. No obstante, puede ser complicado retener ciertos hechos específicos, fechas o personajes que mencionan en ellos. El objetivo de este proyecto ha sido explorar cómo podemos capturar toda esta información usando ‘named-entity recognition’.
53
-
54
-
55
- En vez de usar un modelo de lenguaje fine-tuned con una head específica para NER, hemos replanteado el problema como una tarea de generación de texto a partir de un prompt del tipo:
56
-
57
- ```
58
- text: Yo hoy voy a hablar de mujeres en el mundo del arte, porque he leído un libro fantástico que se llama Historia del arte sin hombres, de Katie Hesel.\nentities: (people, Katie Hesel), (books, Historia del arte sin hombres)
59
- ```
60
-
61
- Al hacer fine-tuning a un LLM con este prompt, hemos podido capturar las entidades mencionadas en el podcast. Hicimos fine-tuning al modelo [bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) siguiendo esta estrategia.
62
-
63
-
64
- ## Model
65
-
66
-
67
- Este modelo es una vesion fine-tuned para la tarea de named-entity recognition del LLM fundacional en español [bertin-project/bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) checkpoint. Este modelo fue desarrollado durante la Hackathon de 2023 organizada por SomosNLP con las GPUs RTX 3090 provisionadas por Q Blocks.
68
-
69
-
70
- Link del modelo: [hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es](https://huggingface.co/hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es)
71
-
72
-
73
- ## Dataset
74
-
75
-
76
- Link del dataset: [hackathon-somos-nlp-2023/podcasts-ner-es](https://huggingface.co/datasets/hackathon-somos-nlp-2023/podcasts-ner-es)
77
-
78
-
79
- ## Team members
80
-
81
-
82
- [David Mora](https://huggingface.co/DavidFM43)
83
- [Sergio Perez](https://huggingface.co/sergiopperez)
84
- [Albeto Fernandez](https://huggingface.co/AlbertoFH98)
85
- """,
86
  )
87
  iface.launch()
 
1
  import gradio as gr
2
+ # import torch
3
+ # from peft import PeftModel, PeftConfig
4
+ # from transformers import AutoModelForCausalLM, AutoTokenizer
5
+
6
+ # peft_model_id = "hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es"
7
+ # config = PeftConfig.from_pretrained(peft_model_id)
8
+ # model = AutoModelForCausalLM.from_pretrained(
9
+ # "DavidFM43/bertin-gpt-j-6b-half-sharded",
10
+ # return_dict=True,
11
+ # load_in_8bit=True,
12
+ # device_map="auto",
13
+ # )
14
+ # tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
15
+ # # load the Lora model
16
+ # model = PeftModel.from_pretrained(model, peft_model_id)
17
+ # model.eval()
18
 
19
 
20
  def gen_entities(text):
21
  """Does Named Entity Recognition in the given text."""
22
 
23
+ # text = f"<SP> text: {text}\n\n entities:"
24
+ # batch = tokenizer(text, return_tensors="pt")
25
+ # batch["input_ids"] = batch["input_ids"].to("cuda")
26
+ # with torch.cuda.amp.autocast():
27
+ # output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)
28
 
29
+ # response = tokenizer.batch_decode(output_tokens.detach().cpu().numpy(), skip_special_tokens=False)[0]
30
 
31
+ # return response[response.find("entities") : response.find("<EP>")]
32
+ return ""
33
 
34
 
35
  iface = gr.Interface(
 
48
  "El viaje de Chihiro es una película de animación japonesa estrenada "
49
  " el 20 de julio de 2001. Fue dirigida por Hayao Miyazaki y producida en el Studio Ghibli",
50
  ],
51
+ article=open("article.txt").read(),
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
52
  )
53
  iface.launch()
article.txt ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ **Nota: El grant de GPU de la Hackathon fue removido y por lo tanto el space no esta disponible.**
2
+
3
+ ## Motivación
4
+ Los podcasts son una increíble fuente de información e inspiración. Los escuchamos de camino al trabajo, mientras practicamos deportes o cocinando nuestra receta favorita. No obstante, puede ser complicado retener ciertos hechos específicos, fechas o personajes que mencionan en ellos. El objetivo de este proyecto ha sido explorar cómo podemos capturar toda esta información usando ‘named-entity recognition’.
5
+
6
+
7
+ En vez de usar un modelo de lenguaje fine-tuned con una head específica para NER, hemos replanteado el problema como una tarea de generación de texto a partir de un prompt del tipo:
8
+
9
+ ```
10
+ text: Yo hoy voy a hablar de mujeres en el mundo del arte, porque he leído un libro fantástico que se llama Historia del arte sin hombres, de Katie Hesel.\nentities: (people, Katie Hesel), (books, Historia del arte sin hombres)
11
+ ```
12
+
13
+ Al hacer fine-tuning a un LLM con este prompt, hemos podido capturar las entidades mencionadas en el podcast. Hicimos fine-tuning al modelo [bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) siguiendo esta estrategia.
14
+
15
+
16
+ ## Model
17
+
18
+
19
+ Este modelo es una vesion fine-tuned para la tarea de named-entity recognition del LLM fundacional en español [bertin-project/bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) checkpoint. Este modelo fue desarrollado durante la Hackathon de 2023 organizada por SomosNLP con las GPUs RTX 3090 provisionadas por Q Blocks.
20
+
21
+
22
+ Link del modelo: [hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es](https://huggingface.co/hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es)
23
+
24
+
25
+ ## Dataset
26
+
27
+
28
+ Link del dataset: [hackathon-somos-nlp-2023/podcasts-ner-es](https://huggingface.co/datasets/hackathon-somos-nlp-2023/podcasts-ner-es)
29
+
30
+
31
+ ## Team members
32
+
33
+
34
+ [David Mora](https://huggingface.co/DavidFM43)
35
+ [Sergio Perez](https://huggingface.co/sergiopperez)
36
+ [Albeto Fernandez](https://huggingface.co/AlbertoFH98)
requirements.txt CHANGED
@@ -4,5 +4,4 @@ transformers==4.30.2
4
  torch==2.0.0
5
  bitsandbytes==0.39.1
6
  loralib==0.1.1
7
- accelerate==0.20.3
8
- scipy==1.9.3
 
4
  torch==2.0.0
5
  bitsandbytes==0.39.1
6
  loralib==0.1.1
7
+ accelerate==0.20.3