Spaces:

camilaaeromoca
/

LLM_gradio

Sleeping

App Files Files Community

camilaaeromoca commited on Feb 26, 2024

Commit

9b1d856

verified ·

1 Parent(s): 6e1ea3b

Delete Mini-Projeto3-Modelagem.ipynb

Browse files

Files changed (1) hide show

Mini-Projeto3-Modelagem.ipynb +0 -988

Mini-Projeto3-Modelagem.ipynb DELETED Viewed

@@ -1,988 +0,0 @@
-{
- "cells": [
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# <font color='blue'>Data Science Academy</font>\n",
-    "# <font color='blue'>Deep Learning Para Aplicações de IA com PyTorch e Lightning</font>\n",
-    "\n",
-    "## <font color='blue'>Mini-Projeto 3 - Modelagem</font>\n",
-    "## <font color='blue'>Fine-Tuning de Modelo LLM Para Tarefa Específica e Deploy de Web App com Gradio</font>"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "![DSA](imagens/MP3.png)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Instalando e Carregando os Pacotes"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 1,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.10.9\n"
-     ]
-    }
-   ],
-   "source": [
-    "# Versão da Linguagem Python\n",
-    "from platform import python_version\n",
-    "print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 2,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:\n",
-    "# pip install -U nome_pacote\n",
-    "\n",
-    "# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:\n",
-    "# !pip install nome_pacote==versão_desejada\n",
-    "\n",
-    "# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.\n",
-    "\n",
-    "# Instala o pacote watermark. \n",
-    "# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.\n",
-    "!pip install -q -U watermark"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "env: TF_CPP_MIN_LOG_LEVEL=3\n"
-     ]
-    }
-   ],
-   "source": [
-    "%env TF_CPP_MIN_LOG_LEVEL=3"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 4,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "!pip install -q torch==2.0.1"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "!pip install -q transformers==4.31.0"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "!pip install -q accelerate"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Imports\n",
-    "import torch\n",
-    "import transformers\n",
-    "import numpy as np\n",
-    "import torch.nn.functional as F\n",
-    "from accelerate import Accelerator\n",
-    "from torch.utils.data import Dataset\n",
-    "from transformers import AutoConfig, AutoModelForCausalLM, GPT2Tokenizer\n",
-    "from transformers import GPT2Tokenizer"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 8,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Author: Data Science Academy\n",
-      "\n",
-      "numpy       : 1.23.5\n",
-      "torch       : 2.0.1\n",
-      "transformers: 4.31.0\n",
-      "\n"
-     ]
-    }
-   ],
-   "source": [
-    "# Versões dos pacotes usados neste jupyter notebook\n",
-    "%reload_ext watermark\n",
-    "%watermark -a \"Data Science Academy\" --iversions"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Carregando o LLM\n",
-    "\n",
-    "https://huggingface.co/gpt2\n",
-    "\n",
-    "O modelo terá a mesma arquitetura do GPT-2, mas com algumas modificações para torná-lo menor. As principais mudanças são o tamanho do vocabulário que é 13 porque só vai lidar com números mais o padding token, o \"+\" e o \"=\". A janela de contexto suportará apenas 6 tokens, pois estamos interessados apenas em realizar a adição de dois dígitos únicos."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Tamanho do vocabulário\n",
-    "vocab_size = 13"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 10,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Comprimento da sequência\n",
-    "sequence_length = 4"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 11,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Comprimento do resultado\n",
-    "result_length = 2"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 12,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Comprimento do contexto\n",
-    "context_length = sequence_length + result_length"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 13,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Parâmetros de configuração do modelo GPT-2\n",
-    "config = AutoConfig.from_pretrained(\"gpt2\", \n",
-    "                                    vocab_size = vocab_size, \n",
-    "                                    n_ctx = context_length, \n",
-    "                                    n_head = 4, \n",
-    "                                    n_layer = 2) "
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 14,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Carrega o modelo\n",
-    "modelo = AutoModelForCausalLM.from_config(config)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 15,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Função para calcular o tamanho do modelo\n",
-    "def model_size(model):\n",
-    "    return sum(t.numel() for t in modelo.parameters())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 16,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Tamanho do Modelo: 15.0M parâmetros\n"
-     ]
-    }
-   ],
-   "source": [
-    "print(f'Tamanho do Modelo: {model_size(modelo)/1000**2:.1f}M parâmetros')"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Este modelo tem 15 milhões de parâmetros em vez dos 111 milhões de parâmetros da configuração padrão \"gpt2\"."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 17,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel"
-      ]
-     },
-     "execution_count": 17,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "type(modelo)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 18,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Salva o modelo em disco\n",
-    "modelo.save_pretrained(\"modelos/modelo_inicial\")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Tokenizador Personalizado"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 19,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Definindo uma classe chamada NumberTokenizer, que é usada para tokenizar os números\n",
-    "class DSATokenizer:\n",
-    "    \n",
-    "    # Método construtor da classe, que é executado quando um objeto dessa classe é criado\n",
-    "    def __init__(self, numbers_qty = 10):\n",
-    "        \n",
-    "        # Lista de tokens possíveis que o tokenizador pode encontrar\n",
-    "        vocab = ['+', '=', '-1', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9']\n",
-    "        \n",
-    "        # Definindo a quantidade de números que o tokenizador pode lidar\n",
-    "        self.numbers_qty = numbers_qty\n",
-    "        \n",
-    "        # Definindo o token de preenchimento (padding)\n",
-    "        self.pad_token = '-1'\n",
-    "        \n",
-    "        # Criando um dicionário que mapeia cada token para um índice único\n",
-    "        self.encoder = {str(v):i for i,v in enumerate(vocab)}\n",
-    "        \n",
-    "        # Criando um dicionário que mapeia cada índice único de volta ao token correspondente\n",
-    "        self.decoder = {i:str(v) for i,v in enumerate(vocab)}\n",
-    "        \n",
-    "        # Obtendo o índice do token de preenchimento no encoder\n",
-    "        self.pad_token_id = self.encoder[self.pad_token]\n",
-    "\n",
-    "    # Método para decodificar uma lista de IDs de token de volta para uma string\n",
-    "    def decode(self, token_ids):\n",
-    "        return ' '.join(self.decoder[t] for t in token_ids)\n",
-    "\n",
-    "    # Método que é chamado quando o objeto da classe é invocado como uma função\n",
-    "    def __call__(self, text):\n",
-    "        # Dividindo o texto em tokens individuais e retornando uma lista dos IDs correspondentes\n",
-    "        return [self.encoder[t] for t in text.split()]"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "> Vamos testar o tokenizador!"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 20,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Cria o objeto do tokenizador\n",
-    "tokenizer = DSATokenizer(vocab_size)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 21,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "{0: '+',\n",
-       " 1: '=',\n",
-       " 2: '-1',\n",
-       " 3: '0',\n",
-       " 4: '1',\n",
-       " 5: '2',\n",
-       " 6: '3',\n",
-       " 7: '4',\n",
-       " 8: '5',\n",
-       " 9: '6',\n",
-       " 10: '7',\n",
-       " 11: '8',\n",
-       " 12: '9'}"
-      ]
-     },
-     "execution_count": 21,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "# Decoder do tokenizador\n",
-    "tokenizer.decoder"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 22,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "[4, 0, 4, 1, 5]"
-      ]
-     },
-     "execution_count": 22,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "# Testando o tokenizador\n",
-    "tokenizer(\"1 + 1 = 2\")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Criando o Dataset\n",
-    "\n",
-    "O conjunto de dados deve ser criado neste formato:\n",
-    "\n",
-    "- Entrada: \"2 + 3 = 0\" onde os 4 primeiros caracteres representam a sequência de entrada e o quinto caractere representa o primeiro caracter da saída.\n",
-    "\n",
-    "- Saída: \"+ 3 = 0 5\" onde os 2 últimos dígitos representam o resultado da adição e os 3 primeiros dígitos são ignorados durante o treinamento e preenchidos com o pad.\n",
-    "\n",
-    "O resultado é um conjunto de dados de sequências tokenizadas de números."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 23,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Definindo uma classe chamada CriaDataset, que herda da classe Dataset do PyTorch\n",
-    "class CriaDataset(Dataset):\n",
-    "\n",
-    "    # Método construtor da classe, que é executado quando um objeto dessa classe é criado\n",
-    "    def __init__(self, split, length = 6):\n",
-    "        \n",
-    "        # Verificando se a divisão do dataset (split) é 'treino' ou 'teste'\n",
-    "        assert split in {'treino', 'teste'}\n",
-    "        self.split = split\n",
-    "        self.length = length\n",
-    "    \n",
-    "    # Definindo o método len que retorna o tamanho do dataset. \n",
-    "    # Nesse caso, o tamanho é fixo e igual a 1 milhão.\n",
-    "    def __len__(self):\n",
-    "        return 1000000 \n",
-    "\n",
-    "    # Definindo o método getitem que é usado para obter um item específico do dataset\n",
-    "    def __getitem__(self, idx):\n",
-    "\n",
-    "        # Criando uma lista com todos os números disponíveis que não são tokens de padding e são numéricos\n",
-    "        available_numbers = [int(n) for n in tokenizer.decoder.values() if n != tokenizer.pad_token and str(n).isnumeric()]\n",
-    "        \n",
-    "        # Selecionando aleatoriamente números da lista de números disponíveis para criar uma entrada (input)\n",
-    "        inp = torch.tensor(np.random.choice(available_numbers, size = result_length))\n",
-    "        \n",
-    "        # Calculando a soma dos números selecionados e criando um tensor\n",
-    "        sol = torch.tensor([int(i) for i in str(inp.sum().item())])\n",
-    "        \n",
-    "        # Preenchendo o tensor com zeros para que tenha o tamanho desejado\n",
-    "        sol = torch.nn.functional.pad(sol, (1 if sol.size()[0] == 1 else 0,0), 'constant', 0)\n",
-    "\n",
-    "        # Concatenando a entrada e a solução em um tensor\n",
-    "        cat = torch.cat((inp, sol), dim = 0)\n",
-    "\n",
-    "        # Criando os tensores de entrada e alvo para o treinamento do modelo\n",
-    "        x = cat[:-1].clone()\n",
-    "        y = cat[1:].clone()\n",
-    "\n",
-    "        # Definindo o primeiro elemento do tensor alvo como o token de padding\n",
-    "        y[:1] = int(tokenizer.pad_token)\n",
-    "\n",
-    "        # Transformando os tensores x e y em strings\n",
-    "        x = str(x[0].item()) + ' + ' + str(x[1].item()) + ' = ' + str(x[2].item())\n",
-    "        y = '-1 ' + str(y[0].item()) + ' -1 ' + str(y[1].item()) + ' ' + str(y[2].item())\n",
-    "        \n",
-    "        # Tokenizando as strings de entrada e alvo\n",
-    "        tokenized_input = tokenizer(x)\n",
-    "        tokenized_output = tokenizer(y)\n",
-    "        \n",
-    "        # Retornando os tensores de entrada e alvo como itens do dataset\n",
-    "        return torch.tensor(tokenized_input), torch.tensor(tokenized_output)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Datasets de Treino e Teste"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 24,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "dataset_treino = CriaDataset('treino', length = sequence_length)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 25,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "dataset_teste = CriaDataset('teste', length = sequence_length)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 26,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "x, y = dataset_treino[0]"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 27,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "tensor([10,  0,  4,  1,  3])"
-      ]
-     },
-     "execution_count": 27,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "x"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 28,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "tensor([ 2,  2,  2,  3, 11])"
-      ]
-     },
-     "execution_count": 28,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "y"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 29,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "7 + 1 = 0\n"
-     ]
-    }
-   ],
-   "source": [
-    "print(tokenizer.decode(x.numpy()))"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 30,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-1 -1 -1 0 8\n"
-     ]
-    }
-   ],
-   "source": [
-    "print(tokenizer.decode(y.numpy()))"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Loop de Treinamento"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 31,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "num_epochs = 2"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 32,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "batch_size = 100"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 33,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "optimizer = torch.optim.Adam(modelo.parameters())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 34,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "dados = torch.utils.data.DataLoader(dataset_treino, shuffle = True, batch_size = batch_size)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "https://pypi.org/project/accelerate/"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 35,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import accelerate\n",
-    "from accelerate import Accelerator"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 36,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "accelerator = Accelerator()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 37,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Author: Data Science Academy\n",
-      "\n",
-      "numpy       : 1.23.5\n",
-      "accelerate  : 0.21.0\n",
-      "torch       : 2.0.1\n",
-      "transformers: 4.31.0\n",
-      "\n"
-     ]
-    }
-   ],
-   "source": [
-    "# Versões dos pacotes usados neste jupyter notebook\n",
-    "%reload_ext watermark\n",
-    "%watermark -a \"Data Science Academy\" --iversions"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 38,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "modelo, optimizer, dados = accelerator.prepare(modelo, optimizer, dados)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 39,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "GPT2LMHeadModel(\n",
-       "  (transformer): GPT2Model(\n",
-       "    (wte): Embedding(13, 768)\n",
-       "    (wpe): Embedding(1024, 768)\n",
-       "    (drop): Dropout(p=0.1, inplace=False)\n",
-       "    (h): ModuleList(\n",
-       "      (0-1): 2 x GPT2Block(\n",
-       "        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)\n",
-       "        (attn): GPT2Attention(\n",
-       "          (c_attn): Conv1D()\n",
-       "          (c_proj): Conv1D()\n",
-       "          (attn_dropout): Dropout(p=0.1, inplace=False)\n",
-       "          (resid_dropout): Dropout(p=0.1, inplace=False)\n",
-       "        )\n",
-       "        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)\n",
-       "        (mlp): GPT2MLP(\n",
-       "          (c_fc): Conv1D()\n",
-       "          (c_proj): Conv1D()\n",
-       "          (act): NewGELUActivation()\n",
-       "          (dropout): Dropout(p=0.1, inplace=False)\n",
-       "        )\n",
-       "      )\n",
-       "    )\n",
-       "    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)\n",
-       "  )\n",
-       "  (lm_head): Linear(in_features=768, out_features=13, bias=False)\n",
-       ")"
-      ]
-     },
-     "execution_count": 39,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "modelo.train()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 40,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Epoch: 1/2 --- Erro: 0.10058706998825073\n",
-      "Epoch: 2/2 --- Erro: 0.05222655460238457\n",
-      "CPU times: user 6min 51s, sys: 899 ms, total: 6min 52s\n",
-      "Wall time: 6min 55s\n"
-     ]
-    }
-   ],
-   "source": [
-    "%%time\n",
-    "\n",
-    "# Iniciando o loop para as épocas de treinamento\n",
-    "for epoch in range(num_epochs):\n",
-    "\n",
-    "    # Iterando por cada batch (conjunto) de dados de entrada e alvos no dataset de treinamento\n",
-    "    for source, targets in dados:\n",
-    "\n",
-    "        # Resetando os gradientes acumulados no otimizador\n",
-    "        optimizer.zero_grad()\n",
-    "\n",
-    "        # Calculando a perda (loss) através da entropia cruzada entre as previsões do modelo e os alvos verdadeiros. \n",
-    "        # Os tensores são \"achatados\" para que possam ser passados para a função de entropia cruzada. \n",
-    "        # O índice do token de preenchimento (pad_token) é ignorado no cálculo da perda.\n",
-    "        loss = F.cross_entropy(modelo(source).logits.flatten(end_dim = 1), \n",
-    "                               targets.flatten(end_dim = 1), \n",
-    "                               ignore_index = tokenizer.pad_token_id)\n",
-    "\n",
-    "        # Calculando os gradientes da perda em relação aos parâmetros do modelo\n",
-    "        accelerator.backward(loss)\n",
-    "\n",
-    "        # Atualizando os parâmetros do modelo utilizando os gradientes calculados\n",
-    "        optimizer.step()\n",
-    "\n",
-    "        # Recalculando a perda após a etapa de otimização. \n",
-    "        loss = F.cross_entropy(modelo(source).logits.flatten(end_dim = 1), \n",
-    "                               targets.flatten(end_dim = 1), \n",
-    "                               ignore_index = tokenizer.pad_token_id)\n",
-    "\n",
-    "    # Imprimindo a época atual e a perda após cada época de treinamento\n",
-    "    print(f'Epoch: {epoch+1}/{num_epochs} --- Erro: {loss.item()}')"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Avaliação do Modelo"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 41,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Definindo a função gera_solution com três parâmetros: input, solution_length e model\n",
-    "def faz_previsao(entrada, solution_length = 6, model = modelo):\n",
-    "\n",
-    "    # Colocando o modelo em modo de avaliação. \n",
-    "    model.eval()\n",
-    "\n",
-    "    # Convertendo a entrada (string) em tensor utilizando o tokenizer. \n",
-    "    # O tensor é uma estrutura de dados que o modelo de aprendizado de máquina pode processar.\n",
-    "    entrada = torch.tensor(tokenizer(entrada))\n",
-    "\n",
-    "    # Enviando o tensor de entrada para o dispositivo de cálculo disponível (CPU ou GPU)\n",
-    "    entrada = entrada.to(accelerator.device)\n",
-    "\n",
-    "    # Iniciando uma lista vazia para armazenar a solução\n",
-    "    solution = []\n",
-    "\n",
-    "    # Loop que gera a solução de comprimento solution_length\n",
-    "    for i in range(solution_length):\n",
-    "\n",
-    "        # Alimentando a entrada atual ao modelo e obtendo a saída\n",
-    "        saida = model(entrada)\n",
-    "\n",
-    "        # Pegando o índice do maior valor no último conjunto de logits (log-odds) da saída, \n",
-    "        # que é a previsão do modelo para o próximo token\n",
-    "        predicted = saida.logits[-1].argmax()\n",
-    "\n",
-    "        # Concatenando a previsão atual com a entrada atual. \n",
-    "        # Isso servirá como a nova entrada para a próxima iteração.\n",
-    "        entrada = torch.cat((entrada, predicted.unsqueeze(0)), dim = 0)\n",
-    "\n",
-    "        # Adicionando a previsão atual à lista de soluções e convertendo o tensor em um número Python padrão\n",
-    "        solution.append(predicted.cpu().item())\n",
-    "\n",
-    "    # Decodificando a lista de soluções para obter a string de saída e retornando-a\n",
-    "    return tokenizer.decode(solution)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 42,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# Definindo a função avalia_modelo com dois parâmetros: num_samples e log\n",
-    "def avalia_modelo(num_samples = 1000, log = False):\n",
-    "\n",
-    "    # Iniciando um contador para as previsões corretas\n",
-    "    correct = 0\n",
-    "\n",
-    "    # Loop que itera num_samples vezes\n",
-    "    for i in range(num_samples):\n",
-    "\n",
-    "        # Obtendo a entrada e o alvo (resposta correta) do i-ésimo exemplo do conjunto de teste\n",
-    "        entrada, target = dataset_teste[i]\n",
-    "\n",
-    "        # Convertendo os tensores de entrada e alvo em arrays numpy para processamento posterior\n",
-    "        entrada = entrada.cpu().numpy()\n",
-    "        target = target.cpu().numpy()\n",
-    "\n",
-    "        # Decodificando a entrada e o alvo utilizando o tokenizer\n",
-    "        entrada = tokenizer.decode(entrada[:sequence_length])\n",
-    "        target = tokenizer.decode(target[sequence_length-1:])\n",
-    "\n",
-    "        # Gerando a previsão utilizando a função faz_previsao\n",
-    "        predicted = faz_previsao(entrada, solution_length = result_length, model = modelo)\n",
-    " \n",
-    "        # Se a previsão for igual ao alvo, incrementa o contador de previsões corretas\n",
-    "        if target == predicted:\n",
-    "            correct += 1\n",
-    "            # Se log for True, imprime detalhes do exemplo e a previsão correta\n",
-    "            if log:\n",
-    "                print(f'Acerto do Modelo: Input: {entrada} Target: {target} Previsão: {predicted}')\n",
-    "        else:\n",
-    "            # Se log for True, imprime detalhes do exemplo e a previsão errada\n",
-    "            if log:\n",
-    "                print(f'Erro do Modelo: Input: {entrada} Target: {target} Previsão: {predicted}')\n",
-    "\n",
-    "    # Ao final do loop, calcula a acurácia (número de previsões corretas dividido pelo número total de exemplos) \n",
-    "    print(f'Acurácia: {correct/num_samples}')"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 43,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Acerto do Modelo: Input: 0 + 1 = Target: 0 1 Previsão: 0 1\n",
-      "Acerto do Modelo: Input: 0 + 3 = Target: 0 3 Previsão: 0 3\n",
-      "Acerto do Modelo: Input: 1 + 8 = Target: 0 9 Previsão: 0 9\n",
-      "Acerto do Modelo: Input: 2 + 4 = Target: 0 6 Previsão: 0 6\n",
-      "Acerto do Modelo: Input: 2 + 4 = Target: 0 6 Previsão: 0 6\n",
-      "Acerto do Modelo: Input: 5 + 8 = Target: 1 3 Previsão: 1 3\n",
-      "Acerto do Modelo: Input: 1 + 4 = Target: 0 5 Previsão: 0 5\n",
-      "Acerto do Modelo: Input: 8 + 9 = Target: 1 7 Previsão: 1 7\n",
-      "Acerto do Modelo: Input: 5 + 9 = Target: 1 4 Previsão: 1 4\n",
-      "Acerto do Modelo: Input: 2 + 4 = Target: 0 6 Previsão: 0 6\n",
-      "Acurácia: 1.0\n"
-     ]
-    }
-   ],
-   "source": [
-    "# Executa a função\n",
-    "avalia_modelo(num_samples = 10, log = True)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 44,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Acurácia: 1.0\n"
-     ]
-    }
-   ],
-   "source": [
-    "# Executa a função\n",
-    "avalia_modelo(num_samples = 1000, log = False)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 45,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel"
-      ]
-     },
-     "execution_count": 45,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "type(modelo)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 46,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "modelo.save_pretrained(\"modelos/modelo_final\")"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Fim"
-   ]
-  }
- ],
- "metadata": {
-  "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
-   "language": "python",
-   "name": "python3"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 3
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython3",
-   "version": "3.10.9"
-  }
- },
- "nbformat": 4,
- "nbformat_minor": 2
-}