Update README.md
Browse filesEsse trabalho consiste em desenvolver um modelo de linguagem grande (LLM) com 2.3 milhões de parâmetros usando a arquitetura LLaMA 1, implementado em um notebook do Google Collaboratory. Os alunos irão construir um LLM desde o pré-processamento dos dados até a avaliação do desempenho do modelo. O projeto envolverá as etapas principais de preparação de dados, configuração do modelo, treinamento e avaliação.
Etapas do Projeto:
1 Preparação do Ambiente:
◦ Configuração do Google Colaboratory.
◦ Instalação das bibliotecas necessárias: torch, transformers, datasets, entre outras.
2 Coleta e Pré-processamento dos Dados:
◦ Utilização do conjunto de dados TinyShakespeare.
◦ Tokenização e limpeza dos dados.
3 Configuração da Arquitetura do Modelo:
◦ Implementação dos componentes principais da arquitetura LLaMA 1 [4]:
▪ RMSNorm
▪ SwiGLU
▪ Rotary Embeddings
◦ Definição da rede neural com PyTorch.
4 Treinamento do Modelo:
◦ Ajuste dos hiperparâmetros: taxa de aprendizado, batch size, número de épocas, etc.
◦ Utilização de técnicas de regularização e otimização.
5 Avaliação do Modelo:
◦ Métricas de avaliação: perplexidade, acurácia.
◦ Análise dos resultados e ajuste dos parâmetros conforme necessário.
◦ Pode-se usar como referência o modelo GPT-2 na coleção TinyShakespeare.
6 Documentação e Apresentação:
◦ Registro de todas as etapas e decisões no notebook.
◦ Criação de uma apresentação resumindo o processo e os resultados obtidos.
Entrega:
• Notebook do Google Colaboratory contendo todo o código e documentação do processo.
• Link de compartilhamento do modelo gerado no HuggingFace
• Relatório final com análise dos resultados e possíveis melhorias.
Recursos Adicionais:
• Documentação PyTorch
• Tutorial Transformers
• Conjunto de Dados TinyShakespeare
Referências Bibliográficas:
[1] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805. [2] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in neural information processing systems, 30. [3] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI preprint. [4] Touvron, H., Bojanowski, P., Caron, M., Cord, M., El-Nouby, A., Grave, E., ... & Jégou, H. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971. [5] Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., ... & Rush, A. M. (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 38-45.