Deveria me preocupar como meu LLM foi treinado?
Me siga no X | Me siga no LinkedIn | Apoie a Newsletter | Solicite uma consultoria
O treino de algoritmos de aprendizado de máquina é uma etapa fundamental para desenvolver modelos mais precisos. Através do treinamento adequado, é possível alcançar melhores resultados de previsão, aumentando a capacidade de generalização.
Resumidamente, o processo de treino consiste em fornecer dados e ajustar parâmetros para um algoritmo. Como forma de minimizar a diferença entre precisões e saídas esperadas, esse processo é repetido diversas vezes, até que o modelo alcance um desempenho adequado.
No entanto, como não sabemos como muitos LLMs (Large Language Models) foram treinados, é difícil saber como (ou se) algumas questões foram tratadas. Por exemplo, LLMs podem aprender (e amplificar):
Vieses de gênero, raça, político, etc.
Fake news e informação falsa.
Além disso, como LLMs são treinados na escala de bilhões de tokens e parâmetros. Assim, é muito difícil 'depurar' o processo de tomada de decisão dos algoritmos, o que fragiliza a transparência do processo. Em outras palavras, é muito difícil saber com clareza como um LLM chegou em uma dada reposta. Não existe uma stack trace.
A falta de transparência, por sua vez, tende a contribuir para uma falta de responsabilidade. Se não sabemos quais são os dados e como eles foram treinados/adequados, quem deveria se responsabilizar por informações falsas geradas pelos LLMs?
Empresas e organizações que treinam esses modelo tendem a fazer um esforço significativo para garantir que os dados coletados são representativos e diversos. Mas, como eu ou você, usuários de LLMs, poderiam saber como nosso LLM favorito foi treinado?
Infelizmente, para a maioria dos usuários, é difícil obter informações detalhadas sobre como um LLM específico foi treinado. As empresas que desenvolvem esses modelos geralmente não divulgam todos os detalhes do processo de treinamento devido a questões de propriedade intelectual e competitividade. Nos resta confiar nas declarações e garantias fornecidas pelos desenvolvedores do LLM.
Todavia, existem iniciativas e esforços em andamento para promover a transparência e a responsabilidade no treinamento de algoritmos de machine learning. Alguns pesquisadores e ativistas estão defendendo a importância da explicabilidade e da auditoria dos modelos de LLM, buscando maneiras de tornar o processo de treinamento mais compreensível e responsável.
Como exemplo, o famoso (embora em 2023 ele pareça obsoleto) T5, lançado pelo Google, foi apresentado neste artigo, publicado em 2020. O recém, e ainda pouco explorado, LLAMA, do Facebook, foi descrito neste outro artigo, publicado em 2023.
Passando o olho brevemente nesses artigos, é possível perceber que LLM do Google, por exemplo, foi treinado 'apenas' utilizando dados de linguagem natural. A fonte primária são páginas da web escritas em Inglês. Além disso, os pesquisadores desenvolveram heurísticas para minimizar a presença de alguns vieses, como a remoção de páginas que continham palavras obscenas. Ao final do processo, o modelo foi treinado com 750GB de dados.
O Facebook, lançado em 2023, por outro lado, usa diversas fontes de dados. Primeiro, se utiliza os mesmos 750GB de dados curados pelo Google no estudo anterior, mas que corresponde a 'apenas 15%' dos dados de treino do modelo. Além, se utiliza dados do da Wikipedia, do arXiv (base de dados de artigos científicos), do projeto Gutenberg (base de dados de livros), do GitHub (base de dados de código), além de outras fontes, totalizando mais de 4.7TB de dados (mais de 6x a quantidade de dados do artigo do Google, publicado apenas 3 anos antes). Não apenas mais extenso, LLAMA é também mais diverso, pois conta com dados de código, livros, artigos, além de verbetes da Wikipedia escritos em 20 idiomas diferentes.
No entanto, é importante ressaltar que essas informações são específicas para esses modelos em particular e não representam todos os LLMs disponíveis. Cada modelo de LLM pode ter sido treinado de maneiras diferentes, com conjuntos de dados e abordagens de limpeza específicas.
Em resumo, o processo de treinamento de LLMs é complexo e envolve a alimentação de dados e ajuste de parâmetros para que o algoritmo aprenda a tomar decisões. Contudo, a falta de transparência no treinamento desses modelos pode gerar preocupações sobre vieses, fake news e responsabilidade.
Embora seja difícil obter informações detalhadas sobre como um LLM específico foi treinado, existem iniciativas em andamento para os usuários se manterem informados sobre as questões relacionadas ao treinamento de LLMs e aprender mais sobre o assunto.
Uma dessas iniciativas é essa newsletter.
Se você quiser entender mais sobre LLMs (e aprendizado de máquina no geral), não esqueça de assinar essa newsletter.