Modelos de Contexto Longo Não Tornarão RAG Obsoleto
Com os avanços recentes nos modelos linguísticos e no processamento de linguagem natural, os modelos de contexto longo têm gerado entusiasmo nas comunidades de pesquisa e desenvolvimento de aplicações baseadas em LLMs. Esses modelos são capazes de não somente considerar centenas de milhares (ou até milhões) de tokens para gerar respostas, mas também prometem melhorias significativas na precisão e na relevância das respostas geradas.
Dessa forma, o uso de modelos de contexto longo pode parecer uma solução alternativa para aqueles que desenvolvem soluções baseadas na arquitetura RAG — em que informações externas são fornecidas para um modelo de forma a tornar sua resposta mais precisa e relevante.
Um dos pilares da arquitetura RAG está na estratégia de busca e seleção das informações que são passadas para a LLM. No RAG, o processo de busca precisa ser cuidadosamente desenhado para que documentos relevantes sejam selecionados e enviados para o modelo linguístico; diminuindo o ruído e aumentando a qualidade das respostas.
No entanto, quando se fala em modelos de contextos longo, na casa de milhões de tokens, a primeira vista pode-se imaginar que essa etapa de busca e seleção de informações pode se tornar menos relevante, uma vez que o modelo é capaz de processar um número muito maior de documentos. Você pode simplesmente colocar todos seus dados no contexto com o modelo!
Nesse texto, argumento há três motivos pelo quais modelos de contexto longo não devem tornar a arquitetura RAG obsoleta.
Bootcamp LLM4Devs
📚 Você é dev e quer criar aplicações baseadas em LLMs?
O bootcamp #LLM4Devs é um evento que acontece uma vez por mês, em formato online de 4h de duração, focado em ajudar devs a construir sua primeira aplicação baseada em LLMs. É um evento super hands on!
Alguns dos tópicos abordados:
🟠 Entendendo sobre LLMs
🟣 Testando prompts e engenharia de prompts
🔵 Entendendo de embeddings
🟢 Comparando dados por similaridade
🟡 Conectando com um banco vetorial
E tem mais! Se inscrevendo no bootcamp, você ganha acesso a três cursos sobre LLMs.
Interessou? Clique aqui e saiba mais:
RAG em 2 minutos
Os modelos RAG combinam a capacidade de recuperação de informações de grandes bancos de dados com a geração de texto contextualizado, permitindo que os modelos de linguagem lidem com informações atualizadas e específicas que não estão contidas em seu treinamento original.
Isso é particularmente importante, pois o conhecimento armazenado em modelos de linguagem geralmente está desatualizado ou incompleto. Além disso, os modelos RAG são projetados para mitigar problemas como alucinações e desinformação, proporcionando respostas mais confiáveis.
Para saber um pouco mais sobre a arquitetura RAG, veja esse texto da newsletter.
Modelos longos ainda precisam do RAG
Há pelo menos três razões pelas quais modelos longo ainda devem precisar se apoiar em arquiteturas como o RAG.
Primeiro, mesmo com uma janela de contexto de 10 milhões de tokens, ainda precisaríamos de uma maneira de selecionar a informação mais relevante a ser alimentada no modelo. Por exemplo, considere um cenário onde um pesquisador está analisando uma vasta coleção de artigos científicos para responder a uma pergunta específica. Mesmo que o modelo possa processar todos esses artigos simultaneamente, ele ainda precisa identificar quais partes dos textos são mais pertinentes para fornecer uma resposta precisa. Sem um mecanismo eficaz de seleção de informações, a capacidade de processamento aumentada pode se tornar uma desvantagem, levando a respostas confusas ou incorretas.
Segundo, ainda faltam avaliações detalhadas sobre como LLMs podem raciocinar em contextos tão grandes. Sem uma boa recuperação e classificação, corremos o risco de sobrecarregar o modelo com ruídos ou até mesmo preencher a janela de contexto com informações completamente irrelevantes. Imagine um sistema de atendimento ao cliente que tenta responder a uma consulta complexa. Se o modelo for inundado com transcrições de conversas passadas sem filtragem adequada, ele pode se perder em detalhes desnecessários e fornecer respostas imprecisas. Avaliações detalhadas ajudam a entender como os modelos lidam com grandes quantidades de dados e para desenvolver métodos que melhorem sua capacidade de raciocínio em tais contextos.
Finalmente, há o custo. O custo de inferência do Transformer tende a escalar com o comprimento do contexto. Modelos mais recentes, como o GPT-4, são significativamente mais caros em termos de processamento em comparação com modelos anteriores como o GPT-3.5. Por exemplo, usar o GPT-4 pode ser até dez vezes mais caro que usar o GPT-3.5 para a mesma tarefa. Em aplicações comerciais, esse aumento nos custos pode ser proibitivo. Empresas que dependem de respostas rápidas e eficientes podem achar insustentável o uso de modelos de contexto longo sem um retorno claro sobre o investimento.
Modelos longos precisam ser avaliados
Embora esses modelos de contexto longo tragam luz para um grande número de aplicações, seu desempenho ainda é pouco conhecido. No artigo Benchmarking Large Language Models in Retrieval-Augmented Generation, os autores propõe algumas formas em que esses LLMs (utilizados em conjunto de aplicações baseadas em RAG) precisam ser avaliados para que seu comportamento seja mais conhecido.
Por exemplo:
A Robustez ao Ruído é a capacidade dos LLMs em lidar com documentos ruidosos. Como os recuperadores não são perfeitos, o conhecimento externo que eles recuperam frequentemente contém uma quantidade significativa de ruído, ou seja, documentos que são relevantes para a pergunta, mas não contêm nenhuma informação sobre a resposta. Para responder efetivamente às perguntas dos usuários, os LLMs devem ser capazes de extrair a informação necessária dos documentos, apesar da presença de documentos ruidosos.
A Rejeição Negativa é uma forma para que o LLM não responda uma pergunta quando o contexto não fornece informações úteis. Quando o mecanismo de busca falha em recuperar documentos contendo as respostas, é importante que o modelo tenha a capacidade de rejeitar o reconhecimento e evitar gerar conteúdo enganoso.
A Integração de Informações é a capacidade de integrar respostas de vários documentos. Em muitos casos, a resposta a uma pergunta pode estar contida em vários documentos. Por exemplo, para a pergunta "Quem são os campeões do U.S. Open 2022 nas categorias de simples masculino e feminino?", os dois campeões podem ser mencionados em documentos diferentes. Para fornecer melhores respostas a perguntas complexas, é necessário que os LLMs tenham a capacidade de integrar informações.
A Robustez Contrafactual refere-se à capacidade de lidar com erros no conhecimento externo. No mundo real, há uma abundância de informações falsas na internet. Note que avaliamos apenas a situação em que os LLMs recebem avisos sobre potenciais riscos nas informações recuperadas por meio de instruções.
Com a criação desses benchmarks, a decisão para quando utilizar os modelos se torna mais facilitada para os seus usuários.
Conclusão
Enquanto os modelos de contexto longo oferecem benefícios substanciais, eles ainda enfrentam desafios, como a incorporação de documentos ruidosos e a integração de informações de múltiplas fontes.
Por outro lado, os modelos RAG continuam a evoluir, combinando a robustez ao ruído e a capacidade de rejeitar respostas quando os dados são inadequados.
Portanto, a evolução das tecnologias de IA provavelmente verá uma coexistência e uma integração crescente entre modelos de contexto longo e RAG, cada um complementando as limitações do outro para fornecer soluções mais completas e precisas no processamento de linguagem natural.