Diversificando a Seleção de Chunks usando Query Expansion
Me siga no LinkedIn | Apoie a Newsletter | Curso: Converse com seus documentos
Query Expansion (QE) é uma técnica utilizada em sistemas de Information Retrieval (IR) que ajuda a melhorar a capacidade do sistema de recuperar todos os documentos relevantes para uma determinada consulta. A QE adiciona termos adicionais à consulta original, ajudando a recuperar documentos relevantes que não tinham palavras em comum (sobreposição lexical) com a consulta original.
Neste artigo, os autores propõe o uso de LLMs para auxiliar na expansão de consultas. Por exemplo, dado uma consulta, podemos pedir para o LLM gere uma variedade de termos alternativos. Dessa forma, em vez de fazer uma única busca com o input do usuário, podemos fazer várias buscas, com os termos fornecidos pela LLM; e assim ser capaz de encontrar documentos que poderiam não ser identificados pela consulta original.
Hoje, usar QE tem se tornado uma etapa comum no pipeline de sistemas baseados em LLMs. Nesse texto, vamos revisitar a área de recuperação e informação para explicar como funciona uma query expansion.
📚 Você é dev e quer aprender um pouco mais sobre a criação de aplicações baseadas em LLM?
Eu criei um curso que aborda aspectos teóricos e práticos do desenvolvimento de aplicações baseadas em LLMs. Alguns dos tópicos cobertos:
🟠 O que são e como criar embeddings
🟡 Como selecionar partes relevantes nos seus documentos
🔵 Como integrar essas partes documentos com uma LLM
Information Retrieval
A recuperação de informação (IR, do inglês "Information Retrieval") visa localizar documentos relevantes de um vasto corpus, com base em uma consulta realizada pelo usuário. Esse processo é um componente essencial nos motores de busca modernos, e pesquisadores têm investido nesse campo por décadas.
Existem dois paradigmas principais para a IR:
A recuperação esparsa baseada em léxico, como o BM25, e
A recuperação densa baseada em embeddings.
Busca Lexica
A recuperação esparsa baseada em léxico, exemplificada pelo algoritmo BM25, é um método tradicional que avalia a relevância de documentos com base na presença e frequência de palavras-chave da consulta do usuário nos documentos.
Esse método considera a importância das palavras dentro dos documentos e em todo o corpus, permitindo identificar documentos relevantes através da análise de termos específicos.
Busca Densa
Por outro lado, a recuperação densa baseada em embeddings representa documentos e consultas como vetores em um espaço contínuo, utilizando técnicas de aprendizado profundo para capturar o significado semântico das palavras e frases.
Essa abordagem permite uma comparação mais sofisticada entre consultas e documentos, identificando relevâncias mesmo quando as palavras-chave exatas não estão presentes, graças à capacidade de captar nuances semânticas e contextuais.
Busca Lexica ou Densa?
Ambas as abordagens têm seus méritos e são empregadas dependendo das necessidades específicas do sistema de busca.
A busca léxica é notável pela sua simplicidade e eficácia em situações onde a correspondência exata de termos é crucial, enquanto a recuperação baseada em embeddings é interessante pela sua capacidade de entender e conectar conceitos semânticos mais amplos, promovendo uma busca mais intuitiva e flexível.
Query Expansion Tradicional
A Query Expansion é uma técnica consolidada, proposta inicialmente por Rocchio em 1971, que visa melhorar os sistemas de busca ao reescrever a consulta original do usuário.
Essa reescrita é realizada com base em feedback de pseudo-relevância ou em fontes de conhecimento externas, como o WordNet. Tal abordagem é particularmente útil para a busca densa, ajudando a superar o desafio do “gap” lexical entre a consulta e os documentos.
Ao adicionar termos adicionais à consulta original, a consulta expandida tende a ampliar significativamente a capacidade de recuperar documentos relevantes que, de outra forma, não teriam sobreposição lexical com a consulta inicial.
Este método é amplamente estudado e reconhecido por sua capacidade de expandir os termos de consulta para novos termos que expressam o mesmo conceito ou necessidade de informação, aumentando assim a probabilidade de correspondência lexical com documentos no corpus.
Query Expansion Baseada em LLM
Recentemente, o uso de Query Expansion foi enriquecida com o uso de LLMs. Através dos LLMs, é possível gerar múltiplas consultas a partir de uma única pergunta. Essas consultas podem ser executadas em paralelo, e os resultados obtidos são agregados para fornecer uma resposta mais abrangente.
Essa estratégia é especialmente útil para questões complexas que podem ser decompostas em múltiplas subquestões.
Por exemplo, a pergunta “Qual é o maior artilheiro da copa do mundo FIFA de futebol?” poderia ser expandida para as seguintes perguntas:
“Quem detém o recorde de mais gols marcados em uma única edição da Copa do Mundo FIFA de Futebol?”
“Qual jogador tem o maior número de gols na história das Eliminatórias da Copa do Mundo FIFA?”
“Quem lidera a lista de artilheiros de todos os tempos da seleção nacional em Copas do Mundo FIFA?”
Essa abordagem permite melhorar o recall ao adicionar termos relacionados à consulta original, aumentando assim a abrangência da busca e a chance de recuperar documentos relevantes que poderiam ser perdidos devido a variações linguísticas ou sinônimos não presentes na consulta inicial.
Ao incorporar palavras e frases que expressam o mesmo conceito ou estão semanticamente relacionadas, a busca se torna mais inclusiva, capturando uma gama mais ampla de documentos que satisfazem a necessidade de informação do usuário.
Conclusão
A Query Expansion (QE) introduz uma abordagem sofisticada e adaptável para melhorar a precisão e o alcance das buscas realizadas pelos usuários.
Este artigo explorou a interseção entre técnicas tradicionais de QE e as capacidades avançadas proporcionadas por LLMs, demonstrando como essa combinação pode superar limitações anteriores e abrir novos caminhos para a recuperação eficaz de informação.
Ao empregar LLMs na geração de consultas expandidas, os sistemas de IR podem agora abordar consultas complexas e ambíguas com uma precisão sem precedentes, adaptando-se melhor às intenções dos usuários e ao contexto semântico das suas buscas.