Um Roadmap para Engenheiros de LLMs

Fev 29, 2024

Me siga no LinkedIn | Apoie a Newsletter | Curso: Converse com seus documentos

Dado a sua popularidade recente dos Grandes Modelos de Linguagem (do Inlgês, Large Language Models — LLMs), aplicações impulsionadas por modelos como o GPT-4, estão em alta demanda, em particular pela sua avançada capacidade de processamento de linguagem natural.

Para apoiar nessa crescente demanda, entender melhor das ferramentas e técnicas se tornou um novo desafio das pessoas que desenvolvem software.

Nesse cenário, é comum desenvolveres se perguntarem por onde devem começar? De forma similar, desenvolveres com conhecimento inicial que pretendem avançar seus estudos também precisam de ponteiros para os próximos passos.

Esse texto reflete e resumo o excelente roadmap criado por Maxime Labonne, que explora algumas das técnicas e práticas necessárias para construir aplicações usando LLMs, destacando a importância de cada etapa no processo de desenvolvimento.

Este roadmap oferece uma visão abrangente das habilidades essenciais necessárias para engenheiros que buscam desenvolver aplicações robustas baseadas em LLMs.

1. Rodar LLMs

Executar LLMs pode ser desafiador devido aos requisitos de hardware. Dependendo do caso de uso, optar por consumir modelos por meio de uma API, como o GPT-4, ou executá-los localmente pode ser uma decisão estratégica.

Além disso, técnicas de prompt e orientação adicionais podem aprimorar e restringir as saídas dos modelos para se alinharem às necessidades da aplicação.

Explorar APIs, tanto de LLMs privados quanto de código aberto, como o Hugging Face Hub, é muito importante nessa jornada.

2. Embeddings e Bases Vetoriais

A criação de uma base vetorial é o primeiro passo para construir um pipeline de Recuperação e Geração Aprimorada (do Inlgês, Retrieval Augmented Generation —RAG).

Isso envolve o carregamento de documentos, a divisão em partes significativas e a utilização de modelos de incorporação para converter texto em representações vetoriais. Bibliotecas populares, como Sentence Transformers, podem ser empregadas para essa tarefa.

Além disso, bancos de dados vetoriais, como Chroma, oferecem eficiência na recuperação de dados com base em similaridade vetorial.

3. RAG

ORAG é uma técnica crucial para melhorar a precisão das respostas do modelo, permitindo a recuperação de documentos contextuais de um banco de dados.

O uso de orquestradores, como LangChain, e recuperadores eficientes, como Pinecone, é base para construir esse tipo de aplicação.

Avaliar tanto a recuperação de documentos quanto as etapas de geração é também importante, e ferramentas como Ragas e DeepEval simplificam esse processo.

📚 Você é dev e quer aprender um pouco mais sobre a criação de aplicações baseadas em LLM?

Eu criei um curso que aborda aspectos teóricos e práticos do desenvolvimento de aplicações baseadas em LLMs. Alguns dos tópicos cobertos:

🟠 O que são e como criar embeddings
🟡 Como selecionar partes relevantes nos seus documentos
🔵 Como integrar essas partes documentos com uma LLM

Achou legal? Clica aqui!

4. RAG Avançado

Aplicações do mundo real podem exigir pipelines complexos, incluindo bancos de dados SQL ou gráficos, além da seleção automática de ferramentas e APIs relevantes.

Técnicas avançadas, como a construção de consultas estruturadas, o uso de agentes para selecionar ferramentas automaticamente e etapas de pós-processamento para aprimorar a relevância e diversidade dos documentos recuperados, são essenciais para melhorar uma solução básica.

5. Otimização de Inferência

A geração de texto é um processo custoso que demanda hardware caro. Além da quantização, técnicas como Flash Attention, Key-Value Cache e Decodificação Especulativa têm sido propostas para maximizar o throughput e reduzir os custos de inferência.

Compreender essas técnicas e aplicá-las adequadamente ajuda a garantir uma execução eficiente.

6. Deploy

Implantar LLMs em escala é um novo desafio de engenharia, uma vez que pode exigir clusters de GPUs.

Seja para implantações locais, demonstrações, servidores em nuvem ou ambientes de borda, diferentes estratégias e ferramentas, como Gradio ou Hugging Face Spaces, estão disponíveis.

Conhecer as nuances de cada abordagem é vital para escolher a solução mais adequada ao contexto da aplicação.

7. Segurança

Além dos problemas tradicionais de segurança associados ao software, os LLMs apresentam vulnerabilidades únicas devido à sua forma de treinamento e à manipulação de prompts.

Abordagens defensivas, incluindo testes contra vulnerabilidades específicas de LLMs e observação em produção, são essenciais para proteger aplicações LLM contra ataques, como destacado na lista de OWASP LLM Top 10.

Conclusão

Dominar o roadmap para engenheiros de LLMs não apenas abre as portas para a construção de aplicações excepcionais, mas também posiciona os desenvolvedores na vanguarda da inovação em processamento de linguagem natural.

Cada etapa, desde a execução eficiente de modelos até a implementação segura em escala, contribui para a criação de soluções sofisticadas capazes de atender às crescentes demandas do cenário tecnológico atual.

ML4SE