T3 — RAG e Recuperação

🎯 Objetivo desta trilha

Construir RAG que responde com citações e atinge groundedness ≥0.85.

🔍 O que você vai explorar

▸Chunking deliberado (500 tokens + overlap, fronteira semântica).
▸Embeddings densos vs BM25; híbrido com Reciprocal Rank Fusion.
▸Vector stores (FAISS, pgvector, Qdrant) e ANN.
▸Reranking cross-encoder; contextual retrieval (Anthropic 2024).
▸Citação obrigatória + saber dizer 'não sei'.
▸RAG agêntico (multi-hop, self-RAG) e quando NÃO usar.

👤 Para quem

Quem precisa que o modelo responda sobre dados próprios.

📚 Módulos da trilha

3.1 GA

~60 min · Intermediário · Prático

📚 Indexação: chunking, embeddings e BM25 híbrido

Como transformar um corpus em um índice consultável: estratégias de chunking, embeddings densos, BM25 sparse, e por que híbrido bate ambos.

1 ✂️ Chunking: dividir o corpus— Tamanho, overlap, fronteiras semânticas ▾

O que é: Quebrar documentos em pedaços (chunks) de 200-1000 tokens com overlap de 10-20%. Pode ser por caracteres, sentenças ou parágrafos.

Por que aprender: Chunks muito grandes diluem relevância; muito pequenos perdem contexto. Overlap evita corte abrupto entre fronteiras.

Conceitos-chave: Sliding window, semantic chunking, fronteira de seção, recursive splitter.

2 🧮 Embeddings densos: vetores semânticos— Modelos sentence-transformers ▾

O que é: Converte texto em vetor (768-3072 dim) onde proximidade vetorial ≈ similaridade semântica. Modelos: bge, mpnet, OpenAI ada/text-3.

Por que aprender: Captura sinônimos e paráfrase que BM25 perde ('automóvel' vs 'carro'). Base do retrieval moderno.

Conceitos-chave: Cosine similarity, dual encoder, MTEB benchmark, dimensionalidade.

3 🔤 BM25: o sparse clássico que ainda manda— TF-IDF refinado ▾

O que é: Algoritmo probabilístico de relevância baseado em frequência de termo (TF) e raridade (IDF). Não usa ML.

Por que aprender: Robusto, rápido, captura match exato (números, IDs, nomes próprios) que embeddings densas erram.

Conceitos-chave: TF-IDF, BM25, sparse vector, lexical match, rare term boost.

4 🤝 Híbrido: BM25 + denso, fusão por RRF— O melhor dos dois ▾

O que é: Roda ambos em paralelo, funde rankings via Reciprocal Rank Fusion (RRF) ou peso linear (alpha).

Por que aprender: Ganhos consistentes em benchmarks (BEIR). Cada método cobre falhas do outro: BM25 pega match exato, denso pega paráfrase.

Conceitos-chave: RRF, alpha-fusion, hybrid search, ColBERT (alternativa late-interaction).

5 🗂️ Vector stores: o que escolher— FAISS, pgvector, Qdrant, Pinecone ▾

O que é: Bancos de dados otimizados para nearest-neighbor search em vetores. Local (FAISS, pgvector) ou hosted (Qdrant Cloud, Pinecone).

Por que aprender: Sem isso, busca em 100k embeddings vira O(n) inviável. Vector stores fazem ANN (HNSW, IVF) em ms.

Conceitos-chave: ANN (approximate nearest neighbor), HNSW, IVF, recall@k, índice em memória vs. disco.

6 🏷️ Metadata e filtros: além do match semântico— Filtragem antes/depois do retrieval ▾

O que é: Anexar metadados a cada chunk (data, autor, categoria, idioma) e filtrar por eles antes ou depois da busca vetorial.

Por que aprender: Pergunta 'eventos de 2024' não deve trazer chunks de 2019, mesmo que semanticamente similares. Filtros resolvem.

Conceitos-chave: Metadata filtering, pre-filter, post-filter, namespace.

Ver Completo →

3.2 GA

~60 min · Intermediário · Prático

🔍 Recuperação, reranking e contextual retrieval

Do índice à resposta: top-k retrieval, rerankers cross-encoder, contextual retrieval (Anthropic 2024) e citações obrigatórias.

1 🎯 Top-k retrieval: quanto recuperar— Trade-off recall vs. ruído ▾

O que é: Pegar os k chunks mais similares à query. k=3-10 é o range típico para passar à geração.

Por que aprender: k baixo perde recall; k alto enche a janela de ruído (vide lost-in-the-middle). Otimize empiricamente.

Conceitos-chave: Recall@k, precision@k, k-tuning, MRR (mean reciprocal rank).

2 🏆 Reranker cross-encoder: precisão alta— BGE-reranker, Cohere Rerank ▾

O que é: Modelo cross-encoder que recebe (query, chunk) e retorna score. Mais preciso que dual encoder, mas mais lento.

Por que aprender: Padrão: recupera top-50 com encoder rápido, rankeia para top-5 com cross-encoder. Ganho consistente em recall.

Conceitos-chave: Cross-encoder vs dual encoder, BGE reranker, Cohere Rerank, latency budget.

3 🪄 Contextual retrieval (Anthropic 2024)— Embed com contexto do documento ▾

O que é: Antes de embedar cada chunk, injeta uma descrição curta do documento de onde veio. Reduz miss em 35-50% (Anthropic 2024).

Por que aprender: Chunk isolado perde contexto; com contexto, embedding fica mais informativo. Custo: chamada extra ao LLM por chunk no index time.

Conceitos-chave: Contextual retrieval, document-level prefix, prompt caching no index, late chunking.

4 📌 Citações obrigatórias na geração— Rastreabilidade da resposta ▾

O que é: Padrão de incluir IDs/URLs dos chunks recuperados no prompt e exigir que a resposta cite a fonte de cada afirmação.

Por que aprender: Sem citação, você não sabe se o modelo grounded a resposta ou alucinou. Eval (T6) precisa de citação para medir groundedness.

Conceitos-chave: Citation patterns, source tracking, groundedness, attribution.

5 🚫 Saber dizer 'não sei'— Quando não há contexto suficiente ▾

O que é: System prompt instrui: 'se a resposta não está no contexto, diga não sei'. Reduz alucinação.

Por que aprender: Modelos preferem responder algo a admitir ignorância. Instrução explícita + few-shot de 'não sei' equilibra.

Conceitos-chave: Abstention, calibration, hallucination, RAG-fail-safe.

6 ♻️ Re-rankeio adaptativo: query rewriting— Query expansion e HyDE ▾

O que é: Antes de buscar, o LLM reescreve/expande a query (sinônimos, sub-perguntas) ou gera resposta hipotética (HyDE) usada como query.

Por que aprender: Query do usuário é frequentemente curta e ambígua. Reescrita melhora recall sem custar muito.

Conceitos-chave: Query rewriting, HyDE (Gao et al. 2022), multi-query retrieval, query decomposition.

Ver Completo →

3.3 beta

~70 min · Avançado · Avançado

🤖 RAG agêntico e self-RAG (beta)

Quando o RAG estático não basta: agente que decide se busca, o que busca, e quando parar. Self-RAG, multi-hop, e quando o custo NÃO compensa.

1 🔄 Multi-hop: encadear buscas— Quando uma busca não basta ▾

O que é: Pergunta exige info de múltiplas fontes em sequência. Agente busca, lê, refina query, busca de novo.

Por que aprender: Perguntas como 'compare A e B em 2024' precisam de 2+ buscas. RAG estático falha.

Conceitos-chave: Multi-hop QA, iterative retrieval, query refinement, ReAct.

2 🤔 Self-RAG: decidir se buscar— Asai et al. 2023 ▾

O que é: Modelo emite token especial decidindo se precisa buscar. Se não, responde do parâmetro; se sim, busca e cita.

Por que aprender: Nem toda pergunta precisa de RAG. Self-RAG evita custo e latência quando o conhecimento paramétrico basta.

Conceitos-chave: Self-RAG, retrieve-or-not, calibração de confiança, paramétrico vs. retrieval.

3 🧭 Query decomposition— Quebrar pergunta complexa ▾

O que é: LLM decompõe pergunta em sub-perguntas, busca cada uma, junta as evidências.

Por que aprender: Para perguntas compostas ('o que mudou de A para B?'), decomposição melhora recall.

Conceitos-chave: Query decomposition, sub-question answering, fan-out, planner.

4 🛡️ Guards: critic step e verificação— Checar antes de entregar ▾

O que é: Após resposta, segundo passo verifica: a resposta está grounded? Cita fonte? Se não, refaz.

Por que aprender: Qualidade > velocidade em casos sensíveis. Critic step pega regressões.

Conceitos-chave: Critic loop, verification step, self-correction, faithfulness.

5 🚦 Stopping criteria— Quando o agente para de buscar ▾

O que é: Critério explícito: max iterações, confiança suficiente, ou custo orçado atingido.

Por que aprender: Sem critério, o agente loopa. Loops em produção são desastre de custo.

Conceitos-chave: Max iterations, confidence threshold, cost budget, early stop.

6 💸 Quando NÃO usar RAG agêntico— O custo é real ▾

O que é: Cada hop custa: tokens + latência + risco de loop. Para 80% dos casos, RAG estático com bom reranker basta.

Por que aprender: RAG agêntico pode 3-10× o custo de RAG estático sem ganho proporcional.

Conceitos-chave: Cost amortization, complexity vs benefit, default to simple.

Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T3.md.

Bibliografia T3 →

🗺️ Outras trilhas

🧠 Fundamentos de Contexto

✉️ Engenharia da Mensagem

🛠️ Tools, Agentes e Multi-Agente

💾 Memória e Compressão

📊 Avaliação e Produção