Verificando acesso...

TRILHA 3

📚 RAG e Recuperação

RAG bem-feito: chunking, embeddings, BM25 híbrido, reranking, contextual retrieval (Anthropic 2024) e citações obrigatórias.

2
Módulos GA
1
Beta
~3h
Duração
18
Tópicos

🎯 Objetivo desta trilha

Construir RAG que responde com citações e atinge groundedness ≥0.85.

🔍 O que você vai explorar

  • Chunking deliberado (500 tokens + overlap, fronteira semântica).
  • Embeddings densos vs BM25; híbrido com Reciprocal Rank Fusion.
  • Vector stores (FAISS, pgvector, Qdrant) e ANN.
  • Reranking cross-encoder; contextual retrieval (Anthropic 2024).
  • Citação obrigatória + saber dizer 'não sei'.
  • RAG agêntico (multi-hop, self-RAG) e quando NÃO usar.

👤 Para quem

Quem precisa que o modelo responda sobre dados próprios.

📚 Módulos da trilha

3.1 GA
~60 min · Intermediário · Prático

📚 Indexação: chunking, embeddings e BM25 híbrido

Como transformar um corpus em um índice consultável: estratégias de chunking, embeddings densos, BM25 sparse, e por que híbrido bate ambos.

1 ✂️ Chunking: dividir o corpus
O que é: Quebrar documentos em pedaços (chunks) de 200-1000 tokens com overlap de 10-20%. Pode ser por caracteres, sentenças ou parágrafos.
Por que aprender: Chunks muito grandes diluem relevância; muito pequenos perdem contexto. Overlap evita corte abrupto entre fronteiras.
Conceitos-chave: Sliding window, semantic chunking, fronteira de seção, recursive splitter.
2 🧮 Embeddings densos: vetores semânticos
O que é: Converte texto em vetor (768-3072 dim) onde proximidade vetorial ≈ similaridade semântica. Modelos: bge, mpnet, OpenAI ada/text-3.
Por que aprender: Captura sinônimos e paráfrase que BM25 perde ('automóvel' vs 'carro'). Base do retrieval moderno.
Conceitos-chave: Cosine similarity, dual encoder, MTEB benchmark, dimensionalidade.
3 🔤 BM25: o sparse clássico que ainda manda
O que é: Algoritmo probabilístico de relevância baseado em frequência de termo (TF) e raridade (IDF). Não usa ML.
Por que aprender: Robusto, rápido, captura match exato (números, IDs, nomes próprios) que embeddings densas erram.
Conceitos-chave: TF-IDF, BM25, sparse vector, lexical match, rare term boost.
4 🤝 Híbrido: BM25 + denso, fusão por RRF
O que é: Roda ambos em paralelo, funde rankings via Reciprocal Rank Fusion (RRF) ou peso linear (alpha).
Por que aprender: Ganhos consistentes em benchmarks (BEIR). Cada método cobre falhas do outro: BM25 pega match exato, denso pega paráfrase.
Conceitos-chave: RRF, alpha-fusion, hybrid search, ColBERT (alternativa late-interaction).
5 🗂️ Vector stores: o que escolher
O que é: Bancos de dados otimizados para nearest-neighbor search em vetores. Local (FAISS, pgvector) ou hosted (Qdrant Cloud, Pinecone).
Por que aprender: Sem isso, busca em 100k embeddings vira O(n) inviável. Vector stores fazem ANN (HNSW, IVF) em ms.
Conceitos-chave: ANN (approximate nearest neighbor), HNSW, IVF, recall@k, índice em memória vs. disco.
6 🏷️ Metadata e filtros: além do match semântico
O que é: Anexar metadados a cada chunk (data, autor, categoria, idioma) e filtrar por eles antes ou depois da busca vetorial.
Por que aprender: Pergunta 'eventos de 2024' não deve trazer chunks de 2019, mesmo que semanticamente similares. Filtros resolvem.
Conceitos-chave: Metadata filtering, pre-filter, post-filter, namespace.
Ver Completo →
3.2 GA
~60 min · Intermediário · Prático

🔍 Recuperação, reranking e contextual retrieval

Do índice à resposta: top-k retrieval, rerankers cross-encoder, contextual retrieval (Anthropic 2024) e citações obrigatórias.

1 🎯 Top-k retrieval: quanto recuperar
O que é: Pegar os k chunks mais similares à query. k=3-10 é o range típico para passar à geração.
Por que aprender: k baixo perde recall; k alto enche a janela de ruído (vide lost-in-the-middle). Otimize empiricamente.
Conceitos-chave: Recall@k, precision@k, k-tuning, MRR (mean reciprocal rank).
2 🏆 Reranker cross-encoder: precisão alta
O que é: Modelo cross-encoder que recebe (query, chunk) e retorna score. Mais preciso que dual encoder, mas mais lento.
Por que aprender: Padrão: recupera top-50 com encoder rápido, rankeia para top-5 com cross-encoder. Ganho consistente em recall.
Conceitos-chave: Cross-encoder vs dual encoder, BGE reranker, Cohere Rerank, latency budget.
3 🪄 Contextual retrieval (Anthropic 2024)
O que é: Antes de embedar cada chunk, injeta uma descrição curta do documento de onde veio. Reduz miss em 35-50% (Anthropic 2024).
Por que aprender: Chunk isolado perde contexto; com contexto, embedding fica mais informativo. Custo: chamada extra ao LLM por chunk no index time.
Conceitos-chave: Contextual retrieval, document-level prefix, prompt caching no index, late chunking.
4 📌 Citações obrigatórias na geração
O que é: Padrão de incluir IDs/URLs dos chunks recuperados no prompt e exigir que a resposta cite a fonte de cada afirmação.
Por que aprender: Sem citação, você não sabe se o modelo grounded a resposta ou alucinou. Eval (T6) precisa de citação para medir groundedness.
Conceitos-chave: Citation patterns, source tracking, groundedness, attribution.
5 🚫 Saber dizer 'não sei'
O que é: System prompt instrui: 'se a resposta não está no contexto, diga não sei'. Reduz alucinação.
Por que aprender: Modelos preferem responder algo a admitir ignorância. Instrução explícita + few-shot de 'não sei' equilibra.
Conceitos-chave: Abstention, calibration, hallucination, RAG-fail-safe.
6 ♻️ Re-rankeio adaptativo: query rewriting
O que é: Antes de buscar, o LLM reescreve/expande a query (sinônimos, sub-perguntas) ou gera resposta hipotética (HyDE) usada como query.
Por que aprender: Query do usuário é frequentemente curta e ambígua. Reescrita melhora recall sem custar muito.
Conceitos-chave: Query rewriting, HyDE (Gao et al. 2022), multi-query retrieval, query decomposition.
Ver Completo →
3.3 beta
~70 min · Avançado · Avançado

🤖 RAG agêntico e self-RAG (beta)

Quando o RAG estático não basta: agente que decide se busca, o que busca, e quando parar. Self-RAG, multi-hop, e quando o custo NÃO compensa.

1 🔄 Multi-hop: encadear buscas
O que é: Pergunta exige info de múltiplas fontes em sequência. Agente busca, lê, refina query, busca de novo.
Por que aprender: Perguntas como 'compare A e B em 2024' precisam de 2+ buscas. RAG estático falha.
Conceitos-chave: Multi-hop QA, iterative retrieval, query refinement, ReAct.
2 🤔 Self-RAG: decidir se buscar
O que é: Modelo emite token especial decidindo se precisa buscar. Se não, responde do parâmetro; se sim, busca e cita.
Por que aprender: Nem toda pergunta precisa de RAG. Self-RAG evita custo e latência quando o conhecimento paramétrico basta.
Conceitos-chave: Self-RAG, retrieve-or-not, calibração de confiança, paramétrico vs. retrieval.
3 🧭 Query decomposition
O que é: LLM decompõe pergunta em sub-perguntas, busca cada uma, junta as evidências.
Por que aprender: Para perguntas compostas ('o que mudou de A para B?'), decomposição melhora recall.
Conceitos-chave: Query decomposition, sub-question answering, fan-out, planner.
4 🛡️ Guards: critic step e verificação
O que é: Após resposta, segundo passo verifica: a resposta está grounded? Cita fonte? Se não, refaz.
Por que aprender: Qualidade > velocidade em casos sensíveis. Critic step pega regressões.
Conceitos-chave: Critic loop, verification step, self-correction, faithfulness.
5 🚦 Stopping criteria
O que é: Critério explícito: max iterações, confiança suficiente, ou custo orçado atingido.
Por que aprender: Sem critério, o agente loopa. Loops em produção são desastre de custo.
Conceitos-chave: Max iterations, confidence threshold, cost budget, early stop.
6 💸 Quando NÃO usar RAG agêntico
O que é: Cada hop custa: tokens + latência + risco de loop. Para 80% dos casos, RAG estático com bom reranker basta.
Por que aprender: RAG agêntico pode 3-10× o custo de RAG estático sem ganho proporcional.
Conceitos-chave: Cost amortization, complexity vs benefit, default to simple.
Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T3.md.

Bibliografia T3 →

🗺️ Outras trilhas