Verificando acesso...

TRILHA 2

✉️ Engenharia da Mensagem

System prompt, few-shot, formato XML/JSON, ancoragem, versionamento de prompt e o eval primer.

2
Módulos GA
0
Beta
~1h
Duração
12
Tópicos

🎯 Objetivo desta trilha

Tratar prompt como código: estrutura, versionamento, eval automatizado.

🔍 O que você vai explorar

  • Anatomia da mensagem em 5 seções estáveis.
  • System prompt, few-shot canônico, formato declarativo XML/JSON.
  • Padrão FEC de ordem: estável → variável → âncora → user turn.
  • Ancoragem dupla; chain-of-thought quando vale.
  • Prompts versionados em arquivo (Jinja2/templates), SemVer aplicado.
  • Eval primer: golden set + mini-eval em toda mudança de prompt.

👤 Para quem

Quem pretende manter prompts em produção, não 'tunar pra demo'.

📚 Módulos da trilha

2.1 GA
~55 min · Intermediário · Prático

✉️ Estrutura da mensagem: system, few-shot, XML/JSON, ancoragem

A anatomia de um prompt bem-engenhado: 5 seções estáveis, formato declarativo, exemplos few-shot e por que ancoragem do user turn no fim importa.

1 🎭 System prompt: persona e regras
O que é: Mensagem do tipo 'system' que define persona, regras, formato de saída e restrições. Estável entre turns — alvo prioritário do prompt caching.
Por que aprender: Sem system prompt explícito, o modelo improvisa o comportamento a cada chamada. Você perde controle e reprodutibilidade.
Conceitos-chave: Persona, role, regras, formato de saída, prompt cache anchor.
2 📚 Few-shot: ensinando por exemplo
O que é: Padrão de incluir 2-N exemplos input→output no prompt para guiar o modelo. Funciona melhor que descrição abstrata para tarefas com formato específico.
Por que aprender: In-context learning: o modelo extrapola do padrão dos exemplos. Para classificação, extração estruturada e tradução, few-shot consistentemente bate zero-shot.
Conceitos-chave: In-context learning, GPT-3 paper (Brown et al. 2020), exemplo canônico, ordem dos exemplos.
3 🏷️ Formato declarativo: XML, JSON, Markdown
O que é: Usar tags XML (<documento>, <pergunta>) ou JSON Schema declara seções e ajuda o modelo a separá-las.
Por que aprender: Modelos modernos foram fine-tunados em prompts com estrutura. XML reduz confusão entre 'o que é instrução' e 'o que é dado'.
Conceitos-chave: XML tags, JSON Schema, structured outputs, delimitadores.
4 📍 Ordem das seções: estável → variável → instrução
O que é: System prompt e few-shot fixos primeiro (cacheáveis); contexto recuperado depois (variável); instrução do usuário no fim.
Por que aprender: Maximiza cache hit rate e coloca a pergunta na zona de atenção alta (recência).
Conceitos-chave: Cache stability, instruction-at-end, anchoring, prefix-suffix split.
5 🪢 Ancoragem: repita a pergunta antes E depois
O que é: Quando o contexto recuperado é grande, repetir a pergunta no início E no fim do bloco de contexto reduz a chance de o modelo esquecer.
Por que aprender: Liu et al. (2023) mostra que info no meio é menos atendida. Ancoragem é uma das mitigações validadas.
Conceitos-chave: Anchoring, repetition prompt, query injection.
6 🔧 Chain-of-thought: pensar antes de responder
O que é: Padrão de pedir ao modelo para 'pensar passo a passo' antes da resposta final. Tags como <raciocinio> antes de <resposta>.
Por que aprender: Em problemas multi-passo (matemática, lógica), CoT melhora acurácia significativamente. Wei et al. (2022).
Conceitos-chave: CoT (Wei 2022), zero-shot CoT (Kojima 2022), reasoning models, scratchpad.
Ver Completo →
2.2 GA
~60 min · Intermediário · Prático

📝 Templates, versionamento de prompt e eval primer

Prompts viram código: têm versão, diff, teste. Toda mudança em prompt deve passar por mini-eval no harness antes de ir para produção.

1 📦 Prompt como código: template + variáveis
O que é: Padrão template com placeholders (Jinja2, f-string, mustache). O prompt fica em arquivo versionado; dados entram no momento da chamada.
Por que aprender: Prompts hardcoded em código Python ficam impossíveis de revisar e versionar. Templates externos permitem PR review do prompt isoladamente.
Conceitos-chave: Template engine, variáveis, schema de input, sanitização.
2 🔢 Versionamento: SemVer aplicado a prompts
O que é: Major: mudança que invalida saídas anteriores (formato, persona). Minor: capability nova compatível. Patch: correção de typo, clareza.
Por que aprender: Sem versionamento, regressão silenciosa é certeza. Você muda 'só uma palavra' e quebra 30% dos casos sem perceber.
Conceitos-chave: SemVer, prompt diff, breaking change, hash de prompt.
3 🎯 Golden set: o conjunto de validação
O que é: Conjunto fixado de input → output esperado, usado para medir se o prompt continua funcionando após mudança.
Por que aprender: É o teste automatizado do prompt. Sem golden set, 'A/B' vira 'achei que melhorou'.
Conceitos-chave: Golden set, regression test, eval frozen, harness.
4 ⚖️ Eval primer: medir antes de mergear
O que é: Toda mudança em prompt entra com mini-eval contra o golden set. Métrica primária + 1-2 secundárias. Diff documentado.
Por que aprender: Disciplina anti-regressão. Sem isso, o prompt vai sendo 'melhorado' ad hoc até parar de funcionar.
Conceitos-chave: Mini-eval, A/B no harness, statistical significance, eval cost.
5 📊 Métricas: exact match, BLEU, LLM-as-judge
O que é: Exact match para classificação. BLEU/ROUGE para tradução/sumarização. LLM-as-judge para qualidade subjetiva (com cuidado dos vieses).
Por que aprender: Cada tipo de tarefa pede sua métrica. LLM-as-judge é poderoso mas tem vieses — detalhado em T6.1.
Conceitos-chave: Exact match, BLEU, ROUGE, LLM-as-judge, judge bias.
6 🔁 Iterativa, não one-shot: o ciclo do prompt
O que é: Ciclo: hipótese de mudança → escrever variant → rodar contra golden → comparar métricas → decidir.
Por que aprender: Prompt engineering não é arte intuitiva — é ciência empírica. Ciclos rápidos e medidos batem 'feeling'.
Conceitos-chave: Hypothesis-driven, eval cycle, prompt diff, A/B significant.
Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T2.md.

Bibliografia T2 →

🗺️ Outras trilhas