T2 — Engenharia da Mensagem

🎯 Objetivo desta trilha

Tratar prompt como código: estrutura, versionamento, eval automatizado.

🔍 O que você vai explorar

▸Anatomia da mensagem em 5 seções estáveis.
▸System prompt, few-shot canônico, formato declarativo XML/JSON.
▸Padrão FEC de ordem: estável → variável → âncora → user turn.
▸Ancoragem dupla; chain-of-thought quando vale.
▸Prompts versionados em arquivo (Jinja2/templates), SemVer aplicado.
▸Eval primer: golden set + mini-eval em toda mudança de prompt.

👤 Para quem

Quem pretende manter prompts em produção, não 'tunar pra demo'.

📚 Módulos da trilha

2.1 GA

~55 min · Intermediário · Prático

✉️ Estrutura da mensagem: system, few-shot, XML/JSON, ancoragem

A anatomia de um prompt bem-engenhado: 5 seções estáveis, formato declarativo, exemplos few-shot e por que ancoragem do user turn no fim importa.

1 🎭 System prompt: persona e regras— O contrato do modelo ▾

O que é: Mensagem do tipo 'system' que define persona, regras, formato de saída e restrições. Estável entre turns — alvo prioritário do prompt caching.

Por que aprender: Sem system prompt explícito, o modelo improvisa o comportamento a cada chamada. Você perde controle e reprodutibilidade.

Conceitos-chave: Persona, role, regras, formato de saída, prompt cache anchor.

2 📚 Few-shot: ensinando por exemplo— 2-N exemplos canônicos ▾

O que é: Padrão de incluir 2-N exemplos input→output no prompt para guiar o modelo. Funciona melhor que descrição abstrata para tarefas com formato específico.

Por que aprender: In-context learning: o modelo extrapola do padrão dos exemplos. Para classificação, extração estruturada e tradução, few-shot consistentemente bate zero-shot.

Conceitos-chave: In-context learning, GPT-3 paper (Brown et al. 2020), exemplo canônico, ordem dos exemplos.

3 🏷️ Formato declarativo: XML, JSON, Markdown— Tags que ancoram ▾

O que é: Usar tags XML (<documento>, <pergunta>) ou JSON Schema declara seções e ajuda o modelo a separá-las.

Por que aprender: Modelos modernos foram fine-tunados em prompts com estrutura. XML reduz confusão entre 'o que é instrução' e 'o que é dado'.

Conceitos-chave: XML tags, JSON Schema, structured outputs, delimitadores.

4 📍 Ordem das seções: estável → variável → instrução— O padrão FEC ▾

O que é: System prompt e few-shot fixos primeiro (cacheáveis); contexto recuperado depois (variável); instrução do usuário no fim.

Por que aprender: Maximiza cache hit rate e coloca a pergunta na zona de atenção alta (recência).

Conceitos-chave: Cache stability, instruction-at-end, anchoring, prefix-suffix split.

5 🪢 Ancoragem: repita a pergunta antes E depois— Mitigação contra lost-in-middle ▾

O que é: Quando o contexto recuperado é grande, repetir a pergunta no início E no fim do bloco de contexto reduz a chance de o modelo esquecer.

Por que aprender: Liu et al. (2023) mostra que info no meio é menos atendida. Ancoragem é uma das mitigações validadas.

Conceitos-chave: Anchoring, repetition prompt, query injection.

6 🔧 Chain-of-thought: pensar antes de responder— Raciocínio explícito ▾

O que é: Padrão de pedir ao modelo para 'pensar passo a passo' antes da resposta final. Tags como <raciocinio> antes de <resposta>.

Por que aprender: Em problemas multi-passo (matemática, lógica), CoT melhora acurácia significativamente. Wei et al. (2022).

Conceitos-chave: CoT (Wei 2022), zero-shot CoT (Kojima 2022), reasoning models, scratchpad.

Ver Completo →

2.2 GA

~60 min · Intermediário · Prático

📝 Templates, versionamento de prompt e eval primer

Prompts viram código: têm versão, diff, teste. Toda mudança em prompt deve passar por mini-eval no harness antes de ir para produção.

1 📦 Prompt como código: template + variáveis— Separar dado de prompt ▾

O que é: Padrão template com placeholders (Jinja2, f-string, mustache). O prompt fica em arquivo versionado; dados entram no momento da chamada.

Por que aprender: Prompts hardcoded em código Python ficam impossíveis de revisar e versionar. Templates externos permitem PR review do prompt isoladamente.

Conceitos-chave: Template engine, variáveis, schema de input, sanitização.

2 🔢 Versionamento: SemVer aplicado a prompts— v1.0.0 do prompt ▾

O que é: Major: mudança que invalida saídas anteriores (formato, persona). Minor: capability nova compatível. Patch: correção de typo, clareza.

Por que aprender: Sem versionamento, regressão silenciosa é certeza. Você muda 'só uma palavra' e quebra 30% dos casos sem perceber.

Conceitos-chave: SemVer, prompt diff, breaking change, hash de prompt.

3 🎯 Golden set: o conjunto de validação— 20-50 exemplos canônicos ▾

O que é: Conjunto fixado de input → output esperado, usado para medir se o prompt continua funcionando após mudança.

Por que aprender: É o teste automatizado do prompt. Sem golden set, 'A/B' vira 'achei que melhorou'.

Conceitos-chave: Golden set, regression test, eval frozen, harness.

4 ⚖️ Eval primer: medir antes de mergear— A regra que enraíza em T6 ▾

O que é: Toda mudança em prompt entra com mini-eval contra o golden set. Métrica primária + 1-2 secundárias. Diff documentado.

Por que aprender: Disciplina anti-regressão. Sem isso, o prompt vai sendo 'melhorado' ad hoc até parar de funcionar.

Conceitos-chave: Mini-eval, A/B no harness, statistical significance, eval cost.

5 📊 Métricas: exact match, BLEU, LLM-as-judge— Escolha pela tarefa ▾

O que é: Exact match para classificação. BLEU/ROUGE para tradução/sumarização. LLM-as-judge para qualidade subjetiva (com cuidado dos vieses).

Por que aprender: Cada tipo de tarefa pede sua métrica. LLM-as-judge é poderoso mas tem vieses — detalhado em T6.1.

Conceitos-chave: Exact match, BLEU, ROUGE, LLM-as-judge, judge bias.

6 🔁 Iterativa, não one-shot: o ciclo do prompt— Hipótese → eval → diff ▾

O que é: Ciclo: hipótese de mudança → escrever variant → rodar contra golden → comparar métricas → decidir.

Por que aprender: Prompt engineering não é arte intuitiva — é ciência empírica. Ciclos rápidos e medidos batem 'feeling'.

Conceitos-chave: Hypothesis-driven, eval cycle, prompt diff, A/B significant.

Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T2.md.

Bibliografia T2 →

🗺️ Outras trilhas

🧠 Fundamentos de Contexto

📚 RAG e Recuperação

🛠️ Tools, Agentes e Multi-Agente

💾 Memória e Compressão

📊 Avaliação e Produção