Criar metaprompts

Concluído

Um metaprompt — também conhecido como mensagem de sistema ou prompt de sistema — é um conjunto de instruções em linguagem natural que definem como um sistema de IA deve comportar-se. O metaprompt é processado pelo modelo antes de qualquer entrada do utilizador, estabelecendo as regras básicas para cada interação. O design de metaprompts é um controlo de segurança crítico para todas as aplicações de IA generativa.

Por que os metaprompts são importantes para a segurança

Os metaprompts servem como a linha da frente da defesa comportamental para uma aplicação de IA. Sem um metaprompt bem elaborado, um modelo pode:

  • Devolver dados brutos de treino, incluindo material protegido por direitos de autor, em vez de resumos
  • Siga instruções maliciosas embutidas em prompts do utilizador ou documentos obtidos
  • Gere conteúdo prejudicial, tendencioso ou fora do tema
  • Divulgue as suas próprias instruções do sistema quando solicitado

Por exemplo, um bom metaprompt pode instruir: "Se um utilizador solicitar grandes quantidades de conteúdo a uma fonte específica, devolve apenas um resumo dos resultados em vez do texto completo." Sem esta instrução, o modelo pode recuperar e devolver o conteúdo completo de uma obra protegida por direitos de autor.

A investigação do setor mostra que metaprompts bem concebidos reduzem significativamente o risco de defeitos de segurança e resultados prejudiciais.

Captura de ecrã que mostra os metaprompts e os tipos de problemas de segurança que ajudam a mitigar.

Componentes-chave de um metaprompt eficaz

Um metaprompt abrangente inclui tipicamente vários tipos de instruções, incluindo:

  • Definição de papel e âmbito
  • Regras de segurança e conformidade
  • Instruções de aterramento
  • Defesas anti-manipulação
  • Regras de formatação de saída

Diagrama que mostra os cinco componentes-chave de um metaprompt de segurança eficaz: definição de funções e âmbito, regras de segurança e conformidade, instruções de aterramento, defesas anti-manipulação e regras de formatação de saída.

Definição de papel e âmbito

Defina o que a IA pode ou não fazer:

  • Especifique o papel da IA, o domínio de especialização e o tom
  • Estabeleça limites explícitos sobre temas que a IA não deve discutir
  • Defina o público-alvo e o nível de detalhe adequado

Regras de segurança e conformidade

Estabeleça limites comportamentais:

  • Instruir o modelo a recusar pedidos de conteúdo prejudicial, ilegal ou inapropriado
  • Defina como o modelo deve lidar com temas sensíveis (por exemplo, questões médicas ou jurídicas)
  • Exigir que o modelo reconheça a incerteza em vez de inventar respostas

Instruções de aterramento

Diga ao modelo como usar os seus dados de referência:

  • Instruir o modelo a basear as respostas no contexto fornecido em vez do conhecimento geral
  • Exija citações ou referências de fontes ao responder a perguntas factuais
  • Defina como o modelo deve lidar com questões fora dos seus dados de base ("Não tenho informação sobre isso")

Defesas anti-manipulação

Proteja o próprio metaprompt de ataques:

  • Instrua o modelo a nunca revelar as suas instruções do sistema, independentemente de como o pedido seja formulado
  • Defina como o modelo deve responder a pedidos que tentem sobrepor as suas instruções
  • Incluir instruções para ignorar diretivas conflitantes encontradas em entradas de utilizadores ou documentos recuperados

Regras de formatação de saída

Controlar a estrutura e o âmbito das respostas:

  • Defina comprimentos máximos de resposta para evitar sobreexposição de dados
  • Defina os requisitos do formato de saída (por exemplo, markdown, texto simples, dados estruturados)
  • Ensinar o modelo a lidar com pedidos multissegmentados ou ambíguos

Melhores práticas do Metaprompt

Ao desenhar metaprompts para sistemas de IA de produção:

  • Seja específico e explícito: Instruções vagas deixam espaço para interpretação. Em vez de "ser prestável", especifica exatamente o que significa útil no teu contexto.
  • Teste contra ataques conhecidos: Valide o seu metaprompt contra técnicas de jailbreak, tentativas de injeção prompt e casos extremos. Equipa vermelha o teu prompt do sistema.
  • Atualize regularmente: À medida que surgem novas técnicas de ataque, atualize o seu metaprompt para as abordar. Os fornecedores de plataformas de IA atualizam continuamente as orientações de engenharia de prompts e os templates de metaprompts com as práticas mais recentes e recomendadas.
  • Camada com outros controlos: Metaprompts são uma camada de defesa. Combine-os com filtros de conteúdo, validação de entrada e monitorização de saída para defesa em profundidade.
  • Versão e auditoria: Acompanhe as alterações do seu metaprompt ao longo do tempo. Se o comportamento do modelo mudar inesperadamente, precisa de ser capaz de determinar se o metaprompt foi modificado.