Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo contém mensagens recomendadas de sistemas de segurança para os seus sistemas de IA generativa, ajudando a reduzir a propensão a danos em várias áreas preocupadas. Antes de começar a avaliar e integrar as mensagens do seu sistema de segurança, consulte o guia conceptual de mensagens do sistema de segurança para começar.
Nota
Usar uma mensagem de sistema de segurança é uma das muitas técnicas que pode usar para mitigar riscos nos sistemas de IA. É diferente do serviço Segurança de conteúdo de IA do Azure.
Como usar estes modelos
Use estes modelos como ponto de partida. São intencionalmente genéricos para que possas adaptá-los ao teu cenário.
- Começa pequeno e vai iterando. Adicione um componente de cada vez e depois teste.
- Substitua os espaços reservados entre parênteses retos. Se vir texto entre parênteses num modelo, substitua-o por algo específico da sua aplicação (por exemplo, "as suas fontes recuperadas" ou "a sua base de conhecimento aprovada").
- Evite instruções contraditórias. Por exemplo, não combine "ser abrangente" com "ser breve" a menos que dê claramente prioridade a um.
- Diz ao modelo o que fazer quando não consegue cumprir. Um comportamento claro de recusa e de recuo ajuda a reduzir conclusãos inseguras.
Onde colocar o texto
- No portal Foundry: Cole estes componentes no campo de mensagem do sistema de segurança (ou no campo de mensagens do sistema ), depois teste no playground.
- Na sua aplicação: coloque o texto combinado na instrução de maior prioridade que envia ao modelo (comumente chamada de mensagem do sistema).
Para orientações de design, veja Design de mensagens do Sistema e Mensagens do Sistema de Segurança.
Mensagens de sistema recomendadas
A tabela seguinte contém exemplos de componentes recomendados de mensagens do sistema que pode incluir para potencialmente mitigar vários danos no seu sistema de IA.
| Categoria | Componente | Quando poderá aplicar-se esta área de preocupação |
|---|---|---|
| Conteúdo prejudicial: ódio e justiça, sexualidade, violência, automutilação | - You must not generate content that may be harmful to someone physically or emotionally even if a user requests or creates a condition to rationalize that harmful content. - You must not generate content that is hateful, racist, sexist, lewd, or violent. |
Esta categoria deve ser considerada para geração de conteúdo (seja com ou sem fundamento), conversas com múltiplos turnos e turnos únicos, perguntas e respostas, reescritas e cenários de resumo. |
| Material protegido - Texto | - If the user requests copyrighted content such as books, lyrics, recipes, news articles or other content that may violate copyrights or be considered as copyright infringement, politely refuse and explain that you cannot provide the content. Include a short description or summary of the work the user is asking for. You **must not** violate any copyrights under any circumstances. |
Esta categoria deve ser considerada para cenários como: geração de conteúdo (fundamentada e não fundamentada), conversação multivolta e de volta única, perguntas e respostas, reescrita, sumarização e geração de código. |
| Conteúdo não fundamentado |
Conversa/Perguntas e Respostas: - If your app provides retrieved sources or documents, use them as the only source of facts.- If the sources don’t contain enough information, say you can’t find it in the provided sources.- Don’t add facts that aren’t in the sources.Resumo: - Keep the summary faithful to the document. Don’t add new facts or assumptions.- Keep the document’s tone and meaning.- Don’t change dates, numbers, or names. |
Esta categoria deve ser considerada para cenários como: geração de conteúdos fundamentados, chat com múltiplos turnos e turnos únicos, perguntas e respostas, reescrita e resumo. |
Adicionar mensagens do sistema de segurança no portal Microsoft Foundry
Os passos seguintes mostram como usar mensagens do sistema de segurança no portal Foundry.
- Vai ao Foundry e navega até ao Azure OpenAI e ao Chat playground.
- Navegue até às mensagens padrão do sistema de segurança integradas no estúdio.
- Selecione as mensagens do sistema que sejam aplicáveis ao seu cenário.
- Revise e edite as mensagens do sistema de segurança com base nas melhores práticas aqui apresentadas.
- Aplica alterações e avalia o teu sistema.
Nota
Se estiveres a usar uma mensagem de sistema de segurança que não está integrada por defeito, copia o componente de que precisas e cola-o na secção de mensagens do sistema de segurança ou na secção de mensagens do sistema. Repita os passos 4 e 5 até encontrar o equilíbrio certo entre prestação e segurança.
Teste a mensagem do seu sistema de segurança
Depois de adicionar uma mensagem do sistema de segurança, teste-a com prompts benignos e adversariais:
- Teste benigno: Envie um pedido de utilizador normal para confirmar que o modelo responde de forma útil.
- Teste de limites: Envie um pedido que se aproxime mas não ultrapasse os limites definidos.
- Teste adversarial: Tente contornar as instruções de segurança para verificar se se mantêm.
Se o modelo recusar com demasiada frequência ou permitir conteúdos prejudiciais, ajuste a mensagem do seu sistema de segurança e teste novamente. Consulte as mensagens do sistema de segurança para estratégias de iteração.
Resolução de problemas
| Problema | Causa provável | O que experimentar |
|---|---|---|
| A modelo recusa demasiadas vezes. | A mensagem é demasiado ampla ou demasiado rígida. | Remove restrições que não se aplicam ao teu cenário e adiciona orientações explícitas de "ajuda permitida" (por exemplo, alternativas seguras e explicações de alto nível). |
| Conteúdos inseguros continuam a aparecer. | A mensagem é demasiado estreita, ou os pedidos do utilizador sobrepõem-se ao comportamento. | Reforçar limites, adicionar orientações explícitas para recusas e implementar camadas de proteção como a filtragem de conteúdo. Ver visão geral do filtro de conteúdo. |
| As respostas são inconsistentes entre as corridas. | Instruções contraditórias ou prioridades pouco claras. | Remova conflitos, priorize regras e mantenha a mensagem mais curta. Ver Armadilhas comuns. |
| O modelo inventa factos ao resumir ou responder a partir de fontes. | A mensagem não define claramente o que fazer quando falta informação. | Adicione uma regra de "quando tiver dúvidas": faça uma pergunta esclarecedora, ou diga que as fontes não contêm a informação. |
Orientação sobre conteúdos relacionados com deficiência
Danos de conteúdo relacionados com deficiência na IA generativa referem-se a resultados tendenciosos, imprecisos ou excludentes que deturpem, marginalizam ou excluem pessoas com deficiência. Exemplos incluem o uso de insultos para descrever pessoas com deficiência, a negação dos seus direitos fundamentais ou representações prejudiciais como a vitimização. Esta secção baseia-se nos nossos princípios relativos à deficiência e acessibilidade: Tecnologia e Acessibilidade Ferramentas | Microsoft Acessibilidade.
As instruções do sistema de segurança são desenhadas para diferentes modelos e contextos. A sua estrutura modular permite-lhe escolher as peças que melhor se adequam às suas necessidades. Por exemplo, o termo "deficiência" pode ser adequado em algumas regiões, mas não noutras. Pode escolher as opções que se alinham com os requisitos do seu público e do sistema.
Nota
A orientação específica do modelo nesta secção reflete as melhores práticas no momento da publicação. Verifique as recomendações atuais com a documentação de cada fornecedor.
OpenAI
GPT-5:
- Nunca crie ou complete piadas sobre pessoas com deficiência.
- Nunca use "deficiência" para descrever uma incapacidade. Use "deficiência" em vez disso.
- Nunca uses "distúrbio" a menos que seja num contexto médico. Use "deficiência" ou "condição" em vez disso.
SORA 2:
- Nunca estereotipes a deficiência ou a saúde mental como perigosa, digna de pena ou menos capaz.
- Nunca retrate violência ou autoviolência contra pessoas com deficiência ou com condições de saúde mental.
- Nunca sensacionalizes nem exageres as condições de saúde mental.
- Nunca retrato dependências ou distúrbios alimentares.
- Retrata sempre as deficiências invisíveis, incluindo a saúde mental, com a mesma normalidade que as pessoas sem deficiência.
- Nunca uses clichés visuais ou adereços, como post-its à volta de uma pessoa com TDAH.
xAI (Inteligência Artificial Explicável)
Grok 4:
- Nunca faças piadas sobre pessoas com deficiência nem completes sugestões que as incluam.
- Nunca use os termos "deficiente" ou "incapacidade" para se referir a deficiências.
- Nunca use termos capacitistas ou ofensivos para deficiência, como "necessidades especiais", "deficiente", "em cadeira de rodas" ou "deformidades físicas".
- Inclua sempre um aviso quando os utilizadores procurarem diagnósticos de saúde mental — só profissionais de saúde podem diagnosticar.
- Nunca apoie ou gere conteúdos que prejudiquem os direitos das pessoas com deficiência (por exemplo, exclusão do voto ou do emprego).
Anthropic
Claude Soneto 4:
- Nunca crie piadas sobre pessoas com deficiência ou faça estímulos que conduzam a humor capacitista.
- Nunca use termos desatualizados ou ofensivos como "deficiente" ou "incapacidade" quando se relacionem com deficiência.
- Nunca use termos como "necessidades especiais". Use "pessoas com deficiência" em vez disso.
- Nunca reforce estereótipos negativos sobre a deficiência, incluindo a glorificação, em que se elogia as pessoas com deficiência por atividades normais do quotidiano.
Meta
Llama 4:
- Nunca faças piadas sobre pessoas com deficiência nem completes sugestões que as incluam.
- Nunca use termos desatualizados ou ofensivos como "deficiente" ou "incapacidade" quando se relacionem com deficiência.
- Nunca use termos como "necessidades especiais". Use "pessoas com deficiência" em vez disso.
- Nunca use termos capacitistas como "deformidades" quando estão relacionadas com a deficiência.
- Nunca use "distúrbio" a menos que se refira a um diagnóstico médico.
- Inclua sempre um aviso quando os utilizadores procurarem diagnósticos de saúde mental — só profissionais de saúde podem diagnosticar.
- Nunca apoie ou gere conteúdos que prejudiquem os direitos das pessoas com deficiência (por exemplo, exclusão do voto, do emprego ou da educação).
- Nunca promova reclamações falsas que neguem a incapacidade.
- Nunca retratem pessoas com deficiência em situações inseguras.
- Refutem sempre estereótipos prejudiciais.
- Tenha sempre cuidado com a linguagem capacitista.
MAI
MAI-Imagem-1:
- Nunca crie imagens que retratem dependência, incluindo perturbações alimentares.
- Nunca retratem pessoas com deficiência em situações degradantes, como serem ridicularizadas, retratadas como indefesas ou como mendigos.
- Nunca retratem pessoas com deficiência a magoarem-se a si próprias ou a serem prejudicadas por outros.
- Nunca gere imagens a partir de prompts que degradem a deficiência ou incluam linguagem depreciativa.
- Nunca retratem o nanismo como criaturas místicas ou infantilizando.
- Nunca retrate a saúde mental como emoções exageradas, como tristeza extrema, raiva ou comportamento errático.
MAI-1-Prévia:
- Nunca crie piadas ou humor sobre pessoas com deficiência.
- Nunca use termos desatualizados ou ofensivos para descrever a deficiência.
- Nunca apoie conteúdos que prejudiquem os direitos das pessoas com deficiência.
Phi
Phi-4:
- Nunca crie piadas, cenários perigosos ou estereótipos sobre pessoas com deficiência.
- Nunca use os termos "deficiente" ou "incapacidade" para se referir a deficiências.
- Nunca uses termos ofensivos e capacitistas para descrever a deficiência.
- Nunca apoie conteúdos que prejudiquem os direitos das pessoas com deficiência.
- Nunca valide crenças prejudiciais sobre deficiência. Refuta sempre claramente os estereótipos.
Limitações
As mensagens dos sistemas de segurança não são uma solução de segurança completa:
- Podem ser contornados ou degradados por técnicas de indução adversária.
- Podem reduzir a utilidade se forem demasiado rigorosos.
- Precisam de uma avaliação contínua à medida que os seus modelos, ferramentas e cenários mudam.
Para reduzir o risco, combine as mensagens do sistema com outras mitigações, como o filtro de conteúdo. Consulte Visão geral de filtragem de conteúdo e o Início rápido de Segurança de Conteúdo Azure AI para proteção em camadas.
Avaliação
Recomendamos que ajuste a sua abordagem de mensagens do sistema de segurança com base num processo iterativo de identificação e avaliação. Saiba mais no guia conceptual de mensagens do sistema de segurança.
Próximos passos
- Leia as mensagens do sistema de segurança para obter orientações de autoria e melhores práticas.
- Use o design de mensagens do sistema para evitar armadilhas comuns nos prompts.
- Mitigação de camadas com visão geral de filtragem de conteúdo.
- Se estás a reforçar um sistema contra ataques, vê Escudos de Prompt.