Nota de Transparência sobre avaliações de risco e segurança da Microsoft Foundry

O que é uma Nota de Transparência

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente no qual ela é implantada. A criação de um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, quais são suas funcionalidades e limitações e como obter o melhor desempenho. as Notas de Transparência da Microsoft destinam-se a ajudá-lo a entender como nossa tecnologia de IA funciona, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o meio ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

as Notas de Transparência da Microsoft fazem parte de um esforço mais amplo em Microsoft para colocar nossos Princípios de IA em prática. Para saber mais, consulte os princípios de IA Microsoft.

Os conceitos básicos das avaliações de risco e segurança da Microsoft Foundry

Introdução

Modelos vendidos diretamente por Azure foram avaliados por Microsoft com base nos padrões de IA Responsável da Microsoft. Todos os outros modelos, incluindo, mas não se limitando a modelos Anthropic e modelos Open originados do Hub do Hugging Face ou da IA do Fireworks, são produtos não-Microsoft nos Termos do Produto e não foram avaliados pela Microsoft.

Se um modelo é vendido diretamente por Azure ou é um Produto não Microsoft, os clientes devem realizar suas próprias avaliações de risco e segurança. As avaliações de risco e segurança do Foundry permitem que os usuários avaliem a saída de seu aplicativo de IA gerativo para riscos de conteúdo textual: conteúdo odioso e injusto, conteúdo sexual, conteúdo violento, conteúdo relacionado à automutilação, vulnerabilidade de jailbreak direto e indireto e material protegido no conteúdo. As avaliações de segurança também podem ajudar a gerar conjuntos de dados adversários para ajudá-lo a acelerar e aumentar a operação de agrupamento vermelho. As avaliações de segurança de fundição refletem os compromissos da Microsoft para garantir que os sistemas de IA sejam criados com segurança e responsabilidade, operacionalizando nossos Princípios de IA Responsável.

Termos-chave

Conteúdo odioso e injusto (para texto e imagens) refere-se a qualquer linguagem ou imagens relativas ao ódio contra ou a representações injustas de indivíduos e grupos sociais ao longo de fatores, incluindo, mas não se limitando a raça, etnia, nacionalidade, gênero, orientação sexual, religião, status de imigração, capacidade, aparência pessoal e tamanho do corpo. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma injusta, criando ou contribuindo para iniquidades sociais.
O conteúdo sexual (para texto e imagens) inclui linguagem ou imagens pertencentes a órgãos anatômicos e genitais, relações românticas, atos retratados em termos eróticos, gravidez, atos sexuais físicos (incluindo agressão ou violência sexual), prostituição, pornografia e abuso sexual.
O conteúdo violento (para texto e imagens) inclui linguagem ou imagens relativas a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo assim. Também inclui descrições de armas (e entidades relacionadas, como fabricantes e associações).
O conteúdo relacionado à automutilação (para texto e imagens) inclui linguagem ou imagens relativas a ações destinadas a ferir, ferir ou danificar o corpo ou se matar.
O conteúdo de material protegido (para texto) inclui conteúdo textual conhecido, por exemplo, letras de música, artigos, receitas e conteúdo da Web selecionado, que pode ser gerado por modelos de linguagem grandes. Ao detectar e impedir a exibição de material protegido, as organizações podem manter a conformidade com os direitos de propriedade intelectual e preservar a originalidade do conteúdo.
O conteúdo de material protegido (para imagens) refere-se a determinado conteúdo visual protegido protegido por direitos autorais, como logotipos e marcas, obras de arte ou caracteres fictícios. O sistema usa um modelo de base de imagem para texto para identificar se esse conteúdo está presente.
Ataques diretos de jailbreak, prompt direto ou ataques de injeção de prompt do usuário referem-se a usuários manipulando prompts para injetar entradas prejudiciais em LLMs para distorcer ações e saídas. Um exemplo de um comando jailbreak é um ataque 'DAN' (Do Anything Now), que pode enganar a LLM para a geração de conteúdo inadequada ou ignorar restrições impostas pelo sistema.
Jailbreak indireto, ataques indiretos de prompt ou ataques de injeção de prompt entre domínios referem-se a situações em que instruções mal-intencionadas estão ocultas em dados que um sistema de IA processa ou a partir dos quais gera conteúdo fundamentado. Esses dados podem incluir emails, documentos, sites ou outras fontes não diretamente criadas pelo desenvolvedor ou pelo usuário e podem levar a geração de conteúdo inadequada ou ignorar restrições impostas pelo sistema.
A taxa de defeitos (risco de conteúdo) é definida como o percentual de instâncias em seu conjunto de dados de teste que ultrapassam um limite na escala de severidade em relação ao tamanho inteiro do conjunto de dados.
Red-teaming historicamente descreve ataques adversários sistemáticos para testar vulnerabilidades de segurança. Com o aumento de LLM (Modelos de Linguagem Grande), o termo se estendeu além da segurança cibernética tradicional e evoluiu em uso comum para descrever muitos tipos de investigação, teste e ataque de sistemas de IA. Com as LLMs, o uso benigno e contraditório pode produzir saídas potencialmente prejudiciais, que podem tomar muitas formas, incluindo conteúdo prejudicial, como fala odiosa, incitação ou glorificação da violência, referência a conteúdo relacionado à automutilação ou conteúdo sexual.

Capacidades

Comportamento do sistema

A Foundry provisiona um modelo Azure OpenAI GPT-4o ajustado e orquestra ataques adversários contra seu aplicativo para gerar um conjunto de dados de teste de alta qualidade. Em seguida, ele provisiona outro modelo GPT-4o para anotar seu conjunto de dados de teste em relação a conteúdo e segurança. Os usuários fornecem o endpoint de seu aplicativo de IA generativa que desejam testar, e as avaliações de segurança produzirão um conjunto de dados de teste estático para esse endpoint, juntamente com seu rótulo de risco de conteúdo (muito baixo, baixo, médio, alto) ou rótulo de detecção de risco de conteúdo (Verdadeiro ou Falso), além do raciocínio para o rótulo gerado pela IA.

Casos de uso

Usos pretendidos

As avaliações de segurança não se destinam a ser usadas para qualquer finalidade diferente de avaliar riscos de conteúdo e vulnerabilidades de jailbreak de seu aplicativo de IA generativo:

Valorizando a pré-implantação do aplicativo de IA generativo: usando o assistente de avaliação no portal do Foundry ou no SDK Python de IA Azure, as avaliações de segurança podem avaliar de forma automatizada a avaliação de possíveis riscos de conteúdo ou segurança.
Aumentando suas operações de equipe vermelha: Ao utilizar o simulador adversarial, as avaliações de segurança podem simular interações adversárias com seu aplicativo de IA generativa para identificar riscos de conteúdo e segurança.
Comunicando os riscos de conteúdo e segurança aos stakeholders: usando o portal do Foundry, você pode compartilhar o acesso ao seu projeto do Foundry com resultados de avaliações de segurança com auditores ou stakeholders de conformidade.

Considerações ao escolher um caso de uso

Incentivamos os clientes a aproveitar as avaliações de segurança do Foundry em suas soluções ou aplicativos inovadores. No entanto, aqui estão algumas considerações ao escolher um caso de uso:

As avaliações de segurança devem incluir human-in-the-loop: o uso de avaliações automatizadas como avaliações de segurança do Foundry deve incluir revisores humanos, como especialistas em domínio, para avaliar se seu aplicativo de IA generativo foi testado minuciosamente antes da implantação para os usuários finais.
As avaliações de segurança não incluem cobertura abrangente total: embora as avaliações de segurança possam fornecer uma maneira de aumentar seus testes para possíveis riscos de conteúdo ou segurança, ela não foi projetada para substituir operações manuais de agrupamento vermelho especificamente voltadas para o domínio do aplicativo, casos de uso e tipo de usuários finais.
Cenários com suporte:
- Para simulação adversarial: Resposta a perguntas, chat de vários turnos, resumir, pesquisa, girar texto, geração de conteúdo sem base e fundamentada.
- Para anotações automatizadas: resposta a perguntas e chat de várias voltas.
Atualmente, o serviço é mais usado com o domínio inglês somente para gerações textuais. Recursos adicionais, incluindo suporte a vários modelos, serão considerados para versões futuras.
A cobertura dos riscos de conteúdo fornecidos nas avaliações de segurança é subamplada de um número limitado de grupos e tópicos marginalizados:
- A métrica de ódio e injustiça inclui alguma cobertura para um número limitado de grupos marginalizados para o fator demográfico de gênero (por exemplo, homens, mulheres, pessoas não binárias) e raça, ancestralidade, etnia e nacionalidade (por exemplo, negro, mexicano, europeu). Nem todos os grupos marginalizados em gênero e raça, ancestralidade, etnia e nacionalidade são cobertos. Outros fatores demográficos relevantes ao ódio e à injustiça atualmente não têm cobertura (por exemplo, deficiência, sexualidade, religião).
- As métricas para conteúdo sexual, violento e relacionado à automutilação baseiam-se em uma conceitualização preliminar desses danos que são menos desenvolvidos do que o ódio e a injustiça. Isso significa que podemos fazer declarações menos fortes sobre a cobertura de medida e o quão bem as medidas representam as diferentes maneiras pelas quais esses danos podem ocorrer. A cobertura para esses tipos de conteúdo inclui um número limitado de tópicos relacionados ao sexo (por exemplo, violência sexual, relações, atos sexuais), violência (por exemplo, abuso, ferir outras pessoas, sequestro) e automutilação (por exemplo, morte intencional, automutilação intencional, distúrbios alimentares).
Atualmente, as avaliações de segurança de fundição não possibilitam plug-ins ou extensibilidade.
Para manter a qualidade atualizada e melhorar a cobertura, pretendemos estabelecer uma periodicidade nas futuras versões de melhoria para os recursos de simulação adversarial e capacidades de anotação do serviço.

Limitações técnicas, fatores operacionais e intervalos

O campo de LLMs (grandes modelos de linguagem) continua evoluindo em um ritmo rápido, exigindo melhoria contínua das técnicas de avaliação para garantir a implantação segura e confiável do sistema de IA. As avaliações de segurança de fundimento refletem o compromisso da Microsoft em continuar inovando no campo de avaliação de LLM. Pretendemos fornecer as melhores ferramentas para ajudá-lo a avaliar a segurança de seus aplicativos de IA generativos, mas reconhecer que a avaliação efetiva é um trabalho contínuo em andamento.
Atualmente, a personalização das avaliações de segurança do Foundry é limitada. Esperamos que os usuários forneçam o ponto de extremidade de entrada de suas aplicações de IA gerativa, e nosso serviço irá gerar um conjunto de dados estático rotulado para risco de conteúdo.
Por fim, deve-se observar que esse sistema não automatiza nenhuma ação ou tarefas, ele fornece apenas uma avaliação das saídas do aplicativo de IA generativo, que devem ser revisadas por um tomador de decisão humano no loop antes de optar por implantar o aplicativo de IA gerativo ou o sistema em produção para os usuários finais.

Desempenho do sistema

Práticas recomendadas para melhorar o desempenho do sistema

Ao considerar seu domínio, que pode tratar algum conteúdo com mais sensibilidade do que outro, considere ajustar o limite para calcular a taxa de defeitos.
Ao usar as avaliações de segurança automatizadas, às vezes pode haver um erro em seus rótulos gerados por IA para a gravidade de um risco de conteúdo ou seu raciocínio. Há uma coluna de feedback manual humano para possibilitar a validação humana integrada dos resultados automatizados da avaliação de segurança.

Avaliação das avaliações de segurança do Foundry

Métodos de avaliação

Para todos os tipos de risco de conteúdo com suporte, verificamos internamente a qualidade comparando a taxa de correspondências aproximadas entre rotuladores humanos usando uma escala de gravidade de 0 a 7 e o anotador automatizado das avaliações de segurança também usando uma escala de severidade de 0 a 7 nos mesmos conjuntos de dados. Para cada área de risco, utilizamos tanto anotadores humanos quanto um anotador automatizado para rotular 500 textos em inglês, 250 gerações de texto-para-imagem de operação única e 250 textos multi-modais com gerações de imagem-para-texto. Os rotuladores humanos e o anotador automatizado não usaram exatamente as mesmas versões das diretrizes de anotação; embora as diretrizes do anotador automatizado tenham decorredo das diretrizes para humanos, elas divergiram desde então para diferentes graus (com as diretrizes de ódio e injustiça tendo divergido mais). Apesar dessas diferenças ligeiras a moderadas, acreditamos que ainda é útil compartilhar tendências gerais e insights de nossa comparação de correspondências aproximadas. Em nossas comparações, procuramos correspondências com uma tolerância de 2 níveis (onde o rótulo humano correspondia exatamente ao rótulo do anotador automatizado ou estava até dois níveis acima ou abaixo em termos de severidade), com uma tolerância de 1 nível e com uma tolerância de 0 nível.

Resultados da avaliação

No geral, vimos uma alta taxa de correspondências aproximadas entre os riscos de automutilação e conteúdo sexual em todos os níveis de tolerância. Por violência, ódio e injustiça, a taxa aproximada de correspondência entre diferentes níveis de tolerância foi menor. Esses resultados foram, em parte, devido ao aumento da divergência no conteúdo de diretrizes de anotação para rotuladores humanos versus anotador automatizado e, em parte, devido à maior quantidade de conteúdo e complexidade em diretrizes específicas.

Embora nossas comparações sejam entre entidades que usaram diretrizes de anotação ligeiramente diferentes (e, portanto, não são comparações padrão de contrato de modelo humano), essas comparações fornecem uma estimativa da qualidade que podemos esperar das avaliações de segurança do Foundry, considerando os parâmetros dessas comparações. Especificamente, examinamos apenas amostras de inglês, portanto, nossas descobertas podem não generalizar para outros idiomas. Além disso, cada exemplo de conjunto de dados consistia em apenas uma única vez e, portanto, mais experimentos são necessários para verificar a generalizabilidade de nossas descobertas de avaliação em cenários de vários turnos (por exemplo, uma conversa de ida e volta, incluindo consultas de usuário e respostas do sistema). Os tipos de exemplos usados nesses conjuntos de dados de avaliação também podem afetar muito a taxa de correspondência aproximada entre rótulos humanos e um anotador automatizado – se os exemplos forem mais fáceis de rotular (por exemplo, se todos os exemplos estiverem livres de riscos de conteúdo), podemos esperar que a taxa de correspondência aproximada seja maior. A qualidade dos rótulos humanos para uma avaliação também pode afetar a generalização de nossas conclusões.

Avaliando e integrando avaliações de segurança do Foundry para seu uso

A medição e a avaliação do aplicativo de IA gerativa são uma parte crítica de uma abordagem holística para o gerenciamento de riscos de IA. As avaliações de segurança de fundição são complementares e devem ser usadas em conjunto com outras práticas de gerenciamento de riscos de IA. Especialistas em domínio e revisores humanos integrados devem fornecer uma supervisão adequada ao realizarem avaliações de segurança assistidas por IA no ciclo de design, desenvolvimento e implantação de aplicativos de IA generativa. Você deve entender as limitações e os usos pretendidos das avaliações de segurança, tendo cuidado para não depender de saídas produzidas por avaliações de segurança assistidas por IA do Foundry isoladamente.

Devido à natureza não determinística das LLMs, você pode experimentar resultados falsos negativos ou positivos, como um nível de alta gravidade de conteúdo violento pontuado como "muito baixo" ou "baixo". Além disso, os resultados da avaliação podem ter significados diferentes para públicos diferentes. Por exemplo, as avaliações de segurança podem gerar um rótulo para gravidade "baixa" de conteúdo violento que pode não se alinhar à definição de um revisor humano de quão grave esse conteúdo violento específico pode ser. No portal Foundry, fornecemos uma coluna de comentários humanos com polegares para cima e polegares para baixo ao exibir os resultados da avaliação, destacando quais casos foram aprovados ou sinalizados como incorretos por um revisor humano. Considere o contexto de como seus resultados podem ser interpretados para tomada de decisão por outras pessoas com quem você pode compartilhar a avaliação e validar os resultados da avaliação com o nível apropriado de escrutínio para o nível de risco no ambiente em que cada aplicativo de IA generativo opera.

Saiba mais sobre IA responsável

princípios de IA Microsoft
Recursos responsáveis de IA da Microsoft
Microsoft Azure Cursos de aprendizagem sobre IA responsável

Saiba mais sobre avaliações de segurança do Foundry

Comentários

Esta página foi útil?

Last updated on 2026-04-30