Avaliações de risco e segurança da Microsoft Foundry Nota de Transparência

O que é uma Nota de Transparência

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementado. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, quais são as suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As Notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos Princípios de IA. Para saber mais, consulte os princípios Microsoft IA.

Os fundamentos das avaliações de risco e segurança do Microsoft Foundry

Introdução

Os modelos vendidos diretamente pela Azure foram avaliados pela Microsoft com base nos padrões Responsible AI da Microsoft. Todos os outros modelos, incluindo, mas não se limitando a, modelos Anthropic e Open Models provenientes do Hugging Face hub ou Fireworks AI, são produtos não-Microsoft sob os Termos do Produto e não foram avaliados pela Microsoft.

Quer um modelo seja vendido diretamente pela Azure ou seja um produto não Microsoft, os clientes devem realizar as suas próprias avaliações de risco e segurança. As avaliações de risco e segurança da Foundry permitem aos utilizadores avaliar a saída da sua aplicação de IA generativa para riscos de conteúdo textual: conteúdo odioso e injusto, conteúdo sexual, conteúdo violento, conteúdo relacionado com autoagressão, vulnerabilidade direta e indireta a jailbreaks e material protegido em conteúdo. As avaliações de segurança também podem ajudar a gerar conjuntos de dados adversariais para acelerar e reforçar a operação de red teaming. As avaliações de segurança das fundições refletem os compromissos da Microsoft em garantir que os sistemas de IA são construídos de forma segura e responsável, operacionalizando os nossos princípios de IA Responsável.

Termos-chave

Conteúdo de ódio e injusto (para texto e imagens) refere-se a qualquer linguagem ou imagem relacionada com ódio ou representações injustas de indivíduos e grupos sociais, incluindo mas não se limitando a raça, etnia, nacionalidade, género, orientação sexual, religião, estatuto migratório, capacidade, aparência pessoal e tamanho corporal. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma desigual, criando ou contribuindo para desigualdades sociais.
O conteúdo sexual (para texto e imagens) inclui linguagem ou imagens relacionadas com órgãos anatómicos e genitais, relações amorosas, atos retratados em termos eróticos, gravidez, atos sexuais físicos (incluindo agressão ou violência sexual), prostituição, pornografia e abuso sexual.
Conteúdo violento (para texto e imagens) inclui linguagem ou imagens relacionadas com ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo. Inclui também descrições de armas e armas (e entidades relacionadas, como fabricantes e associações).
Conteúdos relacionados com automutilação (para texto e imagens) incluem linguagem ou imagens relacionadas com ações destinadas a magoar, ferir ou danificar o próprio corpo ou suicidar-se.
O conteúdo material protegido (para texto) inclui conteúdo textual conhecido, por exemplo, letras de músicas, artigos, receitas e conteúdos web selecionados, que podem ser produzidos por grandes modelos de linguagem. Ao detetar e prevenir a exibição de material protegido, as organizações podem manter a conformidade com os direitos de propriedade intelectual e preservar a originalidade do conteúdo.
Conteúdo material protegido (para imagens) refere-se a certos conteúdos visuais protegidos que são protegidos por direitos de autor, como logótipos e marcas, obras de arte ou personagens fictícias. O sistema utiliza um modelo de fundação imagem-para-texto para identificar se tal conteúdo está presente.
Jailbreak direto, ataques de prompt direto ou ataques de injeção de prompt do utilizador referem-se a utilizadores que manipulam prompts para injetar entradas prejudiciais em LLMs, distorcendo ações e saídas. Um exemplo de comando jailbreak é um ataque 'DAN' (Faça Qualquer Coisa Agora), que pode enganar o LLM para gerar conteúdo inadequado ou ignorar restrições impostas pelo sistema.
Jailbreak indireto, ataques de prompt indiretos ou ataques de injeção de prompt entre domínios referem-se a situações em que instruções maliciosas estão ocultas em dados que um sistema de IA processa ou a partir dos quais gera conteúdo fundamentado. Estes dados podem incluir emails, documentos, websites ou outras fontes não diretamente redigidas pelo programador ou utilizador e podem levar à geração de conteúdo inadequada ou à ignorância de restrições impostas pelo sistema.
A taxa de defeitos (risco de conteúdo) é definida como a percentagem de instâncias no seu conjunto de dados de teste que ultrapassam um limiar na escala de gravidade ao longo de todo o tamanho do conjunto de dados.
O red-teaming tem historicamente descrito ataques sistemáticos adversariais para testar vulnerabilidades de segurança. Com o surgimento dos Grandes Modelos de Linguagem (LLM), o termo expandiu-se para além da cibersegurança tradicional e evoluiu para uso comum para descrever muitos tipos de sondagens, testes e ataques a sistemas de IA. Com os LLMs, tanto o uso benigno como o adversarial podem produzir resultados potencialmente prejudiciais, que podem assumir várias formas, incluindo conteúdos prejudiciais como discurso de ódio, incitação ou glorificação da violência, referência a conteúdos relacionados com auto-mutilação ou conteúdos sexuais.

Capacidades

Comportamento do sistema

A Foundry fornece um modelo Azure OpenAI GPT-4o afinado e orquestra ataques adversariais contra a sua aplicação para gerar um conjunto de dados de teste de alta qualidade. Depois, fornece outro modelo GPT-4o para anotar o seu conjunto de dados de teste quanto ao conteúdo e à segurança. Os utilizadores fornecem o endpoint da sua aplicação de IA generativa que pretendem testar, e as avaliações de segurança irão gerar um conjunto de dados de teste estático contra esse endpoint, juntamente com o seu rótulo de risco de conteúdo (Muito Baixo, Baixo, Médio, Alto) ou o rótulo de deteção de risco de conteúdo (Verdadeiro ou Falso) e o raciocínio para o rótulo gerado pela IA.

Casos de uso

Usos pretendidos

As avaliações de segurança não se destinam a ser usadas para outro propósito senão avaliar riscos de conteúdo e vulnerabilidades de jailbreak da sua aplicação de IA generativa:

Avaliar a sua aplicação de IA generativa antes da implementação: Utilizando o assistente de avaliação no portal Foundry ou o SDK Python IA Azure, as avaliações de segurança podem ser avaliadas de forma automatizada para avaliar potenciais riscos de conteúdo ou segurança.
Reforçar as suas operações de red-teaming: Usando o simulador adversarial, as avaliações de segurança podem simular interações adversariais com a sua aplicação de IA generativa para tentar descobrir riscos de conteúdo e segurança.
Comunicação de conteúdos e riscos de segurança às partes interessadas: Utilizando o portal Foundry, pode partilhar o acesso ao seu projeto Foundry com os resultados das avaliações de segurança com auditores ou partes interessadas em conformidade.

Considerações na escolha de um caso de uso

Incentivamos os clientes a aproveitar as avaliações de segurança da Foundry nas suas soluções ou aplicações inovadoras. No entanto, aqui estão algumas considerações ao escolher um caso de uso:

As avaliações de segurança devem incluir a presença humana no circuito: A utilização de avaliações automatizadas como as avaliações de segurança da Foundry deve incluir revisores humanos, como especialistas de domínio, para avaliar se a sua aplicação de IA generativa foi testada minuciosamente antes da implementação aos utilizadores finais.
As avaliações de segurança não incluem cobertura total e abrangente: embora as avaliações de segurança possam fornecer uma forma de reforçar os seus testes para potenciais riscos de conteúdo ou segurança, não foram concebidas para substituir operações manuais de red-teaming especificamente direcionadas para o domínio da sua aplicação, casos de uso e tipo de utilizadores finais.
Cenários suportados:
- Para simulação adversarial: Resposta a perguntas, chat com múltiplos turnos, resumo, pesquisa, reescrita de texto, geração de conteúdo não fundamentado e fundamentado.
- Para anotação automática: Resposta a perguntas e conversação de múltiplas interações.
Atualmente, o serviço é melhor utilizado com o domínio inglês apenas para gerações textuais. Serão consideradas funcionalidades adicionais, incluindo suporte a múltiplos modelos, para futuras versões.
A cobertura dos riscos de conteúdo fornecida nas avaliações de segurança é baseada em uma amostra reduzida de um número limitado de grupos e temas marginalizados.
- A métrica de ódio e injustiça inclui alguma cobertura para um número limitado de grupos marginalizados pelo fator demográfico de género (por exemplo, homens, mulheres, pessoas não-binárias) e raça, ascendência, etnia e nacionalidade (por exemplo, negros, mexicanos, europeus). Nem todos os grupos marginalizados em termos de género e raça, ascendência, etnia e nacionalidade são abordados. Outros fatores demográficos relevantes para o ódio e a injustiça atualmente não têm cobertura (por exemplo, deficiência, sexualidade, religião).
- As métricas para conteúdos sexuais, violentos e relacionados com autoagressão baseiam-se numa conceptualização preliminar destes danos que é menos desenvolvida do que o ódio e a injustiça. Isto significa que podemos fazer afirmações menos fortes sobre a cobertura das medições e a forma como as medições representam as diferentes formas como estes danos podem ocorrer. A cobertura destes tipos de conteúdos inclui um número limitado de temas relacionados com sexo (por exemplo, violência sexual, relacionamentos, atos sexuais), violência (por exemplo, abuso, ferir outros, rapto) e auto-mutilação (por exemplo, morte intencional, auto-lesão intencional, distúrbios alimentares).
As avaliações de segurança da fundição atualmente não permitem plug-ins nem extensibilidade.
Para manter a qualidade atualizada e melhorar a cobertura, iremos procurar uma cadência de lançamentos futuros de melhorias nas capacidades de simulação e anotação adversarial do serviço.

Limitações técnicas, fatores operacionais e alcances

O campo dos grandes modelos de linguagem (LLMs) continua a evoluir a um ritmo acelerado, exigindo uma melhoria contínua das técnicas de avaliação para garantir uma implementação segura e fiável de sistemas de IA. As avaliações de segurança das fundições refletem o compromisso da Microsoft em continuar a inovar na área da avaliação de LLMs. Pretendemos fornecer as melhores ferramentas para o ajudar a avaliar a segurança das suas aplicações de IA generativa, mas reconhecemos que uma avaliação eficaz é um trabalho contínuo em progresso.
A personalização das avaliações de segurança da Foundry é atualmente limitada. Esperamos apenas que os utilizadores forneçam a sua entrada para o endpoint de uma aplicação de IA generativa, e o nosso serviço irá gerar um conjunto de dados estático rotulado para risco de conteúdo.
Por fim, deve notar-se que este sistema não automatiza ações ou tarefas, apenas fornece uma avaliação dos resultados da sua aplicação de IA generativa, que deve ser revista por um decisor humano no ciclo antes de decidir implementar a aplicação ou sistema de IA generativa em produção para os utilizadores finais.

Desempenho do sistema

Boas práticas para melhorar o desempenho do sistema

Ao considerar o seu domínio, que pode tratar certos conteúdos de maneira mais sensível do que outros, considere ajustar o limite para calcular a taxa de defeito.
Ao utilizar as avaliações automáticas de segurança, pode por vezes haver um erro nos rótulos gerados pela IA quanto à gravidade de um risco de conteúdo ou ao seu raciocínio. Existe uma coluna de feedback humano manual para permitir a validação humana no circuito dos resultados automatizados da avaliação de segurança.

Avaliação das avaliações de segurança da fundição

Métodos de avaliação

Para todos os tipos de risco de conteúdo suportados, verificámos internamente a qualidade comparando a taxa de correspondências aproximadas entre rotuladores humanos usando uma escala de gravidade 0-7 e o anotador automático das avaliações de segurança, também usando uma escala de gravidade 0-7 nos mesmos conjuntos de dados. Para cada área de risco, tínhamos tanto rotuladores humanos como um anotador automático 500 textos em inglês com turno único, 250 gerações texto para imagem em turno único e 250 textos multimodais com gerações imagem-texto. Os rotuladores humanos e o anotador automático não usavam exatamente as mesmas versões das diretrizes de anotação; Embora as diretrizes do anotador automático tenham derivado das diretrizes para humanos, desde então divergiram em graus variados (sendo as diretrizes de ódio e injustiça as que mais divergem). Apesar destas diferenças ligeiras a moderadas, acreditamos que ainda é útil partilhar tendências gerais e insights da nossa comparação de correspondências aproximadas. Nas nossas comparações, procurámos correspondências com tolerância de 2 níveis (onde a etiqueta humana correspondia exatamente à etiqueta de anotação automática ou estava dentro de 2 níveis acima ou abaixo em gravidade), correspondências com tolerância de 1 nível e correspondências com tolerância de nível 0.

Resultados da avaliação

No geral, observámos uma elevada taxa de correspondências aproximadas nos riscos de auto-mutilação e conteúdo sexual em todos os níveis de tolerância. Para violência e para ódio e injustiça, a taxa aproximada de correspondência entre os níveis de tolerância foi mais baixa. Estes resultados deveram-se em parte à maior divergência no conteúdo das diretrizes de anotação para rotuladores humanos em comparação com anotadores automáticos, e em parte devido à maior quantidade de conteúdo e complexidade em diretrizes específicas.

Embora as nossas comparações sejam entre entidades que usaram diretrizes de anotação ligeiramente a moderadamente diferentes (e, portanto, não sejam comparações padrão de concordância entre modelos humanos), estas comparações fornecem uma estimativa da qualidade que podemos esperar das avaliações de segurança da Foundry, tendo em conta os parâmetros dessas comparações. Especificamente, só analisámos amostras em inglês, pelo que os nossos resultados podem não generalizar para outras línguas. Além disso, cada amostra do conjunto de dados consistia apenas numa única volta, pelo que são necessárias mais experiências para verificar a generalização dos nossos resultados de avaliação a cenários de múltiplas voltas (por exemplo, uma conversa de ida e volta incluindo perguntas dos utilizadores e respostas do sistema). Os tipos de amostras usados nestes conjuntos de dados de avaliação podem também afetar significativamente a taxa aproximada de correspondência entre rótulos humanos e um anotador automático – se as amostras forem mais fáceis de rotular (por exemplo, se todas as amostras estiverem livres de riscos de conteúdo), poderemos esperar que a taxa aproximada de correspondência seja mais elevada. A qualidade das anotações feitas por humanos para uma avaliação também pode afetar a generalização dos nossos resultados.

Avaliação e integração das avaliações de segurança da Foundry para o seu uso

A medição e avaliação da sua aplicação de IA generativa são uma parte crítica de uma abordagem holística à gestão do risco em IA. As avaliações de segurança das fundições são complementares e devem ser usadas em conjunto com outras práticas de gestão de risco em IA. Especialistas em domínio e revisores humanos no ciclo devem fornecer uma supervisão adequada ao utilizar avaliações de segurança assistidas por IA no ciclo de design, desenvolvimento e implementação de aplicações de IA generativa. Deve compreender as limitações e os usos pretendidos das avaliações de segurança, tendo cuidado para não depender isoladamente dos resultados produzidos pelas avaliações de segurança assistidas por IA da Foundry.

Devido à natureza não determinística dos LLMs, pode experienciar resultados falsamente negativos ou positivos, como um nível elevado de gravidade de conteúdo violento classificado como "muito baixo" ou "baixo". Além disso, os resultados das avaliações podem ter significados diferentes para diferentes públicos. Por exemplo, as avaliações de segurança podem gerar um rótulo para a gravidade "baixa" de conteúdo violento que pode não estar alinhado com a definição de um crítico humano sobre a gravidade desse conteúdo violento específico. No Foundry Portal, disponibilizamos uma coluna de feedback com ícones de polegar para cima e para baixo ao visualizar os resultados da sua avaliação para indicar quais instâncias foram aprovadas ou marcadas como incorretas por um revisor humano. Considere o contexto de como os seus resultados podem ser interpretados para tomada de decisão por outros com quem possa partilhar avaliações e valide os seus resultados com o nível adequado de escrutínio para o nível de risco no ambiente em que cada aplicação de IA generativa opera.