Filtros de conteúdo

Concluído

Os filtros de conteúdo de IA são sistemas concebidos para detetar e prevenir que conteúdos prejudiciais ou inadequados sejam gerados ou processados por sistemas de IA. Funcionam avaliando tanto as solicitações de entrada como as conclusões de saída, utilizando modelos de classificação para identificar categorias específicas de conteúdos problemáticos. Os filtros de conteúdo são uma das defesas mais importantes em qualquer implementação de IA.

Como funcionam os filtros de conteúdo

Os filtros de conteúdo operam em dois pontos do pipeline de interação da IA:

  • Filtragem de entrada: Analisa os prompts do utilizador antes de chegarem ao modelo. Os filtros de entrada detetam tentativas de injeção de comandos, instruções de desbloqueio (jailbreak) e pedidos de conteúdo nocivo antes de o modelo os processar.
  • Filtragem de saída: Analisa a resposta do modelo antes de ser entregue ao utilizador. Os filtros de saída detetam conteúdos prejudiciais, inadequados ou que violam políticas que o modelo possa gerar apesar dos controlos ao nível de entrada.

A maioria dos sistemas de filtragem de conteúdos utiliza uma combinação de correspondência de padrões baseada em regras, modelos de classificação treinados e limiares de severidade configuráveis. Os administradores podem normalmente ajustar a sensibilidade dos filtros para diferentes categorias de conteúdo, consoante os requisitos da sua aplicação.

Capacidades principais de filtro de conteúdo

Ao avaliar ou implementar uma solução de filtragem de conteúdos para um sistema de IA, procure estas capacidades:

  • Moderação de texto: Detete e filtra conteúdos prejudiciais no texto, como discurso de ódio, violência, conteúdo de automutilação ou linguagem inadequada, antes de chegar aos utilizadores.
  • Moderação de imagens: Analisa imagens para identificar e bloquear conteúdos que possam ser inseguros ou ofensivos, incluindo material explícito e imagens violentas.
  • Análise multimodal: Avalia conteúdos em múltiplos formatos — texto, imagens e combinações — para garantir uma cobertura abrangente. Isto é especialmente importante para modelos que aceitam e geram múltiplos tipos de conteúdo.
  • Verificação de fundamentação factual: Valida que as respostas geradas por IA estão fundamentadas nos materiais de origem fornecidos, detetando e sinalizando afirmações que não são suportadas pelos dados referenciados. Esta capacidade ajuda a reduzir casos em que a IA gera conteúdo factualmente impreciso.
  • Deteção de ataques de entrada: Analisa prompts recebidos para detetar e bloquear ataques de injeção de prompts, tentativas de jailbreak e instruções maliciosas embutidas em documentos referenciados. Esta é uma defesa crítica contra os ataques baseados em prompts descritos no módulo anterior.
  • Proteção de direitos de autor: Analisa os modelos de saída à procura de conteúdos que possam potencialmente violar direitos de autor, ao comparar com material protegido conhecido, como textos publicados, letras ou artigos de notícias.
  • Supervisão de ações do agente: Monitoriza o uso da ferramenta de agente de IA para detetar quando as ações de um agente estão desalinhadas, não intencionais ou prematuras no contexto de uma interação do utilizador — garantindo que o agente apenas executa as ações autorizadas pelo utilizador.
  • Monitorização e análise de utilização: Acompanha a atividade de moderação, sinaliza tendências em tentativas de conteúdo prejudiciais e fornece painéis para ajudar as equipas de segurança a identificar riscos emergentes.

Configuração eficaz dos filtros de conteúdo

Os filtros de conteúdo precisam de ser ajustados para o contexto específico de cada aplicação:

  • Defina limiares de gravidade apropriados: Um chatbot direcionado ao cliente para crianças requer filtragem mais rigorosa do que uma ferramenta interna de investigação. Configure limiares com base no seu público e caso de uso.
  • Equilíbrio entre segurança e usabilidade: Filtragens excessivamente agressivas podem bloquear conteúdos legítimos e frustrar os utilizadores. Monitorize as taxas de falsos positivos e ajuste as definições para manter a usabilidade.
  • Filtros em camadas com outros controlos: Os filtros de conteúdo são mais eficazes como parte de uma abordagem de defesa em profundidade. Combine-os com prompts do sistema (metaprompts), validação de entrada e monitorização de saídas.
  • Revise e atualize regularmente: Novas técnicas de ataque surgem frequentemente. Atualizar regras de filtro e reeducar modelos de classificação para acompanhar as ameaças em evolução.

A maioria das principais plataformas de IA oferece capacidades integradas de filtragem de conteúdos. Por exemplo, o Segurança de conteúdo de IA do Azure implementa muitas destas capacidades através de funcionalidades como Prompt Shields, Deteção de Aterramento e Deteção de Materiais Protegidos. Outras plataformas oferecem funcionalidades semelhantes — a chave é avaliar as capacidades em função dos seus requisitos específicos, independentemente da plataforma que escolher.

Captura de ecrã da proteção de guarda-corpos e dos modos de falha que mostra a filtragem de conteúdo em ação.

Diagrama do pipeline de filtragem de conteúdos de entrada e saída para sistemas de IA.