Acreditamos em desenvolvimento e implantação responsáveis e iterativos como um meio de obter uma inteligência artificial geral segura. Realizamos uma quantidade considerável de testes e mitigação de segurança e alinhamento antes de lançar um modelo ao público e temos sistemas automatizados e humanos em operação para ajudar a detectar conteúdo problemático que aparece em nossos serviços para pessoas físicas, como o ChatGPT e os GPTs. Descrevemos algumas dessas iniciativas abaixo.

ChatGPT e ImageGen

Usamos ferramentas automatizadas, como uma versão interna da nossa API de moderação, para detectar conteúdo (prompts, respostas, envios) que possam ser prejudiciais ou violar nossas Políticas de Uso. Quando detectamos conteúdo problemático, normalmente avisamos que ele pode violar nossas políticas de uso ou impedimos que o modelo responda ao prompt. Além disso, podemos impedir o compartilhamento do chat com a resposta ou prompt problemático. Em um conjunto muito limitado de circunstâncias, podemos banir sua conta por comportamento extremamente grave.

Também permitimos que pessoas denunciem conteúdo problemático no ChatGPT. Usamos uma combinação de sistemas automatizados e uma equipe treinada de especialistas para analisar essas denúncias.

ChatGPT: se alguém compartilhar um chat que você acredita incluir conteúdo problemático, será possível denunciá-lo.

Para saber mais sobre como denunciar conteúdo diretamente no ChatGPT, consulte este artigo.

GPTs

Também usamos ferramentas automatizadas, como nossa API de moderação, para verificar se um GPT é potencialmente problemático. Se detectarmos conteúdo problemático associado ao GPT, tomaremos medidas, como impedir sua distribuição. O criador poderá editar a configuração do GPT ou da API para remover o conteúdo problemático ou recorrer da decisão por meio de um fluxo dentro do produto. Em um conjunto muito limitado de circunstâncias, podemos banir a conta do criador por comportamento extremamente grave.

Também permitimos que pessoas denunciem GPTs problemáticos. Se encontrar um GPT que acredita estar violando nossas políticas de uso ou que, de outra forma, reflita conteúdo problemático, você poderá denunciá-lo. Usamos uma combinação de sistemas automatizados e uma equipe treinada de especialistas para analisar essas denúncias.

Como identificamos conteúdo problemático em nossos serviços para pessoas físicas

ChatGPT e ImageGen

GPTs

Este artigo foi útil?