A OpenAI oferece sistemas de IA generativa disponíveis publicamente no estado da Califórnia. Esses sistemas são desenvolvidos usando uma variedade de fontes de dados, incluindo dados publicamente disponíveis, dados obtidos por meio de parcerias com terceiros e informações fornecidas ou geradas por usuários, treinadores humanos e pesquisadores. Também são utilizados dados sintéticos no desenvolvimento dos sistemas.
Os dados são usados para ajudar os sistemas a compreender melhor a linguagem humana e o mundo, permitindo aplicações que ampliam a criatividade humana, apoiam descobertas científicas e pesquisas médicas e ajudam centenas de milhões de pessoas em suas atividades diárias. Os sistemas são desenvolvidos com base em conjuntos de dados que contêm trilhões de tokens de conteúdo textual, de imagem, de áudio e audiovisual.
Esses conjuntos incluem uma variedade de dados, podendo conter informações protegidas por direitos autorais e também conteúdo em domínio público. Embora sejam adotadas medidas para reduzir a presença de informações pessoais nos conjuntos de dados de treinamento, alguns dados podem incluir informações pessoais e informações agregadas de consumidores, conforme definido na Seção 1798.140 do Código Civil da Califórnia. Os usuários podem optar por não participar do treinamento com seus dados e também solicitar a remoção de determinadas informações pessoais das respostas do ChatGPT por meio do Portal de Privacidade. Diversas técnicas são aplicadas no processamento dos conjuntos de dados para melhorar o desempenho e a precisão dos modelos.
A coleta de dados para desenvolvimento desses sistemas começou por volta de 2018 e continua até o presente. O uso desses conjuntos de dados no desenvolvimento de sistemas teve início em 2021.
Informações adicionais sobre o desenvolvimento dos sistemas podem ser encontradas nos system cards.
Resumo dos dados de treinamento nos termos da seção 3111 do Código Civil da Califórnia
Atualizado: 5 days ago
