En savoir plus sur la manière dont nous développons nos modèles et les appliquons dans des produits tels que ChatGPT.

Les modèles d'OpenAI, y compris ceux qui alimentent ChatGPT, sont développés à partir de trois sources principales d'information : (1) les informations disponibles publiquement sur Internet, (2) les informations auxquelles nous avons accès grâce à des partenariats avec des tiers, et (3) les informations fournies ou générées par nos utilisateurs, formateurs humains et chercheurs.

Le développement de modèles de base tels que ceux utilisés dans ChatGPT comporte plusieurs étapes, notamment la préparation des données d’entraînement, le pré-entraînement et le post-entraînement, ainsi que l’évaluation et l’amélioration continues après le déploiement. Différents types d’informations peuvent être utilisés à ces étapes à des fins diverses, notamment pour améliorer les performances, la fiabilité et la sécurité du modèle.

Cet article présente un aperçu des informations que nous utilisons pour contribuer au développement de ces modèles, de la manière dont nous collectons et utilisons ces informations dans le respect de la législation sur la protection de la vie privée, ainsi que des mesures de sécurité que nous mettons en œuvre tout au long du processus d’entraînement. Pour comprendre comment nous collectons et utilisons les informations des utilisateurs de nos services, y compris comment refuser que vos conversations ChatGPT soient utilisées pour contribuer à l’amélioration de nos modèles, veuillez consulter notre Politique de confidentialité et cet article du centre d’assistance.

Qu'est-ce que ChatGPT et comment fonctionne-t-il ?

ChatGPT est un service basé sur l’intelligence artificielle auquel vous pouvez accéder via Internet ou l’application. Vous pouvez utiliser ChatGPT pour un large éventail de tâches, notamment pour organiser et résumer des informations, vous aider à traduire, vous assister dans le codage, la recherche et l’analyse, réaliser des tâches en plusieurs étapes à l’aide de différents outils, analyser ou générer des images, stimuler votre créativité et trouver des idées, ainsi que pour d’autres activités quotidiennes. ChatGPT est conçu pour comprendre les questions et instructions des utilisateurs, et y répondre en apprenant des régularités à partir de grandes quantités d’informations, notamment du texte, des images, de l’audio et de la vidéo.

Pendant l’entraînement, le modèle analyse les relations au sein de ces données — par exemple la façon dont les mots apparaissent généralement ensemble en contexte — et utilise cette compréhension pour prédire le mot suivant le plus probable lorsqu’il génère une réponse, un mot à la fois. Le texte peut être converti en unités plus petites, parfois appelées « tokens », qui peuvent représenter des mots entiers, des parties de mots ou des signes de ponctuation. Les tokens sont les éléments constitutifs du texte que le modèle traite. De même, les modèles qui génèrent d’autres formes de contenu, comme des images, apprennent les schémas selon lesquels les pixels sont liés les uns aux autres et aux légendes associées dans les données d’entraînement.

Par exemple, lors du processus d'apprentissage du modèle (appelé « entraînement »), le modèle pourrait être chargé de la tâche de compléter une phrase telle que : « Au lieu de tourner à gauche, elle a tourné ___. » Au début de l'entraînement, ses réponses sont en grande partie aléatoires. Cependant, à mesure que le modèle traite et apprend à partir d'un grand volume de texte, il devient plus efficace pour reconnaître les motifs et prédire le mot suivant le plus probable. Ce processus est répété sur des millions de phrases pour affiner sa compréhension et améliorer sa précision.

Parce qu'il existe plusieurs façons plausibles de terminer une phrase—comme « Au lieu de tourner à gauche, elle a tourné à droite », « autour » ou « précédent »—il y a un élément inhérent de hasard dans la façon dont le modèle répond. En conséquence, la même question peut produire des réponses différentes selon les requêtes.

Les modèles d'apprentissage automatique se composent de grands ensembles de nombres, appelés « poids » ou « paramètres », ainsi que d'un code qui interprète et utilise ces nombres. Ces modèles ne stockent ni ne conservent de copies des données sur lesquelles ils sont entraînés. Au lieu de cela, à mesure qu'un modèle apprend, les valeurs de ses paramètres sont légèrement ajustées pour refléter les motifs qu'il a identifiés. Dans l'exemple précédent, le modèle est passé de la prédiction de mots aléatoires à des prédictions plus précises, non pas en stockant les phrases d'entraînement, mais en mettant à jour ses paramètres internes. Le modèle ne conserve pas de copies des phrases, des images ou des fichiers audio qu'il traite pendant l'entraînement. ChatGPT ne fait pas de « copier-coller » de ses données d'entraînement, tout comme un enseignant, après de longues études, peut expliquer des concepts en comprenant les relations entre les idées sans mémoriser ni reproduire les matériaux originaux mot pour mot. Lors de la générer d'une réponse à une demande de l'utilisateur, le modèle utilise ces poids appris pour prédire et créér de nouveaux contenus.

Quel type d’informations est utilisé pour entraîner ChatGPT ?

Pour le contenu internet accessible au public, nous utilisons uniquement des informations librement et ouvertement accessibles sur internet. Cela peut inclure des pages web accessibles au public, des forums publics, des blogs publics, des publications publiques et d’autres contenus en ligne accessibles au public. Par exemple, si vous participez à un forum de discussion en ligne accessible au public ou publiez un billet de blog ou une autre publication publique, nous pouvons utiliser ce contenu accessible au public à des fins d’entraînement du modèle. Cependant, nous prenons des mesures pour réduire le traitement des informations personnelles dans le cadre de notre processus d’entraînement. Lors de la collecte de contenus Internet accessibles au public, nous ne recueillons pas intentionnellement de données provenant de sources connues pour être protégées par un accès payant ou issues du dark web. De plus, nous appliquons des filtres pour supprimer les contenus que nous ne souhaitons pas que nos modèles apprennent, comme les discours haineux, les contenus pour adultes, les sites qui agrègent des informations personnelles et le spam. Les informations restantes sont ensuite utilisées pour entraîner nos modèles.

Les propriétaires de sites web peuvent décider si le contenu accessible au public sur leurs sites peut être utilisé à des fins de formation en recourant à des contrôles web standard, tels que le fichier robots.txt, afin d’empêcher l’accès à GPTBot, qui peut explorer ce contenu accessible au public pour contribuer à l’entraînement de nos modèles. Nous fournissons des conseils pour aider les propriétaires de sites web à gérer la manière dont leurs sites et leur contenu interagissent avec nos systèmes d’IA.

Nous utilisons également des informations provenant de partenaires tiers pour nous aider à entraîner et améliorer nos modèles. Cela peut inclure des informations figurant dans des jeux de données auxquels nous accédons dans le cadre d’accords conclus avec des tiers, ainsi que des informations fournies ou générées par des formateurs humains et des chercheurs, lorsque nos politiques et accords l’autorisent. Cela contribue à améliorer la qualité, la sécurité et les performances de nos modèles. Ces sources peuvent inclure du texte, des images, de l’audio, de la vidéo ou d’autres types de données, selon le jeu de données.

Nous utilisons également de plus en plus des données synthétiques dans certains processus d’entraînement. Par exemple, nous pouvons utiliser des informations et nos modèles pour générer des prompts synthétiques, des exemples multilingues ou d’autres supports d’entraînement. Les données synthétiques peuvent contribuer à améliorer les performances des modèles, notamment en complétant les données d’entraînement dans les domaines où les données sont rares ou insuffisantes, et peuvent également soutenir des approches du développement de modèles favorisant la protection de la vie privée.

Les informations personnelles sont-elles utilisées pour enseigner à ChatGPT ?

Une part importante du contenu en ligne contient des informations sur des personnes ; nos données d’entraînement peuvent donc inclure de manière fortuite des informations personnelles. Cependant, nous prenons des mesures pour réduire le traitement des informations personnelles dans le cadre de notre processus d’entraînement.

Nous utilisons les données d’entraînement pour développer les capacités du modèle, telles que la prédiction, le raisonnement et la résolution de problèmes, et non pour établir des profils d’individus, les contacter ou leur proposer des publicités personnalisées.

Dans certains cas, les modèles peuvent apprendre à partir d'informations personnelles pour comprendre comment des éléments tels que les noms et les adresses fonctionnent dans la langue, ou pour reconnaître des figures publiques et des entités bien connues. Cela aide le modèle à générer des réponses plus précises et appropriées au contexte.

Comment les données personnelles sont-elles protégées pendant l’entraînement ?

Nous prenons des mesures actives pour limiter le traitement des informations personnelles pendant l’entraînement. Par exemple, nous excluons les sources connues qui agrègent de grandes quantités de données personnelles, appliquons un filtrage afin de réduire les informations personnelles dans le processus d’entraînement et prenons des mesures pour identifier et supprimer le contenu en double afin de réduire le risque de répéter des données d’entraînement. En outre, nous entraînons nos modèles à éviter de répondre aux demandes d’informations privées ou sensibles concernant des individus.

Durée de conservation des informations

Nous ne conservons les informations contenues dans les données d’entraînement que le temps raisonnablement nécessaire aux fins décrites dans cet article et dans notre Politique de confidentialité, notamment pour développer et améliorer nos modèles et à des fins connexes de recherche scientifique. La durée de conservation fait l’objet d’un réexamen périodique afin de s’assurer qu’elle reste nécessaire, et varie en fonction du type d’informations et de leur utilisation. Pour déterminer la durée de conservation, nous tenons compte de facteurs tels que la finalité du traitement des informations ; la quantité, la nature et la sensibilité des informations ; le risque potentiel de préjudice résultant d’une utilisation ou d’une divulgation non autorisées ; ainsi que toute obligation légale à laquelle nous sommes soumis.

Comment le développement de ChatGPT se conforme-t-il aux lois sur la protection de la vie privée ?

Nous utilisons les informations d’entraînement de manière licite. Nos modèles fondamentaux alimentent un large éventail d’applications bénéfiques, notamment les outils d’accessibilité, le support client, le développement logiciel, l’éducation personnalisée et la recherche scientifique. Ces capacités dépendent de données d’entraînement à grande échelle, notamment de données accessibles au public et de données provenant de partenaires tiers. Nous mettons en œuvre des mesures de protection tout au long du processus d’entraînement, notamment des mesures visant à limiter le traitement des données à caractère personnel dans ce cadre et à atténuer les risques, comme décrit dans cet article. Nous fondons la collecte et l’utilisation des données à caractère personnel contenues dans les informations d’entraînement sur des intérêts légitimes au titre des lois sur la protection de la vie privée telles que le RGPD, notamment afin d’entraîner et d’améliorer nos modèles au profit des utilisateurs et de la société dans son ensemble, conformément à notre mission qui consiste à veiller à ce que l’intelligence artificielle générale profite à tous, comme expliqué plus en détail dans notre Politique de confidentialité. Nous avons réalisé une analyse d’impact relative à la protection des données afin de contribuer à garantir que nous collectons et utilisons ces informations de manière légale et responsable.

Cas de partage ou de transfert d’informations

Nous ne vendons pas les données personnelles, et nous ne communiquons les données personnelles contenues dans les données d’entraînement que dans les circonstances limitées décrites dans notre Politique de confidentialité. Par exemple, nous pouvons partager des informations avec des sociétés affiliées, des fournisseurs et des prestataires de services qui soutiennent le développement, les tests et l’amélioration de nos modèles. Nous pouvons également divulguer des informations si nous estimons de bonne foi qu’une telle mesure est nécessaire pour nous conformer à une obligation légale ou pour protéger nos droits, notre sûreté et notre sécurité, ainsi que les droits, la sûreté et la sécurité de nos utilisateurs, employés ou du public, comme indiqué dans notre Politique de confidentialité.

Notre infrastructure étant mondiale, les informations personnelles contenues dans les données d’entraînement peuvent être traitées dans des pays situés en dehors de l’EEE, de la Suisse ou du Royaume-Uni (y compris aux États-Unis). Dans ce cas, nous mettons en œuvre des mesures de protection appropriées, telles que des décisions d’adéquation ou des clauses contractuelles types, comme décrit dans notre Politique de confidentialité.

Vos droits et comment les exercer

Nous répondons aux demandes d’opposition et aux demandes relatives à des droits similaires. En raison de l’apprentissage du langage, les réponses de ChatGPT peuvent parfois inclure des informations personnelles sur des individus dont les données apparaissent fréquemment sur Internet (par exemple, des personnalités publiques). Les personnes situées dans certaines juridictions peuvent s’opposer au traitement de leurs informations personnelles par nos modèles ou formuler d’autres demandes d’exercice des droits des personnes concernées via notre Portail de confidentialité. Vous pouvez également exercer ces droits en contactant privacy@openai.com.

Afin de nous aider à évaluer votre demande et à y répondre, veuillez fournir suffisamment d’informations pour que nous puissions comprendre à quelles informations personnelles votre demande se rapporte, comme votre nom, les URL pertinentes, des exemples précis de sorties du modèle ou d’autres détails permettant d’identifier le problème. Dans certains cas, nous pouvons vous demander de vérifier votre identité ou de confirmer que les informations vous concernent avant de pouvoir donner suite à votre demande. Vous trouverez de plus amples informations sur la façon d’envoyer ces demandes, y compris les bonnes pratiques et la manière dont les demandes sont examinées, dans notre article du Centre d’aide sur la suppression des données personnelles dans ChatGPT. Nous examinons les demandes conformément aux lois applicables en matière de protection de la vie privée et y répondons dans les délais légaux applicables.

Veuillez noter que, conformément aux lois sur la protection de la vie privée, certains droits peuvent ne pas être absolus. Par exemple, il se peut que nous ne soyons pas en mesure de donner suite à une demande lorsque nous ne pouvons pas vérifier les informations pertinentes, lorsque la demande ne concerne pas des données personnelles traitées par OpenAI, lorsqu’une exception s’applique, ou lorsque nous disposons d’un autre motif légal pour ne pas y donner suite. Les demandes sont examinées au cas par cas et peuvent nécessiter de mettre en balance le droit à la vie privée et d’autres considérations importantes, telles que la liberté d’expression et l’intérêt général.

Cependant, nous nous efforçons de donner la priorité à la protection des informations personnelles et de respecter toutes les lois applicables en matière de protection de la vie privée. Si vous estimez que nous n'avons pas traité un problème de manière adéquate, vous avez le droit d'introduire une réclamation auprès de votre autorité de contrôle locale.

Pour en savoir plus sur les pratiques d’OpenAI concernant les informations personnelles que nous collectons auprès de vous ou à votre sujet lorsque vous utilisez notre site web, nos applications et nos services, veuillez consulter notre Politique de confidentialité.

Processus de développement de ChatGPT et de nos modèles de fondation

Qu'est-ce que ChatGPT et comment fonctionne-t-il ?

Quel type d’informations est utilisé pour entraîner ChatGPT ?

Les informations personnelles sont-elles utilisées pour enseigner à ChatGPT ?

Comment le développement de ChatGPT se conforme-t-il aux lois sur la protection de la vie privée ?

Cet article vous a-t-il été utile ?