OpenAI

Processus de développement de ChatGPT et de nos modèles de fondation

En savoir plus sur la manière dont nous développons nos modèles et les appliquons dans des produits tels que ChatGPT.

Dernière mise à jour : 4 days ago
Remarque :
La conservation des données pour certains services peut être affectée par des évolutions légales récentes. Consultez notre

article de blog
pour plus d'informations.

Les modèles d'OpenAI, y compris ceux qui alimentent ChatGPT, sont développés à partir de trois sources principales d'information : (1) les informations disponibles publiquement sur Internet, (2) les informations auxquelles nous avons accès grâce à des partenariats avec des tiers, et (3) les informations fournies ou générées par nos utilisateurs, formateurs humains et chercheurs.

Cet article fournit une Vue d'ensemble des informations accessibles au public que nous utilisons pour développer ces modèles et comment nous collectons et utilisons ces informations conformément aux lois sur la protection de la vie privée. Pour comprendre comment nous collectons et utilisons les informations des utilisateurs de nos services, y compris comment refuser que les conversations de ChatGPT soient utilisées pour entraîner nos modèles, veuillez consulter notre Politique de confidentialité et cet article du centre d'aide.

Qu'est-ce que ChatGPT et comment fonctionne-t-il ?

ChatGPT est un service basé sur l'intelligence artificielle auquel vous pouvez accéder via Internet. Vous pouvez utiliser ChatGPT pour une large gamme de tâches, y compris l'organisation et la synthèse d'informations, l'assistance à la traduction, l'analyse ou générer des images, l'inspiration de créativité et d'idées, ainsi que d'autres activités quotidiennes. ChatGPT est conçu pour comprendre et répondre aux questions et instructions des utilisateurs en apprenant des modèles à partir de grandes quantités d'informations, y compris des textes, des images, de l'audio et de la vidéo. Pendant l'entraînement, le modèle analyse les relations au sein de ces données, telles que la manière dont les mots apparaissent généralement ensemble dans un contexte, et utilise cette compréhension pour prédire le mot suivant le plus probable lors de la génération d'une réponse, un mot à la fois. De même, les modèles qui génèrent d'autres formes de contenu, comme des images, apprennent les schémas de la manière dont les pixels se rapportent les uns aux autres et aux légendes associées dans les données d'entraînement.

Par exemple, lors du processus d'apprentissage du modèle (appelé « entraînement »), le modèle pourrait être chargé de la tâche de compléter une phrase telle que : « Au lieu de tourner à gauche, elle a tourné ___. » Au début de l'entraînement, ses réponses sont en grande partie aléatoires. Cependant, à mesure que le modèle traite et apprend à partir d'un grand volume de texte, il devient plus efficace pour reconnaître les motifs et prédire le mot suivant le plus probable. Ce processus est répété sur des millions de phrases pour affiner sa compréhension et améliorer sa précision.

Parce qu'il existe plusieurs façons plausibles de terminer une phrase—comme « Au lieu de tourner à gauche, elle a tourné à droite », « autour » ou « précédent »—il y a un élément inhérent de hasard dans la façon dont le modèle répond. En conséquence, la même question peut produire des réponses différentes selon les requêtes.

Les modèles d'apprentissage automatique se composent de grands ensembles de nombres, appelés « poids » ou « paramètres », ainsi que d'un code qui interprète et utilise ces nombres. Ces modèles ne stockent ni ne conservent de copies des données sur lesquelles ils sont entraînés. Au lieu de cela, à mesure qu'un modèle apprend, les valeurs de ses paramètres sont légèrement ajustées pour refléter les motifs qu'il a identifiés. Dans l'exemple précédent, le modèle est passé de la prédiction de mots aléatoires à des prédictions plus précises, non pas en stockant les phrases d'entraînement, mais en mettant à jour ses paramètres internes. Le modèle ne conserve pas de copies des phrases, des images ou des fichiers audio qu'il traite pendant l'entraînement. ChatGPT ne fait pas de « copier-coller » de ses données d'entraînement, tout comme un enseignant, après de longues études, peut expliquer des concepts en comprenant les relations entre les idées sans mémoriser ni reproduire les matériaux originaux mot pour mot. Lors de la générer d'une réponse à une demande de l'utilisateur, le modèle utilise ces poids appris pour prédire et créér de nouveaux contenus.

Quel type d'information publique est utilisé pour former ChatGPT ?

Pour le contenu Internet accessible au public, nous utilisons uniquement des informations librement et ouvertement accessibles sur Internet. Nous ne recueillons pas intentionnellement de données provenant de sources connues pour être derrière des paywalls ou sur le dark web. De plus, nous appliquons des filtres pour supprimer le matériel que nous ne souhaitons pas que nos modèles apprennent, tels que les discours haineux, les contenus pour adultes, les sites qui agrègent des informations personnelles et le spam. Les informations restantes sont ensuite utilisées pour entraîner nos modèles.

Les informations personnelles sont-elles utilisées pour enseigner à ChatGPT ?

Une partie importante du contenu en ligne concerne des informations sur les personnes, de sorte que nos données d'entraînement peuvent inclure incidemment des informations personnelles. Cependant, nous ne collectons pas intentionnellement d'informations personnelles dans le but de l'entraînement de nos modèles.

Nous utilisons les données d'entraînement pour développer les capacités du modèle — telles que la prédiction, le raisonnement et la résolution de problèmes —, et non pour créer des profils d'utilisateurs, contacter des personnes, ni à des fins publicitaires ou marketing.

Dans certains cas, les modèles peuvent apprendre à partir d'informations personnelles pour comprendre comment des éléments tels que les noms et les adresses fonctionnent dans la langue, ou pour reconnaître des figures publiques et des entités bien connues. Cela aide le modèle à générer des réponses plus précises et appropriées au contexte.

Nous prenons des mesures actives pour limiter le traitement des informations personnelles pendant l'entraînement. Par exemple, nous excluons les sources qui agrègent de grandes quantités de données personnelles, et nous entraînons nos modèles à éviter de répondre aux demandes d'informations privées ou sensibles concernant des individus.

Comment le développement de ChatGPT se conforme-t-il aux lois sur la protection de la vie privée ?

Nous utilisons les informations d'entraînement conformément à la loi. Nos modèles de fondation alimentent un large éventail d'applications bénéfiques, allant de la création de contenu et du support client au développement de logiciels, à l'éducation personnalisée et à la recherche scientifique. Ces capacités dépendent de données d'apprentissage à grande échelle. Les informations utilisées pour entraîner nos modèles sont publiquement disponibles et ne visent pas à causer de tort aux individus. Nous fondons notre collecte et utilisation des informations personnelles incluses dans les données d'entraînement sur des intérêts légitimes en vertu des lois sur la protection de la vie privée telles que le RGPD, comme expliqué plus en détail dans notre Politique de confidentialité. Nous avons réalisé une analyse d'impact relative à la protection des données pour nous assurer que nous collectons et utilisons ces informations de manière légale et responsable.

Nous répondons aux demandes d'opposition et aux droits similaires. En raison de l'apprentissage du langage, les réponses de ChatGPT peuvent parfois inclure des informations personnelles sur des individus dont les informations apparaissent plusieurs fois sur l'internet public (par exemple, des figures publiques). Les individus dans certaines juridictions peuvent s'opposer au traitement de leurs informations personnelles par nos modèles ou faire d'autres demandes relatives aux droits des personnes concernées via notre Portail de confidentialité. Vous pouvez également exercer ces droits en contactant dsar@openai.com.

Veuillez noter que, conformément aux lois sur la protection de la vie privée, certains droits peuvent ne pas être absolus. Nous pourrions refuser une demande si nous avons une raison légale de le faire. Toutefois, nous nous efforçons de donner la priorité à la protection des informations personnelles et de nous conformer à toutes les lois applicables en matière de protection de la vie privée. Si vous estimez que nous n'avons pas traité un problème de manière adéquate, vous avez le droit de déposer une plainte auprès de votre autorité de contrôle locale.

Pour plus d'informations sur les pratiques d'OpenAI concernant les informations personnelles que nous recueillons auprès de vous ou à votre sujet lorsque vous utilisez notre site Web, nos applications et nos services, veuillez consulter notre Politique de Confidentialité.

Cet article vous a-t-il été utile ?