Lees meer over hoe we onze modellen ontwikkelen en toepassen in producten zoals ChatGPT

Opmerking: gegevensbewaring voor bepaalde diensten kan worden beïnvloed door recente juridische ontwikkelingen. Lees onze blogpost voor meer informatie.

De basismodellen van OpenAI, waaronder de modellen waarop ChatGPT draait, worden ontwikkeld met behulp van drie primaire informatiebronnen: (1) informatie die openbaar beschikbaar is op internet, (2) informatie waartoe we toegang krijgen via samenwerking met derden, en (3) informatie die onze gebruikers, menselijke trainers en onderzoekers verstrekken of genereren.

Dit artikel geeft een overzicht van de openbaar beschikbare informatie die we gebruiken om deze modellen te helpen ontwikkelen, en van hoe we die informatie verzamelen en gebruiken in overeenstemming met privacywetten. Lees ons privacybeleid en dit helpcentrumartikel om te begrijpen hoe we informatie verzamelen en gebruiken van gebruikers van onze diensten, waaronder hoe je je kunt afmelden voor het gebruik van ChatGPT-gesprekken om onze modellen te helpen trainen.

Wat is ChatGPT en hoe werkt het?

ChatGPT is een op AI gebaseerde dienst die je via internet kunt gebruiken. Je kunt ChatGPT gebruiken voor allerlei taken, waaronder informatie ordenen en samenvatten, helpen met vertalingen, afbeeldingen analyseren of genereren, creativiteit en ideeën stimuleren, en andere dagelijkse activiteiten. ChatGPT is ontworpen om vragen en instructies van gebruikers te begrijpen en erop te reageren door patronen te leren uit grote hoeveelheden informatie, waaronder tekst, afbeeldingen, audio en video. Tijdens de training analyseert het model verbanden binnen deze gegevens, zoals hoe woorden doorgaans samen in een context voorkomen, en gebruikt het dat inzicht om bij het genereren van een antwoord telkens het volgende meest waarschijnlijke woord te voorspellen. Op vergelijkbare wijze leren modellen die andere vormen van content genereren, zoals afbeeldingen, patronen in hoe pixels zich tot elkaar en tot bijbehorende bijschriften in de trainingsgegevens verhouden.

Tijdens het leerproces van het model (ook wel “training” genoemd) kan het model bijvoorbeeld de taak krijgen om een zin af te maken, zoals: “In plaats van linksaf te slaan, sloeg ze ___ af.” Vroeg in de training zijn de antwoorden grotendeels willekeurig. Maar naarmate het model een grote hoeveelheid tekst verwerkt en ervan leert, wordt het beter in het herkennen van patronen en het voorspellen van het meest waarschijnlijke volgende woord. Dit proces wordt herhaald voor miljoenen zinnen om het begrip van het model te verfijnen en de nauwkeurigheid ervan te verbeteren.

Omdat er meerdere plausibele manieren zijn om een zin af te maken, zoals “In plaats van linksaf te slaan, sloeg ze rechtsaf”, “om” of “terug”, bevat de manier waarop het model reageert een inherent element van willekeur. Daardoor kan dezelfde vraag bij verschillende verzoeken verschillende antwoorden opleveren.

Machinelearningmodellen bestaan uit grote verzamelingen getallen, bekend als “gewichten” of “parameters”, samen met code die die getallen interpreteert en gebruikt. Deze modellen slaan geen kopieën op van de gegevens waarop ze zijn getraind en bewaren die ook niet. In plaats daarvan worden, terwijl een model leert, de waarden van de parameters licht aangepast om patronen weer te geven die het heeft vastgesteld. In het eerdere voorbeeld verbeterde het model van het voorspellen van willekeurige woorden naar het doen van nauwkeurigere voorspellingen, niet door de trainingszinnen op te slaan, maar door de interne parameters bij te werken. Het model bewaart geen kopieën van de zinnen, afbeeldingen of audio die het tijdens de training verwerkt. ChatGPT “kopieert en plakt” niet uit zijn trainingsgegevens, vergelijkbaar met hoe een docent na uitgebreide studie concepten kan uitleggen door de relaties tussen ideeën te begrijpen, zonder de oorspronkelijke materialen letterlijk uit het hoofd te leren of te reproduceren. Wanneer het model een antwoord op een gebruikersverzoek genereert, gebruikt het deze geleerde gewichten om nieuwe content te voorspellen en te creëren.

Welk type openbare informatie wordt gebruikt om ChatGPT te trainen?

Voor openbaar beschikbare internetcontent gebruiken we alleen informatie die vrij en openlijk toegankelijk is op internet. We verzamelen niet bewust gegevens uit bronnen waarvan bekend is dat ze achter betaalmuren zitten of van het darkweb. Daarnaast passen we filters toe om materiaal te verwijderen waarvan we niet willen dat onze modellen ervan leren, zoals haatzaaiende uitingen, content voor volwassenen, sites die persoonlijke informatie verzamelen en spam. De resterende informatie wordt vervolgens gebruikt om onze modellen te trainen.

Wordt persoonlijke informatie gebruikt om ChatGPT te trainen?

Een aanzienlijk deel van online content bevat informatie over mensen, dus onze trainingsgegevens kunnen incidenteel persoonlijke informatie bevatten. We verzamelen echter niet bewust persoonlijke informatie met als doel onze modellen te trainen.

We gebruiken trainingsgegevens om de mogelijkheden van het model te ontwikkelen, zoals voorspellen, redenering en probleemoplossing, niet om gebruikersprofielen op te bouwen, contact op te nemen met personen of als onderdeel van onze advertentie- of marketingactiviteiten.

In sommige gevallen kunnen modellen leren van persoonlijke informatie om te begrijpen hoe elementen zoals namen en adressen in taal functioneren, of om publieke figuren en bekende entiteiten te herkennen. Dit helpt het model nauwkeurigere en contextueel passendere antwoorden te genereren.

We nemen actieve maatregelen om de verwerking van persoonlijke informatie tijdens de training te beperken. We sluiten bijvoorbeeld bronnen uit die grote hoeveelheden persoonlijke gegevens verzamelen, en we trainen onze modellen om niet te reageren op verzoeken om privé- of gevoelige informatie over personen.

Hoe voldoet de ontwikkeling van ChatGPT aan privacywetten?

We gebruiken trainingsinformatie rechtmatig. Onze basismodellen ondersteunen een breed scala aan nuttige toepassingen, van contentcreatie en klantenservice tot softwareontwikkeling, gepersonaliseerd onderwijs en wetenschappelijk onderzoek. Deze mogelijkheden zijn afhankelijk van grootschalige trainingsgegevens. De informatie die wordt gebruikt om onze modellen te trainen, is openbaar beschikbaar en is niet bedoeld om personen schade toe te brengen. We baseren onze verzameling en het gebruik van persoonlijke informatie die in trainingsinformatie is opgenomen op gerechtvaardigde belangen onder privacywetten zoals de AVG, zoals uitgebreider wordt uitgelegd in ons privacybeleid. We hebben een gegevensbeschermingseffectbeoordeling uitgevoerd om te helpen waarborgen dat we deze informatie wettig en verantwoord verzamelen en gebruiken.

We reageren op bezwaarverzoeken en vergelijkbare rechten. Als gevolg van het leren van taal kunnen ChatGPT-antwoorden soms persoonlijke informatie bevatten over personen van wie persoonlijke informatie meerdere keren op het openbare internet voorkomt (bijvoorbeeld publieke figuren). Personen in bepaalde rechtsgebieden kunnen bezwaar maken tegen de verwerking van hun persoonlijke informatie door onze modellen of andere verzoeken met betrekking tot rechten van betrokkenen indienen via ons privacy-portaal. Je kunt deze rechten ook uitoefenen door contact op te nemen via dsar@openai.com.

Houd er rekening mee dat sommige rechten, in overeenstemming met privacywetten, mogelijk niet absoluut zijn. We kunnen een verzoek afwijzen als we daarvoor een rechtmatige reden hebben. We streven er echter naar de bescherming van persoonlijke informatie prioriteit te geven en voldoen aan alle toepasselijke privacywetten. Als je vindt dat we een probleem niet afdoende hebben aangepakt, heb je het recht een klacht in te dienen bij je lokale toezichthoudende autoriteit.

Lees voor meer informatie over de praktijken van OpenAI met betrekking tot persoonlijke informatie die we van of over je verzamelen wanneer je onze website, applicaties en diensten gebruikt, ons privacybeleid.

Hoe ChatGPT en onze basismodellen worden ontwikkeld

Wat is ChatGPT en hoe werkt het?

Welk type openbare informatie wordt gebruikt om ChatGPT te trainen?

Wordt persoonlijke informatie gebruikt om ChatGPT te trainen?

Hoe voldoet de ontwikkeling van ChatGPT aan privacywetten?

Was dit artikel nuttig?