Tudjon meg többet arról, hogyan fejlesztjük modelljeinket, és hogyan alkalmazzuk őket olyan termékekben, mint a ChatGPT

Az OpenAI alapmodelljeit, köztük a ChatGPT működését biztosító modelleket három fő információforrás felhasználásával fejlesztjük: (1) az interneten nyilvánosan elérhető információk, (2) olyan információk, amelyekhez harmadik felekkel együttműködve férünk hozzá, valamint (3) a felhasználóink, emberi betanítóink és kutatóink által megadott vagy létrehozott információk.

A ChatGPT-ben használtakhoz hasonló alapmodellek fejlesztése több szakaszból áll, többek között a betanítási adatok előkészítéséből, az előtanításból és az utóbetanításból, valamint az üzembe helyezés utáni folyamatos értékelésből és fejlesztésből. Ezekben a szakaszokban különböző célokra többféle információt használhatunk fel, többek között a modell teljesítményének, megbízhatóságának és biztonságának javítására.

Ez a cikk áttekintést ad arról, milyen információkat használunk e modellek fejlesztéséhez, hogyan gyűjtjük és használjuk fel ezeket az információkat az adatvédelmi jogszabályoknak megfelelően, és milyen biztosítékokat alkalmazunk a betanítási folyamat során. Ha szeretné megérteni, hogyan gyűjtünk és használunk fel információkat szolgáltatásaink felhasználóitól – többek között azt, hogyan tiltható le, hogy a ChatGPT-beszélgetéseket modelljeink fejlesztésére használjuk –, kérjük, tekintse meg Adatvédelmi irányelveinket és ezt a súgóközpont-cikket.

Mi a ChatGPT, és hogyan működik?

A ChatGPT egy mesterséges intelligencián alapuló szolgáltatás, amelyet interneten vagy alkalmazáson keresztül érhet el. A ChatGPT számos feladatra használható, például információk rendszerezésére és összefoglalására, fordítások támogatására, kódolási, kutatási és elemzési segítségre, több eszközön átívelő, többlépéses feladatok elvégzésére, képek elemzésére vagy létrehozására, kreativitás és ötletek ösztönzésére, valamint más mindennapi tevékenységekre. A ChatGPT-t úgy tervezték, hogy megértse a felhasználók kérdéseit és utasításait, és válaszoljon rájuk azáltal, hogy nagy mennyiségű információból – többek között szövegből, képekből, hangból és videóból – mintázatokat tanul.

A betanítás során a modell elemzi az adatokon belüli kapcsolatokat – például azt, hogy a szavak jellemzően hogyan jelennek meg együtt egy adott kontextusban –, és ezt a megértést használja fel arra, hogy válaszgeneráláskor szóról szóra megjósolja a következő legvalószínűbb szót. A szöveg kisebb egységekre alakítható, amelyeket néha „tokeneknek” nevezünk; ezek teljes szavakat, szórészeket vagy írásjeleket jelölhetnek. A tokenek a szöveg építőelemei, amelyeket a modell feldolgoz. Hasonlóképpen, a más tartalomtípusokat, például képeket generáló modellek azt tanulják meg, hogy a képpontok hogyan kapcsolódnak egymáshoz és a betanítási adatokban szereplő kapcsolódó képaláírásokhoz.

Például a modell tanulási folyamata (azaz a „betanítás”) során a modell feladata lehet egy ilyen mondat befejezése: „Ahelyett, hogy balra fordult volna, ___ fordult.” A betanítás korai szakaszában a válaszai nagyrészt véletlenszerűek. Ahogy azonban a modell nagy mennyiségű szöveget dolgoz fel és tanul belőle, egyre jobban felismeri a mintázatokat, és pontosabban jósolja meg a következő legvalószínűbb szót. Ez a folyamat mondatok millióin ismétlődik, hogy finomítsa a modell megértését és javítsa a pontosságát.

Mivel egy mondat befejezésének több hihető módja is lehet – például: „Ahelyett, hogy balra fordult volna, jobbra fordult”, „megfordult” vagy „visszafordult” –, a modell válaszadásában eleve van bizonyos véletlenszerűség. Ennek eredményeként ugyanarra a kérdésre különböző lekérdezésekben eltérő válaszok születhetnek.

A gépi tanulási modellek nagy számhalmazokból – úgynevezett „súlyokból” vagy „paraméterekből” – állnak, valamint olyan kódból, amely ezeket a számokat értelmezi és használja. Ezek a modellek nem tárolják és nem őrzik meg azoknak az adatoknak a másolatait, amelyeken betanítják őket. Ehelyett, ahogy a modell tanul, a paramétereinek értékei kissé módosulnak, hogy tükrözzék az általa azonosított mintázatokat. A korábbi példában a modell a véletlenszerű szavak jóslásától pontosabb előrejelzésekig jutott el – nem a betanítási mondatok tárolásával, hanem belső paramétereinek frissítésével. A modell nem őrzi meg a betanítás során feldolgozott mondatok, képek vagy hanganyagok másolatait. A ChatGPT nem „másol és beilleszt” a betanítási adataiból – hasonlóan ahhoz, ahogyan egy tanár kiterjedt tanulás után úgy tud fogalmakat elmagyarázni, hogy érti az ötletek közötti kapcsolatokat, anélkül hogy az eredeti anyagokat szó szerint megjegyezné vagy reprodukálná. Amikor felhasználói kérésre választ generál, a modell ezeket a megtanult súlyokat használja új tartalom előrejelzésére és létrehozására.

Milyen típusú információkat használnak a ChatGPT tanításához?

A nyilvánosan elérhető internetes tartalmak esetében kizárólag olyan információkat használunk, amelyek szabadon és nyíltan hozzáférhetők az interneten. Ide tartozhatnak nyilvánosan elérhető weboldalak, nyilvános fórumok, nyilvános blogok, nyilvános bejegyzések és más nyilvánosan elérhető online tartalmak. Ha például részt vesz egy nyilvánosan elérhető online vitafórumon, vagy nyilvános blogot vagy más bejegyzést tesz közzé, ezt a nyilvánosan hozzáférhető tartalmat felhasználhatjuk modellbetanítási célokra. Ugyanakkor lépéseket teszünk annak érdekében, hogy a betanítási folyamatunkban csökkentsük a személyes adatok kezelését. Nyilvánosan elérhető internetes tartalmak gyűjtésekor szándékosan nem gyűjtünk adatokat olyan forrásokból, amelyekről tudjuk, hogy fizetőfal mögött vannak, illetve a dark webről. Emellett szűrőket alkalmazunk az olyan anyagok eltávolítására, amelyekből nem szeretnénk, hogy modelljeink tanuljanak, például gyűlöletbeszédre, felnőtt tartalomra, személyes adatokat összesítő webhelyekre és spamre. A fennmaradó információkat ezután modelljeink betanítására használjuk.

A webhelytulajdonosok szabályozhatják, hogy a webhelyeikről származó nyilvánosan elérhető tartalom hozzáférhető legyen-e betanítási célú felhasználásra, például szabványos webes vezérlők, így a robots.txt használatával letilthatják a GPTBotot, amely nyilvánosan elérhető tartalmakat térképezhet fel modelljeink betanításának segítésére. Útmutatást nyújtunk a webhelytulajdonosoknak ahhoz, hogy kezelni tudják, miként lépnek kapcsolatba webhelyeik és tartalmaik a mesterségesintelligencia-rendszereinkkel.

Harmadik fél partnerektől származó információkat is használunk modelljeink betanításának és fejlesztésének elősegítésére. Ide tartozhatnak olyan adatkészletekben szereplő információk, amelyekhez harmadik felekkel kötött megállapodások alapján férünk hozzá, valamint emberi betanítók és kutatók által megadott vagy létrehozott információk, amennyiben ezt irányelveink és megállapodásaink megengedik. Ez segít javítani modelljeink minőségét, biztonságát és teljesítményét. Ezek a források az adatkészlettől függően szöveget, képeket, hangot, videót vagy más adattípusokat tartalmazhatnak.

Egyes betanítási folyamatokban egyre nagyobb mértékben használunk szintetikus adatokat is. Például információkat és modelljeinket felhasználva szintetikus utasításokat, többnyelvű példákat vagy más betanítási anyagokat hozhatunk létre. A szintetikus adatok javíthatják a modell teljesítményét, például azáltal, hogy kiegészítik a betanítási adatokat olyan területeken, ahol kevés vagy kiegyensúlyozatlan az adat, és támogathatják a modellfejlesztés adatvédelmet erősítő megközelítéseit is.

Használnak személyes adatokat a ChatGPT tanításához?

Az online tartalmak jelentős része emberekről szóló információkat tartalmaz, ezért betanítási adataink esetlegesen személyes adatokat is tartalmazhatnak. Ugyanakkor lépéseket teszünk annak érdekében, hogy a betanítási folyamatunkban csökkentsük a személyes adatok kezelését.

A betanítási adatokat a modell képességeinek – például az előrejelzésnek, az érvelésnek és a problémamegoldásnak – a fejlesztésére használjuk, nem pedig arra, hogy személyekről profilokat készítsünk, kapcsolatba lépjünk velük, vagy hirdetéseket személyre szabjunk számukra.

Bizonyos esetekben a modellek személyes adatokból is tanulhatnak, hogy megértsék, miként működnek a nyelvben az olyan elemek, mint a nevek és címek, illetve hogy felismerjék a közszereplőket és a közismert szervezeteket. Ez segít a modellnek pontosabb és a kontextushoz jobban illeszkedő válaszokat generálni.

Hogyan védik a személyes adatokat a betanítás során?

Aktív lépéseket teszünk a személyes adatok kezelésének korlátozására a betanítás során. Például kizárjuk azokat az ismert forrásokat, amelyek nagy mennyiségű személyes adatot összesítenek, szűrést alkalmazunk a személyes adatok csökkentésére a betanítási folyamatban, és lépéseket teszünk a duplikált tartalom azonosítására és eltávolítására, hogy csökkentsük a betanítási adatok megismétlésének kockázatát. Emellett modelljeinket arra tanítjuk, hogy kerüljék az egyénekre vonatkozó magánjellegű vagy érzékeny információkra irányuló kérések megválaszolását.

Mennyi ideig őrizzük meg az információkat?

A betanítási adatokban szereplő információkat csak addig őrizzük meg, ameddig az e cikkben és Adatvédelmi irányelveinkben leírt célokhoz észszerűen szükséges, többek között modelljeink fejlesztéséhez és javításához, valamint kapcsolódó tudományos kutatási célokra. A megőrzést rendszeresen felülvizsgáljuk annak biztosítása érdekében, hogy továbbra is szükséges legyen, és időtartama az információ típusától és felhasználási módjától függően változik. A megőrzés meghatározásakor olyan tényezőket veszünk figyelembe, mint az információk kezelésének célja, az információk mennyisége, jellege és érzékenysége, a jogosulatlan felhasználásból vagy közlésből eredő lehetséges kár kockázata, valamint a ránk vonatkozó jogi kötelezettségek.

Hogyan felel meg a ChatGPT fejlesztése az adatvédelmi jogszabályoknak?

A betanítási információkat jogszerűen használjuk fel. Alapmodelljeink számos hasznos alkalmazást működtetnek – többek között akadálymentesítési eszközöket, ügyféltámogatást, szoftverfejlesztést, személyre szabott oktatást és tudományos kutatást. Ezek a képességek nagy léptékű betanítási adatokra támaszkodnak, köztük nyilvánosan elérhető információkra és harmadik fél partnerektől származó információkra. A betanítási folyamat során mindvégig biztosítékokat alkalmazunk, többek között olyan lépéseket, amelyek célja a személyes adatok kezelésének csökkentése a betanítási folyamatban és a kockázatok mérséklése, az e cikkben leírtak szerint. A betanítási információkban szereplő személyes adatok gyűjtését és felhasználását az adatvédelmi jogszabályok, például a GDPR szerinti jogos érdekekre alapozzuk; ide tartozik modelljeink betanítása és fejlesztése felhasználóink és a tágabb társadalom érdekében, összhangban küldetésünkkel, hogy a mesterséges általános intelligencia mindenki javát szolgálja, amint azt Adatvédelmi irányelveinkben részletesebben kifejtjük. Adatvédelmi hatásvizsgálatot végeztünk annak elősegítésére, hogy ezeket az információkat jogszerűen és felelősen gyűjtsük és használjuk fel.

Mikor oszthatók meg vagy továbbíthatók az információk?

Nem „adunk el” személyes adatokat, és a betanítási adatokban szereplő személyes adatokat csak az Adatvédelmi irányelveinkben leírt korlátozott körülmények között közöljük. Például megoszthatunk információkat leányvállalatokkal, beszállítókkal és szolgáltatókkal, akik támogatják modelljeink fejlesztését, tesztelését és javítását. Információkat akkor is közölhetünk, ha jóhiszeműen úgy véljük, hogy ez jogi kötelezettség teljesítéséhez, illetve jogaink, biztonságunk és védelmünk, valamint felhasználóink, munkavállalóink vagy a nyilvánosság jogainak, biztonságának és védelmének megóvásához szükséges, amint azt Adatvédelmi irányelveinkben leírjuk.

Mivel infrastruktúránk globális, a betanítási adatokban szereplő személyes adatok az EGT-n, Svájcon vagy az Egyesült Királyságon kívüli országokban is feldolgozhatók (többek között az Egyesült Államokban). Ilyen esetekben megfelelő biztosítékokat alkalmazunk, például megfelelőségi határozatokat vagy általános szerződési feltételeket, amint azt Adatvédelmi irányelveinkben leírjuk.

Az Ön jogai és azok gyakorlása

Válaszolunk a tiltakozási kérelmekre és a hasonló joggyakorlási kérelmekre. A nyelv megtanulásának eredményeként a ChatGPT válaszai néha személyes adatokat tartalmazhatnak olyan személyekről, akiknek a személyes adatai többször is megjelennek a nyilvános interneten (például közszereplők esetében). Bizonyos joghatóságokban az egyének tiltakozhatnak személyes adataik modelljeink általi kezelése ellen, vagy más érintetti jogok gyakorlására irányuló kérelmet nyújthatnak be Adatvédelmi portálunkon keresztül. Ezeket a jogokat úgy is gyakorolhatja, hogy ír a privacy@openai.com címre.

Annak érdekében, hogy fel tudjuk mérni és meg tudjuk válaszolni kérelmét, kérjük, adjon meg elegendő információt ahhoz, hogy megértsük, milyen személyes adatokra vonatkozik a kérelme, például a nevét, releváns URL-eket, a modellkimenetek konkrét példáit vagy más olyan részleteket, amelyek segítenek azonosítani a problémát. Bizonyos esetekben megkérhetjük, hogy igazolja személyazonosságát, vagy erősítse meg, hogy az információ Önre vonatkozik, mielőtt intézkedni tudnánk. További információ arról, hogyan lehet benyújtani ezeket a kérelmeket – beleértve a bevált gyakorlatokat és a kérelmek felülvizsgálatának módját –, a ChatGPT-ből való személyesadat-eltávolításról szóló Súgóközpont-cikkünkben érhető el. A kérelmeket az alkalmazandó adatvédelmi jogszabályoknak megfelelően vizsgáljuk felül, és az alkalmazandó jogi határidőkön belül válaszolunk.

Kérjük, vegye figyelembe, hogy az adatvédelmi jogszabályokkal összhangban egyes jogok nem feltétlenül abszolútak. Előfordulhat például, hogy nem tudunk teljesíteni egy kérelmet, ha nem tudjuk ellenőrizni a releváns információkat, ha a kérelem nem az OpenAI által kezelt személyes adatokra vonatkozik, ha mentesség alkalmazandó, vagy ha más jogszerű okunk van erre. A kérelmeket eseti alapon értékeljük, és ez magában foglalhatja az adatvédelmi jogok mérlegelését más fontos szempontokkal, például a véleménynyilvánítás szabadságával és a közérdekkel szemben.

Ugyanakkor arra törekszünk, hogy elsőbbséget adjunk a személyes adatok védelmének, és megfeleljünk minden alkalmazandó adatvédelmi jogszabálynak. Ha úgy érzi, hogy nem kezeltünk megfelelően egy problémát, joga van panaszt benyújtani a helyi felügyeleti hatóságnál.

Ha többet szeretne megtudni az OpenAI gyakorlatáról azokkal a személyes adatokkal kapcsolatban, amelyeket Öntől vagy Önről gyűjtünk, amikor webhelyünket, alkalmazásainkat és szolgáltatásainkat használja, kérjük, tekintse meg Adatvédelmi irányelveinket.

A ChatGPT és alapmodelljeink fejlesztése

Mi a ChatGPT, és hogyan működik?

Milyen típusú információkat használnak a ChatGPT tanításához?

Használnak személyes adatokat a ChatGPT tanításához?

Hogyan felel meg a ChatGPT fejlesztése az adatvédelmi jogszabályoknak?

Hasznos volt ez a cikk?