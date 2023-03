Sandhini Agarwal: We hebben veel vervolgstappen. Ik denk zeker dat de manier waarop ChatGPT viraal is gegaan ervoor heeft gezorgd dat veel problemen waarvan we wisten dat ze bestonden, echt opborrelen en kritiek worden – dingen die we zo snel mogelijk willen oplossen. We weten dat het model nog steeds erg bevooroordeeld is. En ja, ChatGPT is erg goed in het weigeren van slechte verzoeken, maar het is ook vrij eenvoudig om prompts te schrijven waardoor het niet weigert wat we wilden dat het weigerde.

Liam Fedus: Het was opwindend om de diverse en creatieve toepassingen van gebruikers te zien, maar we zijn altijd gefocust op gebieden die verbeterd kunnen worden. We denken dat we door een iteratief proces waarin we implementeren, feedback krijgen en verfijnen, de meest afgestemde en capabele technologie kunnen produceren. Naarmate onze technologie evolueert, duiken er onvermijdelijk nieuwe problemen op.

Sandhini Agarwal: In de weken na de lancering hebben we gekeken naar enkele van de meest verschrikkelijke voorbeelden die mensen hadden gevonden, de ergste dingen die mensen in het wild zagen. We hebben ze allemaal beoordeeld en besproken hoe we het moesten oplossen.

Jan Leike: Soms is het iets dat viraal gaat op Twitter, maar er zijn mensen die stilletjes contact opnemen.

Sandhini Agarwal: Veel dingen die we ontdekten waren jailbreaks, wat absoluut een probleem is dat we moeten oplossen. Maar omdat gebruikers deze ingewikkelde methoden moeten proberen om het model iets slechts te laten zeggen, is het niet zo dat dit iets was dat we volledig over het hoofd hebben gezien, of iets dat erg verrassend voor ons was. Toch is dat iets waar we momenteel actief aan werken. Wanneer we jailbreaks vinden, voegen we deze toe aan onze trainings- en testgegevens. Alle gegevens die we zien, worden ingevoerd in een toekomstig model.

Jan Leike: Elke keer dat we een beter model hebben, willen we het uitbrengen en testen. We zijn erg optimistisch dat sommige gerichte vijandige training de situatie met jailbreaking veel kan verbeteren. Het is niet duidelijk of deze problemen helemaal zullen verdwijnen, maar we denken dat we een groot deel van het jailbreaken een stuk moeilijker kunnen maken. Nogmaals, het is niet alsof we niet wisten dat jailbreaken mogelijk was vóór de release. Ik denk dat het heel moeilijk is om echt te anticiperen op wat de echte veiligheidsproblemen zullen zijn met deze systemen als je ze eenmaal hebt ingezet. We leggen dus veel nadruk op het monitoren van waar mensen het systeem voor gebruiken, zien wat er gebeurt en daarop reageren. Dit wil niet zeggen dat we veiligheidsproblemen niet proactief moeten verminderen als we er wel op anticiperen. Maar ja, het is heel moeilijk om alles te voorzien wat er werkelijk zal gebeuren als een systeem de echte wereld raakt.

In januari onthulde Microsoft Bing Chat, een zoek-chatbot waarvan velen aannemen dat het een versie is van OpenAI’s officieel onaangekondigde GPT-4. (OpenAI zegt: “Bing wordt aangedreven door een van onze modellen van de volgende generatie die Microsoft speciaal heeft aangepast voor zoeken. Het bevat verbeteringen van ChatGPT en GPT-3.5.”) Het gebruik van chatbots door technische reuzen met een reputatie van miljarden dollars om te beschermen nieuwe uitdagingen voor degenen die belast zijn met het bouwen van de onderliggende modellen.