de meest relevante artikelen en nieuws over kunstmatige intelligentie op één plek!

 

Aanval Beïnvloedt Grote AI Chatbots, En Niemand Weet Hoe Het Te Stoppen

ChatGPT, Bard en andere chatbots worden constant bijgewerkt om te voorkomen dat ze ongewenste berichten verspreiden, zoals haatzaaiende uitlatingen of gedetailleerde instructies voor het maken van geïmproviseerde bommen. Ondanks deze pogingen onthulden onderzoekers van de Carnegie Mellon University recentelijk dat een simpele toevoeging aan een prompt deze verdedigingsmechanismen kan omzeilen bij verschillende populaire chatbots.

Deze bevindingen suggereren dat het neigen van de slimste AI-chatbots om ontsporen niet zomaar een eigenaardigheid is die kan worden verholpen met enkele eenvoudige regels. Het duidt op een dieperliggend probleem dat de inzet van geavanceerde AI bemoeilijkt.

Zico Kolter, een betrokken professor aan CMU, licht toe: “We hebben geen manier gevonden om dit te corrigeren. We weten simpelweg niet hoe we ze veilig kunnen maken.”

Het onderzoeksteam gebruikte een open source taalmodel om zogenaamde ‘adversarial attacks’ te ontwikkelen. Hierbij wordt de prompt van een bot zodanig aangepast dat het de bot verleidt om zijn beperkingen te overschrijden. Dezelfde aanval bleek effectief te zijn op verschillende bekende commerciële chatbots, zoals ChatGPT, Google’s Bard en Claude van Anthropic.

De onderzoekers hebben OpenAI, Google en Anthropic geïnformeerd over dit lek voordat ze hun bevindingen publiceerden. Alle bedrijven hebben maatregelen getroffen om deze specifieke exploits te voorkomen, maar een algemene oplossing voor dergelijke aanvallen blijft uit.

OpenAI, Google en Anthropic zijn vastberaden om hun modellen te versterken en weerbaarder te maken tegen deze en andere soortgelijke aanvallen, waarbij ze actief onderzoeken hoe ze de verdedigingsmechanismen van hun modellen kunnen versterken.

De kern van het probleem ligt in de manier waarop deze chatbots zijn gebouwd. Ze zijn gebaseerd op enorme taalmodellen, die voorspellingen doen gebaseerd op een immense hoeveelheid menselijke tekst. Hoewel ze heel goed zijn in het genereren van output, zijn deze modellen ook gevoelig voor het produceren van verzonnen informatie, het herhalen van maatschappelijke vooroordelen en het geven van vreemde antwoorden.

Armando Solar-Lezama, professor aan het MIT, benadrukt het belang van open source modellen voor het openlijk bestuderen van AI-systemen en hun zwakheden. Hij geeft ook aan dat de hoofdmethode die wordt gebruikt om modellen te verfijnen mogelijk niet effectief genoeg is om hun gedrag daadwerkelijk te veranderen.

De uitdaging voor de toekomst is niet alleen het beveiligen van deze chatbots, maar ook het accepteren dat ze misbruikt zullen worden. Het werk van CMU is een herinnering voor iedereen die enthousiast is over de potentie van ChatGPT en soortgelijke AI-programma’s: voorzichtigheid en gezond verstand zijn essentieel.

Share This

Share This

Share this post with your friends!

/** * Adding a color picker to your form * * @link https://wpforms.com/developers/how-to-add-a-color-picker-to-your-form/ */ function wpf_dev_color_picker_field() { ?>