Ny forskning fra ITU analyserer angreb på store sprogmodeller

Hvad motiverer nogle til at manipulere med store sprogmodeller, og hvordan bærer de sig ad? I et nyt studie definerer forskere fra ITU såkaldt ”red teaming” af sprogmodeller for at øge sikkerheden i teknologien.

Nanna Inie Leon Derczynski Forskning algoritmer kunstig intelligens

Skrevet 16. januar 2025 09:17

Da store sprogmodeller (LLM eller Large Language Models på engelsk) blev bredt tilgængelige i 2022, blev lektor på ITU, Leon Derczynski, fascineret af den måde hvorpå nogle forsøgte at interagere med modellerne på en aggressiv måde for at se, hvordan teknologien opførte sig ”under angreb”.

Den fascination førte til at Leon Derczynski med sin kollega, adjunkt Nanna Inie, samt Jonathan Stray fra University of California, Berkeley, definerede LLM ”red teaming”. Red teaming er et kendt fænomen indenfor militær- og cybersikkerhedsregi, men det er ikke tidligere defineret i relation til store sprogmodeller. LLM red teaming er en måde, hvorpå man får sprogmodellen til at opføre sig på en utilsigtet måde, fx ved at snyde ChatGPT til at give brugeren opskriften på napalm. Ligesom med red teaming i andre sammenhænge er LLM red teaming karakteriseret ved, at man søger teknologiens grænser ved hjælp af cyberangrebsteknikker, manuelle processer og holdarbejde.

Resultatet af forskernes arbejde er nu tilgængeligt i artiklen “Summon a Demon and Bind It: A Grounded Theory of LLM Red Teaming in the Wild”, der er blevet udgivet i tidsskriftet PLOS ONE.

”Før 2022 var der ikke nogen bredt tilgængelige store sprogmodeller, og derfor er manipulation af teknologien ikke blevet formelt defineret. Det var en helt ny menneskelig aktivitet. For at kunne tale om det, havde vi brug for en definition og en beskrivelse af fænomenet,” siger Leon Derczynski:

”Teknologien er virkelig hot lige nu, og det bliver brugt så mange steder, at det er vigtigt at finde og udpege de huller, der kan være i modellerne. Vi håber, at vores forskning kan bruges til at lære mere om modellernes svagheder.”

For at undersøge denne måde at interagere med teknologien interviewede forskerne folk, der angriber store sprogmodeller for at forstå deres motiver og metoder. Deltagerne var både folk, der arbejder professionelt med red teaming i førende tech-virksomheder, og folk, der har en generel interesse i emnet.

Deltagernes motivation interesserede særligt forskerne:

”Det er en form for kreativ problemløsning. Hvordan får du modellen til at give resultater, der ikke burde være mulige? Et kvalitativt dyk ned i noget, der er så datalogitungt som cybersikkerhed, lærer os en masse om, hvordan vi kan forudse angreb på store sprogmodeller, men også om hvordan mennesker relaterer til den her nye teknologi,” siger Nanna Inie.

Håbet er, at det der kommer ud af artiklen, kan blive brugt i frontlinjen til at lukke sikkerhedshuller i sprogmodellerne, men det leder også til spørgsmålet om, hvad den optimale funktionalitet er for teknologien.

”Jo mere flydende de store sprogmodellers output bliver, des mindre opmærksomme bliver folk i forhold til at spotte fejl og skadeligt output. Bør det fixes, eller skal vi bare lade outputtet være lidt dummere, hvilket i sidste ende gør systemerne mere sikre for slutbrugeren?” spørger Nanna Inie.

Mere information

Theis Duelund Jensen, Presseansvarlig, telefon +45 2555 0447, email thej@itu.dk