Skip to main content ITU
Logo
  • Uddannelser
    • Bachelor
    • BSc i Global Business Informatics
    • BSc i Digital Design og Interaktive Teknologier
    • BSc i Softwareudvikling
    • BSc i Data Science
    • Sådan søger du ind
    • Gæstestuderende på bachelorniveau
    • ITU Summer University på bachelorniveau
    • Kandidat
    • MSc i Digital Innovation & Management
    • MSc i Digital Design og Interaktive Teknologier
    • MSc i Softwaredesign
    • MSc i Data Science
    • MSc i Datalogi
    • MSc i Spil
    • Kandidatreformen
    • Sådan søger du ind
    • Gæstestuderende på kandidatniveau
    • ITU Summer University på kandidatniveau
    • Studieliv
    • Spørg en studerende
    • Kvinder i tech
    • Studenterorganisationer
    • Studiestart
    • Labs for studerende
    • Specialpædagogisk støtte (SPS)
    • Studie- og Karrierevejledning
    • Besøg ITU
    • Åbent hus
    • Studerende for en dag
    • Studiepraktik i uge 43
    • Coding Café for unge kvinder
    • IT-Camp for unge kvinder
    • For gymnasielærere
    • Besøg ITU med klassen
    • Digital Dannelse
    • Coding Class
  • Efteruddannelser
    • Efteruddannelser
    • Se alle efteruddannelser
    • Besøg og arrangementer
    • Master i it
    • Om Master i it-ledelse
    • Sådan søger du ind
    • Kontakt
    • Enkeltfag
    • Se udbud af enkeltfag
    • Enkeltfag på masterniveau
    • Sådan søger du ind
    • Kontakt
    • Korte kurser | ITU Professional Courses
    • Se alle korte kurser
    • Kontakt
  • Forskning
    • Forskningsektioner
    • Data Science
    • Data, Systems and Robotics
    • Digital Business Innovation
    • Digitalization Democracy and Governance
    • Human-Computer Interaction and Design
    • Play Culture and AI
    • Software Engineering
    • Technologies in Practice
    • Theoretical Computer Science
    • Forskningscentre
    • Center for Digital Play
    • Center for Climate IT
    • Center for Computing Education Research
    • Center for Digital Velfærd
    • Forskningscenter for offentlig IT
    • Danish Institute for IT Program Management
    • Centre for Information Security and Trust
    • ITU Research Portal
    • Find forsker
    • Find forskning
    • Forskningsenheder
    • Forskningscentre
    • Forskningsektioner
    • Forskningsgrupper
    • Labs
    • Forskningsetik og -integritet
    • God forskningspraksis
    • Tekniske rapporter
    • Tekniske rapporter
    • Ph.d.-skole
    • Om Ph.d.-skolen
    • Ph.d.-kurser
    • Ph.d.-forsvar
    • Ph.d.-stillinger
    • Ph.d.-håndbog
    • Ph.d.-support
  • Erhvervssamarbejde
    • Samarbejde med Studerende
    • Projektsamarbejde
    • Projektmarked
    • Studiejob
    • Projektopslag
    • Job- og projektbank
    • Employer Branding
    • IT Match Making
    • Sådan ansætter du en ITU'er
    • Lav opslag i Jobbanken
    • Innovation og samarbejde
    • Læs mere om innovation og samarbejde
    • ErhvervsPhD
    • Ansæt en Erhvervs-p.hd
    • Maritime Hub
    • Innovation og iværksætteri
    • ITU Business Development
    • ITU NextGen
  • Om ITU
    • Om ITU
    • Presse
    • Stillinger
    • Kontakt
  • ENG
Ny forskning fra ITU analyserer angreb på store sprogmodeller
ITU  /  Presse  /  Nyheder fra ITU  /  Ny forskning fra ITU analyserer angreb på store sprogmodeller

Ny forskning fra ITU analyserer angreb på store sprogmodeller

Hvad motiverer nogle til at manipulere med store sprogmodeller, og hvordan bærer de sig ad? I et nyt studie definerer forskere fra ITU såkaldt ”red teaming” af sprogmodeller for at øge sikkerheden i teknologien.

Nanna InieLeon DerczynskiForskningalgoritmerkunstig intelligens

Skrevet 16. januar 2025 09:17

Da store sprogmodeller (LLM eller Large Language Models på engelsk) blev bredt tilgængelige i 2022, blev lektor på ITU, Leon Derczynski, fascineret af den måde hvorpå nogle forsøgte at interagere med modellerne på en aggressiv måde for at se, hvordan teknologien opførte sig ”under angreb”.

Den fascination førte til at Leon Derczynski med sin kollega, adjunkt Nanna Inie, samt Jonathan Stray fra University of California, Berkeley, definerede LLM ”red teaming”. Red teaming er et kendt fænomen indenfor militær- og cybersikkerhedsregi, men det er ikke tidligere defineret i relation til store sprogmodeller. LLM red teaming er en måde, hvorpå man får sprogmodellen til at opføre sig på en utilsigtet måde, fx ved at snyde ChatGPT til at give brugeren opskriften på napalm. Ligesom med red teaming i andre sammenhænge er LLM red teaming karakteriseret ved, at man søger teknologiens grænser ved hjælp af cyberangrebsteknikker, manuelle processer og holdarbejde.

Resultatet af forskernes arbejde er nu tilgængeligt i artiklen “Summon a Demon and Bind It: A Grounded Theory of LLM Red Teaming in the Wild”, der er blevet udgivet i tidsskriftet PLOS ONE.

”Før 2022 var der ikke nogen bredt tilgængelige store sprogmodeller, og derfor er manipulation af teknologien ikke blevet formelt defineret. Det var en helt ny menneskelig aktivitet. For at kunne tale om det, havde vi brug for en definition og en beskrivelse af fænomenet,” siger Leon Derczynski:

”Teknologien er virkelig hot lige nu, og det bliver brugt så mange steder, at det er vigtigt at finde og udpege de huller, der kan være i modellerne. Vi håber, at vores forskning kan bruges til at lære mere om modellernes svagheder.”

For at undersøge denne måde at interagere med teknologien interviewede forskerne folk, der angriber store sprogmodeller for at forstå deres motiver og metoder. Deltagerne var både folk, der arbejder professionelt med red teaming i førende tech-virksomheder, og folk, der har en generel interesse i emnet.

Deltagernes motivation interesserede særligt forskerne:

”Det er en form for kreativ problemløsning. Hvordan får du modellen til at give resultater, der ikke burde være mulige? Et kvalitativt dyk ned i noget, der er så datalogitungt som cybersikkerhed, lærer os en masse om, hvordan vi kan forudse angreb på store sprogmodeller, men også om hvordan mennesker relaterer til den her nye teknologi,” siger Nanna Inie.

Håbet er, at det der kommer ud af artiklen, kan blive brugt i frontlinjen til at lukke sikkerhedshuller i sprogmodellerne, men det leder også til spørgsmålet om, hvad den optimale funktionalitet er for teknologien.

”Jo mere flydende de store sprogmodellers output bliver, des mindre opmærksomme bliver folk i forhold til at spotte fejl og skadeligt output. Bør det fixes, eller skal vi bare lade outputtet være lidt dummere, hvilket i sidste ende gør systemerne mere sikre for slutbrugeren?” spørger Nanna Inie.


Mere information

Theis Duelund Jensen, Presseansvarlig, telefon +45 2555 0447, email thej@itu.dk

Nyheder

ITU-forsker vil gøre AI mere troværdig

ITU-forsker vil gøre AI mere troværdig

21. november 2025

Lektor Christian Hardmeier har sikret 7,18 millioner kroner fra Danmarks Frie Forskningsfond. Bevillingen gives til et projekt, der undersøger, hvordan store sprogmodeller bedre kan kommunikere usikkerhed til brugerne.

Kan naturens egen designproces videreudvikle AI?

Kan naturens egen designproces videreudvikle AI?

20. november 2025

En ny lærebog skrevet af bl.a. ITU-professor Sebastian Risi og en række internationale samarbejdspartnere udforsker et felt, der kan ændre fremtidens kunstige intelligens.

Nordisk projekt med ITU-deltagelse skal styrke fremtidens medborgerskab

Nordisk projekt med ITU-deltagelse skal styrke fremtidens medborgerskab

6. november 2025

I en tid med algoritmer, misinformation og svækket tillid til institutioner skal børn og unge rustes til at navigere demokratisk i det digitale samfund. Et nyt nordisk projekt sætter fokus på løsninger – og lektor Gitte Stald fra IT-Universitetet i København spiller en central rolle.

Professorportræt: Oliver Krancher udforsker viden og læring i den digitale arbejdsplads

Professorportræt: Oliver Krancher udforsker viden og læring i den digitale arbejdsplads

3. november 2025

Professor Oliver Krancher har med sin baggrund i business information systems viet sin forskningskarriere til den rolle viden spiller i digitalt arbejde. Den 14. november holder han sin tiltrædelsesforelæsning på IT-Universitetet i København.

Klimaet ændrer sig – og det gør vi også

Klimaet ændrer sig – og det gør vi også

29. oktober 2025

Med 3,1 millioner kroner fra Danmarks Frie Forskningsfond skal lektor Vedran Sekara fra IT-Universitetet i København kortlægge, hvordan menneskers adfærd og mobilitet forandres i takt med klimaforandringerne.

Kan kunstig intelligens forudsige menneskelig adfærd?

Kan kunstig intelligens forudsige menneskelig adfærd?

27. oktober 2025

Hvad hvis det var muligt at læse hjernen som en bog? Paolo Burelli og hans kolleger ved IT-Universitetets brAIn Lab arbejder i krydsfeltet mellem digital teknologi og neurovidenskab. Den 5. november præsenterer Paolo Burelli deres forskning på Digital Tech Summit i oplægget “Decoding the Brain: How AI Unlocks Human Behavior”.

Professorportræt: Rasmus Ejlers Møgelberg skaber nye matematiske verdener

Professorportræt: Rasmus Ejlers Møgelberg skaber nye matematiske verdener

20. oktober 2025

Med en baggrund i matematik og en passion for disciplinens abstrakte højder udvikler Professor Rasmus Ejlers Møgelberg teorier, der bl.a. styrker forståelsen og robustheden af moderne software. Rasmus Ejlers Møgelberg holder tiltrædelsesforelæsning på IT-Universitetet d. 24. okt.

ITU-forskere modtager prestigefyldte Villum Experiment-bevillinger

ITU-forskere modtager prestigefyldte Villum Experiment-bevillinger

2. oktober 2025

Projekter inden for spædbørns kognition, robotteknologi og privatlivssikrende AI får støtte til tidlig forskning.

Cancan Wang vinder årets ITU Teaching Award

Cancan Wang vinder årets ITU Teaching Award

29. september 2025

Cancan Wang, som er lektor på ITU og del af Digitalization, Democracy, and Governance (DDG) er dette års vinder af ITU's undervisningspris. Læs mere om Cancan, hendes undervisningsfilosofi og betydningen af anerkendelsen her.

Professor Sami Brandt modtager af ITU Research Award

Professor Sami Brandt modtager af ITU Research Award

22. september 2025

Professor Sami Brandt blev den første til at modtage den nyindstiftede ITU Research Award. Læs priskomiteens begrundelse og find ud af mere om Sami Brandt og hans forskning.

Professorportræt: Eva Rotenberg vil gøre algoritmer simplere for vores alles bedste

Professorportræt: Eva Rotenberg vil gøre algoritmer simplere for vores alles bedste

22. september 2025

Den 3. oktober 2025 kl. 14:30 vil professor Eva Rotenberg holde sin tiltrædelsesforelæsning i Auditorium 02 på IT-Universitetet i København. Forelæsningen har titlen: “A story of shortest paths”.

Professorportræt: Luca Aiello vil gøre internettet til et bedre sted

Professorportræt: Luca Aiello vil gøre internettet til et bedre sted

15. september 2025

Den 24. september 2025 kl. 14.30, holder professor Luca Aiello sin tiltrædelsesforelæsning i Auditorium 0 på IT-Universitetet i København.

Professorportræt: Det lå i kortene, at Marco Carbone skulle være datalog

Professorportræt: Det lå i kortene, at Marco Carbone skulle være datalog

4. september 2025

Den 19. september 2025 kl. 15.00 holder professor sin tiltrædelsesforelæsning i Auditorium 02 på IT-Universitetet i København.

Professorportræt: Morten Hjelholt vil forstå den digitale velfærdsstat

Professorportræt: Morten Hjelholt vil forstå den digitale velfærdsstat

21. august 2025

Den 5. september 2025 kl. 15:00 vil professor og forskningschef Morten Hjelholt holde sin tiltrædelsesforelæsning i Auditorium 02 på IT-Universitetet i København. Forelæsningen har titlen: “Everywhere and Nowhere: The Digital State and Its Citizens”.

25 år med spil på ITU

25 år med spil på ITU

15. august 2025

I år fejrer spilforskning og -undervisning på IT-Universitetet i København sit 25-års jubilæum. Jubilæet markeres på ITU den 26. og 27. august med oplæg og en udstilling af spil udviklet af ITU’s studerende og alumner.

Jonas Juul modtager H.C. Ørsted Forskertalentprisen 2025

Jonas Juul modtager H.C. Ørsted Forskertalentprisen 2025

14. august 2025

Adjunkt på IT-Universitetet i København, Jonas Juul, har fået H.C. Ørsted Forskertalentprisen 2025. Jonas Juul får prisen for sin forskning indenfor sociale netværk, informationsteknologi og komplekse systemers fysik.

IT-Universitetet gør klar til at byde ny årgang velkommen

IT-Universitetet gør klar til at byde ny årgang velkommen

28. juli 2025

Ud af de 1729 ansøgninger IT-Universitetet i København i år har modtaget har 424 ansøgere fået tilbud om en plads på en af ITU’s fire bacheloruddannelser.

I alt 1729 søgte ind på en af ITU’s fire bacheloruddannelser

I alt 1729 søgte ind på en af ITU’s fire bacheloruddannelser

4. juli 2025

IT-Universitetet i København har i år modtaget 1729 ansøgninger og 579 1. prioritetsansøgninger til sine i alt 348 pladser på fire bacheloruddannelser.

ITU sikrer to Danish Data Science Academy Fellowships

ITU sikrer to Danish Data Science Academy Fellowships

26. juni 2025

Hvert år uddeler DDSA i alt 10 ph.d.- og 6 postdocstipendier. I år har ITU sikret sig to – Nils Grünefeld, som skal gennemføre en ph.d. i maskinlæring og naturlig sprogbehandling, og Ola Rønning, som skal lave et postdoc-projekt inden for probabilistisk programmering.

ITU-forsker vil forbedre statistikmodeller

ITU-forsker vil forbedre statistikmodeller

26. juni 2025

Professor Andrzej Wasowski har fået 6,1 mio. kr. fra Danmarks Frie Forskningsfond. Bevillingen gives til et projekt, der skal undersøge, hvordan sandsynlighedsmodeller kan blive mere pålidelige.

Kontakt os

Telefon
+45 7218 5000
E-mail
itu@itu.dk

Alle kontaktoplysninger

Tilgængelighedserklæring

Find os

IT-Universitetet i København
Rued Langgaards Vej 7
2300 København S
Danmark
Find vej

Følg os

ITU på facebook
ITU på Linkedin
ITU på Instagram
ITU på Youtube
ITU på Bluesky
ITU på facebook ITU på Linkedin ITU på Instagram ITU på Youtube ITU på Bluesky
ITU Student /
Privatliv /
EAN-nr. 5798000417878/
CVR-nr. 29 05 77 53 /
P-nummer 1005162959

Denne side er udskrevet fra https://itu.dk/

Fejl i tilmelding