Bevilling på 6,99 mio. kr. skal gøre sprogmodeller bedre til sprog
Carlsbergfondet finansierer lektor på ITU, Rob van der Goots projekt, der skal gøre sprogmodeller bedre til at afkode sproglige signaler.
Forskningbevillingerkunstig intelligenssprogteknologi
Skrevet 18. december 2025 09:39 af Theis Duelund Jensen
Lektor Rob van der Goot fra ITU’s Data Science-sektionen har modtaget 6.988.496 kr. under Semper Ardens: Accelerate til sit nye projekt, LMLM: Linguistically Motivated Language Models. Projektet skal undersøge, hvordan man kan integrere sproglig viden direkte sprogmodellers design og dermed udfordre den dominerende tilgang, der primært bygger på stadigt voksende datasæt og beregningskraft.
”Menneskets evner er den højeste barre for sprogbehandling,” siger Rob van der Goot. ”De nuværende sprogmodeller består mest af maskinlæringssystemer med meget lidt reel sproglig forståelse. Hvis vi kan efterligne menneskelig sprogbehandling bedre, kan sprogmodeller nærme sig den måde mennesket skaber sproglig betydning.”
Moderne sprogmodeller opdeler typisk tekst i statistiske underenheder (“tokens”), baseret på algoritmer fra 1990’erne. Selvom det er effektivt, ignorerer disse enheder ofte den sproglige struktur. Rob van der Goot har tidligere ledet et dansksproget projekt, der segmenterede ord efter morfemer – de mindste betydningsbærende enheder i sproget – frem for statistisk sandsynlige tegnsekvenser. Resultatet var en forbedret ydeevne for små sprogmodeller.
Med afsæt i den succes vil LMLM skalere op til flere sprog og tilføje flere lag af sproglige signaler – fra morfemer inde i ord til syntaks og sætningsstrukturer. Projektet vil prioritere sproglig diversitet ud over engelsk og dansk, herunder sprog med forskellige skriftsystemer og rige morfologiske strukturer som finsk og tyrkisk, hvor lange, unikke ordformer kræver mere sofistikeret modellering.
Selvom skalering af data og beregningskraft har givet hurtige fremskridt, understreger Rob van der Goot, at vi måske nærmer os praktiske grænser for, hvor meget større sprogmodeller kan blive. ”Vi kun kommer kun et stykke af vejen ved at skalere data og beregningskraft,” siger han. ”Dette projekt kan føre til modeller, der er lidt mindre effektive ved visse benchmarks, men bedre til faktisk at bruge sprog – for eksempel at skelne mellem bad, not good og good, not bad, hvor overfladiske modeller fejler.”
Projektet vil anvende målrettede benchmarks designet til at teste, om modeller ræsonnerer med syntaks og kontekst frem for at stole på genvejslæring. Målet er ikke at jagte topplaceringer på ranglister, men at udvide spektret af opgaver, som modeller kan løse pålideligt – især i underrepræsenterede sprog. Et centralt tidligt fokus vil være at kortlægge tilgængelige data og identificere sprog, der sikrer diversitet i skrift og sproglig typologi. Bevillingen omfatter støtte til professionel annotering, som er afgørende for at opbygge og validere systemer, der præcist identificerer sproglige enheder.
Theis Duelund Jensen, Presseansvarlig, telefon +45 2555 0447, email thej@itu.dk