Det er ikke magi! Derfor kender Netflix dig så godt
Bag tjenester som Spotify og Netflix ligger algoritmer, der er skabt til at anbefale lige præcis det, den enkelte bruger vil have. Det kan virke nærmest magisk, men fungerer faktisk i kraft af simple matematiske principper, forklarer ITU-lektor Jes Frellsen. Metoderne er ikke kun til underholdning, men kan også bruges i fx kræftforskningen.
Skrevet 7. februar 2017 08:42 af Vibeke Arildsen
Det kan virke magisk, når din musiktjeneste gang på gang anbefaler ny musik, der falder lige i din smag. Men det er bare matematik, der afgør, hvad du får anbefalet i webshops og på musik- og filmtjenesterne.
”Når man åbner motorhjelmen på machine learning-metoderne, man bruger i anbefalingssystemer, er det bare algoritmer, der bygger på antagelser om sammenhængen mellem brugere, produkter og brugernes præferencer for disse produkter. Der kan være tale om både simple antagelser og relativt simple matematiske principper, og det virker forbløffende godt,” siger Jes Frellsen, der forsker i machine learning og kunstig intelligens på ITU.
Som at spørge en ven - eller 10
Overordnet er der tre tilgange, en virksomhed kan vælge imellem, når den skal designe et anbefalingssystem, forklarer Jes Frellsen. Man kan vælge en indholdsbaseret metode, hvor information om produkterne benyttes til at foreslå brugerne lignende produkter. Hvis en bruger for eksempel tidligere har set ’Ringenes Herre’, kan man foreslå ham at se ’Hobitten’ næste gang. Man kan også bruge demografisk information om for eksempel brugerens køn og alder til at foreslå indhold, som lignende brugere kan lide.
Endelig kan man basere algoritmen udelukkende på data om andre brugeres adfærd, hvilket for eksempel kan være nyttigt, hvis ikke man har anden data at trække på, eller hvis det er svært at klassificere produkterne.
”I disse såkaldte collaborative filtering-metoder ser man kun på brugerens præferencer for de forskellige produkter, og sammenligner dem med de andre brugeres præferencer. Eksempelvis kunne man finde de 10 brugere, som i størst mulig grad har givet en række film samme vurdering, som du har. Hvis man så vil forudsige, hvad du syntes om en film, som du ikke har vurderet, kan man som forudsigelse bruge et vægtet gennemsnit af, hvordan disse 10 nærmest beslægtede brugere har vurderet filmen. Det er faktisk lidt det samme, som når man beder en ven med samme smag som én selv om at anbefale en film,” forklarer Jes Frellsen.
Jo mere data, jo bedre
Ofte bruger tjenesterne en kombination af de forskellige metoder, særligt de store virksomheder som i høj grad lever af at kunne forudsige kundernes behov.
Generelt bliver anbefalingssystemerne bedre, jo mere data man har. Hvis man både anvender information om indhold, demografi og brugernes adfærd, får man ofte de bedste forudsigelser.
Jes Frellsen, lektor på ITU
”Generelt bliver anbefalingssystemerne bedre, jo mere data man har. Hvis man både anvender information om indhold, demografi og brugernes adfærd, får man ofte de bedste forudsigelser,” siger Jes Frellsen.
Simple anbefalingssystemer har dog den fordel, at de er mere transparente. Hvis en virksomhed gerne vil forklare sine brugere, hvorfor de får de anbefalinger, de får, er en simpel metode at foretrække.
Når algoritmen gætter forkert
De fleste har nok oplevet at få forslag til film eller andre produkter, der rammer helt ved siden af. Det kan for eksempel skyldes, at tjenesten ikke har data nok til at komme med et præcist bud.
”Et klassisk problem for anbefalingssystemer er, hvordan de skal håndtere nye brugere eller nye produkter. Hvis du er ny bruger, som kun har vurderet meget få film, kan det være svært at sige, hvilke andre brugere, du deler smag med. Systemet skal så at sige først lære dig at kende. Ligeledes kan det være svært at sige hvilke brugere, der kan lide en ny film, som ingen endnu har vurderet, med mindre systemet bruger information om eksempelvis filmens genre. I begge tilfælde vil systemet typisk lave dårlige forudsigelser og dermed give forslag, som ikke nødvendigvis falder i en brugers smag ,” siger Jes Frellsen.
”Og så er nogle film bare svære at forudsige. Filmen Napoleon Dynamite er et klassisk eksempel. Vurderingerne af denne film er typisk meget polariserede, og personer, som ellers har samme filmsmag, kan være helt uenige i deres vurdering af denne film. Det kan give problemer for algoritmerne,” siger han.
Machine learning til kræftforskning
Med anbefalingssystemer vil man forudsige en brugers præference for et produkt, vedkommende ikke har vurderet, mens vi i vores tilfælde ville forudsige, hvor effektivt et lægemiddel virker på cellelinjer, det ikke er afprøvet på.
Jes Frellsen, lektor på ITU
Anbefalingssystemer er nærmest en hel akademisk disciplin i sig selv, som har været i rivende udvikling de seneste ti år. Og det er ikke kun i kommercielle sammenhænge, man bruger disse forudsigelsesmetoder. Selv har Jes Frellsen indgået i et forskningssamarbejde om at udvikle machine learning-metoder, som kan anvendes til at forudsige, hvor godt forskellige typer medicin virker på forskellige kræfttyper.
”I det tilfælde så vi på et datasæt, som indeholder målinger af, hvor effektive forskellige lægemidler virker på forskellige cellelinjer, som repræsenterer forskellige kræft- og vævstyper. I datasættet er der ikke foretaget målinger for alle kombinationer af lægemidler og cellelinjer, og vi prøvede at forudsige de manglende målinger. Metoden vi udviklede er nøjagtig den samme som dem, man ville bruge i anbefalingssystemer,” forklarer han.
”Med anbefalingssystemer vil man forudsige en brugers præference for et produkt, vedkommende ikke har vurderet, mens vi i vores tilfælde ville forudsige, hvor effektivt et lægemiddel virker på cellelinjer, det ikke er afprøvet på. Problemerne minder meget om hinanden, og det handler i virkeligheden bare om at forudsige de værdier, man ikke har observeret.”
Jes Frellsen, lektor, telefon +45 7218 5030, email jefr@itu.dk
Vibeke Arildsen, presserådgiver, telefon 2555 0447, email viar@itu.dk