Deep learning-algoritme skal slå mennesket i StarCraft
Computere har allerede tævet mennesket i skak, Go og poker. Nu er forskere på IT-Universitetet i gang med at træne en algoritme til at slå de bedste menneskelige spillere i computerspillet StarCraft. Lykkes missionen, vil det skyde forskningen i kunstig intelligens et kvantespring fremad.
Skrevet 4. oktober 2017 06:49 af Vibeke Arildsen
Jo mere komplekst et spil er, jo mere ligner det virkeligheden med alle dens uforudsigeligheder og ubekendte. Det er forklaringen på, at forskere i kunstig intelligens nu bevæger sig videre fra brætspil som skak og Go til computerspil som StarCraft, hvor der anslås at findes 101685 mulige kombinationsmuligheder i hvert spil.
Niels Justesen er et år inde i sit ph.d.-projekt på IT-Universitetet, hvor han arbejder henimod at udvikle en selvlærende algoritme, som kan slå selv professionelle StarCraft-spillere.
”Det man har gjort med computerspil og deep learning-algoritmer indtil videre er at prøve at lære spillet ende-til-ende, men den tilgang ville være meget vanskelig i et spil som StarCraft, fordi det er så komplekst. I StarCraft er der usikkerhed om, hvordan modstanderen handler, akkurat som der er i den virkelige verden. Samtidig skal spilleren styre en hel hær og uddelegere opgaver til forskellige enheder af tropper. Det at kunne lære en algoritme at træffe de rigtige handlinger i så komplekst et system er en meget generel udfordring inden for kunstig intelligens som, hvis den bliver løst, kan få betydning på en masse andre områder,” fortæller han.
Se Niels Justesen teste StarCraft-algoritmen i flere spil på én gang i videoen nedenfor.
www.youtube.com/embed/3i_AIutr8V4
Træning på 2.000 spil
Foreløbig har Niels Justesen sammen med sin vejleder Sebastian Risi trænet algoritmen på 2.000 fuldførte spil med nogle af verdens bedste StarCraft-spillere. Ud fra det datasæt har algoritmen gradvist lært, hvordan menneskelige spillere har handlet i næsten 800.000 forskellige spilsituationer. Til en vis grad kan algoritmen generalisere den viden til at træffe beslutninger i situationer, den ikke har oplevet før. Træningen har indtil videre bragt algoritmen op på niveau med middelmådige menneskelige StarCraft-spillere.
Næste skridt bliver at få algoritmen at træffe bedre strategiske beslutninger end selv de professionelle StarCraft-spillere ved hjælp af en metode kaldet ’deep reinforcement learning’.
En deep reinforcement learning-algoritme lærer selv at udvikle gode strategier ved at eksperimentere i et miljø. Den prøver forskellige ting af og lærer derved at gøre mere af det, den får gevinster af, og mindre af det, den bliver straffet af.
Niels Justesen, ph.d.-studerende på ITU
“En deep reinforcement learning-algoritme lærer selv at udvikle gode strategier ved at eksperimentere i et miljø. Den prøver forskellige ting af og lærer derved at gøre mere af det, den får gevinster af, og mindre af det, den bliver straffet af. Det kan sammenlignes med måden, hvorpå et barn lærer at begå sig i verden ved at prøve sig frem,” forklarer Niels Justesen.
En milepæl for kunstig intelligens
ITU-forskeren er ikke den eneste, der arbejder på at udvikle en StarCraft-algoritme. Blandt andre Facebook og den Google-ejede virksomhed DeepMind interesserer sig for andre aspekter af StarCraft-problemet, og når man finder en algoritme, der kan slå mennesket i spillet, vil den sandsynligvis være resultat af et samarbejde mellem et større antal forskere og virksomheder, mener Niels Justesen.
”Vores tankegang er at dele spillet op i mindre dele og løse problemerne ét ad gangen i stedet for at prøve at løse det store komplekse problem. På den måde forsøger vi gradvist at løse den overordnede strategi i spillet, mens Facebook for eksempel arbejder med at få algoritmen til at styre en masse tropper på én gang,” siger han.
Ultimativt er formålet ikke at ydmyge mennesket i endnu et spil, men at drive forskningen inden for kunstig intelligens endnu et nøk fremad. En række af verdens førende forskere i kunstig intelligens anslog for nylig, at StarCraft-spillet vil blive løst inden for de næste fem år. Det vil være et stort fremskridt, som kan få betydning i sammenhænge langt fra spilverdenen, fortæller Niels Justesen.
Google har allerede anvendt algoritmer, som oprindeligt var udviklet til at spille i spil, til at nedsætte strømforbruget i deres enorme datacentre med 40 procent.
Niels Justesen, ph.d.-studerende på ITU
”Google har allerede anvendt algoritmer, som oprindeligt var udviklet til at spille i spil, til at nedsætte strømforbruget i deres enorme datacentre med 40 procent. Man forsker også i at bruge deep learning-algoritmer til at optimere styring af
smart grids, altså store el-netværk. I den medicinske verden vil fremskridt inden for deep learning kunne hjælpe lægerne med at bestemme diagnoser på baggrund af data om tusindvis af patienters historik,” siger han og fortsætter:
”At løse StarCraft ville være en milepæl lidt ligesom månelandingen. Man får måske ikke så meget ud af at komme til månen, men teknologien, man har fundet frem til undervejs, kan bruges på alle mulige andre områder.”
De der har lyst til at tage et spil StarCraft mod ITU-forskernes algoritme, kan gøre det til Kulturnatten på IT-Universitetet fredag den 13. oktober 2017.
Vibeke Arildsen, presserådgiver, telefon 2555 0447, email viar@itu.dk