Hvornår skal vi lade data træffe beslutninger for os?
Data er et kraftfuldt værktøj, der kan hjælpe os med at træffe objektive, rationelle og fair beslutninger på baggrund af mange flere informationer, end et menneske kan overskue. Men der er også store udfordringer med at sætte tallene i førersædet, skriver Rasmus Pagh, der forsker i Big Data på IT-Universitetet.
Skrevet 31. oktober 2016 09:07 af Rasmus Pagh
Artiklen er også bragt på Videnskab.dk.
De fleste af os er overbeviste om, at vi udmærket er i stand til at granske fakta og nå frem til en god beslutning.
Adfærdspsykologien har imidlertid vist, at det er overordentligt svært for os mennesker at træffe rationelle beslutninger, selv hvis vi anstrenger os. Vi påvirkes på godt og ondt af intuitive fornemmelser, der ofte peger i den rigtige retning, men nogle gange rammer helt skævt.
Desuden er det, som gode reklamefolk ved, ret nemt at påvirke vores beslutninger.
Vi får flere og flere data
Men hvad kan man så gøre ved det? Er vi nødt til bare at acceptere, at vi tager fejl og træffer forkerte valg?
Efterhånden som vi får adgang til mere og mere data om verden og dens indbyggere, er det fristende at forsøge at bruge disse data til at forstå verden bedre, og i sidste ende træffe bedre, datadrevne beslutninger.
Rasmus Pagh, forsker i Big Data
Inspiration kan hentes i de empiriske videnskaber, hvor det faktisk lykkes os at finde ud af, hvordan (dele af) verden hænger sammen. Forståelse af fysikken, bekræftet ved data fra utallige eksperimenter, gør os for eksempel i stand til at konstruere en flyvemaskine, som vi er ganske sikre på ikke falder ned.
Efterhånden som vi får adgang til mere og mere data om verden og dens indbyggere, er det fristende at forsøge at bruge disse data til at forstå verden bedre, og i sidste ende træffe bedre, datadrevne beslutninger.
I de senere år er data blevet mere og mere centralt i udviklingen af ’intelligent’ software.
Hvor programmører tidligere forsøgte at beskrive alle de regler et stykke software skulle følge for at udføre en opgave, for eksempel oversætte en tekst fra engelsk til dansk, baseres mere og mere software i dag på eksempler i form af data. Google Translate er et eksempel på dette (se faktaboks 1).
Ofte taler man om maskinlæring, fordi softwaren analyserer og ’lærer’ egenskaber ved data, som derefter bruges til at bestemme om softwaren skal træffe det ene eller det andet valg.
Andre gange fokuserer man på udnyttelsen af de store datamængder og taler om big data. Du har måske oplevet maskinlæring i aktion, når software til organisering af fotos (for eksempel på Facebook) lærer at genkende dit ansigt ved at blive præsenteret for eksempler, og de fleste har oplevet at blive foreslået ’anbefalede varer til dig’, når de handler på nettet.
Vi skal kunne forstå vores computer
Data science er et nyt tværfagligt fagområde, der handler om at skabe grundlag for bedre beslutninger.
Det gør man ved at kombinere viden om statistik, programmering og algoritmer med specifik viden om et bestemt emne. Denne tilgang har allerede vundet indpas i erhvervslivet, hvor analyse af virksomhedens data, lavet med såkaldt business intelligence-software, ligger til grund for mange diskussioner i bestyrelserne.
Data science handler også om at forstå de beslutninger, der træffes af computere, så vi kan sikre, at beslutningerne træffes på et etisk forsvarligt grundlag.
Rasmus Pagh, forsker i Big Data
Ofte handler det om at skelne tilfældige variationer (støj) fra underliggende mønstre (signaler), som der bør reageres på. Det kræver ofte en stringent tilgang med værktøjer fra statistik, eksperimentdesign, visualisering og skalérbar dataanalyse.
Men data science handler også om at forstå de beslutninger, der træffes af computere, så vi kan sikre, at beslutningerne træffes på et etisk forsvarligt grundlag.
I USA, der er førende indenfor data science og big data, er politikerne blevet opmærksomme på mulighederne og udfordringerne ved datamængdernes voksende magt.
I 2014 og 2016 bestilte Barack Obama ekspertrapporter om, hvordan teknologierne påvirker borgerrettigheder. Rapporterne viste blandt andet, at der er potentiale for at bruge teknologierne til at
- hjælpe grupper af mennesker, der i dag har svært ved at få adgang til jobmarkedet, fordi deres ansøgninger bliver sorteret fra ud fra unuancerede kriterier (for eksempel fordomme om mennesker med en bestemt bopæl)
- øge social mobilitet ved at hjælpe mennesker med at finde uddannelsestilbud, der passer dem (men som de i dag ikke finder pga. manglende personligt netværk)
- hjælpe politiet med at bruge sine ressourcer bedre ved at vurdere, hvor sandsynligheden for at opdage kriminalitet er størst.
Vi baserer vores valg på forenklet forforståelse
Mange valg i dag baseres på en stærkt forenklet forståelse af verden: Arbejdsgiveren sorterer ansøgere fra et bestemt område fra, fordi han mener, at de ofte giver problemer. Gymnasieeleven vælger en videregående uddannelse, som hun kender nogen, der har taget. Politiet sætter ekstra patruljevogne ind i et socialt belastet kvarter, fordi de forventer, at der foregår mere kriminalitet her.
I alle tre eksempler ville en bedre forståelse af verden, baseret på data, kunne hjælpe personerne til at træffe bedre beslutninger.
Kan vi undgå diskriminerede computere?
Men potentialet følges af udfordringer: Hvis man har en masse data om en ansøger til et job eller en uddannelsesplads, hvordan skelner man så mellem oplysninger, der er faktuelt relevante (og derfor skal inddrages i beslutningen), og oplysninger, der ikke er det?
Det er særligt udfordrende på grund af korrelationer i data (se faktaboks 2). Lovgivning mod diskrimination forbyder visse beslutninger at afhænge af for eksempel køn, etnicitet eller seksuel orientering. Men så burde det vel også være forkert at anvende data, som er højt korreleret med en af disse variabler, for eksempel information om navn?
Hvordan sikrer vi os, at der er taget hensyn til korrelationer? Og hvordan undgår vi, at skævvridninger i data (for eksempel at der bliver foretaget mange flere anholdelser i visse belastede områder) fører til fremtidig diskrimination? Hvem er egentlig ansvarlig for beslutninger foreslået af en computer?
Hvad ligger til grund for beslutningerne?
EU’s nye databeskyttelsesdirektiv, der efter planen skal træde i kraft fra 2018, taler om gennemsigtighed i datadrevne beslutninger.
Det er måske ikke så vigtigt at forstå, hvordan Facebook genkender dit ansigt på et foto, men hvis det for eksempel drejer sig om at få godkendt et lån i banken eller om, hvorvidt en e-butik vælger at tilbyde dig rabat, bør der være klare, transparente kriterier. Og det rækker ikke, at en softwareekspert i princippet vil kunne forstå, hvad der foregår.
I stedet har borgeren ifølge direktivet 'ret til en forklaring', altså skal beslutningen kunne koges ned til noget, et almindeligt menneske kan forstå.
Mulighederne skaber svære afvejninger
Retten til en forklaring kommer til at give en masse udfordringer. Dels fordi der ofte ligger en masse data til baggrund for beslutningerne, som desuden kan være af fortrolig karakter. Dels fordi nogle metoder til maskinlæring finder mønstre i data, der er så komplekse at beskrive, at det er umuligt for et menneske at gennemskue.
I sidste ende bliver der formentlig tale om en afvejning mellem, hvor gennemskuelig og hvor smart software er til at træffe beslutninger. Her er der brug for teknologi og lovgivning, der sikrer tilstrækkelig fairness og gennemsigtighed uden at tabe for mange af de muligheder, der ligger i datadrevne beslutninger.
Og mere end nogensinde er der brug for dygtige dataspecialister, som forstår mekanismerne bag disse beslutninger og kan designe effektiv software, der ikke går på kompromis med etik og moral.
Rasmus Pagh, professor, telefon +45 7218 5284, email pagh@itu.dk
Vibeke Arildsen, presserådgiver, telefon 2555 0447, email viar@itu.dk