Tänk dig att du att du ska köpa en viss aktie under dagen, och frågar en statistiker om hen kan analysera hur aktiekursen kommer bete sig i framtiden. Tidigare hade du kunnat få till svar att ”ja det kan jag göra, men beräkningarna i datorn kommer ta flera timmar, eftersom det är så mycket data”. Problemet är att du hade ju behövt analysen betydligt snabbare.
Så kan man beskriva forskningsläget inför att Matias Quiroz skrev sin avhandling ”Bayesian Inference in Large Data Problems”. En del av avhandlingen, som kan ses som ett viktigt bidrag inom Big Data-forskningen, handlar om hur man kan analysera stora datamängder snabbare.
Algoritmen är en arbetshäst
Ett vanligt verktyg för att analysera data inom bayesiansk statistik är den så kallade MCMC-algoritmen, där MCMC är en förkortning av Markov Chain Monte Carlo. Matias Quiroz beskriver den som en arbetshäst.
- Det är standard, det är det folk kör på. Problemet är att de här metoderna är väldigt beräkningsintensiva, då är det många som ifrågasätter om den håller nu och i framtiden, säger han.
Aktuell forskning för MCMC inom stora datamängder kan grovt delas upp i två områden.
- Ett sätt att hantera MCMC för stora datamängder kallas för ”divide and conquer” (ungefär ”härska och söndra”). Då styckar man upp datamaterialet och låter flera datorer jobba med det. När de jobbat klart så slår man ihop informationen för att dra slutsatser, säger Matias Quiroz.
Det andra sättet, som han arbetat med, är att snabba upp MCMC-algoritmen genom att endast använda små stickprov av data.
Arbetshästen blir svettig av Big Data
I den första artikeln i sin avhandling ville Matias Quiroz, som också jobbar på Riksbankens forskningsenhet, göra en intressant statistisk modell att applicera på konkursdata. Här handlar det om att modellera sannolikheten att bolag går i konkurs, beroende på hur deras bokslut ser ut.
Men eftersom MCMC är så extremt beräkningskrävande, kunde han bara analysera en liten del av datamaterialet i den första artikeln.
För att föra forskningen framåt insåg han att han behövde snabba upp algoritmerna han jobbade med. Då bytte avhandlingen inriktning till att fokusera på det. Enkelt uttryckt handlar det om att kunna dra en slutsats som gäller för hela det enorma datamaterialet – bara genom att kolla på ett stickprov.
- Vi tar en delmängd av observationerna, men förlorar ingen precision i vår skattning sett till hela datamaterialet, berättar Matias som poängterar att han har gjort mycket av arbetet tillsammans med andra.
Där såg han potential att knyta ihop två vitt skilda områden inom statistik: MCMC-metoder från bayesiansk inferens och klassisk urvalsmetodik.
Bra förutsägelse trots litet stickprov
För att kunna välja ett litet stickprov och ändå behålla mycket information, behövde Matias Quiroz välja ut de dataobservationer som var mest informativa.
- Där kommer urvalsmetodik in, för du kan inte välja datapunkterna med samma sannolikhet att bli valda för allihop. Istället utvecklar vi ett mått för att kunna se vilka av observationerna som är inflytelserika. Sedan samplar vi de inflytelserika observationerna med en högre sannolikhet.
Det visade sig att de metoder han använde var approximativa (ungefärliga). I sin tur innebar det att han behövde göra ett teoretiskt ramverk för att försäkra sig om att approximationen inte var helt åt skogen.
- Så en stor del av avhandlingen har gått till att göra ett teoretiskt ramverk för att göra MCMC-metoder baserat på stickprov av data. Det är precis det avhandlingen går ut på.
Faktaruta: Bayesiansk statistik for dummies
I bayesiansk statistik har man en modell där man ser alla parametrarna i modellen som slumpmässiga (exempel på parametrar är medelvärden och median). Bayesianer behandlar helt enkelt det som de inte känner till som slumpmässigt.
Man kan säga att det är motsatsen till klassisk statistik (frekventistisk statistik) – där ses data som slumpmässig medan parametern är icke-slumpmässig (fixerad). I klassisk statistik är parametern därmed inte slumpmässig, utan konstant.
Det bayesianska ramverket vänder alltså på resonemanget. Man betraktar det som man har sett (datan) som känd, och det man inte har sett (parametrarna) som okända. Bayesianer använder sedan data för att uppdatera sin vetskap om parametern.