Problemet med approximeringarna som en survey gör över en population, är att vi aldrig kan veta hur väl de stämmer. (Om inte surveyn inkluderar hela populationen, och det vore dyrt.) Med metoden som Edgar Bueno forskar på, kan någon som planerar en survey veta hur ett urval av populationen ska väljas, som ger en mer precis estimering, eller kräver ett mindre urval av populationen för att göra en bra approximation.
Att räkna på det okända
Eftersom approximeringar till en survey alltid kommer att vara okända, kommer det att vara eftertraktat att kunna räkna på hur okända de är. Den metod som Edgar Bueno föreslår i sin forsknig gör det möjligt att kvantifiera osäkerheten i approximationerna, för att kunna välja den bästa urvalsdesignen.
Valet av urvalsmetod påverkar både vilken storlek som krävs på urvalet och hur precisa resultaten kommer att bli. Ifall man till exempel vill göra en survey för att ta reda på hur många som skulle rösta på Trump eller Biden, ifall valet var idag, så skulle man behöva använda okända kvantiteter. Det är vanligt att man då faller tillbaka på tidigare studier, och hämtar proxy variabler för de okända kvantiteterna.
Det här är en metod som Edgar anser vara riskabel och osäker. Istället lägger han till en ingridiens i urvalsprocessen för surveyn: En priorifördelning, som representerar hur osäkra proxy variablerna är. På det här sättet kan statistikern kvantifiera hur riskabelt det är att implementera varje urvalsdesign, och välja den med minst risk.
Hur väl representeras väljarna?
Om ett urval ska väljas för en opinionsundersökning, så estimeras proportionen av befolkningen som skulle rösta på antingen Trump eller Biden i det kommande valet. På opinionsundersökningsinstitutet skulle man välja mellan två möjliga urvalsdesigner. Antingen skulle de välja delstater med proportioneliga sannolikheter mot hela den amerikanska populationen och där göra ett enkelt randomiserat urval av de potentiella väljarna. Eller så skulle de stratifiera alla delstater utifrån mängden invånare i respektive delstat, välja ett urval av delstater i varje stratum och sedan ett urval av potentiella väljare i varje delstat i urvalet.
Det går inte att veta i förväg vilken av dessa metoder som skulle ge bäst resultat. Ifall antalet väljare i varje delstat som skulle rösta på en viss kandidat var stikt proportioneligt mot populationen i varje delstat, så skulle den första metoden blir mer effektiv. Om så inte vore fallet, så skulle den andra metoden vara att föredra. Eftersom opinionsinstitutet inte vet vilken metod som skulle vara bäst, föreslår Edgar att man antar en prioridistribution och estimerar hur säker eller osäker man är på proportionaliteten i urvalet relaterat till hela populationen. Ifall opinionsinstitutet är mycket osäkert på relationen mellan urvalet och hela populationen, ska de anta att det finns en stor varians. Då kan man beräkna risken med varje metod, och sedan välja metoden med lägst risk.
Edgar försvarar sin avhandling den 4 december 2020, kl 13. Ifall du är intresserad av hans forskning och vill veta mer kan du kontakta honom på: edgar.bueno(a)stat.su.se