Vad innebär osäkerhetsintervall?
Publicerad: 2016-12-05
Osäkerhetsintervall är en uppskattning av osäkerheten i statistikuppgifter. Det uppstår då man endast undersöker ett urval från de man vill uttala sig om.
En siffra som får stor uppmärksamhet är arbetslösheten. SCB:s publicerade siffra på 6,4 procent för oktober 2016 är dock inte en fullständig statistikredovisning. Den är en punktskattning för ett närmevärde till det sanna - men för oss okända - värdet på arbetslösheten i oktober, som hämtats från Arbetskraftsundersökningarna.
Sara Westling, som är metodstatistiker på Metodenhet individer och hushåll, förklarar vad som fattas:
– För att en punktskattning ska bli användbar måste den kompletteras med information om osäkerheten. Vi kan inte säga exakt hur mycket skattningen avviker från det sanna värdet, men det går ofta att ange en nedre och en övre gräns mellan vilka det är högst troligt att det sanna värdet ligger. Ett sådant intervall kallas för ett osäkerhetsintervall.
Vad säger osäkerhetsintervallet?
Det publicerade osäkerhetsintervallet för arbetslösheten i oktober är 6,4 ± 0,4 procent. Det är alltså högst troligt att intervallet mellan 6,0 procent och 6,8 procent innehåller det sanna värdet på arbetslösheten.
Arbetskraftsundersökningarna är en urvalsundersökning som bygger på teorin för sannolikhetsurval. För sådan statistik brukar SCB ta fram osäkerhetsintervall med en konfidensgrad om 95 procent. Konfidensgraden är ett mått på hur högst troligt det är att osäkerhetsintervallet fångar det sanna värdet, det vill säga det värde vi skulle ha fått om vi tillfrågat hela populationen.
– Säg att vi har en tidsmaskin så att vi kan göra om hela statistikproduktionen för Arbetskraftsundersökningarna oktober 2016 om och om igen, för att skatta samma sanna värde på arbetslösheten. För varje upprepning låter vi slumpen bestämma ett nytt urval. Slumpen skulle då ge oss många liknande men olika osäkerhetsintervall för arbetslösheten. En konfidensgrad om 95 procent innebär att 95 procent av dessa osäkerhetsintervall skulle innehålla det sanna värdet. Det vill säga det vi skulle få om vi tillfrågat hela populationen.
Hur stort måste urvalet vara?
En skattnings precision beskrivs av bredden hos osäkerhetsintervallet. I undersökningar med sannolikhetsurval är det främst två faktorer som påverkar precisionen:
- Hur urvalet dras och hur stort det är (både som helhet och för delgrupper av populationen).
- Hur mycket det vi frågar om varierar över populationen. En stor variation ger mindre precision.
– Som metodstatistiker får man ibland frågan om hur stort urval som behövs för att vi ska få tillräcklig precision. Det är inte helt lätt att svara på. Hur urvalet dras kan vi ju bestämma själva, men om vi inte har genomfört en liknande undersökning tidigare vet vi inget om hur mycket undersökningsvariablerna varierar över populationen.
När det bara finns två svarsalternativ för en fråga, till exempel ja eller nej, och SCB vill skatta hur stor andel av populationen som är ja-sägare, är det något lättare att generalisera. En sådan skattning har lägst precision om precis hälften av befolkningen tillhör ja-sidan.
I tabellen nedan har vi dragit den enklaste formen av sannolikhetsurval (obundet slumpmässigt urval) från en fiktiv population om 10 000 000. Det sanna värdet är att 50 procent tillhör ja-sidan.
Urvalets storlek |
Osäkerhets- intervall |
100 | 44,0 ± 10,1 % |
500 | 48,8 ± 4,5 % |
1 000 | 51,9 ± 3,2 % |
20 000 | 50,4 ± 0,7 % |
100 000 | 50,3 ± 0,3 % |
– I tabellen ökar precisionen snabbt när vi går från en urvalsstorlek om 100 till 500. Vi vinner inte alls lika mycket i precision genom att öka urvalet från 20 000 till 100 000. Urvalet om 20 000 motsvarar 2 promille av populationen. Det är ganska fantastiskt vilken precision vi kan få med en så liten del av populationen.
Intervju: Gustaf Strandell
Kontakt
- Telefon
- 010-479 68 26
- E-post
- sara.westling@scb.se