Är det statistiskt säkerställt?
Publicerad: 2015-12-07
Vid jämförelser mellan olika värden i statistiken talas om statistiskt säkerställda skillnader. Det är skillnader som troligen inte bara kan förklaras av slumpen.
Uttrycket "statistiskt säkerställd" används ibland lite vagt om statistiska undersökningar. Exempelvis kan resultaten i en undersökning sägas vara statistiskt säkerställda. Det man då kanske vill förmedla är att statistiken är av hög kvalitet eller håller för intressanta slutsatser.
Men uttrycket statistiskt säkerställd handlar inte direkt om statistikens kvalitet, utan om säkerheten i jämförelser mellan olika värden. Ett exempel på en jämförelse är förändringen mellan två tidpunkter i hur stor andel som säger sig vilja rösta på ett politiskt parti.
Skillnaden mellan två värden i statistiken kan antingen bero på en skillnad i verkligheten, eller på olika typer av osäkerhet i undersökningen. Om resultatet kan tydas som en skillnad i verkligheten sägs att skillnaden är "statistiskt säkerställd". Ordet säkerställd är lite missvisande, eftersom det alltid finns en osäkerhet kvar huruvida skillnaden är verklig eller inte. Synonymer till statistiskt säkerställd är "statistiskt signifikant" och "inte inom felmarginalen".
Konfidensintervall
Ett vanligt sammanhang där uttrycket statistiskt säkerställd används är vid urvalsundersökningar. När statistiken grundas på ett urval uppstår en slumpmässig urvalsosäkerhet. Storleken på denna osäkerhet kan uppskattas från datamaterialet med hänsyn till de urvals- och beräkningsmetoder som har använts. Den uppskattade osäkerheten anges med en felmarginal (osäkerhetsmarginal, osäkerhetstal). Ett konfidensintervall (osäkerhetsintervall) redovisas ofta som statistikvärdet plus/minus felmarginalen.
Konfidensintervall kan ha olika konfidensgrad. Inom samhällsstatistik används ofta 95 procents konfidensgrad. Det innebär att konfidensintervallet med 95 procents säkerhet har ”träffat rätt” och ligger så att det innehåller det ”sanna” värdet. Det ”sanna” värdet är då det värde som man skulle ha fått om man frågat alla i populationen och inte enbart ett urval. Man låtsas då inte om systematiska avvikelser som kan vara orsakade av bortfall eller annat. I det långa loppet när man jämför i många olika fall är det alltså i ett fall av tjugo som man inte träffar rätt.
Det är skillnaden som är säkerställd
Om en skillnad är större än felmarginalen (för skillnaden), är skillnaden statistiskt säkerställd på risknivån 5 procent. Sett från en utgångspunkt före lottningen av urvalet är det då högst 5 procent sannolikhet att få ett urval som ger den observerade skillnaden, givet att ingen skillnad råder i populationen. Det som är ”säkerställt” är att det finns en skillnad, inte storleken på skillnaden.
Hur stor skillnaden mellan två värden ska vara för att kunna kallas statistiskt säkerställd beror på felmarginalens storlek. Denna beror i sin tur, vid en given konfidensgrad, på urvalets storlek samt på urvals- och beräkningsmetoder. Ju större urvalet är, desto mindre skillnader kan bli statistiskt säkerställda.
Ett exempel kan tas från SCB:s Partisympatiundersökning. I maj 2013 uppskattades valresultatet ”om det varit val i dag” till 4,2 procent för Centerpartiet och 3,6 procent för Kristdemokraterna. I förhållande till fyraprocentsspärren för att vara med i riksdagen ligger alltså Centerpartiet ovanför och Kristdemokraterna nedanför.
Men här blir felmarginalerna viktiga. Konfidensintervallen är 4,2 ± 0,4 för Centerpartiet och 3,6 ± 0,3 för Kristdemokraterna. Man ser att spärren på 4 procent ligger inom intervallet för Centerpartiet. Det betyder att det inte är statistiskt säkerställt att Centerpartiet ligger över (eller under) spärren på 4 procent. För Kristdemokraterna är det däremot statistiskt säkerställt att partiet ligger under spärren.
Kan inge falsk känsla av säkerhet
Konfidensintervall och uttalanden om statistiskt säkerställda skillnader kan inge en falsk känsla av säkerhet och bör tolkas med försiktighet. Man kan i exemplet ovan inte vara helt säker på att Kristdemokraterna ligger under fyraprocentsspärren i verkligheten.
Det finns osäkerhet som inte omfattas av felmarginaler och konfidensintervall. Det kan handla om systematiska fel som uppstår genom att inte alla av dem som ingår i urvalet svarar (bortfallsosäkerhet), eller osäkerhet i själva svaren. Att svara i en undersökning är trots allt inte samma sak som att rösta.
Det hör också till saken att förändringar kan ackumuleras och bli säkrare. I Partisympatiundersökningen minskade Centerpartiet från 4,7 till 4,4 procent mellan maj och november 2012. Skillnaden var inte statistiskt säkerställd. Även mellan november 2012 och maj 2013 minskade Centerpartiet, från 4,4 till 4,2 procent. Inte heller den skillnaden var statistiskt säkerställd. Att det är en nedgång mellan maj 2012 och maj 2013 är däremot statistiskt säkerställt.
Det är inte ovanligt att skillnader som inte är statistiskt säkerställda analyseras och kommenteras i media. För exempelvis undersökningar om partisympatier kan det handla om att kommentera en uppgång för ett visst politiskt parti, vilket parti som är störst eller om ett parti ligger under fyraprocentsspärren. Det är dock vanskligt att dra slutsatser utifrån skillnader som inte är statistiskt säkerställda, eftersom dessa mycket väl kan bero på slumpen.
Över eller under spärren till riksdagen?
Andelsskattning och konfidensintervall för valresultatet ”om det varit val i dag” för Centerpartiet och Kristdemokraterna. Partisympatiundersökningen maj 2013
I maj 2013 uppskattades valresultatet för Centerpartiet till 4,2 ± 0,4 procent. Konfidensintervallet går alltså från 3,8 till 4,6 procent. Det går inte att säkert säga om partiet ligger över eller under riksdagsspärren på 4 procent. Skattningen för Kristdemokraterna, 3,6 ± 0,3 procent, ligger under spärren till riksdagen.
Kontakt
- Telefon
- 010-479 64 99
- E-post
- jorgen.brewitz@scb.se