Att hitta och hantera fel i SCB:s data
Publicerad: 2017-02-13
I den här artikeln berättar metodstatistiker Karin Lindgren om hur SCB arbetar med effektiv granskning. Granskning, eller datagranskning, innebär att säkerställa att den statistik och de register som vi framställer håller tillräcklig kvalitet.
På engelska säger man "editing" eller "data validation". Granskning är i det här sammanhanget en kvalitetskontroll av statistiska uppgifter och ska inte förväxlas med granskning av frågeformulär, av dataprogram eller av att statistiksekretessen hålls.
Karin Lindgren är metodstatistiker och har arbetat som metodansvarig för förvaltningsobjektet Granskning.
– Vi behöver granska för att hitta och hantera fel i våra data, men också för att hitta felkällor och försöka åtgärda dem med förbättrade mätinstrument, säger hon.
Granskning genom hela produktionen
Granskningen kommer in i många olika faser i statistikframställningen, och de olika typerna av granskning behöver utformas så att helheten blir effektiv.
– Vid webbinsamling kan indata granskas direkt av uppgiftslämnarna genom kontroller i SIV (SCB:s webbinsamlingsverktyg). Och för övriga enkätdata granskas att skanningen blivit korrekt. Efter det vidtar den ibland ganska omfattande produktionsgranskningen av registrerade mikrodata. För de produkter som är inne i insamlings- och granskningsverktyget Triton används då modulen Edit som stöd vid återkontakter och åtgärder.
Senare faser gäller både direktinsamlade data och data som hämtats från register:
– När tabeller har tagits fram, görs en så kallad outputgranskning (makrogranskning) för att hitta kvarstående fel i indata eller räknefel från oss. Slutligen granskas den statistik vi ska publicera eller leverera, så att tabeller, diagram, kartor och text har sammanställts korrekt och är samstämmiga.
Kvalitetsproblem i datamaterialen
Det kan uppstå olika slags kvalitetsproblem i våra datamaterial: "uppenbara fel" och "misstänkta fel".
- "Uppenbara fel" är logiska fel, som ogiltiga eller motsägelsefulla värden. De kan ofta rättas automatiskt efter fastställda regler.
- "Misstänkta fel" är av två slag: Definitionsfel ("inliers") kan till exempel uppstå när belopp anges inklusive moms när detta inte efterfrågas, vilket är svårt att upptäcka. Misstänkt avvikande värden är däremot så stora eller små att de förmodas vara felaktiga; exempel är påfallande höga månadslöner i en viss yrkesgrupp.
– De misstänkta felen kräver ofta mer arbete med kontroller och åtgärder. Avvikelserna kan ibland utredas med hjälp av återkontakter med uppgiftslämnaren, främst i företagsundersökningar. Det har ett värde att återkontakta uppgiftslämnare om de gör fel i återkommande undersökningar, så att de uppmärksammas på det inför framtida undersökningar. I andra fall görs en utredning vid skrivbordet genom att titta på andra datakällor eller bedöma om det kanske har blivit ett "tusenfel", som att belopp har råkat anges i kronor i stället för i tusen kronor.
Ständig förbättring
SCB kan hela tiden bli bättre på granskning. Ett sätt är att göra en strukturerad genomgång av granskningspersonalens erfarenheter, en "granskardebriefing". Ett annat sätt är att alltid spara ogranskade data, så att granskningens effekt på statistiken kan analyseras.
– För återkommande företagsundersökningar med mycket produktionsgranskning kan selektiv granskning användas. Det innebär att misstänkta fel med liten inverkan på statistiken får passera. För selektiv granskning används it-verktyget Selekt.
Intervju: Jörgen Brewitz