Till innehåll på sidan

Imputera – att ersätta saknade värden

Publicerad: 2017-03-07

I den här artikeln berättar metodstatistiker Stefan Berg om imputering – ett sätt att hantera saknade värden i en datamängd.

Ibland är inte alla variabelvärden ifyllda i en frågeblankett, och ibland är vissa värden oanvändbara. Vi har då fått ett partiellt bortfall. Imputering är en metod som används främst i företagsundersökningar för att hantera partiellt bortfall, men den förekommer även i individ- och hushållsundersökningar och för att hantera objektbortfall (värden saknas för alla variabler för ett objekt).

Med imputering ersätter vi saknade variabelvärden med nya värden som kan antas ligga nära de sanna värdena.

– Ett syfte med imputering är att fylla igen luckorna i ett datamaterial, så att det blir praktiskt att räkna vidare på. Ett annat syfte är att minska den "snedvridning" som kan uppstå på grund av bortfallet. Med andra ord kan man säga att det är ett av statistikerns "reparationsverktyg", förklarar Stefan Berg, metodstatistiker på Metodenhet företag och organisationer, Örebro.

Han fortsätter:

– Det bästa vore ju om alla uppgiftslämnare svarade med hög kvalitet på alla frågor. Då skulle inte imputering behövas. Därför är det viktigt att försöka förbättra mätinstru¬mentet om man har problem med partiellt bortfall eller låg svarskvalitet.

Vilken information kan användas vid imputering?

Det gäller att hitta bästa möjliga information som kan användas för att imputera saknade värden, till exempel för ett företag.

– En möjlighet är att använda information från liknande företag i den aktuella undersökningsomgången. Ett annat alternativ är att dra nytta av äldre uppgifter. Det kan då handla om uppgifter från den förra omgången av undersökningen, från en annan undersökning eller från ett register som innehåller liknande information. SCB nyttjar bland annat uppgifter från Momsregistret för imputeringar i företagsundersökningar.

Olika metoder för imputering

Det finns många olika imputeringsmetoder. Ofta kan det behövas olika metoder inom en och samma undersökning. En anledning är att tillgången till information är olika för olika grupper av företag. Tillämpningen av en metod kan också skilja sig åt för olika grupper av företag, till exempel när sambandet mellan variabler, som omsättning och antal anställda, varierar mellan branscher.

Exempel på tre olika grupper av metoder:

  • Manuell imputering: används med fördel när det saknas värden för ett stort företag. Det innebär att värdena tas fram utifrån en expertbedömning med eller utan kontakt med uppgiftslämnarna.
  • Givarbaserad imputering: uppgifter hämtas från ett liknande företag (en givare).
  • Regressionsbaserad imputering: man antar att saknade värden samvarierar med exempelvis fjolårsvärden för samma företag. Ett exempel är att använda fjolårsvärdet, men multiplicera med trenden för övriga liknande företag. 

Intervju: Jörgen Brewitz

Kontakt

Stefan Berg

Telefon
010-479 61 64
E-post
stefan.berg@scb.se

Etiketter