Sidor

Sunday, July 4, 2010

Stickprovets storlek vid testvalidering

Stiftelsen för tillämpad psykologi (STP), som har en halvofficiell status i vårt land vid granskningar av psykologiska tester, ”kräver” ett stickprov på minst 100 personer, annars förklaras valideringen enbart på den grunden vara baserad på en ”inadekvat” studie. Se STP:s ”Kvalitetskriterier för testinstrument – personlighetsbedömning”, 2002. (Senare upplaga tycks inte finnas). Detta krav är i sin tur baserat på europeiska psykologförbundens (EFPA:s) kriterier (Lindley, Bartram, & Kennedy, 2008), men dessa innebär endast en rekommendation om N=100 eller större, inte ett krav. Se min korrespondens med professor David Bartram, 2010-06-09 på denna länk. Bertram är ordförande i EFPA:s grupp för testkriterier, och medförfattare till det centrala dokument som översatts och används av STP (Lindley et al., 2008).

Bakom EFPA:s rekommendation ligger i sin tur en ”power-analys”, där man laborerar med följande parametrar:

• Det är önskvärt att kunna belägga ett samband mellan test och kriterium som statistiskt signifikant på nivån 0,05 eller bättre
• Det är önskvärt att kunna belägga samband på den nivån om korrelationen i populationen är minst 0,30
• Det är önskvärt att kunna belägga sambandet enligt ovanstående med minst 90 % chans

Analyser av den här typen kan göras med hjälp av tabeller (Cohen, 1988). De tre kraven ledder till N=100 (som ger chansen att belägga sambandet = 0,86, för att vara mera exakt). Men antag att vi ansätter andra lika rimliga eller lika godtyckliga värden på parametrarna. Om vi vill belägga ett samband utifrån konventionell signifikans med en korrelation på 0,40 i populationen med t ex minst 50 % chans att upptäcka den, vad händer då? Rekommendationen blir N=30 (som ger 61 % chans för att vara exakt). Om jag alltså vill pröva hypotesen om en något större korrelation mellan test och kriterium (0,40 i stället för 0,30), och nöjer mig med en mindre men ändå hyfsat stor chans att upptäcka ett samband, sjunker kravet på stickprovets storlek dramatiskt: från 100 till 30.

STP har tolkat en rekommendation som ett krav, med mycket negativa konsekvenser för testbranschen. Det är nämligen i allmänhet mycket svårt, dyrbart och tidsödande att samla in så stora stickprov som N=100 för testvalidering. Detta torde göra att man hellre avstår. I arbetet med UPP-testet har vi samlat in data som i några fall uppfyller kravet N=100, i andra inte. Vad dessa data säger om testet beror inte på stickprovets storlek utan på hur starka sambanden är, vilken tilltro man kan ha till att sambanden kan replikeras i nya stickprov, och givetvis på om andra krav på studierna uppfylls. Vi är i gott sällskap. SHL har validerat sitt test OPQ mot säljares arbetsresultat i 9 studier varav bara 2 uppfyller kravet N=100 eller större. Jag återkommer till dessa data i ett senare blogginlägg.

Syftet med en power-analys är att ge en rationellt grundad uppfattning om hur stort stickprov man bör arbeta med, inte att bedöma i efterhand, när resultaten föreligger, om studien kan läggas till grund för slutsatser. Anta att vi gör en studie med N=20 och får en validitet på r=0.7. Är detta resultat helt irrelevant för bedömning av testet?

Den som läser Bartrams svar på mina frågor kan knappast undgå att dra den slutsatsen att STP har missförstått EFPA:s riktlinjer på denna centrala punkt. Det är en förståelig missuppfattning, men den är inte desto mindre ödesdiger för testbranschen. Få valideringar kan leva upp till kravet på 100 personer i stickprovet. Resultatet blir intrycket att "det finns många dåliga test". Det kan man påstå av flera skäl, men ett viktigt skäl är nog att valideringar inte godkänns eller uppmuntras.

Det kan tilläggas att den internationella standarden vid testvalidering ligger vid ett medelvärde på N något under 100 (Aguinis et al., 2010). Det betyder att hundratals valideringsstudier publicerade i ledande tidskrifter skulle ha ansetts "inadekvata" om STP fått råda.


Referenser


Aguinis, H., Culpepper, S. A., & Pierce, C. A. (2010). Revival of test bias research in preemployment testing. [doi:10.1037/a0018714]. Journal of Applied Psychology, 95(4), 648-680.

Cohen, J. (1988). Statistical power analysis for behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.

Lindley, P., Bartram, D., & Kennedy, N. (2008). EFPA review model for the description and evaluation of psychological tests. Test review form and notes for reviewers. Version 3.42: European Federation of Psychological Associations.

No comments:

Post a Comment

Free counter and web stats