Sidor

Sunday, May 15, 2011

Svårigheter att dokumentera testvaliditet inom STP:s system för testgranskning

STP (Stiftelsen för Tillämpad Psykologi) har tagit på sig uppgiften att kvalitetsgranska psykologiska test. Ett viktigt inslag i denna granskning är att bedöma värdet av testens validitet. Det finns, troligen delvis på grund av STP:s verksamhet, en ganska utbredd skepsis mot test, alldeles för stor enligt min mening. Företrädare för STP talar ofta i media om "dåliga" eller "tvivelaktiga" test. Det låter trovärdigt, tills man sätter sig in i de metoder de använder för att värdera test. Dessa är nämligen missvisande. Här är en lista på svagheter i deras bedömningsgrunder som gäller validering av test i förhållande till  externa kriterier:


1. Man har satt upp ett godtyckligt krav på minst 100 personer i stickprovet – kan sällan uppfyllas. Om n<100 är det enligt STP ”en inadekvat studie”. Det här kravet är direkt avskräckande för dem som vill validera sina test.
2. STP gör en starkt missvisande beräkning av testets validitet som median av korrelationer mellan testskalor och kriterier – men olika skalor fungerar ju för olika kriterier (innehållsmatchning). Värdet av testet är något helt annat än medianen av värdet av enskilda testskalor.  
3. Det är mycket oklart om STP anser att korrektion ska göras för mätfel i kriteriet och beskuren spridning i testet, och i så fall hur. Traditionell metodik för korrektion för beskuren spridning (Thorndikes Case II) bygger på ett antagande om explicit selektion, som är orealistiskt och ger för svag effekt. Numera kan man göra korrektionen med bättre metodik (Men STP har haft samma kriterier sedan 2002). Korrektion är helt nödvändig för att man ska få en rättvisande bild av testets validitet.
Begreppsvalidering görs ofta genom att beräkna samband mellan testvariabler och andra variabler som antas mäta samma begrep. Det är då nödvändigt att korrigera för mätfel i båda variablerna – detta godtar troligen inte ST. Exempel: UPP-testets 16 skalor hade en begreppsvaliditet på i genomsnitt 0.68, men före korrektion på 0.54. Förklarad varians var alltså ca 50 % högre efter korrektion för mätfel, en väsentligt bättre bild av testet!
 
Intrycket om ”dåliga test” har alltså troligen till stor del sin grund i orealistiska krav och användning av ineffektiv metodik för att uppskatta styrkan på samband mellan test och kriterier. Det handlar om en systematisk undervärdering av testen, och större öppenhet för kritiska synpunkter och aktuell utveckling inom psykosmetriken vore av stort värde.

No comments:

Post a Comment

Free counter and web stats