•1. Man har satt upp ett godtyckligt krav på minst 100 personer i stickprovet – kan sällan uppfyllas. Om n<100 är det enligt STP ”en inadekvat studie”. Det här kravet är direkt avskräckande för dem som vill validera sina test.
•2. STP gör en starkt missvisande beräkning av testets validitet som median av korrelationer mellan testskalor och kriterier – men olika skalor fungerar ju för olika kriterier (innehållsmatchning). Värdet av testet är något helt annat än medianen av värdet av enskilda testskalor.
•3. Det är mycket oklart om STP anser att korrektion ska göras för mätfel i kriteriet och beskuren spridning i testet, och i så fall hur. Traditionell metodik för korrektion för beskuren spridning (Thorndikes Case II) bygger på ett antagande om explicit selektion, som är orealistiskt och ger för svag effekt. Numera kan man göra korrektionen med bättre metodik (Men STP har haft samma kriterier sedan 2002). Korrektion är helt nödvändig för att man ska få en rättvisande bild av testets validitet.
•Begreppsvalidering görs ofta genom att beräkna samband mellan testvariabler och andra variabler som antas mäta samma begrep. Det är då nödvändigt att korrigera för mätfel i båda variablerna – detta godtar troligen inte ST. Exempel: UPP-testets 16 skalor hade en begreppsvaliditet på i genomsnitt 0.68, men före korrektion på 0.54. Förklarad varians var alltså ca 50 % högre efter korrektion för mätfel, en väsentligt bättre bild av testet!
•
•
•
•Intrycket om ”dåliga test” har alltså troligen till stor del sin grund i orealistiska krav och användning av ineffektiv metodik för att uppskatta styrkan på samband mellan test och kriterier. Det handlar om en systematisk undervärdering av testen, och större öppenhet för kritiska synpunkter och aktuell utveckling inom psykosmetriken vore av stort värde.