Sidor

Friday, December 31, 2010

Thin slices

Det finns aktuell forskning som visat att man kan göra ganska bra prognoser av beteende utifrån "thin slices". alltså mycket snabba iakttagelser av en person, som kan handla om några minuter eller ännu mindre. Se referenser nedan, som bl a handlar om prognoser av våldsamhet och psykopatiskt beteende.

Detta är ju paradoxala resultat. Vi vet sedan gammalt att man snabbt bildar sig ett första intryck av en person, t ex vid en anställningsintervju,  men det är en ny tanke att dessa snabba intryck faktiskt kan vara rättvisande, inte bara ett uttryck för fördomar. Givetvis kan det vara en fördel för ett företag om man kan höja sig över dessa första intryck och leta vidare, intrycken är på inget sätt perfekta även om de har en viss validitet. I vardagslivet kan det emellertid vara till nytta att gå på sin "magkänsla" eftersom man sällan får mera information.

Intressant idé: att utveckla mycket snabba tester som går på principen om "thin slices". Wunderbar-testet på begåvningens g-faktor som jag skrev om på denna blogg är ett exempel. Bara 16 minuter för att få en reliabel och valid mätning av g-faktorn, med all dess inneboende prognoskraft! Eftersom vi nu har väl etablerad kunskap om personlighetens betydelse för arbetsresultat. på grundval av tester som tar ca 40 minuter, är det frestande att pröva screeningtester (t ex UPP/Screen) som tar ca en kvart. Det som gör utvecklingen alltför långsam inom denna verksamhet är svårigheten att etablera samarbete med forskningsintresserade företag. Kom gärna med tips! Se denna bloggs nätverksinbjudan.

Referenser

Carney, D. R., Colvin, C. R., & Hall, J. A. (2007). A thin slice perspective on the accuracy of first impressions. Journal of Research in Personality, 41(5), 1054-1072.

Fowler, K. A., Lilienfeld, S. O., & Patrick, C. J. (2009). Detecting psychopathy from thin slices of behavior. Psychological Assessment, 21(1), 68-78.

Stillman, T. F., Maner, J. K., & Baumeister, R. F. (2010). A thin slice of violence: Distinguishing violent from nonviolent sex offenders at a glance. Evolution and Human Behavior, 31(4), 298-303.

Tuesday, December 28, 2010

Chefers kontrollbehov

Vid seminarier i början av hösten dök det upp önskemål om testning av kontrollbehov, vid chefstillsättningar. Studier av forskningen visade att det har gjorts ytterst få försök att mäta denna dimension. Ett undantag är Burgers arbete med en skala som han kallat "Desire for control".

I en studie som just nu är på gång undersöktes hans skala i en svensk version.Reliabiliteten var ganska låg, 0.62, och innehållet spritt över vida fält. Troligen var detta en poäng med skalan, att den skulle mäta ett generellt kontrollbehov. I stället konstruerade vi en skala som mäter kontrollbehov inom arbetslivet, med en hög reliabilitet (0.86). De två skalorna samvarierade 0.42 efter korrektion för mätfel, tämligen blygsamt med naturligt med tanke på Burgers skalas breda innehåll och komplexa struktur. Vår skala korrelerade negativt med samarbetsvilja och (positiv) grundattityd, positivt med noggrannhet. En chef med högt kontrollbehov framstår inte som idealisk enligt dessa resultat. Skalan är färdig att använda praktiskt.



Referenser

Burger, J. M. (1992). Desire for control: Personality, social, and clinical perspectives: New York, NY, US: Plenum Press.
Burger, J. M. (1992). Desire for control and academic performance. Canadian Journal of Behavioural Science/Revue canadienne des sciences du comportement, 24(2), 147-155.

Saturday, December 18, 2010

Snabb och enkel mätning av g-faktorn: Wunderbar

Allmänintelligens, eller g-faktorn, är sedan mer än 100 år känd som en viktig faktor i många sammanhang, inte minst i arbetslivet. Vi har nu tagit fram och begreppsvaliderat ett kort begåvningstest, med arbetsnamnet Wunderbar, som tar 16 minuter (tidskontrollerat) och består av 17 uppgifter, hälften analogier och hälften ett induktivt/spatialt delprov (pricktestet), utvecklat inom Katapult. Testet är idag kopplat till screeningtestet UPP/Screen men kan lätt göras fristående eller kopppas även till hela UPP-testet. Lika många (och parallella) uppgifter ingår i en verifieringsversion av Wunderbar som kan ges för att säkerställa resultaten efter en första oövervakad testning på Internet.



Normdata finns från ca 1500 testade.

Nya data (67 testade på Internet) visar nu

en korrelation på 0.50 mellan de två deltesten
denna stiger till 0.80 efter korrektion för mätfel
reliabilitet på 0.73 för hela Wunderbar
korrelation med högskoleprovet 0.65, efter korrektion för mätfel 0.82

Vi har m a o trovärdiga data för tolkningen av Wunderbar som ett snabbt g-faktortest. På 16 minuter får man information om allmänintelligens som är minst lika bra som den man får från andra, dyrbara och tidskrävande test.  Om man vill ha ett icke-verbalt g-test kan man använda den delen av Wunderbar som inte förutsätter kunskaper i svenska (utom för den enkla instruktionen). Det är en fördel med Wunderbar som beror på att detta test arbetar med två grupper av uppgifter, inte en samling disparata uppgifter av vitt skilda slag.

Personlighet + begåvning är en oslagbar kombination, särskilt med tanke på att de i stort sett är nollkorrelerade. Vi har ju fått validiteter på ca 0.5 för UPP i aktuell forskning, tilläget av Wunderbar borde kunna ge resultat på ca 0.7.

Sunday, December 5, 2010

Hyperkritisk artikel om tendensen att skönmåla som personlighetsdrag

Uziel (2010) har publicerat en artikel om skönmålning Hans tes är att skönmålning inte kan mätas med hjälp av skalor som mäter social önskvärdhet (IM-skalor). Dessa skalor är nämligen enligt omfattande forskning korrelerade med en mängd andra variabler, mestadels med positivt innehåll. Därför skulle de mäta ett personlighetsdrag och kan inte vara mått på en "response style", enligt honom.

Det är en argumentation som är ganska vanlig. Men logiken är svag. Även om IM-skalor mäter tendensen att ge en överdrivet positiv bild av sig själv kan de vara korrelerade med andra variabler. Det är ett orimligt krav att de inte ska samvariera med något annat. I själva verket måste de samvariera med de personlighetsdrag som man önskar korrigera för skönmålning, annars försvinner vitsen med hela proceduren. (Det blir ingen effekt av korrektionen). Det finns också en rad positiva resultat som kraftigt stödjer korrektionen för skönmålning (Sjöberg, 2010).

Så låt gå för att det finns en rad samband mellan IM-skalor och andra variabler. Hur stor kan effekten av sådana samband vara? Finns det en risk att man "överkorrigerar", dvs eliminerar varians som är av verklig betydelse och inte bara felet i mätningen, felet som beror på en överdrivet positiv bild?

För att pröva den möjligheten gjorde jag följande analys på mina normdata för UPP-testet. IM-skalorna korrigerades först för positiv grundattityd. Detta är en slagkraftig variabel som bör fånga upp det mesta av den aspekt på skönmålning som Uziel diskuterar. De korrigerade IM-skalorna användes sedan för att korrigera för skönmålning på samma sätt de okorrigerade IM-skalorna. Det senare är den standardprocedur som används i testet. Effekten var inte särskilt stark. En variabel som emotionell stabilitet samvarierade mycket högt efter vanlig korrektion och efter korrektion med en eventuell effekt av positiv grundattityd eliminerad (r = 0.9).



Uziels artikel är bra som exempel på argumentation mot korrektion för skönmålning. Vanligt är ju att man påstår att skönmålning inte förkommer och att den, om den skulle förekomma, saknar betydelse. Han lägger till tendensen att den inte går att mäta. Dessa argument är uppenbart empiriskt felaktiga och även ologiska, hyperkritiska. Hyperkritiska diskurser av den här typen utmärks av att man söker med ljus och lykta efter något sätt att skjuta en teori eller metodik i sank, och i sin iver tappar man kontakten med logik, sansat omdöme och sunt förnuft. Ett annat exempel på hyperkritik är Morgeson et al. (2007 a,b) som försöker totalt såga all personlighetstestning, vilket leder dem till destruktiva och mycket missvisande slutsatser (Sjöberg, 2010).

Referenser

Morgeson, F. P., Campion, M. A., Dipboye, R. L., Hollenbeck, J. R., Murphy, K., & Schmitt, N. (2007). Reconsidering the use of personality tests in personnel selection contexts. Personnel Psychology, 60(3), 683-729.

Morgeson, F. P., Campion, M. A., Dipboye, R. L., Hollenbeck, J. R., Murphy, K., & Schmitt, N. (2007). Are we getting fooled again? Coming to terms with limitations in the use of personality tests for personnel selection. Personnel Psychology, 60(4), 1029-1049.

Sjöberg, L. (2009). UPP-testet: Korrektion för skönmålning. Forskningsrapport 2009:3. Stockholm: Psykologisk Metod AB.Klicka här.

Sjöberg, L. (2010). Personlighetsdimensioners validitet i arbetslivet: teorier och empiri (SSE/EFI Working Paper Series in Business Administration No. 2010:6). Stockholm: Stockholm School of Economics. Klicka här,


Uziel, L. (2010). Rethinking social desirability scales: from impression management to interpersonally oriented self-control. Perspectives on Psychological Science, 5(3), 243-262.

Monday, November 22, 2010

Trovärdig personlighetstestning

Personlighetstest av självrapporttyp – den absolut vanligaste typen i praktiskt arbetspsykologiskt arbete – har tveksam trovärdighet i mångas ögon eftersom man misstänker att många testade framställer sig själva i alltför positiva dager (skönmålar), om mycket står på spel. Dessutom differentierar testen dåligt v dessa skäl – de testade ”slår i taket”. Leverantörer av testet, nästan alltid översättningar av amerikanska förlagor, brukar emellertid förneka dessa problem. Tidigare erfarenheter har emellertid visat att skönmålning är vanligt förekommande vid personlighetstestning i skarpt läge. Vid rekrytering till chefsbefattningar har män skönmålat mera än kvinnor, varför den senare gruppen systematiskt missgynnats, i den mån testresultaten påverkat anställningsbeslut 


Nu finns nya data som stödjer användningen av UPP-testets metodik för korrektion för skönmålning.Testresultat erhållna vid chefsrekrytering (N=80) jämfördes med normdata före och efter korrektion skönmålning. Skönmålningen låg på mycket hög nivå i kandidatgruppen. Män skönmålade mera än kvinnor. Stora skillnader fanns mellan grupperna före korrektion men eliminerades eller reducerades starkt. Testvärdena ”slog i taket” före korrektion – de flesta hade mycket positiva värden - men uppvisade en symmetrisk fördelning efter korrektion, och kraftigt förskjuten mot lägre värden. Män uppvisade mycket mera positiva värden än kvinnor före korrektion, vilket ändrades till en fördel för kvinnorna efter korrektion, med undantag för extraversion där emellertid skillnaden nästan halverades. Av dem som låg i de högsta 10 procenten på en sammansatt variabel var det bara 50 % som behöll sin tätposition efter korrektion. Alla dessa resultat gäller UPP-testets fem ”Big Five”-variabler men tendenserna är desamma för övriga personlighetsvariabler i testet, och även för måtten på arbetsattityder och arbetsmotivation. UPP-testet har flera unika fördelar, korrektionen för skönmålning är unik och därtill ingående analys av datakvalitet, mätning av emotionellt tillstånd under testningen, på arbetslivet fokuserade dimensioner samt långt driven datasäkerhet. (Inga data skickas utomlands för utvärdering). Vi ser nu att detta nya svenska test konkurrerar ut kända amerikanska konkurrenter som HPI, HDS och NEO. Flera stora rekryteringsfirmor har tecknat licens på UPP under hösten.


Läs hela rapporten här,

Monday, October 25, 2010

Vanliga problem med personlighetstest - och svårlösta sådana

Personlighetstest som används i arbetslivet är oftast av självrapporttyp och inriktade mot att mäta Big Five-dimensioner (B5), samt underskalor till dem. Ingen korrektion för skönmålning görs. Det blir problem!

1. I skarpt läge svarar många taktiskt, dvs de skönmålar, och gör det ofta starkt. De allra flesta testade framstår därför som mycket positiva personligheter, ett resultat man har föga nytta av.
2. B5-dimensionerna är för få och allmänna för att vara relevanta. De är svagt relaterade till arbetsresultat.
3. Underskalorna, som kan vara 30-40 till antalet, ger en komplex och spretig bild av de testade. Dessutom är dessa skalor oftast av låg reliabilitet - med 200 testitem kan man inte konstruera 30-40 reliabla delskalor. Dessa skalor kan ibland ha ett innehåll som är svårt att förstå.
4. Testen är översatta från engelska vilket kan ha medfört språkliga otympligheter. Vad är t ex "intellektans"?
5. I vissa fall används ipsativt svarsformat vilket kräver att den testade ska "jämföra äpplen och päron". Sitter man helst hemma med en god bok eller ser man ljust på framtiden? Den typen av uppgifter är inte populära.
6. Teorier av olika slag ligger till grund för flera av testen, och det kan låta vetenskapligt och betryggande. Exempel är Hogans socioanalytiska teori eller Jungs typteori (från 1921). Men teorierna är dåligt underbyggda och saknar empiriskt stöd.

Det här kan låta negativt, och man kan förstå den ganska vanliga skeptiska inställningen till test, men faktum är att personlighetstest med mycket god validitet existerar. För exempel, se denna länk. Det går att konstruera skalor vars validitet är i nivå med intelligenstest (g-faktorn). Om personlighet och intelligens kombineras kan man nå validiteter omkring 0.6 - 0.7 med arbetsresultat, men det förutsätter skalor som är fokuserade på relevanta, konkreta personlighetsdrag (t ex uthållighet) - in B5-dimensioner som har mycket låg validitet (med undantag för noggrannhet).  Kolla min rapport om testvaliditet på Handelshögskolans hemsida genom att klicka här. Att skriva den tog lång tid, och krävde stort engagemang, men det var värt det, åtminstone för mig, när jag till slut började se ljuset i tunneln och fann frågeställningarna mer och mer intressanta. Denna och alla andra av mina rapporter (de är rätt många) och manualer är tillgängliga för gratis nerladdning i enlighet med min policy "Inget smussel, inga defensiva hemlighållanden av vad våra test mäter och vilken empirisk evidens de stöder sig på". Alla får del av den information de vill ha, inte bara kunder. Studenter får gärna använda testen helt gratis, vi ställer upp med rådgivning och anpassar vår IT-plattform efter era behov och intressen. (Skriv ett mail till lennartsjoberg@gmail.com). Flera sådana projekt har genomförts, nu senast av Daniel de Colli, anställd vid polisen och doktorand i psykologi.Hans uppsats som en grupp anställda vid polisen blir troligen offentlig i november.

Våra test är levande och förbättras ständigt, till skillnad från låsta och statistiska importerade test.

Vetenskaplig dokumentation har nu påbörjats med artikeln:

Sjöberg, L. (2010). A third generation personality test. The Scandinavian Journal for Human and Applied Sciences, 1(3), 61-75.Klicka här för att läsa den på svenska.

Friday, October 15, 2010

Riskförnekande i testbranschen

Personlighetstest används ofta i arbetslivet. Förmodligen omsätter denna verksamhet flera hundra miljoner kronor årligen. De allra flesta personlighetstesten är självrapporttest och av ytterst varierande kvalitet. De är översatta från, oftast, engelska och de utländska producenterna håller hårt i testen. De utvecklas inte efter svenska önskemål, och den psykometriska kompetensen är svag i Sverige.

En särskild problematik är skönmålning. Det krävs inte mycket tänkande för att inse att folk inte svarar helt uppriktigt om mycket står på spel, t ex vid en jobbansökan. Detta problem blundar man för och påstår att det inte finns. Det är lite tragikomiskt eftersom det finns tonvis med forskning som visar att problemet finns och är stort.

Jag har mött flera konsulter som berättat att de test de använder slår i taket. Nästan alla sökande är helt enkelt väldigt bra på personlighetstestet. Sådana test, som differentierar dåligt är svåra att använda och föga trovärdiga. Exempel är HPI, NEO-PI-R och "Thomassystemet".

Det finns numera validerad metodik för att korrigera för skönmålning. Ett traditionellt försök är att använda ipsativa svarsformat, där man få välja mellan alternativ som förhoppningsvis är lika socialt önskvärda. Den ansatsen har MBTI, Myers-Briggs. Folk tycker illa sådana uppgifter och de tar extra lång tid. Ipsativa data är svåra att analysera och de tycks inte alls eliminera effekten av skönmålning. I UPP-testet använder vi särskilda skalor för att mäta tendensen till skönmålning. Forskning har visat att detta fungerar alldeles utmärkt och höjer validiteten hos testdata.

Friday, September 17, 2010

Valprognoser går att göra, läget är inte alls "fullständigt osäkert"

Opinionsmätningarna "står som spön i backen". De flesta visar en tydlig ledning på¨5-7 %-enheter för Alliansen, men för enskilda mätningar är skillnaden mellan blocken ibland "ej statistiskt säkerställd".  Detta sammanfattas av statsvetare (nästan alltid från Göteborg, av någon anledning) som att  "läget är helt öppet" eller "det är omöjligt att säga hur det kommer att gå" eller "man kan inte göra prognoser utifrån opinionsmätningar" (!). Om detta är mycket att säga.

1. Informationen från en enskild mätning kanske inte är "statistiskt säkerställd" men sammantaget sedan början av augusti är trenden mycket tydlig, och absolut inte slumpmässig, med några få undantag som jag ska återkomma till.Att i detta läge resonera utifrån statistisk analys av enskilda studier är missbruk av statistisk logik. Ännu värre är att säga "läget är helt öppet" utifrån den information som föreligger.

2. Vissa opinionsinstitut använder dåliga metoder och ger därför otillförlitliga resultat. United Minds använder vad jag kan förstå inte slumpmässiga urval av respondenter, justerar enligt principen kvoturval, och tar in svaren via webben, vilket troligen ger ett större bortfall än vad andra institut har. Deras resultat är också tydligt annorlunda än övriga instituts.

3. Att blankt förneka att man kan göra prognoser av valbeteende är mycket märkligt. Forskning och erfarenhet, i Sverige och internationellt, tyder på att det går på det hela taget bra. Berömda historiska misslyckanden har kunnat förklaras, t ex på grund av användning av kvoturval. Hundratals studier har visat att den bästa prognosen av beteende får man genom att ta in information om intentioner, och det är just vad de bättre opinionsinstituten gör. Sådana prognoser fungerar bra, men givetvis aldrig perfekt.

En annan sak är att människor i allmänhet har ganska bra uppfattningar om hur det kommer att gå. Se http://lennartsjoberg.blogspot.com/ och delta i min lilla valprognosstudie, tar 5 minuter och med ett första pris på 1000 kronor för den som gör den bästa bedömningen!

Saturday, September 11, 2010

Ny rapport: Personlighetstestens validitet i arbetslivet


Tidigare forskning om personlighetstest och arbetsresultat gav tämligen svaga resultat. Pessimismen var utbredd, men inte på goda grunder. Det har länge varit känt att test kan ge viktiga tillskott till beslutsfattandet i t ex urvalssammanhang, även om validiteten är relativt blygsam. Från omkring 1990 ökade intresset för frågeställningen i och med introducerandet av femfaktormodellen (FFM) för personlighet. Meta-analyser av Big Five-dimensionernas (B5) användbarhet i arbetslivet sammanfattas. De har publicerats under tiden 1984-2008 och bygger på 100-tals publicerade studier. Korrelationerna visade sig i allmänhet vara låga för alla dimensioner utom noggrannhet, där de tenderade att ligga i intervallet 0.20-0.25, också det ett relativt blygsamt värde. Slutsatsen om B5-dimensionerna som sådana är i enlighet med dessa mycket omfattande undersökningar att de är svagt eller inte alls korrelerade med kriterier i arbetslivet, om de tas var för sig. Multipla korrelationer kan emellertid ge betydligt bättre resultat, även om det är kontroversiellt hur de ska uppskattas på grundval av meta-analyser. Dessa tycks ha gett för låga uppskattningar av sambanden mellan B5-dimensionerna, och därmed en överskattning av de multipla korrelationerna mot kriterier. Alltmera omfattande forskning visar att smala, fokuserade variabler fungerar betydligt bättre än B5-dimensionerna och ger viktiga tillskott till dessa. En del av dessa variabler ingår som underskalor i FFM-test, andra som emotionell intelligens ligger utanför FFM-tänkandet och ingår i UPP-testet.  Sådana dimensioner ger viktiga tillskott till intelligens i prognosen av arbetsresultat, och av många andra viktiga aspekter på arbetsrelaterat beteende. Även index som bildas på ett urval av fokuserade personlighetsdimensioner kan ge mycket goda resultat, som närmar sig den prognoskraft som g-faktortest har. 

Läs hela rapporten här.

Tuesday, August 31, 2010

Stjärnrekrytering eller nätverksrekrytering?

Vem vill inte ha anställda i stjärnklass?

Men hur ska man nå dit? Svaret är att det är enkelt. Om jag själv skulle anställa till viktiga, komplicerade och svåra jobb skulle jag veta precis hur man ska gå tillväga för att nå maximalt resultat till minimal kostnad.

1. Se till att många söker jobbet, minst 30.

2. Testa dem med ett screeningtest som mäter personlighet och allmän begåvning, den s k g-faktorn. Se till att testet avslöjar skönmålande svar - sådana är vanliga!

3. Välj ut en tätgrupp för mera ingående testning, intervjuer mm

Denna metodik leder med stor säkerhet till målet att hitta en anställd i stjärnklass. Den viktigaste faktorn är urvalskvoten, dvs antalet sökande till ett jobb. Enkla statistiska analyser visar att om gruppen är tillräckligt stor finns det med betydande säkerhet minst en mycket bra person i den, och chansen att han eller hon kommer med i tätgruppen blir också mycket stor om man testar alla sökande i steg 1, även om testet är snabbt och lite "trubbigt". Se nedanstående bild:

Bilden visar att om man anställer en mindre del av de sökande - i detta fall en urvalskvot på 10% - blir andel framgångsrika på jobbet extremt stor även om testet är ett tämligen modest samband med kriteriet framgång i jobbet, i en oselegerad grupp.

Tabeller publicerade av Abrahams et al. (1971) visar:


Med en urvalskvot på 5%, och om chansen till framgång i en oselegerad grupp är låg, också den 5%, kan man förvänta sig 85% framgångrika i den selegerade gruppen om testets validitet är 0.6, ett rimligt värde med ett bra screeningtest som mäter både begåvning och relevanta aspekter på personlighet. De allra bästa kan sedan sållas fram med mera ingående testning, intervjuer, referenstagning och arbetsprov.

Inte många gör så här, och allra minst för de absoluta toppjobben som chefer för stora företag och organisationer, statsråd mm. Man använder sig av nätverksrekrytering och väljer bland dem man råkar känna, en alldeles för liten grupp för att garantera ett riktigt bra urval. Och misslyckandena är många.

Man känner inte till screeninglogiken, litar till rykten ("referenser"), intuition och vänskap: nätverksrekrytering. Nepotism är troligen vanlig, se på alla statsråd som är barn till statsråd (Thomas Bodström) eller till vänner som umgåtts i de högsta kretsarna (Mona Sahlin), eller som gifte sig med chefens dotter (Pehr Gyllenhammar, Carl Bildt). Detta är oseriös rekrytering som leder ner i avgrunden. "Det finns ingen annan" fick jag höra när jag satt i ett forskningsråd som skulle rekrytera en chef på 80-talet. Det var ett löjeväckande argument men antagligen upplevdes det så. En god vän skulle ha jobbet, så enkelt var det.

Rekryteraren måste stålsätta sig mot dessa faktorer och sin egen naiva önskan att ha fullständig personlig kontroll över den första fasen i processen. Den blir mindre  realistisk ju flera som testas, samtidigt som processens resultat blir allt bättre. Testa många, ge dem chansen, även om  det känns tråkigt att sedan säga nej till att som inte fick toppresultat. Det är mycket billigt att testa men mycket dyrt att missa framtida stjärnanställda. Den som inser det får en enorm konkurrensfördel på marknaden, särskilt vid stor arbetslöshet bland ungdomar och invandrare, men ytterst få förstår screeninglogiken och är villiga att arbeta efter den. Läsa mera här.


 Referens

Abrahams, N. M., Alf, E. F., & Wolfe, J. J. (1971). Taylor-Russell tables for dichotomous criterion variables. [doi:10.1037/h0031761]. Journal of Applied Psychology, 55(5), 449-457.

Tuesday, August 24, 2010

Risker med Internettestning

Det tycks vara vanligt att testdata skickas till USA eller Storbritannien för utvärdering och arkivering där. Detta är kanske naturligt med tanke på att de flesta personlighetstesterna vi använder i Sverige är importerade och översatta; scoringnycklar torde ej lämnas ut till svenska agenter. Det är svårt att ha kontroll över var dessa känsliga data hamnar eller vem som får tillgång till dem när man arbetar på det sättet. Det är svårt att värja sig mot dataintrång när resultat skickas i öppen okrypterad e-post. Det är den testades rättighet att ingen obehörig kan läsa eller påverka hans data, och det är också en skyldighet för den som administrerar och använder testningen att se till att så inte kan ske. Vid arbete med UPP-testet har vi försäkrat oss om SSL-kryptering (samma som internetbankerna), och dessutom en helt egen server med extrem snabbhet och utrymme. Tusentals testningar kan göras samtidigt. Tillgänglighet och skalbarhet garanteras på detta sätt. Två svensktalande supportfunktioner finns för snabbt åtgärdande av eventuella tekniska problem och svar på psykometriska frågor. Inga data lämnar landet i någon fas.

I offentlig sektor har man rätt att vänta sig att säkerhets- och integritetsfrågorna behandlas särskilt genomtänkt och kompetent. 

Friday, August 13, 2010

Testningar i arbetslivet

En utmärkt bok av Furnham ger en vetenskapligt väl underbyggd genomgång av området personlighet och test i arbetslivet. Skaffa den och läs den med eftertanke. Den ger en konstruktiv bild av området utan att släta över svårigheter och kritik.

Furnham, A. (2008). Personality and intelligence at work. Exploring and explaining individual differences at work. Hove, East Sussex: Routledge.

Sunday, August 8, 2010

Misslyckade chefer kan undvikas med hjälp av test

Chefer misslyckas ofta. Aktuell forskning mobbning tar fram chefernas roll i sådan destruktiv aktivitet. Amerikanska data tyder på ca 50% misslyckade rekryteringar. Vem har inte haft en chef som varit livrädd för självständiga och kreativa medarbetare? Personlighet tycks vara en avgörande faktor. Misslyckade rekryteringar kan bli oerhört kostsamma. Personlighet är en kritisk faktor i sammanhanget. Väl fungerande test kan vara extremt kostnadseffektiva.

Hogan, Hogan och Kaiser har skrivit en utmärkt översikt av området, som ger "state of the art" . Rekommenderas! Den är ännu inte publicerad men finns på en länk, se nedan. Deras inriktning är i hög grad på Big Five. Men Big Five har gett ytterst lite vid validering i arbetslivet. Jagstyrka är ett intressant alternativ.

Begreppet jagstyrka har en omfattande teoretisk grund. UPP-testet mäter jagstyrka och korrigerar för skönmålning. Korrelationen i en grupp chefer mellan jagstyrka och av koncernledningen bedömd effektivitet var 0.63. Se bilden:

.

Visst önskar man sig replikationer av ett sådant resultat, men onekligen är det lovande. Valideringar är ju svåra att genomföra, men mina resultat tyder på att proxyvalidering fungerar, se referens nedan. Proxyvalidering innebär att man validerar testet mot skalor som mäter arbetsmotivation, resultatorientering, förändringsvilja, balans mellan arbete och övrigt liv samt arbetsintresse. Sådana skalor finns inkorporerade i UPP-testet och mäts rutinmässigt där. Det tycks som om validering mot denna typ av skalor ger resultat som är jämförbara dem som man får vid validering mot oberoende bedömningar.


Referenser

Hogan, J., Hogan, R., & Kaiser, R. B. (2011). Management derailment APA handbook of industrial and organizational psychology, Vol 3: Maintaining, expanding, and contracting the organization. (pp. 555-575): Washington, DC, US: American Psychological Association. Klicka här.


Sjöberg, L. (2005). Ledarskap och personlighet: Testning av jagstyrka. (Leadership and personality: Testing ego-strength) (SSE/EFI Working Paper Series in Business Administration No. 2005:7). Stockholm: Stockholm School of Economics.
Klicka här.

Sjöberg, L. (2010). UPP-testet och kundservice: Kriteriestudie. Forskningsrapport 2010:6. Stockholm: Psykologisk Metod AB.
Klicka här.

Sjöberg, L. (2010). A third generation personality test (SSE/EFI Working Paper Series in Business Administration No. 2010:3). Stockholm: Stockholm School of Economics.
Klicka här.

Sunday, July 25, 2010

Big Five-validitet

Femfaktormodellen (FFM) med sina fem dominerande och övergripande dimensioner har kommit att dominera arbetspsykologisk testning i vårt land med kända test som OPQ, HPI, MBTI och NEO-PI-R. (Tre amerikanska och ett brittiskt, översatta till svenska men knappast validerade i Sverige annat än med enstaka studier). Eftersom modellen tar så stor plats både i internationell forskning och i praktik är den trovärdig om man inte följer valideringsforskningen. Denna har nämligen tydligt visat att FFM ger mycket magra tillskott till testens validitet för prognos av arbetsprestation och utbildningsresultat.

En av de bästa meta-analyserna av FFM-validitet publicerades år 2008 av Schmidt et al. (2008). De har gjort ett ambitiöst försök att hitta all relevant valideringsforskning och dessutom korrigerat resultaten för mätfel i kriterierna och begränsad variation i FFM-dimensionerna. Mätfel i kriterierna sänker korrelationerna och detsamma gäller begränsad variation. Deras värden torde därför vara de mest rättvisande som publicerats. Särskilt intressant är deras nyskapande metodik för att korrigera för begränsad variation - tidigare använda metoder gav för små effekter (Schmidt et al., 2006).

Medianvärden av validitetskoefficienterna (korrelationer) återfinns i nedanstående tabell.

Validitetskoefficienter (medianer) hos FFM-dimensioner samt intelligens (g-faktorn) enligt meta-analys av Schmidt et al. (2008).
Dimension Arbetsprestation Utbildningsresultat
Noggrannhet 0.209 0.260
Emotionell stabilitet 0.131 0.159
Vänlighet/smidighet 0.080 0.120
Extraversion/utåtvändhet 0.090 0.170
Öppenhet 0.040 0.240
Intelligens 0.615 0.665

Det är alltså bara noggrannhet som ligger över 0.20, även det en bra bit under det normala för personlighetstest som snarare ligger omkring 0.3 (sällan mera för enstaka skalor). Medianen för alla skalorna ligger på 0.090 för prestation och 0.170 för utbildningsresultat. Om man tillämpar STP:s kriterier för testgranskning och deras sätt att räkna skulle hela FFM underkännas!

Varför fungerar FFM så dåligt? Ett skäl är troligen att dimensionerna är för allmänna. De fokuserar inte på viktiga dimensioner i arbetslivet. Ett annat skäl är deras kognitiva, beskrivande, karaktär. Emotionella funktioner är viktigare (Sjöberg, 2008, 2010). 

Bättre validitet än ovanstående kan man inte hoppas på för de övergripande FFM-dimensionerna och man ställer sig lite undrande till det stora genomslaget för FFM-test i svensk praktik. Bättre resultat kan emellertid erhållas med andra dimensioner och vissa av underskalorna ("fasetter") till FFM-modellerna, mera därom i ett kommande inlägg.

Onekligen är det intressant att se vilken överlägsen validitet som allmänbegåvning har. Länge var det tabu i vårt land att tala om och använda intelligenstest, så tycks inte riktigt vara fallet längre och det är som synes på goda grunder.

Referenser

Schmidt, F. L., Oh, I.-S., & Le, H. (2006). Increasing the accuracy of corrections for range restriction: Implications for selection procedure validities and other research results. Personnel Psychology, 59(2), 281-305.


Schmidt, F. L., Shaffer, J. A., & Oh, I.-S. (2008). Increased accuracy for range restriction corrections: Implications for the role of personality and general mental ability in job and training performance. [doi:10.1111/j.1744-6570.2008.00132.x]. Personnel Psychology, 61(4), 827-868.

Sjöberg, L. (2008). Bortom Big Five: Konstruktion och validering av ett personlighetstest. (SSE/EFI Working Paper Series in Business Administration No. 2008:7). Stockholm: Stockholm School of Economics.Klicka här.


Sjöberg, L. (2010). A third generation personality test (SSE/EFI Working Paper Series in Business Administration No. 2010:3). Stockholm: Stockholm School of Economics. Klicka här,

Friday, July 23, 2010

Skönmålning är stark, vanlig och viktig vid testning i skarpt läge

Det påstås ibland att skönmålning på personlighetstest knappast förekommer, åtminstone inte i hög grad. Jaså. Hur vet man det? Påståendet verkar gå helt emot vanligt sunt förnuft. Visst försöker väl testade i ett skarpt läge att framställa sig i så positiv dager som möjligt på självrapporttest - den absolut vanligaste formen av personlighetstest?

För att påstå att stark skönmålning inte förekommer måste man ha data också på icke skönmålade svar. Detta kan man få, approximativt givetvis, genom att ta fram testsvar som rensats från skönmålning med hjälp av validerad metodik för sådan rensning.

Jag arbetar med korrektion för skönmålning med hjälp av två skalor som mäter social önskvärdhet, en overt (genomskådlig, Hunter Mabons term) och en kovert (ogenomskådlig). De ger likartade resultat och har validerats både experimentellt och i skarpa testningar vid jobbansökning, se referens nedan. Vid testningar på rekryteringsplattformen Katapult används den koverta skalan och UPP-testets screeningmodul, se referens nedan. Modulen mäter extraversion, uthållighet, samarbetsvilja, positiv grundattityd och kreativitet.

De data som analyseras här baseras på testsvar från 4457 personer (Katapult) som tog screeningmodulen när de anmälde sig som sökande till olika jobb.  Det är alltså data från testning i skarpt läge som det gäller.Korrelationerna mellan personlighetsdimensionerna och skönmålning framgår av tabellen nedan, liksom korrelationerna mellan råvärden och korrigerade värden.




Korrelationer mellan personlighetsdimensioner och kovert skönmålning, samt okorrigerade och korrigerade data
Dimension Korrelation med skönmålning Korrelation rådata-korrigerade data
Extraversion 0.49 0.87
Uthållighet 0.63 0.77
Samarbetsvilja 0.66 0.75
Positiv grundattityd 0.64 0.77
Kreativitet 0.32 0.95

I fyra av de fem fallen var sambanden starka mellan skönmålning och personlighetsdimensionen.

Märk också att effekten av korrektion var ytterst liten i ett av fallen (kreativitet) men större i de övriga. Detta är ett vanligt resultat. Olika dimensioner är i olika hög grad påverkade av skönmålning.

Men hur viktiga, eller stora, är effekterna?

Jag skapade en sammansatt poäng genom att beräkna medelvärdet av alla fem dimensionerna, med lika vikter, före och efter korrektion. Båda dessa summapoäng rangordnades i hela materialet. (Tack gode Gud för datorer). Därefter lade jag in gränsvärden för de bästa 1%, 5%, 10% och 20% för råvärdena. Hur många av dem som nådde dessa topp-placeringar behöll sina platser efter korrektion? Svar, se nedanstående tabell:


Andel som behöll sin tätplats efter korrektion för skönmålning. Skarpt läge, N=4457. Data från Katapult.
Andel i tätgruppen Andel av tätgruppen som behöll sin position i tätgruppen efter korrektion för skönmålning
0.01 8.9%
0.05 11.7%
0.10 12.8%
0.20 17.7%


Detta betyder att bland dem i den bästa procenten före korrektion var det bara 8.9% som behöll den placeringen efter korrektion. Vid mindre krav för topp-plats var andelen som behöll sin plats större men vid 20% topp-plats var det fortfarande bara 17.7 % som behöll platsen.

Med andra ord: över 80% av dem som hamnar på "lilla listan" om rekrytering baseras på personlighetstestet har troligen hamnat där på grund av att de bluffat på testet! Eftersom dessa data baseras på korrektion med enbart en skala i stället för vår vanliga design med två skalor är dessutom effekterna troligen underskattade.

Ett annat och enklare svar på frågan om det förekommer stora effekter av skönmålning kan vi få genom att se närmare på hur stora förändringar i rangplats som de 45 bästa (bästa procenten, 99:e percentilen) fick efter korrektion och ny rangordning. Som visade ovan var det 91% av dem som inte lyckades behålla sin plats. Fördelningen av skillnaderna mellan de två rangordningarna för de 45 bästa enligt rådata framgår av nedanstående graf. Medianen för tappade rangplatser var 545, alltså ett fall, i genomsnitt, från 99:e till 88:e percentilen. Mycket mera dramatiska fall förekom också, upp till 1200 rangplatser. I ljuset av de data som presenterats här är det enligt min mening osakligt att fortsätta att påstå att stark skönmålning "knappast förekommer".



Ännu en kontroll är intressant. Antag att vi försöker värja oss mot effekterna av skönmålning genom att utesluta dem som har högst värde i detta avseende. Det är troligen ett vanligt sätt att arbeta, som jag sett på nära håll under min tid på Handelshögskolan. Jag lade därför in en cut-off vid 21% av stickprovet och uteslöt 922 personer. (Just denna gräns var lämplig på grund av klustring av data; omkring 20-25 % är troligen vanligt). De som nu återstod i 99:e percentilen i rådata kunde emellertid inte alls försvara sina platser efter korrektion. Korrektionen medförde att deras rangplatser sjönk 629 steg, alltså ännu mera än för hela stickprovet. För att motverka de snedvridande effekterna av skönmålning måste man alltså korrigera fullt ut enligt den metod som använts här (och i våra övriga test) - uteslutande av dem som ligger högst på en "lögnskala" har bara kosmetiska effekter.

Frågan om hur kraftig skönmålningen är kan också besvaras genom att analysera den absoluta nivån på svaren.Den informationen brukar man inte använda i testpsykologin, men i andra sammanhang som medarbetarundersökningar gör man ju det. Det som talar mot att använda absolutnivån är att den påverkas av frågornas formulering. Då emellertid en skala i typfallet består av ganska många frågor motverkas den felkällan; man får trots allt en viss uppfattning om styrkan i svarstendensen. I fallet med våra data och måttet på skönmålning låg medianen på 4.33, svarsskala 1-5. 74 % av de testade hade ett värde > 4.0, mindre än 1 % låg under 3.0. De testade hade alltså en mycket stark tendens att välja skönmålande svar. Det stödjer min tes att skönmålning är stark och vanligt förekommande.

Man kan fråga sig om skönmålning har ännu flera konsekvenser. Det påstås ofta att validiteten inte påverkas av korrektion. Detta är nog tämligen riktigt, se data ovan som visar på höga samband mellan korrigerade och okorrigerade data. För vissa typer av kriterier kan de som skönmålar också ha förmåga att övertyga omgivningen i vidare mening om sin kompetens, men detta betyder naturligtvis inte att de också gör ett bättre jobb. Kvar står till slut att få nog vill ge prioritet åt dem som bluffar, att effekterna är stora och att systemet för korrektion som använts står på solid grund efter särskilda valideringar - se referenserna. Inga andra självrapporttest har en effektiv och validerad metodik för att korrigera för skönmålning (HPI, NEO), många - som MBTI (NEO-PI-R, Myers-Briggs) - ingen alls.

Ones et al. (1996) är en ofta åberopad artikel som anses stödja slutsatsen att skönmålning inte spelar någon roll.   Den baseras på en mycket omfattande meta-analys men det är troligen inte data i skarpt läge som den bygger på, åtminstone inte i de flesta fallen. Författarna säger inte vilket som är fallet, men deras korrelationer mellan skönmålning och personlighetsdimensioner är dramatiskt mycket lägre än dem som presenterats här. Våra undersökningar har konsistent gett mycket högre korrelationer mellan personlighetsskalor och olika mått på skönmålning. Det är rimligt att tro att skönmålning har mycket större betydelse i skarpt läge än vid andra former av datainsamling, och det är ju skarpt läge som är det praktiskt intressanta.



Referenser
 
Ones, D. S., Viswesvaran, C., & Reiss, A. D. (1996). Role of social desirability in personality testing for personnel selection: The red herring. Journal of Applied Psychology, 81, 660-679.

Sjöberg, L. (2009). UPP-testet: Korrektion för skönmålning. Forskningsrapport 2009:3. Stockholm: Psykologisk Metod AB. Klicka här


Sjöberg, L. (2010). UPP/Screen: Ett screeningtest av personlighet och begåvning. Forskningsrapport 2010:7. Stockholm: Psykologisk Metod AB. Klicka här.

Wednesday, July 21, 2010

Screeninglogik

Screening av många sökande till ett jobb är ett bra sätt att hitta högpresterande personer. Varför?

Antag att vi är ute efter en verklig elitperson (vem är inte det?), bäst av 100, alltså den bäst presterande procenten. Ju fler vi testar desto större är chansen att det finns minst en sådan person i den testade gruppen, sr tabellen nedan. Tabellen visar också sannolikheten för att det i gruppen av testade finns minst en person i 98:e percentilen och en i 90:e.


Sannolikheten att få minst en jobbsökande som tillhör 99:e, 98:e eller 90:e percentilen vi testning av 5-75 personer
Antal testade personer99:e percentilen98:e percentilen90:e percentilen
50.0490.0960.410
100.0960.1830.651
150.1400.2610.794
200.1820.3320.878
250.2220.3970.928
300.2600.4550.958
350.2670.5070.975
400.3310.5540.985
450.3640.5970.991
500.3950.6360.995
550.4250.6710.997
600.4530.7020.998
650.4800.7310.999
700.5050.7570.999
750.5290.7801.000




Tabellen visar att testning av 75 personer ger höga sannolikheter för att hitta minst en person med mycket hög kapacitet, och att chansen är mycket god redan vid 25 testade om vi nöjer oss med kapacitet vid 90:e percentilen, även det ett mycket gott resultat.

Knepet är alltså att utgå från ett så stort underlag som möjligt. Det är dyrbart och tidsödande att göra det om man inte använder enkla, valida och billiga screeningtest, se referens nedan. Det ger dessutom en konkurrensfördel eftersom screeningstestningens effektivitet inte är känd av flera än ett fåtal. Man kan förstås gå på intuition och "magkänsla" men påverkas då av irrelevanta faktorer som utseende, kroppsspråk, dialekt, klädsel etc, se vår monografi om personkemi här.I en studie av anställningsintervjuer (Higgins & Judge, 2004) fann man att det som avgjorde varken var erfarenhet eller förmåga - det var om man tyckte bra eller illa om den jobbsökande, vilket i sin tur berodde på om han eller hon lyckades med "ingratiation". Med den termen menas ett strategiskt försök att göra ett gott intryck, t ex genom smicker, framhålla likhet i värderingar eller allmänt sett att framhålla sina goda egenskaper på ett trovärdigt sätt, se denna länk.

I min egen erfarenhet har jag gjort extremt goda rekryteringar genom screening av 40-60 jobbsökande. Och faktiskt varit en medioker rekryterare i många övriga fall. Det är intressant att fundera över vilka rekryteringsprinciper som kommer till användning för viktiga chefsjobb i samhället. Hur många övervägde man innan ministrar anställdes i Alliansregeringen? (Alla tycks inte ha tillhört eliten, med tanke på vad som sedan hänt). Hur bred är urvalsbasen för VD-jobben och styrelseposterna för de stora företagen? Ju smalare den är desto större är chansen att missa verkliga superstars ty de tillhör bara i undantagsfall "old boys' network"

Referenser

Higgins, C. A., & Judge, T. A. (2004). The Effect of Applicant Influence Tactics on Recruiter Perceptions of Fit and Hiring Recommendations: A Field Study. [doi:10.1037/0021-9010.89.4.622]. Journal of Applied Psychology, 89(4), 622-632.

Sjöberg, L., & Tollgerdt-Andersson, I. (1985). Vad är personkemi? Socialpsykologisk forskning om attraktivitet. Stockholm: Scandinavian Executive Search. Klicka här.

Sjöberg, L. (2010). UPP/Screen: Ett screeningtest av personlighet och begåvning. Forskningsrapport 2010:7. Stockholm: Psykologisk Metod AB. Klicka här.

Monday, July 5, 2010

Percentiler eller normalfördelade testpoäng


Testpoäng måste anges i förhållande till en normgrupp; annars kan de inte tolkas. Det är åtminstone den dominerande uppfattningen. (Det finns ett alternativ som jag ska återkomma till senare, men här är det normgruppstolkningen som gäller.)

Ett vanligt sätt att beräkna normerade testpoäng är stanine. Denna metod anpassar data till en normalfördelning och delar upp data i nio lika stora steg. Man antar att man på det sättet får en intervallskala för den underliggande testdimensionen. Möjligen kan det anses att det är ett antagande som är osannolikt, men eftersom normalfördelningar ofta är goda approximationer till psykologiska data är det ett rimligt antagande. Dessutom är testpoängen medelvärden av många observationer vilket gör det ännu troligare att en normalfördelning passar data bra. Stanine är antagligen lätta att förstå och nio steg är inte fler än att man kan hålla reda på dem. Människors kognitiva system klarar sällan mer än 7-9 steg om man inte har särskilda hjälpmedel.

Percentiler är emellertid populära inom testområdet. Percentilpoängen säger hur stor andel av normgruppen som ligger under en viss persons testresultat. Det är ett begrepp som är ganska svårt att förstå. Variationen i 99 steg, från 1 till 99 är dessutom alldeles för fingraderad. Vidare är percentilpoängen rektangulärt fördelad; sådana fördelningar är mycket ovanliga i psykologiska data (om man inte tvingar in dem i den kostymen).

Relationen mellan normalfördelad testpoäng och percentilpoäng visas i bilden. Som synes är den inte linjär i extremerna. Det betyder att vikten av en skillnad i området för låga eller höga percentilvärden underskattas, om vi antar att normalfördelning är rimligare än rektangulär fördelning som beskrivning av den underliggande psykologiska dimensionen.

Det finns alltså minst fyra skäl till att välja stanine framför percentiler vid beskrivning av normerade testresultat:

1. Normalfördelning är en rimligare approximation än rektangulär fördelning.

2. Stanine är mera realistisk beskivning av data än percentiler med tanke på människors förmåga att hantera antalet skalsteg (9 i stället för 99).

3. Percentilbegreppet är svårt att förstå för dem som inte har specialkunskaper i statistik och psykometrik.

4. Percentiler gör att man fäster alldeles för liten vikt vid skillnader i områdena med låga och höga värden.

Sunday, July 4, 2010

Stickprovets storlek vid testvalidering

Stiftelsen för tillämpad psykologi (STP), som har en halvofficiell status i vårt land vid granskningar av psykologiska tester, ”kräver” ett stickprov på minst 100 personer, annars förklaras valideringen enbart på den grunden vara baserad på en ”inadekvat” studie. Se STP:s ”Kvalitetskriterier för testinstrument – personlighetsbedömning”, 2002. (Senare upplaga tycks inte finnas). Detta krav är i sin tur baserat på europeiska psykologförbundens (EFPA:s) kriterier (Lindley, Bartram, & Kennedy, 2008), men dessa innebär endast en rekommendation om N=100 eller större, inte ett krav. Se min korrespondens med professor David Bartram, 2010-06-09 på denna länk. Bertram är ordförande i EFPA:s grupp för testkriterier, och medförfattare till det centrala dokument som översatts och används av STP (Lindley et al., 2008).

Bakom EFPA:s rekommendation ligger i sin tur en ”power-analys”, där man laborerar med följande parametrar:

• Det är önskvärt att kunna belägga ett samband mellan test och kriterium som statistiskt signifikant på nivån 0,05 eller bättre
• Det är önskvärt att kunna belägga samband på den nivån om korrelationen i populationen är minst 0,30
• Det är önskvärt att kunna belägga sambandet enligt ovanstående med minst 90 % chans

Analyser av den här typen kan göras med hjälp av tabeller (Cohen, 1988). De tre kraven ledder till N=100 (som ger chansen att belägga sambandet = 0,86, för att vara mera exakt). Men antag att vi ansätter andra lika rimliga eller lika godtyckliga värden på parametrarna. Om vi vill belägga ett samband utifrån konventionell signifikans med en korrelation på 0,40 i populationen med t ex minst 50 % chans att upptäcka den, vad händer då? Rekommendationen blir N=30 (som ger 61 % chans för att vara exakt). Om jag alltså vill pröva hypotesen om en något större korrelation mellan test och kriterium (0,40 i stället för 0,30), och nöjer mig med en mindre men ändå hyfsat stor chans att upptäcka ett samband, sjunker kravet på stickprovets storlek dramatiskt: från 100 till 30.

STP har tolkat en rekommendation som ett krav, med mycket negativa konsekvenser för testbranschen. Det är nämligen i allmänhet mycket svårt, dyrbart och tidsödande att samla in så stora stickprov som N=100 för testvalidering. Detta torde göra att man hellre avstår. I arbetet med UPP-testet har vi samlat in data som i några fall uppfyller kravet N=100, i andra inte. Vad dessa data säger om testet beror inte på stickprovets storlek utan på hur starka sambanden är, vilken tilltro man kan ha till att sambanden kan replikeras i nya stickprov, och givetvis på om andra krav på studierna uppfylls. Vi är i gott sällskap. SHL har validerat sitt test OPQ mot säljares arbetsresultat i 9 studier varav bara 2 uppfyller kravet N=100 eller större. Jag återkommer till dessa data i ett senare blogginlägg.

Syftet med en power-analys är att ge en rationellt grundad uppfattning om hur stort stickprov man bör arbeta med, inte att bedöma i efterhand, när resultaten föreligger, om studien kan läggas till grund för slutsatser. Anta att vi gör en studie med N=20 och får en validitet på r=0.7. Är detta resultat helt irrelevant för bedömning av testet?

Den som läser Bartrams svar på mina frågor kan knappast undgå att dra den slutsatsen att STP har missförstått EFPA:s riktlinjer på denna centrala punkt. Det är en förståelig missuppfattning, men den är inte desto mindre ödesdiger för testbranschen. Få valideringar kan leva upp till kravet på 100 personer i stickprovet. Resultatet blir intrycket att "det finns många dåliga test". Det kan man påstå av flera skäl, men ett viktigt skäl är nog att valideringar inte godkänns eller uppmuntras.

Det kan tilläggas att den internationella standarden vid testvalidering ligger vid ett medelvärde på N något under 100 (Aguinis et al., 2010). Det betyder att hundratals valideringsstudier publicerade i ledande tidskrifter skulle ha ansetts "inadekvata" om STP fått råda.


Referenser


Aguinis, H., Culpepper, S. A., & Pierce, C. A. (2010). Revival of test bias research in preemployment testing. [doi:10.1037/a0018714]. Journal of Applied Psychology, 95(4), 648-680.

Cohen, J. (1988). Statistical power analysis for behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.

Lindley, P., Bartram, D., & Kennedy, N. (2008). EFPA review model for the description and evaluation of psychological tests. Test review form and notes for reviewers. Version 3.42: European Federation of Psychological Associations.

Saturday, July 3, 2010

Validering av NEO-PI-R

NEO-PI-R är ett välkänt test för att mäta "Big Five", eller femfaktormodellen för personlighet. Testet mäter dels de övergripande "fem stora", dels underskalor som kallas facetter. I en aktuell studie från Kanada undersöktes sex facetter för var och en av de fem stora dimensionerna i relation till arbetsprestation. (N=141). Se referens nedan.

Visserligen erhölls en del signifikanta samband, men de var inte imponerande. Korrelationerna mellan ett kriterium på "job performance" och sex facetter för varje övergripande dimension var i en av deras studier:

VÄNLIGHET: .30,.15,.07,-.08,-.03,.15
NOGGRANNHET: .17,.08,-.06,-.08.-.11,-,02
NEUROTICISM: .19,-.05,.01,.22,-.12,.07
EXTRAVERSION: .00,.04,.05,.08,-.13,-.17
ÖPPENHET: .02,.04,.06,-.12,.02,.04

En grov första sammanfattning av testets validitet i denna studie kan vi få genom att beräkna medianen av dessa korrelationer. När serien av korrelationer gör ett slumpmässigt intryck - som i detta fall - kan detta vara rimligt. Medianen av de 30 korrelationerna var 0.04. I en andra, något mindre studie, fick författarna troligen liknande resultat, men rapporterar inte enskilda korrelationer.

Detta är givetvis bara en av många studier men den är den mest aktuella. Om testet har en robust validitet bör den komma fram i olika sammanhang. NEO-PI-R används även i Sverige i arbetspsykologiska sammanhang - det finns nog aneldning att fundera på hur stor validitet testet egentligen har. Även mycket svaga samband kan ibland räcka för att argumentera för att ett test är användbart, främst vid urval och med liten urvalskvot, men nyttan för att bedöma enskilda personers testresultat är begränsad.





Referens

Pascale, L. D., Denis, M., & Claude, G. (2010).Exploring the Capacity of NEO PI-R Facets to Predict Job Performance in Two French-Canadian Samples,International Journal of Selection and Assessment,18,201-207).

Program

Denna bloggs syfte är att diskutera forskning och intressanta problem inom området psykologisk testning och även psykometrik mera i stort. Bloggen vänder sig till alla med intresse för frågorna, inte minst praktiker och forskare inom området. Min mera allmänna psykologi-blogg kommer i fortsättningen bara i undantagsfall att ta upp dess specialiserade frågor, se denna länk.
Free counter and web stats