Psychological testing and psychometrics: 2011

Wednesday, December 21, 2011

Teorier inom personlighetstestningen

"Teori" är ett laddat ord. Det är väl alltid bra med en teori? Inte alls. Det krävs att teorin är evidensbaserad och rimlig. Teori har inget egenvärde.

Men om man saknar teori? Vad har man då? Svaret på frågan är empiri, dvs att man har funnit att testet har validitet för de syften som man vill uppnå. Det är både nödvändigt och tillräckligt att ett test har validitet. Teori, om den uppfyller kraven, är också av värde, men kan inte ersätta empirisk evidens. Låt oss se på några teorier bakom den vanligaste personlighetstesten inom arbetspsykologin. Läs fortsättningen här.

Wednesday, November 16, 2011

VD-personlighet

Spelar det någon roll vem som är VD och vilka egenskaper han eller hon har? Ja, det verkar självklart men vissa forskare förnekar den saken - andra bejakar påståendet. Människor som inte känner till de akademiska trätorna tycker troligen att det är ganska självklart. Vissa VD:ar lyckas, andra misslyckas. Vad kan det bero på?

En aktuell översiktsartikel tar upp dessa frågor (Thornton et al., 2010). Rekrytering till ledande positioner tycks mera sällan bygga på psykologisk teori och metodik. Kanske kan det vara ett skäl till misslyckanden. Å andra sidan finns det inte särskilt mycket forskning om denna exklusiva grupp och det är svårt att utvärdera framgång. Psykologiska test påverkas ju av skönmålning ("self enhancement") så det är svårt att lita på dem. (Undantag finns, se denna länk). Intelligens är troligen en mycket viktig faktor, mera så ju mera komplexa jobben är. Social förmåga och emotionell intelligens brukar nämnas, och ibland (inte i denna översikt) narcissism, som kanske är bra i måttlig utsträckning men kan vara katastrofalt på hög nivå (McFarlin & Sweeney, 2010).

Thornton et al. menar att vi kanske använder fel forskningsparadigm och att det är därför vi inte har kommit längre. VD-jobben är så komplexa och kraven så unika i varje särskilt fall. Nja, det kan man väl säga om allting (nästan)? Vi har ju trots allt kommit ganska långt när det gäller att identifiera personlighetsdrag av betydelse i arbetslivet. Jag tror att problemet snarare är att vi inte får in data, VD-positionen är inte av den typen att man kan och ska forska på den. Den är för "upphöjd" för det, kanske. Jag för min del är övertygad att det går att identifiera framgångsfaktorer bara man får möjlighet att samla in data.

Något liknande kan sägas om politiskt ledarskap. Vad som än ledde till valet av Juholt som partiledare för (s), så inte tycks det ha varit hans personlighet. Han verkar vara ett bra exempel på en dålig ledare som man kunde ha undvikit med lite bättre psykologi i urvalet.

Referenser

McFarlin, D. B., & Sweeney, P. D. (2010). The corporate reflecting pool: Antecedents and consequences of narcissism in executives. In B. Schyns & T. Hansbrough (Eds.), When leadership goes wrong: Destructive leadership, mistakes, and ethical failures. (pp. 247-283): Greenwich, CT, US: IAP Information Age Publishing.

Thornton, G. C., III, Hollenbeck, G. P., & Johnson, S. K. (2010). Selecting leaders: Executives and high potentials. In J. L. Farr & N. T. Tippins (Eds.), Handbook of employee selection. (pp. 823-840): New York, NY, US: Routledge/Taylor & Francis Group.

Wednesday, November 2, 2011

Validering: Personlighet och ledarskap

Detta är en studie av UPP-testets validitet gentemot 360-gradersbedömningar.
Deltagarna var 166 chefer inom Stockholms läns landsting (SLL), på mellannivå.
De besvarade testet, ett formulär för mätning av stressupplevelser i arbetet, och
bedömdes av sina egna chefer, kollegor och underställda. I genomsnitt bedömdes
de av 2.5 kollegor och 7.5 underställda. 360-gradersbedömningarna kunde
summeras i tre index, som mätte framgång i förändringsarbete, strukturering av
arbetet samt relationer till underställda medarbetare. Egenbedömningarna hade
lågt samband med övriga bedömningar, som i sin tur var moderat korrelerade
(omkring 0.4). Det fanns emellertid ingen tydlig tendens till skillnad när
egenbedömningarnas nivå jämfördes med övrigas bedömningar.
Samtliga testvariabler korrigerades för skönmålning. För analyserna av testets
validitet bildades tre index av testvariabler som matchade bedömningarna
innehållsmässigt. Genomsnittliga bedömningar av kollegor och underställda
beräknades. Testindexen korrelerades med dessa genomsnittliga bedömningar
samt med bedömningarna av överordnad chef. Korrelationerna korrigerades
sedan för mätfel i kriterierna (360-gradersbedömningarna) och för begränsad
variation i testvariablerna. De slutliga värdena på validitet låg omkring 0.5 för
bedömningar av chefers, kollegors och underställdas 360-gradersbedömningar.
Egenbedömningarna var ännu högre korrelerade med UPP-testets variabler. Det
fanns en tendens till högre samband när minst 10 personer gjort 360-
gradersbedömningarna. Slutsatsen är att testet uppvisade en tillfredsställande
validitet mot 360-gradersbedömningar av chefers arbetsinsatser.
Stressupplevelsen hade främst samband med positiv grundattityd (negativt) och
de arbetsrelaterade attityder som UPP mäter, men mycket låga samband med
360-gradersbedömningarna.
Det intressanta mönster som framträder i data var:
· Höga samband mellan personlighet och 360-gradersbedömningar
· Låga samband mellan personlighet och stressdimensioner
· Höga samband mellan stressdimensioner och arbetsattityder enligt UPP
· Låga samband mellan 360-gradersbedömningar (ej egenbedömningar)
och stressdimensioner

Stressdimensionerna kan sägas mäta de svarandes ”inre värld”, och vara uttryck
för den aktuella arbetssituationen. De är inte tydliga för andra människor, inte
heller starka utslag för mera bestående personlighetsdrag. UPP-testets sektion
med arbetsattityder bildar en intressant brygga mellan det inre och det yttre, det
bestående och det mera tillfälliga.

Referens
Sjöberg, L., Bergman, D., Lornudd, C., & Sandahl, C. (2011). Sambandet mellan ett personlighetstest och 360-graders bedömningar av chefer i hälso- och sjukvården. Stockholm: Karolinska Institutet: Institutionen för lärande, informatik, management och etik (LIME).Klicka här

Thursday, October 20, 2011

Dagens Industri uppmärksammar UPP-testet, mm

En kortfattad och mycket positiv och sakligt korrekt artikel om UPP tillägnades en helsida i Dagens Industri den 17 oktober 2011, klicka här.De främsta poängerna är att det handlar om ett alltigenom svenskt test med allt vad det innebär av anpassning till språk och kultur, samt den framgångsrika korrektionen för skönmålning.Testet genom ständigt forskning och vidareutveckling, vilket svenska agenter för amerikanska eller brittiska eller tyska test sältan sysslar med. Vi har goda valideringsresultat mot relevanta kriterier i arbetslivet både för chefer och andra - andra test genomför inga sådana studier i Sverige, med enstaka undantag.

Det är därför mycket glädjande att DI-artikeln har medfört en "Ketchupeffekt" denna vecka och intresset för testet nu är mycket stort. Certifieringskursen 5-6 december kan ev behöva fördubblas. En svensk företagare i Texas hörde av sig och vill pröva testet i sitt företag (engelskspråkig version finns ju). Vi har också i veckan genomfört ett stort uppdrag för Uppsala kommun gällande testningar med UPP inför chefsbefordran.

Mycket snart kommer rapporter från Rekryteringsverket och Karolinska Institutet där UPP-tetstet prövats med goda resultat.

Friday, October 7, 2011

Internetanvändning och personlighet

Mycket frekvent användning av Internet och datorkommunikation (CMC, Computer Mediated Communication) kan leda till försämrad social förmåga och emotionell intelligens (Mullen, 2011) och ökad ensamhet (Engelberg och Sjöberg, 2004), kanske särskilt hos personer som tenderar i sig att vara inåtvända. Detta medför förstås negativa konsekvenser för dem som drabbas, men kan också ha konsekvenser i arbetslivet. Ovilja att ta personliga kontakter leder till att man undviker dem, och hellre skickar ett mail, vilket i sin tur ofta är ett ineffektivt sätt att arbeta, t ex för säljare och för många andra grupper. Mail är bra, men inte till allting, och dessutom finns det för svaga bromsar för aggressiva utspel, som man sedan får ångra djupt. En utmärkt bok med inriktning på just säljare har publicerats av Dudley och Goodson (2007). I UPP-testet version 2.0 finns en skala som mäter social säkerhet som just är inriktad på den här typen av problem. Inom många typer av jobb är ovilja att ta personliga kontakter en stor nackdel - och det är ett vanligt problem som troligen blir allt vanligare när den nya generationen som växt upp framför dataskärmar kommer ut i arbetslivet. Mätning av social säkerhet kommer troligen att bli allt viktigare.

Referenser

Dudley, G. W., & Goodson, S. L. (2007). Boken om säljhinder. Sales call reluctance. Varför vissa säljare är mer framgångsrika än andra. Stockholm: BelBin AB.

Engelberg, E., & Sjöberg, L. (2004). Internet use, social skills and adjustment. CyberPsychology & Behavior, 7(1), 41-48. Klicka här.

Mullen, J. K. (2011). The impact of computer use on employee performance in high‐trust professions: Re‐examining selection criteria in the Internet age. [doi:10.1111/j.1559-1816.2011.00790.x]. Journal of Applied Social Psychology, 41(8), 2009-2043.

Saturday, September 24, 2011

Test utan dokumenterat värde, eller kejsarens nya kläder

När jag läste psykologutbildningen fick jag lära mig att test absolut måste ha dokumenterad validitet, att de skulle vara evidensbaserade som vi säger nuförtiden. Test finns många, konstruerade av optimister och eller amatörer. Med hjälp av skickliga marknadsförare kan testen framställas som "vetenskapliga" och "i det närmaste ofelbara".

Test säljs i Sverige i stor volym utan att ha validerats för svenska tillämpningar, oftast översatta versioner av brittiska eller amerikanska test. Kunderna tycks inte fråga efter validitet, eller också utgår de från att den finns och är väl dokumenterad. Där tar de alltså fel! Detta gäller tyvärr även de största aktörerna i branschen. STP-prövningen var tänkt att motverka dessa missförhållanden, men vad har hänt? STP kan mycket väl skriva en mycket kritisk rapport om ett test, men rapporten är mycket dyr, svårläst och svår att få tag på. Ett starkt kretiskt yttrande läses därför av få, och i marknadsföringen kan man stolt säga att testet är "granskat av STP", utan större risk att någon blivande kund tar reda på vad STP egentligen har sagt.

Jag har föreslagit att STP ska göra rapporterna tillgängliga gratis på sin hemsida men förslaget har inte beaktats, inte ens besvarats. (STP besvarar sällan och i så fall med lång fördröjning frågor eller förslag). STP ger inte heller kontaktuppgifter till testfirmorna på sin hemsida, vilket skulle vara en enkel service och inte är mycket att begära efter att man betalat ganska mycket pengar för att (efter ett par år) få en granskning (50 000). Mycket mer är att säga om STP, men det ska jag återkomma till. Här nöjer jag mig med att påpeka att rapporterna bara ger knapphändiga uppgifter om vilka data de stödjer sina bedömningar på. Dessa data finns oftast endast i svår- eller otillgängliga källor. Testföretagen är i de flesta fall ovilliga att lämna ut dem.

Alltså: test använda i stor skala i Sverige har ingen - eller bara ytterst fragmentarisk - dokumenterad validitet för svenska tillämpningar. Kunderna har rätt att få bättre test, och sådana finns faktiskt.

Wednesday, September 21, 2011

Prognos och förståelse

Personlighetstest kan, om de har rätt innehåll, ha hög validitet, omkring 0.5. Men för att nå den siffran måste man matcha testskalor mot kriteriet. Den fråga jag ställde mig helt nyligen var om ett screeningtest, som omfattar bara en mindre del av ett fullständigt personlighetstest, kan ha lika hög validitet. Till min förvåning fann jag att så var fallet, validiteten var bara obetydligt lägre med ett screeningstest som var baserat på de bästa skalorna i det fullständiga testet, bästa i betydelsen mest valida mot kriterier.

Det är ett viktigt resultat, eftersom det visar att screeningidén kan fungera bättre än man kunde vänta, men det betyder inte att ett mera fullständigt test är onödigt. Prognoser av arbetsresultat är inte det enda syftet med testning, men det är vad som krävs i en första fas, där just screeningtestet är tänkt att fungera. I ett senare skede berikas beslutsfattandet av en fördjupad kunskap om personen.

Sunday, September 11, 2011

Hur många gånger kan man upprepa samma test?

Personlighetstest som OPQ och HPI används ofta, och har funnits länge på marknaden. Som ett resultat av detta möter man ofta jobbkandidater som redan testats en eller många gånger med ett eller flera av de vanliga testen. Det är då naturligt att fråga sig om testens värde urholkas av omfattande erfarenhet med dem. Såvitt bekant förekommer inga försök att registrera antalet testningar en person gjort med ett test.(Utom för UPP 2.0, som lanseras snart. UPP är ett nytt test, medan det finns hundratusentals personer i Sverige som tagit test som OPQ, HPI, Master, 16 PF, Myers-Briggs och Thomas/PPA).

Frågan om effekter av omtestning med personlighetstest har inte undersökts noga tidigare. Hausknecht (2010) finner emellertid i en studie med Gordon-testet (ett Big Fivetest), mycket stora effekter, i förskönande riktning, hos dem som inte anställts efter första testningen. (Hos dem som fick jobbet var det inga effekter). Detta var fallet trots att dessa personer inte fick ingående återkoppling, något som troligen skulle ha ökat effekterna ytterligare eftersom den kan ge ledtrådar till den testade om vad i testresultatet som var mindre lyckat.

Särskilt låga värden vid första testningen förbättrades starkt vid nästa testning. Sambandet mellan de två testningarna var svagt, mycket svagare än vad man normalt får med upprepade personlighetstestningar. Det tyder också på att de testade har andra svarsstrategier andra gången, och troligen innebar detta i sin tur att testets validitet sjönk betydligt.

Den som vill använda ett av de vanliga testen bör därför tänka sig för noga. Hur stor är risken att personen som ska testas redan har tagit testet? Har han eller hon fått återkoppling? Detta är ju regel i Sverige. Kan man få reda på om tidigare testning gjorts? Ja, det går ju an att fråga, men många vet inte vilka test de tar eller har tagit, och de har inte fått någon skriftlig rapport med sig från testningen. Vissa testföretag hemlighåller t o m vilka test de använder.

Kan test bli "utslitna" och tappa den validitet de eventuellt kan ha haft? Javisst, om man under decennier har kört tiotusentals testningar per år i Sverige. Det behövs nya test, och systematiska frågor till den testade om tidigare erfarenheter av testning, för att komma tillrätta med detta stora problem.

Referens

Hausknecht, J. P. (2010). Candidate persistence and personality test practice effects: Implications for staffing system management. [doi:10.1111/j.1744-6570.2010.01171.x]. Personnel Psychology, 63(2), 299-324. Klicka här

Sunday, September 4, 2011

Cronbach's alpha outdated?

Cronbach's alpha is industry standard for assessing reliability. It measures consistency of items forming a scale, which is useful but could be misleading. The problem is that the items could all measure a composite of several latent traits; hence the scale may not be very useful as an indicator of a construct in spite of a high value fo alpha. A more appropriate measure need to reflect true homogeneity of the items in a scale, simply speaking if they measure a common factor. This is probably going to replace alpha in test construction and assessment of tests, but the process is fairly slow, and the practical implications so far not well known. How many test scales need to be "purified" and will they then be more useful in practical applications?

Reference

Schweizer, K. (2011). On the changing role of Cronbach's alpha in the evaluation of the quality of a measure. European Journal of Psychological Assessment, 27, 143-144.

Sunday, August 28, 2011

Prövningar av testens värde - myten om ”de dåliga testen”

Stiftelsen för Tillämpad Psykologi (STP) har tagit på sig uppgiften att granska och "godkänna" psykologiska test. Men det verkar som om man tagit sig vatten över huvudet...

•STP-företrädare uttalar sig mycket ofta i media och säger något i stil med ”att det finns väldigt många dåliga test”. Bara en handfull test (ca 5) har blivit ”godkända” i deras granskningar.

•

•STP kräver emellertid så stora grupper vid testvalidering (n > 100) att det blir praktiskt mycket svårt att faktiskt genomföra ett valideringsprogram. Kravet saknar rationell grund; STP kan inte motivera det. Kravet motverkar arbetet med evidensbasering av test eftersom det är nästan omöjligt att leva upp till.

•

•STP gör även en bedömning av testets värde genom att beräkna genomsnittet (medianen) av enskilda testskalors korrelationer med kriterier – detta ger en drastisk underskattning, och STP kan inte motivera sitt arbetssätt.

•

•En utredning av testens värde genomförd av en professor i Uppsala på uppdrag av Telia för ca 15 år sedan åberopas fortfarande ofta som ”bevis” för att nästan alla test måste underkännas – men utredningen är hemligstämplad och argumenten för slutsatsen kan inte bedömas. Märkligt är att media ändå tycks anse den trovärdig och viktig! Kanske har Ekehammar rätt, men det kan vi inte veta.(Om någon av mina läsare har tillgång till rapporten vill jag gärna se den).

•

Sunday, July 31, 2011

Personlighet och ekonomisk framgång

Validering av personlighetstest brukar sällan ge starka resultat - men undantag finns. Här ska jag redogöra för ett, ur min aktuella forskning. En stor grupp, 110 personer, tog UPP-testet och vissa tillkommande personlighetsskalor, samt besvarade en hel del andra frågor, bland dem frågan om månadsinkomst. Det senare kan betraktas som ett externt kriterium, i förhållande till testets variabler "distalt", dvs utan semantiskt överlappande innehåll. I nedanstående figur återges korrelationerna (efter rangordning) mellan testskalorna (korrigerade för skönmålning) och månadsinkomst.

Det är slående att fem skalor är särskilt starkt relaterade till ekonomisk framgång:

Arbetsintresse

Uthållighet

Social säkerhet

Resultatorientering

Positiv attityd

Dessa fem skalor kombinerades till ett index; detta korrelerade 0.52 med ekonomisk framgång, efter korrektion för mätfel.

Månadslön är säkert påverkad av många andra faktorer än personlighet. Att vi når så högt som 0.52 tyder onekligen på att testet har hög validitet. Det är en nivå på validiteteten som närmar sig det som kan nås med kognitiva test, och kombinationen personlighet - kognitivt test blir oslagbar. Märk också att ingen av de fem viktiga faktorerna ligger inom "Big Five", dessa skalor hamnar som figuren visar längre ner när det gäller validitet. Som jag ofta funnit är "Big FIve" dimensionerna en återvändsgränd, man måste arbeta med smalare och på arbetslivet direkt fokuserade skalor, och detta är vad UPP-testet gör, till skillnad från andra personlighetstest.

Mera information om UPP finns på www.psykologisk-metod.se.

Saturday, July 9, 2011

Ipsativa test kan ge helt missvisande resultat

Ipsativa test bygger på idén att man kan få bort effekterna av skönmålning genom att den testade personen ska välja mellan alternativ som förefaller likvärdiga när det gäller social önskvärdhet. Flera av de i Sverige mest använda personlighetstesten (t ex OPQ, Master) använder en sådan metodik. Ipsativa svarsformat har emellertid inte lyckats med att få bort effekterna av social önskvärdhet och har flera andra nackdelar, bl a att de inte gör det möjligt att jämföra mellan individer, bara inom. En person som framstår som mycket inåtvänd i ett ipsativt test kan ändå vara mycket mindre inåtvänd än andra som inte alls har ett så högt värde i inåtvändhet. Det gör onekligen att testningen blir poänglös om man syftar till att jämföra olika personer, t ex i en urvalssituation.

Det finns emellertid ett ännu värre, och besläktat, problem. Om en person ligger högt i många dimensioner, men lite mindre högt i t ex emotionell stabilitet, kommer testet inte att upptäcka detta, utan han eller hon får ett lågt värde i emotionell stabilitet, helt enkelt för att alla värden är relativa till individen själv. Den emotionella stabiliteten kan vara utmärkt, men andra egenskaper ligger ännu högre och därför hamnar den långt ner på skalan - fullständigt vilseledande. Det här är inte en teoretisk spekulation utan något jag sett i praktiken. Man kan bara spekulera i hur många felaktiga beslut som har fattats under årens gång på grundval av dessa ipsativa test.

Wednesday, July 6, 2011

Stresstestning av UPP-testet: kan du lura testet?

Personlighetstest brukar vara lätta att lura. Vill man framstå som mycket bättre än man egentligen är så kan det ordnas lätt, eftersom nästan inga test korrigerar för skönmålning och dessutom är pinsamt lätta att genomskåda. Det gäller emellertid inte UPP. Vi har många skäl att tro att korrigeringen fungerar bra i UPP-testet men vill nu se om den fungerar också när den testade personen går in för att lura oss så mycket som möjligt. Detta blir ett stresstest av UPP!

Tror du att du kan lura UPP? Vi utmanar dig! Skicka ett mail till henrik.nilheim@gmail.com så får du inloggnngsuppgifter för att ta testet. Du får sedan en testrapport varav bl a framgår dina okorrigerade och korrigerade värden. Till den som lyckas få samma värden i dessa två fall skickar vi en skön morgonrock och två kaffemuggar, och ett diplom varav framgår att du är smartare än UPP-testet!

Ännu intressantare - för dig och oss - är om du dessutom tar testet en andra gång fullständigt ärligt. Då skickar vi som bonus två trisslotter.

Det är bråttom! Erbjudandet gäller bara fram till 1 augusti. Lycka till!

Saturday, July 2, 2011

Screeningtest

UPP/Screen är ett nytt snabbt screeningtest, som mäter personlighet och intellektuell förmåga. Det bygger på UPP-testet, ett av STP godkänt test där vi har genomfört omfattande forskning och validering. Tanken är att detta test ska användas i ett tidigt skede av rekryteringen. Det är mycket kostnadseffektivt.

Personlighetsdimensioner:

extraversion
uthållighet
kreativitet
samarbetsvilja
grad av positiv attityd
noggrannhet

Dessutom mäts tendensen att skönmåla, och den skalan används för att korrigera personlighetsskalorna så att dessa är opåverkade av skönmålning. Denna teknik har prövats och fungerat väl i omfattande studier.

Intellektuell förmåga mäts med dels verbala, dels logisk/spatiala uppgifter.

Normdata kommer från 6116 personer som tagit testet i samband med ansökan om jobb (skarpt läge).

Testningen tar ca 25 minuter och genomförs på Internet. För intellektuell förmåga finns ett parallellt verifikationstest.

Personlighet och intellektuell förmåga vägs samman till ett slutresultat som används för att rangordna en grupp som tagit testet. Dessutom ges staninepoäng (normalfördelade i normdata, medelvärde=9, standardavvikelse = 2). För en testad grupp ges medelvärden, som visar hur gruppen som helhet ligger i relation till normdata.

Testet har god reliabilitet och validitet mot arbetsresultat.

Testning, utvärdering och rapportgenerering är helt datoriserade funktioner; rapporten föreligger omedelbart efter en testning. Användaren får per e-post ett meddelanden om att en testning genomförts och kan då ladda ner en eller flera rapporter, antingen för enskilda testade personer eller för en eller flera grupper.

Saturday, June 25, 2011

Korrektion för skönmålning ökar validiteten

UPP-testet använder sig av särskilda skalor för att mäta tendensen att ge socialt önskvärda var. De är korrelerade med övriga testskalor i varierande grad. De korrigerade värdena är helt enkelt residualer i modeller för sambandet mellan testskalorna och skalorna för skönmålning; olika modeller för olika testskalor - allt beroende på det empiriska sambandet. Exempelvis är skalan för emotionell stabilitet ganska starkt korrelerad med social önskvärdhet, kreativitet knappast alls. Den här ansatsen har visat sig fungera i flera olika avseenden: man kan identifiera testade personer som "bluffat", fördelningarna i de korrigerade skalorna är mindre sneda och bättre differentierade än rådata, experimentella data stödjer förfarandet liksom skillnader mellan testningar i skarpa och oskarpa lägen. Dessutom blir det mera rättvisande och rättvisa jämförelser mellan män och kvinnor, mellan invandrare och testade av inhemsk härkomst.

Men en fråga återstår. Påverkas validiteten hos testet, dvs sambandet med kriterier på arbetsresultat? I ett pågående projekt vid Karolinska Institutet har vi studerat sambandet mellan UPP och kriterier på chefsframgång, som insamlats via s k 360-gradersbedömningar. I studien medverkade 166 chefer på mellannivå inom SLL (Stockholms Läns Landsting).

Grundförutsättningen för ökad validitet genom korrektion för skönmålning är att måttet på skönmålning fungerar som en s k suppressorvariabel, dvs en variabel som korrelerar svagt eller negativt med kriteriet men positivt med testet. Så ser våra data faktiskt ut. I nedanstående figur har jag plottat resultaten från analys av medarbetares bedömningar av chefernas effektivitet i skilda avseenden. På x-axel validitet för varje skala och kriterium för okorrigerade data; på y-axeln motsvarande för korrigerade data.

Samma tendens fanns vi analyser av 360-gradersbedömningar utförda av kolleger och överordnade chefer. Korrektionen medförde en höjning av validiteten.

Detta är sista pusselbiten i validering av korrektionsmetodiken. Den fungerar, och det har nu dokumenterats i många avseenden.

Eftersom alla, utom de som säljer alla dessa test som inte kan hantera skönmålning, är övertygade om det är ett mycket allvarligt problem för alla självrapporttest att somliga testade försöker bluffa sig till en tätposition på testet - är detta äntligen en lösning på problemet.

Sunday, June 19, 2011

Kritik av personlighetstest del 1: Myers-Briggs

Syftet med denna lilla serie av blogg-inlägg är att kritiskt diskutera vissa mycket ofta använda personlighetstest. Först ut blir MBTI, Myers-Briggstestet, använt i många sammanhang som vid anställningar, "team building", rådgivning etc.

Det finns många kritiska analyser av detta test, som ytterst bygger på Jungs typlära. En kortfattat, populärt skriven och glasklar artikel har publicerats av professor David J. Pittenger, klicka här.

Jag citerar ur hans slutsatser:

"In summary, it appears that the MBTI does not conform to many of the basic standards expected of psychological tests. Many very specific predictions about the MBTI have not been confirmed or have been proved wrong. There is no obvious evidence that there are 16 unique categories in which all people can be placed. There is no evidence that scores generated by the MBTI reflect the stable and unchanging personality traits that are claimed to be measured. Finally, there is no evidence that the MBTI measures anything of value.

...

"

The MBTI reminds us of the olvious truth that all people are not alike, but then claims that every person can be fit neatly into one of 16 boxes. I believe that MBTI attempts to force the complexities of human personality into an artificial and limiting classification scheme. The focus on the "typing" of people reduces the attention paid to the unique qualities and potential of each individual.

Many readers may be surprised by my interpretation and objections to such a popular test. It has been my experience that this reaction stems from how they view the MBTI. In many cases, the popularity of the instrument is interpreted as an indication of its accuracy and utility, which then leads to wider use and less inclination to question the foundations of the test. As a consequence, the MBTI has become a popular instrument for reasons unrelated to its reliability and validity.

The publishers do a very good job of promoting the test and providing support for its users. The MBTI also has much intuitive appeal. The descriptions of each type are generally flattering and sufficiently vague so that most people will accept the statements as true of themselves. If you tell people that they are "innovative thinkers and good problem solvers, and good at understanding and motivating people, but may have trouble following through on details of a project," they will believe that the statement is an accurate description of themselves regardless of the truth of the statement.

Because of its apparent simplicity, the MBTI may be misused unintentionally by some people. A manager, for example, may come to believe that only certain personality types are appropriate for specific jobs. After learning about type, such a manager may conclude that only ISTJs make good accountants whereas the best people for the sales force will be the ESFJs. Thus, the type label may bias a manager's decisions on hiring, firing, evaluating, and promoting. Similarly, employees may use type labels inappropriately. Thus, one might feel that "She's an INFP, so I will never be able to work with her on an assignment," or that "I'm an ESTP and don't do well when it comes to details."

Några källor till ska nämnas i korthet. Garner och Martinko (1996) fann inga tydliga bevis för att MBTI hade någon relation till arbetsresultat. Pittinger (2005) påpekar att MBTI inte ger någon information utöver vanliga Big Five-test, men behandlar denna information på ett ineffektivt sätt (och vilseledande, kan man tillägga).En mycket upplysande diskussion av MBTI - och många andra test - finns också i en bok av Paul (2004).

Referenser

Gardner, W. L., & Martinko, M. J. (1996). Using the Myers-Briggs Type Indicator to study managers: A literature review and research agenda. Journal of Management, 22(1), 45-83.

Paul, A. M. (2004). The cult of personality. How personality tests are leading us to miseducate our children, mismanage our companies, and misunderstanding ourselves. New York: Free Press.

Pittenger, D. J. (1993). The utility of the Myers-Briggs Type Indicator. Review of Educational Research, 63(4), 467-488.

Pittenger, D. J. (2005). Cautionary comments regarding the Myers-Briggs Type Indicator. Consulting Psychology Journal: Practice and Research, 57(3), 210-221.

Sjöberg, L. (2005). En kritisk diskussion av Myers-Briggs testet. Organisational Theory & Practice. Scandinavian Journal of Organisational Psychology, 15(1), 21-28. Klicka här.

Sunday, May 15, 2011

Svårigheter att dokumentera testvaliditet inom STP:s system för testgranskning

STP (Stiftelsen för Tillämpad Psykologi) har tagit på sig uppgiften att kvalitetsgranska psykologiska test. Ett viktigt inslag i denna granskning är att bedöma värdet av testens validitet. Det finns, troligen delvis på grund av STP:s verksamhet, en ganska utbredd skepsis mot test, alldeles för stor enligt min mening. Företrädare för STP talar ofta i media om "dåliga" eller "tvivelaktiga" test. Det låter trovärdigt, tills man sätter sig in i de metoder de använder för att värdera test. Dessa är nämligen missvisande. Här är en lista på svagheter i deras bedömningsgrunder som gäller validering av test i förhållande till externa kriterier:

•1. Man har satt upp ett godtyckligt krav på minst 100 personer i stickprovet – kan sällan uppfyllas. Om n<100 är det enligt STP ”en inadekvat studie”. Det här kravet är direkt avskräckande för dem som vill validera sina test.

•

•2. STP gör en starkt missvisande beräkning av testets validitet som median av korrelationer mellan testskalor och kriterier – men olika skalor fungerar ju för olika kriterier (innehållsmatchning). Värdet av testet är något helt annat än medianen av värdet av enskilda testskalor.

•

•3. Det är mycket oklart om STP anser att korrektion ska göras för mätfel i kriteriet och beskuren spridning i testet, och i så fall hur. Traditionell metodik för korrektion för beskuren spridning (Thorndikes Case II) bygger på ett antagande om explicit selektion, som är orealistiskt och ger för svag effekt. Numera kan man göra korrektionen med bättre metodik (Men STP har haft samma kriterier sedan 2002). Korrektion är helt nödvändig för att man ska få en rättvisande bild av testets validitet.

•Begreppsvalidering görs ofta genom att beräkna samband mellan testvariabler och andra variabler som antas mäta samma begrep. Det är då nödvändigt att korrigera för mätfel i båda variablerna – detta godtar troligen inte ST. Exempel: UPP-testets 16 skalor hade en begreppsvaliditet på i genomsnitt 0.68, men före korrektion på 0.54. Förklarad varians var alltså ca 50 % högre efter korrektion för mätfel, en väsentligt bättre bild av testet!

•

•Intrycket om ”dåliga test” har alltså troligen till stor del sin grund i orealistiska krav och användning av ineffektiv metodik för att uppskatta styrkan på samband mellan test och kriterier. Det handlar om en systematisk undervärdering av testen, och större öppenhet för kritiska synpunkter och aktuell utveckling inom psykosmetriken vore av stort värde.

Saturday, May 14, 2011

Validitet mot polisens lönekriterier

Daniel de Colli har i en D-uppsats vid Mälardalens högskola rapporterat en noggrann undersökning av UPP:s validitet mot polisens lönekriterier (n=100 anställda), se uppsatsen här. Resultaten är mycket positiva för testet. Validitet mot sammanslagna lönekriterier var r = 0.48, för produktivitet 0.50 och för social förmåga 0.38. Mot ett objektivt mått på arbetsresultat, antal hållna förhör under 1 år, var sambandet = 0.54. Resultaten bygger på ett index med "bästa variablerna", nämligen emotionell stabilitet, samarbetsvilja, positiv attityd, perfektionism och arbetsvilja. Dessa variabler hade visat sig vara de mest lovande i en tidigare studie, varför de Collis undersökning har korsvaliderat dessa resultat. Dessutom bekräftade de Collis undersökning värdet av proxyvalidering. UPP-testets validitet har alltså återigen visat sig ligga i närheten av begåvningstest.

Referens

de Colli, D. (2011). Ett nytt svenskt arbetspsykologiskt test och arbetsprestation inom polisen – samtidig validitet: Mälardalens högskola, Akademin för hållbar samhälls- och teknikutveckling. Klicka här.

Saturday, May 7, 2011

UPP-testets validitet mot kundservice

I denna studie undersöktes UPP-testets validitet gentemot förmansbedömningar i en grupp anställda i Customer Service vid ett finansbolag. Testet visade sig ha god psykometriska egenskaper i nivå med tidigare erfarenheter. Data hade god kvalitet men det fanns en tendens till skönmålning. Gruppen visade i genomsnitt höga värden på resultatorientering och förändringsvilja, något lägre i arbetsintresse. De testade personerna bedömdes av cheferna med hjälp av att omfattande bedömningsformulär (40 variabler), som med komponentanalys kunde reduceras till tre kriterievariabler, som alla kunde mätas med mycket god precision. Validiteterna för de tre kriteriedimensionerna Värde för företaget, Effektivitet och Social funktion var 0.66, 0.52 och 0.40 efter korrektion för mätfel och beskuren spridning. Analys av proxykriterier (arbetsmotivation och liknande attitydskalor) gav liknande resultat (mediankorrelationer 0.29-0.59). Data tyder på att proxykriterierna kan ersätta förmansbedömningar vid testvalidering, eftersom de två serierna av validitetskoefficienter var starkt relaterade (r = 0.65). Korrektion för skönmålning medförde en viss sänkning av validiteten gentemot förmansbedömningen, men denna nackdel måste vägas mot de stora effekter på individnivå som korrektionen ger: de som ”bluffat” har inte längre en fördel av det.

Läs hela rapporten här.

Saturday, April 30, 2011

360 degrees judgments as criteria of a personality test

In a current project we tested 166 middle level managers in health care with the UPP test (Sjöberg, 2010). 360 degrees dimensions (Arvonen, 2002) were related to the dimensions derived from the test. Results:

*Correlations between 360-degrees judgments of managers and matching UPP* test variables (N=166), corrected for measurment errors in the criteria and range restriction due to indirect selection**
	360 degrees judgment dimensions
Judges	Relations	Structuring	Change
Superior manager	0.66	0.21	0.39
Colleagues	0.65	0.26	0.38
Direct reports	0.66	0.40	0.51
Self judgment	0.52	0.37	0.64

The test had a very high level of validity in these data, both in relation to the external criteria provided by independent judges of 3 types and levels, and self judgments.These values are somewhat unique for a personaliy test, but see also Hogan and Holland (2003) about the need to matcg predictors and criteria content-wise, an example of an old principle in psychological research (Sjöberg, 1980).

It is interesting to note that "Structuring" is not quite as strongly related to personality as the other two dimensions, which may be because that dimensions reflects more of "can do" aspects than "will do". It should therefore be related more strongly to ability. Note that personality as measured by the UPP test is unrelated to ability, implying that a combination of personality and ability should be ideal for prediction.

Note that the correlations have NOT been increased by applying an exploratory multiple regression model, a common enough trick.

A state-of -the-art article on correcting for measurement errior and range restriction is Hunter, Schmidt & Lee (2006).

References

Arvonen, J. (2002). Change, production and employees. An integrated model of leadership. Stockholm: Department of Psychology, University of Stockholm.

Hogan, J., & Holland, B. (2003). Using theory to evaluate personality and job-performance relations: A socioanalytic perspective. Journal of Applied Psychology, 88(1), 100-112.

Hunter, J. E., Schmidt, F. L., & Le, H. (2006). Implications of direct and indirect range restriction for meta-analysis methods and findings. [doi:10.1037/0021-9010.91.3.594]. Journal of Applied Psychology, 91(3), 594-612.

Sjöberg, L. (1980). Similarity and correlation. In E.-D. Lantermann & H. Feger (Eds.), Similarity and choice (pp. 70-87). Bern: Huber.Click here.

Sjöberg, L. (2010). A third generation personality test. Stockholm: Psykologisk Metod AB. Click here.

Friday, April 22, 2011

SIOP 2011 comments: Soldier recruitment

A major project in the US Army involves a new personality test, Tapas. This is a Big Five test with a combination of ipsative and normative formats which should make it less vulnerable to faking, although this has yet to be proven. A very interesting finding was that mental ability, or g, was an important predictor for "can do" criteria, while personality was important for "will do" criteria (around 0.2, probably not corrected for measurement error and restriction of range). The debate on how to weight g and personality must clearly take into account what is to be predicted. It is striking how much more important personality, even constrained to the ineffective Big Five framework, is with regard to "will do" criteria. Just what personailty dimenions are important is a matter of concern. Traditional military psychology, based as it was on WW II experience, said emotional stability, if combat effectriveness was a criterion and studied in real-world applications (war). Current work emphasizes conscientiousness as it is a dominating dimension in civilian and and peacetime applications, and perhaps even peaceful, settings. Will conscientiousness really help in high-stakes and threatening situations?

The Swedish Government has recently decided to create a professional army, where soldiers will get a small but decent salary. (SEK 16 500 per month). So far, the program is hugely popular with some 22 000 applicants for about 2000 openings. This means a selection ratio of 10 % which should make screening testing very feasible and effective. Values, held to be very important and measured in another US Arny project, can be measured by the proxy dimensional of emotional inteligence (EI) (self report).We have a wealth of data showing this. The second Army project uses another new personality test, GAT, (see earlier blog entry) but it sems to lack a reltionship to Tapas. No such studies were mentioned (and nobody asked). The GOT test is, by the way, kept secret and item formats and content are not disclosed, measring such things a spiritutal value sand justice seems to be a real challenge.

Check out these for the promise of a proxy measure of values:

Engelberg, E., & Sjöberg, L. (2005). Emotional intelligence and interpersonal skills. In R. D. Roberts & R. Schulze (Eds.), International handbook of emotional intelligence (pp. 289-308). Cambridge MA: Hogrefe.
Click here.

Engelberg, E., & Sjöberg, L. (2006). Money attitudes and emotional intelligence. Journal of Applied Social Psychology, 36(8), 2027-2047. Click here.

Engelberg, E., & Sjöberg, L. (2007). Money obsession, social adjustment, and economic risk perception. Journal of Socio-Economics, 36(5), 689-697. Click here.

Alternatively, write an e-mail to get reprints, write to lennartsjoberg@gmail.com

Saturday, April 16, 2011

Comments on SIOP 2011: Narrow vs broad traits

The tremendous interest in Big Five factors has not resulted in improvements of personality tests in the sense of increased validity. The reason is that the five factors all have no or only very modest validity in relation to job performance. Very extensive research, summarized in dozens of meta analyses, document this fact. There is now growing consensus about the need to develop and use measures of "narrow traits" in order to increase validity.

Some of these narrow traits are found among the facets of the Big Five, others not. The principle guiding the search for an improved basis of testing are seldom found in theory, but in common-sense thinking about what traits one could expected to be of importance with regard to important criteria, such as psychopathy in the case of counter-productive behavior. Other examples are emotional intelligence and affect. The Big Five cannot account for more than a minor share of the variance of any of the narrow traits.

In order to get improved personality tests there is a need for tests which complement the Big Five with a number of narrow trait scales which are focused on job functionality. Some can be found among the facets, others not. There is a need to limit the narrow trait scales in order to make test validation and test interpretation practically manageable. The illusory richness of tests having 30-40 subscales creates merely a feeling of understanding the tested person, a feeling which is a reflection of a well-known tendency to over-estimate the value of information, if there is more information.

The feeling that the Big Five somehow constitute a final answer to personality and personality testing is fading. The sooner that belief is abandoned, the better it is.

Comments on SIOP 2011: Faking on personality tests

The issue of faking is alive and well. Several sessions at the 2011 SIOP are devoted to it. Nobody or very few deny that faking occurs and that it can affect the outcome of a test, sometimes severely so. It is also realized that faking greatly hurts the credibility of personality testing. Non-experts test users simply are convinced that the test takers often fake good in a high-stakes situation, such as when they apply for a very desirable job or admittance to a prestige school.

It is clear that faking reduces the validity of personality tests, if left uncorrected. The effect can be very substantial. Meta analyses of the validity of personality tests tend to be based on data from incumbents, since job performance (criterion) data cannot normally be obtained from all applicants, and applicant scores are only correlated about 0.5 with incumbent scores. Hence, faking makes the data used in meta analyses of doubtful relevance to the question of test validity.

The most important of the Big Five factors, conscientiousness, is the one most affected by faking. It is also clear that the group of fakers, while heterogeneous, may contain some people who are risky to hire. Ignoring faking comes with great risks for the test users.

What can be done?A powerful alternative is to measure social desirability (SD) and use and SD scale to correct other scales for faking, to the extent hat they correlate with SD (not all scales do and correlations vary strongly in the typical case).The procedure has been validated both in experimental and field work.

There are a few objections, however.

1. SD scales are said to measure "personality". It is somewhat unclear what this means and why it is an argument. SD scales to have correlates with many other dimensions and they also have a certain amount of consistency over time and situations. So what? They can still measure faking at any given time.

2. There are several SD scales and they do not measure the same thing. The best known scales do have high intercorrelations, however.

3. You cannot detect who is a faker. Well, you can to some extent, albeit not perfectly, but who said that psychometrics ever comes up with perfect solutions?

4. Some people fake bad. This can be detected, but is not a major problem. Few people fake bad in a high-situations where they have applied for a desirable job.

Some commercial test suppliers and their agents try to solve the problem of faking by denying that it exists. This is not a credible statement. Since the future of personality testing is probably dependent on there being a solution to the faking problem - why not use the solution described here? It works.

Friday, April 15, 2011

Comments on SIOP 2011: Emotional intelligence

Yesterday's panel discussion of EI attracted a huge crowd, which certainly confirmed the statement of one of the panelists, that interest in EI is strong and steadily increasing. The panelists, all well-known researchers in the field, gave a good over-view of the field and agreed that the term should only be used for performance-based measures, not for so-called mixed models (read the Bar-on test). However, the major test of performance EI is the MSCEIT which has NO incremental validity in accounting for job performance, while mixed-model approaches do have such utility. So, why bother about performance EI, for other than theoretical purposes? It can be said that "we do not know what mixed-model tests of EI measure". This is true for such tests as the Bar-On (often used in Sweden) which indeed seem not to measure anything beyond the Big Five, or very little.

Tests can be devised which measure self-assessed EI, and they do make important contributions, admittedly for unclear reasons. Here is a promising topic for research. Meanwhile, they can be used in practical work. Worry about "faking" need not be a concern since scores can be adjusted for this bias factor with the help of one or more measures of social desirability - such adjustment is clearly necessary, by the way.

It is also interesting that performance and self-assessed EI have similar correlates such as age and gender so there is SOME evidence for a relationship, in spite for the very low within-group correlation.

In addition, work in my group has shown clear relationships between self-report EI and values: people with low EI in this sense tend to be materialistic, egoistic, and perhaps even manipulative. It is, reverse scored, a "dark side" measure of such attitudes and motivations, and could function as a good proxy measurement of them.

As a final comment, why continue work on performance EI if it offers so little of practical value? Sure, there are logical reasons it should have priority to the term EI, but that seems a remote advantage.

Monday, March 14, 2011

Ny proxyvalidering

Idén med proxyvalidering är att man relaterar sina testskalor till data på proxykriterier, som i sin tur är dimensioner av typ arbetsmotivation. Om de senare vet man att de har stabila och relativt höga samband med arbetsresultat eller andra viktiga dimensioner. Proxyvaliditeten är information om validitet hos ett test som är snabb att uppskatta och har man mätning av proxykriterierna inbakade i sitt test (vilket UPP har, men inga andra såvitt bekant) kan man rutinmässigt och utan extra kostnader göra studier av validiteten hos de test man använder, alltså även för test som INTE har proxykriterierna inbakade.

Jag har genomfört ett antal studier där jag DESSUTOM har haft tillgång till ett konventionellt externt kriterium i form av mått på arbetsresultat. Då har jag alltså kunnat uppskatta också validiteten av konventionellt slag. Resultatet har varit att proxyvaliditeten gett ungefär samma bild av testskalornas validitet som sambandet mellan dessa och det externa kriteriet.

I en pågående studie har jag undersökt "livsframgång" som kriterium. Denna har jag mätt i 12 olika avseenden som slagits ihop till ett sammansatt mått och relaterats till UPP-testets skalor. Dessa skalor har även relaterats till ett sedvanligt proxykriterium. De två serierna av korrelationer har relaterats i nedanstående figur.

Bilden visar ett starkt samband mellan de två serierna av korrelationer, vilket ger ytterligare starkt stöd för idén om proxyvaliditet. Hittills har alla studier av frågan gett ett sådan stöd. Vi kan nu vara ganska säkra på att proxyvalidering ger en hyfsad bild av validiteten hops ett test eller, för den delen, av vilken information som helst. Det är ett snabbt, enkelt och billigt sätt att validera, något som annars tar lång tid och är svårt och dyrbart att genomföra.

Friday, March 4, 2011

Intervjuernas validitet

Vid anställningar spelar intervjuer en stor roll, helt naturligt. Men frågan är i vilken mån man kan lita på bedömningar på den grunden. De vanligaste intervjuerna är troligen av typen "djupintervjuer". Sambandet mellan bedömningar utifrån sådana ostrukturerade och psykologiskt spekulativa intervjuer är 0.15 enligt en stor meta-analys, se referens nedan. Härtill kommer att intervjuer är dyrbara, åtminstone jämfört med psykologiska tester. På sina håll har man en mycket stark tilltro till "djupintervjuer", men forskningen ger som sagt inget stöd för den tilltron.

Strukturerade intervjuer fungerar betydligt bättre, kanske för att alla intervjuade får samma frågor och svaren bedöms på ett systematiskt sätt. Men ändå kan man inte vänta sig att personbedömningar på den grunden är högt korrelerade med annan information, som testdata. Detta är bra på det sättet att intervjuerna ger ett oberoende tillskott, men oroande eftersom de två typerna av information inte begreppsvaliderar varandra.

Referens

McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Maurer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. [doi:10.1037/0021-9010.79.4.599]. Journal of Applied Psychology, 79(4), 599-616.

Wednesday, March 2, 2011

Värderingar och emotionell intelligens

Emotionell intelligens (EI) mäts på två sätt: självrapportskalor och prestation. Den förstnämnda metodiken har visat sig ge intressanta tillskott till andra personlighetsskalor och det är om sådana data som jag skriver här.

EI ansågs en tid vara en mycket viktig dimension i de flesta sammanhang i arbetslivet. Numera vet vi att den visserligen är av betydelse men också att den inte har så stort genomslag som man först trodde när det gäller arbetsresultat. Det finns emellertid en annan aspekt som är av vikt, nämligen sambandet EI - värderingar. Vi har funnit starka negativa samband mellan EI och värderingar som man gärna vill undvika i arbetslivet, nämligen en cynisk, manipulativ och materialistisk attityd.

Att mäta värderingar direkt kan vara svårt eftersom syftet genomskådas. Men har man en bra EI-skala kan den användas som ersättning (proxy) för värdeskalor. Värderingar är viktiga i arbetslivet. Därför kan man med fördel använda sig av EI i personlighetstest.

Referenser

Engelberg, E., & Sjöberg, L. (2005). Emotional intelligence and interpersonal skills. In R. D. Roberts & R. Schulze (Eds.), International handbook of emotional intelligence (pp. 289-308). Cambridge MA: Hogrefe. Klicka här.

Engelberg, E., & Sjöberg, L. (2006). Money attitudes and emotional intelligence. Journal of Applied Social Psychology, 36(8), 2027-2047. Klicka här.

Engelberg, E., & Sjöberg, L. (2007). Money obsession, social adjustment, and economic risk perception. Journal of Socio-Economics, 36(5), 689-697. Klicka här.

Sjöberg, L. (2001). Emotional intelligence: A psychometric analysis. European Psychologist, 6, 79-95. Klicka här.

Saturday, February 26, 2011

Balanserade personlighetsskalor

De flesta personlighetstest innehåller ett flertal skalor, och man har vinnlagt sig om att ha lika många item i varje skala. Detta kan verka rimligt, men vilka konsekvenser får det om de olika domänerna är olika väl sammanhållna? Man finner nämligen att det kan vara högst olika med den saken. En domän som emotionell stabilitet är väl sammanhållen, dvs korrelationerna mellan de olika testuppgifterna är ganska höga och det är ganska lätt att konstruera en reliabel skala med t ex 10 item. Emotionell intelligens är betydligt svårare för testuppgifterna har en tendens att inte korrelera så starkt. Vill man då ha lika hög reliabilitet som för emotionell stabilitet måste man ta med flera testuppgifter i den skalan och kravet med lika många uppgifter i varje delskala kan inte uppfyllas.

Men det finns en frestande utväg som får mig att tänka på gångna tiders Guttmanskalor för attitydmätning. Guttmans krav på en attitydskalla var extremt höga och kunde uppfyllas enbart om man använde frågor som var semantiskt överlappande, alltså mycket lika. Följden blev att skalorna var alldeles för specifika. Samma sak händer med personlighetstest om man väljer uppgifter som är semantiskt överlappande. Likhet och korrelation tenderar ju att gå hand i hand. Skalorna blir snyggt balanserade men validiteten ytterst olika och risken är stor att den blir låg för de skalor som gjorts för att mäta svagt sammanhållna domäner.

Referens

Sjöberg, L. (1980). Similarity and correlation. In E.-D. Lantermann & H. Feger (Eds.), Similarity and choice (pp. 70-87). Bern: Huber. Klicka här.

Friday, January 28, 2011

Personlighet och begåvning som prognosfaktorer

Det tycks vara en vanlig uppfattning bland arbetspsykologer att personlighet bara har en svag korrelation med arbetsresultat, medan däremot begåvning har stor betydelse. Det är en myt, som troligen har sin upprinnelse i en mycket ofta åberopad meta-analys av Schmidt och Hunter (1988).Påståendet om betydelsen av begåvning är väl underbyggt av empiriska resultat, men inte delen om personlighet.

Schmidt och Hunter skriver nämligen inte om test utan om - endast en - personlighetsdimension: noggrannhet. Det är helt riktigt att denna dimension, som fungerar bäst av Big Five enligt många meta-analyser, bara har en korrelation på ca 0.25 med arbetsresultat (något högre med utbildningsresultat). Men det betyder inte att personlighetstest har lika svag prognoskraft. Självrapporttest med fokuserade testskalor kan läggas till grund för index som når en validitet på 0.5+, vilket är nästan lika högt som begåvning (Sjöberg, 2010). (Siffran gäller efter korrektion för mätfel i kriteriet och begränsning av variationen i testet).

Big Five-test kan emellertid inte nå denna nivå så länge de håller sig till de övergripande fem faktorerna. En studie av ledarskap av Judge et al. (2002) tycks stöda Big Five, men deras slutsatser bygger på att de använt meta-analytiska uppskattningar av korrelationerna mellan Big Five-skalorna, som sedan starkt ifrågasatts (de är alldeles för låga).

Givetvis är det ofta lämpligt att använda personlighets- och begåvningstester parallellt. Men hur ska de i så fall vägas samman? Det finns inga stöd i data för en kraftigt större vikt för begåvning. Kanske bör de få ungefär lika vikt. Men det är inte säkert att man vill kompensera svagheter på personlighetssidan, t ex låg emotionell stabilitet, med hög intelligens när man väljer chefer. Det verkar inte ens troligt att så skulle vara fallet. En bättre lösning är då troligen att arbeta med minimikrav i båda avseendena, men utformningen av beslutsregler kräver i så fall mera forskning. För personer som uppfyller minimikraven i fråga om både personlighet och begåvning kan en kompensatorisk sammanvägning vara lämplig.

Detta har handlat om självrapporttest för personlighet. Dessa upplevs "ligga på ytan" och man vill ofta gå under ytan för att upptäcka eventuella brister som gränsar till psykopatologi. Då används projektiva test som Rorschach, Hjuletmetoden och DMT, men dessa har aldrig kunnat övertygande dokumenteras som prognosfaktorer i arbetslivet. Däremot finns tydliga resultat som länkar självrapporttest till kliniska syndrom och missbruksproblematik (Kotov et al., 2010). Troligen kan man nå ännu längre också här genom att arbeta med fokuserade - och inte alltför abstrakta och spekulativa/fantasifulla - skalor av typ narcissism och social rädsla. Sådana lösningar finns idag operationella och är att föredra framför teoretiskt grundade och abstrakta dimensioner. Teoretisk grund låter bra, men det måste vara bra teorier. Annars leds psykologen ut i en ökenvandring. .

Referenser

Judge, T. A., Bono, J. E., Ilies, R., & Gerhardt, M. W. (2002). Personality and leadership: A qualitative and quantitative review. Journal of Applied Psychology, 87(4), 765-780.

Kotov, R., Gamez, W., Schmidt, F., & Watson, D. (2010). Linking “big” personality traits to anxiety, depressive, and substance use disorders: A meta-analysis. [doi:10.1037/a0020327]. Psychological Bulletin, 136(5), 768-821.

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274.

Sjöberg, L. (2010 a). A third generation personality test (SSE/EFI Working Paper Series in Business Administration No. 2010:3). Stockholm: Stockholm School of Economics.

Sjöberg, L. (2010 b). Personlighetsdimensioners validitet i arbetslivet: teorier och empiri (SSE/EFI Working Paper Series in Business Administration No. 2010:6). Stockholm: Stockholm School of Economics.

Sunday, January 16, 2011

"Psychosocial fitness" enligt amerikanska armén: GAT-testet

Den amerikanska armén arbetar med ett nytt och stort upplagt program för att utvärdera och utveckla soldaters "fitness", varmed kan förstås "lämplighet". När det gäller utvärdering har de tagit fram ett självrapport-instrument som ganska mycket liknar ett vanligt personlighetstest, men som har vissa skillnader från ett sådant, se Paterson et al.(2011). Bakgrunden är positiv psykologi och någonstans i tänkandet finns observationen att det är lättare att göra en prognos av klart misslyckande än av stor framgång. Intressant.

Paterson et al. diskuterar inte alls personlighetstestning och nämner inte ens "Big Five" och all valideringsforskning som fyllt tidskrifterna de senaste 20 åren. Ganska märkligt.

Deras eget test mäter en del välbekanta dimensioner, men i två avseenden blir man rejält nyfiken: "andlig lämplighet" och "karaktärsstyrkor". Den andliga lämpligheten tycks handla om sådant som att uppleva en mening med livet och sägs vara konfessionellt neutral. Karaktärsstyrkorna är:

Vishet
Mod
Medmänsklighet
Rättvisa
Måttlighet
"Transcendence" (svårt att förstå vad de menar, kan betyda översinnlighet eller överlägsen funktion)

Hur mäter man sådant som "mod" och "vishet"? Mod tycks onekligen testkonstruktörerna ha visat...

Frågan är om dessa dimensioner har validitet i förhållande till kriterier som de nämner: depression, missbruk mm, och livskvalitet. De nämner ytterst lite om vilka resultat de fått i det avseendet. Som personlighetstestare är man ju något luttrad när det gäller värdet av diverse i början löftesrika nya dimensioner. Man kan ju också undra om inte valet av kriterier bör göras bredare. Vidare kan konstateras at de är medvetna om problemet med skönmålning men som så många andra går de över det med lätt hand. Datakvalitet, "face validity" och emotionella aspekter på testningen tar de inte alls upp. Inte heller tycks de planera att undersöka om deras test ger något tillskott till befintliga test.

Det ska bli spännande att se hur detta nya test kommer att utvecklas och om det kommer att användas i stor skala. Det senare har ju redan påbörjats och resurserna är förstås gigantiska.Vi kommer att få höra mycket om GAT.

Referens

Peterson, C., Park, N., & Castro, C. A. (2011). Assessment for the U.S. Army Comprehensive Soldier Fitness program: The Global Assessment Tool. American Psychologist, 66(1), 10-18.

Friday, January 7, 2011

Normgrupper

Hur stor måste en normgrupp för ett personlighetstest vara? Många testproducenter rapporterar mycket stora, kanske t o m representativa för populationen, grupper. En noggrann diskussion av frågan kom först nyligen med ett arbete av Tett et al. De finner att normgrupper knappast behöver vara större än N=300 och att även ett så lågt värde som N=100 ger tillfredsställande precision.

Andra överväganden än storleken är lika viktiga, eller viktigare. Normdata bör komma från en relevant jämförelsegrupp, t ex chefer eller chefskandidater. Vid testanvändning för urval ska normdata samlas in i skarpt läge, vid rådgivning och utveckling i oskarpt läge. Normer kan t o m behöva vara helt lokala, t ex för att visst företag. I normalfallet bör man utveckla nya och mera precisa normdata allt eftersom erfarenheten av ett test växer när det tillämpas i praktisk verksamhet.

Tett et al. har gjort en viktig insats. Alla testutvecklare har givetvis känt till att man måste ha en normgrupp, men hur stor den måste vara har varit oklart. Kravet på stora grupper har troligen verkat hämmande på utvecklingen och användningen av nya, specialanpassade normer.

Referens

Tett, R. P., Fitzke, J. R., Wadlington, P. L., Davies, S. A., Anderson, M. G., & Foster, J. (2009). The use of personality test norms in work settings: Effects of sample size and relevance. Journal of Occupational and Organizational Psychology, 82(3), 639-659.

Thursday, January 6, 2011

Meta-analysens risker

Meta-analyser är numera mycket vanliga och åbropas ofta som stöd i jakten på evidens, t ex för psykologiska tester. Detta är i stort sett sunt, men det har sina risker. Som exempel tar jag en aktuell och mycket ambitiös genomgång av forskningen kring personlighet och militär flygutbildning, se referens nedan.

Campbell et al. försöker ge en heltäckande bild av området. Kan personlighetsvariabler predicera utfallet av militär flygutbildning? De finner att bara ett fåtal variabler har studerats i tillräckliga många publikationer. Det är främst extraversion och neuroticism som det handlar om. Båda har i snitt en svag men tydlig korrelation med kriteriet godkänd/icke godkänd, på nivån 0.10 - 0.20. Det är jämförbart med meta-analyser av femfaktormodellen inom andra områden, kanske något lägre. Campbell et al. är försiktiga när det gäller slutsatser för praktisk urvalsverksamhet, men säger att mera reliabla (läs längre) tester skulle kunna vara av värde, och det är allt! De menar också att inkluderande av mått på skönmålning kanske skulle kunna höja validiteten men citerar inga resultat i det avseendet.

Vad de därremot inte tar upp är att frågan om tester till skillnad från dimensioner. Tester mäter oftast många dimensioner och dessa sammanvägs när man försöker göra prognoser. Givetvis är det relevant att undersöka validiteten hos enskilda dimensioner, men det säger ganska lite om hur bra dessa dimensioner är i praktiskt arbete. Meta-analyser inbjuder till en simplistisk analysnivå av den typ som Campbell et al. ger ett bra exempel på. Tester är troligen betydligt bättre än vad Campbell et al. ger intryck av, om man använder dem för att bilda relevanta index som består av flera dimensioner. I valideringsarbete måste man undersöka värdet av index för att inte hamna i helt missvisande slutsatser. Campbell et al. hade troligen inte som syfte att undersöka validiteten hos tester, men läser man denna typ av meta-analys utan eftertanke missar man lätt distinktionen mellan tester och dimensioner.

Detta tror jag är den största risken med meta-ananlys inom området. En annan risk är att innovationers genomslag - i sig en långsam process - bromsas upp. Det tar mycket lång tid innan en ny idé har lett till tillräckligt många publikationer för att kunna läggas till grund för en meta-analys, troligen minst 10 år. och sedan tar det ytterligare några år innan analysen kommer i tryck. Ett,. kanske extremt, exempel är det svenska DMT, som funnits sedan 60-talet och använts i praktiskt arbete nästan lika länge. Campbell et al. nämner faktiskt DMT (som de tror är ett norskt test!) men går förbi detta och andra projektiva tester utan motivering. DMT anses av ganska många psykologer ha stort praktiskt värde och borde diskuteras i sammanhanget, de ganska få studier som finns har gett en splittrad bild som är ganska förvirrande. Kanske kom den forskningen inte med därför att den är för lite omfattande, ännu efter 40 år...

Referens

Campbell, J. S., Castaneda, M., & Pulos, S. (2010). Meta-analysis of personality assessments as predictors of military aviation training success. International Journal of Aviation Psychology, 20(1), 92-109.

Sidor