Psychological testing and psychometrics

Artikel om psykologiska tester

2015-05-27T00:06:00.004-07:00

Klicka här för en intressant artikel om psykologsiska tester!

http://www.lag-avtal.se/tidningen/article3908139.ece

Någar av de tester som särskilt tas upp vill jag kommentera.

Intressanta detaljer: att Myers-Briggs används för urval, vilket ju inte stämmer med forskningen och såvitt jag kan förstå inte heller med leverantörens intentioner. Se http://www.vox.com/2014/7/15/5881947/myers-briggs-personality-test-meaningless

Intressant är också kommentaren om OPQ ("upprepade frågor"). Efter att ha använts många år i stor skala i vårt land kan man misstänka uttröttning och också ökad skönmålning - man lära sig vilka svar som är opportuna. För ett exempel, se aktuella resultat med OPQ-testet som snarast ligger under den traditionella testvaliditeten från 1960-talet (Brown & Bartram, 2009).Om upprepade testningar, se också http://digitalcommons.ilr.cornell.edu/cgi/viewcontent.cgi?article=1328&context=articles&sei-redir=1#search=%22effects%20repeated%20testings%20personality%20tests%22

FFM-modellen har inte gett uppmuntrande resultat när det gäller validitet i arbetslivet.Meta-analyser av FFM-test har gett mycket svaga resultat (Morgeson et al., 2007a, 2007b), med validiteter (korrelation med arbetsresultat) högst på nivån 0.25, i de flesta fall betydligt lägre.

Referenser

Brown, A., & Bartram, D. (2009). Development and psychometric propertioes of the opq32r. Supplement to the opq 32 technical manual: SHL.

Morgeson, F. P., Campion, M. A., Dipboye, R. L., Hollenbeck, J. R., Murphy, K., & Schmitt, N. (2007a). Are we getting fooled again? Coming to terms with limitations in the use of personality tests for personnel selection. Personnel Psychology, 60, 1029-1049.

Morgeson, F. P., Campion, M. A., Dipboye, R. L., Hollenbeck, J. R., Murphy, K., & Schmitt, N. (2007b). Reconsidering the use of personality tests in personnel selection contexts. Personnel Psychology, 60, 683-729.

Testforskning

2014-08-28T07:59:00.000-07:00

Det görs ytterst lite forskning om test i vårt land. Det beror säkert inte på att det inte behövs. Skälet är nog snarast att aktörerna som säljer test nöjer sig med vad de har eller importerar produkter från, i första hand, USA. Den forskning som görs möts också med skepsis, enligt min erfarenhet. Det krävs publicering.

Publicering är mycket sällsynt i branschen i vårt land. Det kan finnas flera skäl som brist på resurser och kompetens, men även mycket stora aktörer arbetar inte med publicering i nämnvärd grad. Ännu ett skäl kan vara att det kan vara svårt att få ett säljande format för vetenskapliga tidskrifter om man bara redovisar utvecklingsarbete. Kanske har det också bedömts att kunderna är svalt intresserade av publiceringsaspekten.

Det är beklagligt att jakten på någon form av vetenskaplig legitimering numera hamnar i att man hävdar att man har ett "Big Five"-test, och man verkar betrakta Big Five som det slutliga svaret på personlighetens struktur. Men sanningen är att det inte finns någon teori värd namnet bakom Big Five och att i praktiken ger Big Five-test mycket svaga resultat med låg validitet och låg prognostisk effektivitet.

Marknadsföring av testinstrument

2014-08-25T07:06:00.000-07:00

Psykologer vet att mänskligt beteende inte går att förutsäga annat än till en viss, oftast ganska blygsam, del. Om förutsägelsen ska baseras på test blir den sämre än om man tar hänsyn också till annan information. Dessa enkla och väl dokumenterade principer bryter aktörer inom testbranschen mot när de påstår att de kan gör "absolut säkra" prognoser. Frågan är om de har någon trovärdighet. När de dessutom lägger till att de har "världens bästa test" - inte lätt att bevisa - torde de bryta mot regler och lagar för marknadsföring som säger att man inte får ge felaktig och vilseledande information.

Hurdan är en bra säljare?

2014-03-31T01:00:00.001-07:00

Jag hade nyligen nöjet att träffa en mycket duktig säljare. Han var/hade

socialt säker
kunnig på ämnesområdet
lyhörd inför vad människor säger
villig att ta till sig kritik och alternativa uppfattningar utan att försvara sig med näbbar och klor
inriktad på vilka kundens behov är
snabb på att svara på frågor, e-post eller annat sätt
tillgänglig
trevlig men absolut inte inställsam
måttligt hög narcissism

Självklart? Inte alls. Tänk på alla misslyckade telefonförsäljare...

Tänk också på alla test som bygger på indirekta, "subtila" dimensioner, om Thomastestet, Service First och MBTI. UPP-testet klarar det här.

Vi har de test vi vill ha...

2014-02-10T06:44:00.000-08:00

Ibland har jag undrat över varför så många användare fortsätter att använda test med en validitet som är okänd, eller vars validitet är känd att ligga omkring noll. Det är en gåta. Ett skäl kan vara att användare helt enkelt inte känner till att man ska ställa krav på validitet, inte vet vad det är, och inte ens förstår vad en korrelationskoefficient är. Ett annat och lite intressantare skäl är att man vill ha test som ger diffusa resultat. Testet ger information som kan tolkas lite som man vill, så man är helt fri att dra de slutsatser man önskar. Ett exempel är MBTI, som bygger på Jungs luftiga spekulationer och mäter dimensioner vars betydelse för arbetslivet ingen har kunnat dokumentera. Men det verkar spännande! Alla har vi en liten amatörpsykolog i oss, och vi smickrar oss själva genom att tro att vi kan förstå människor, skåda in i själens djup, och gör träffsäkra prognoser. Ju mera information vi får, desto säkrare känner vi oss på vår sak - det får gärna vara 30-40 personlighetsskalor. Ingen kan dra vettiga slutsatser utifrån sådan information, särskilt som testkonstruktören säger: "Inget är bra eller dåligt, allt måste tolkas av testanvändaren". Populärt nonsens!

Big Five, skönmålning mm

2014-02-02T01:21:00.000-08:00

DN har den 2 februari en sida om personlighetstestning. Störst utrymme får Anders Knutsson, psykolog vid Assessio. Han anser att det "finns fem egenskaper som avgör vilka förutsättningar du har för att lyckas bra på arbetsmarknaden". Dessa är de gamla vanliga "Big Five"; för Agreeableness använder han den missvisande översättningen Vänlighet. (Det är följsamhet det handlar om, något helt annat). Det är helt fel och många gånger motbevisat i forskningen att "Big Five" skulle vara valida prediktorer av arbetsresultat. Omfattande meta-analyser har visat att validiteten för 4 av de 5 dimensionerna ligger på 0.2 eller lägre; mycket låga samband. För den femte, samvetsgrannhet, ligger den omkring 0.25, också det ett mycket lågt värde och ingen förbättring sedan personlighetstest började användas omkring 1920. Inom vilken annan verksamhet skulle man acceptera avsaknad av förbättring på nästan 100 år? I vår forskning har vi med andra dimensioner än "Big Five" nått validiteter omkring 0.5.

Och så till frågan om man kan "fuska", vilket alla som använder sitt sunda förnuft genast inser. (Forskningen har visat detsamma, i mycket omfattande studier). Enligt Knutsson: ... "vi kan se att det svar som känns naturligt tror man är naturligt för andra också". Följer därav att man inte skönmålar om det är en viktigt testsituation? För det gör man! Knutsson lägger till: "Människor är dessutom väldigt ärliga vid direkta frågor". Hur trovärdigt är det?

Frekventa misslyckanden bland toppchefer

2013-08-31T03:02:00.000-07:00

En ny rapport, klicka här, om toppchefer i USA visar att 40% misslyckas, trots enorma löner (350 gånger högre än vanliga anställda) och gyllene fallskärmar (i snitt 48 miljoner dollar till dem som avskedats). De skriver:

"The lavishly compensated CEOs we spotlight here should be exemplars of value-added performance. After all, sky-high CEO pay purportedly reflects the superior value that elite chief executives add to their enterprises and the broader U.S. economy.
But our analysis reveals widespread poor performance within America’s elite CEO circles. Chief executives performing poorly — and blatantly so — have consistently populated the ranks of our nation’s top-paid CEOs over the last two decades."

En del av problemen torde bero på rekryteringsmetoderna, som nästan aldrig inbegriper psykologiska test. Bra test är objektiva och har dokumenterad validitet. Referenser är notoriskt opålitliga (särskilt om de är positiva), "magkänslan" efter informella och ostrukturerade intervjuer likaså. Kontakter, gammal vänskap och liknande värderingar kan leda spikrakt åt skogen. Många är skickliga på att manipulera, att styra det intryck de ger. Se Babiak och Hare, nedan, en utmärkt bok om subkliniska psykopater i näringslivet.

Ett mysterium är varför företagen dels inte rekryterar på att professionellt optimalt sätt till topptjänster, dels är beredda att betala löjligt höga löner. De tycks tro att det handlar om exceptionellt kompetenta, sällsynt kompetenta, personer - och att de lyckas hitta dem. Risken är stor att de låter sig luras av extrema narcissister eller subkliniska psykopater, eller manipuleras av cyniker. För dessa personlighetsdrag ("The dark triad"), som alla kan testas med bra personlighetstest, se O´Boyle et al. (2011).

I Sverige är förhållandena nog ganska lika dem i USA, både i privat och offentlig sektor. Carolina Neurath ger bra synpunkter på regeringens misslyckanden med topprekryteringar, se här. Om AB igår kan en sann bild av hur chefen för Arbetsförmedlingen rekryterades blir man mörkrädd, se deras artikel här.

Referenser

Babiak, P., & Hare, R. D. (2006). Snakes in suits. When psychopaths go to work. New York: Harper.

O'Boyle Jr, E. H., Forsyth, D. R., Banks, G. C., & McDaniel, M. A. (2011). A meta-analysis of the dark triad and work behavior: A social exchange perspective. [doi:10.1037/a0025679]. Journal of Applied Psychology, 97(3), 557-579.

Stor genomgång av problematiken med skönmålning

2013-06-28T02:49:00.001-07:00

Min tidigare EFI-rapport är nu kraftigt utökad och tar upp den senaste forskningen och diskussionerna på området, klicka här..

I denna rapport finns nu också en s k Executive Summary för den som snabbt vill bilda sig en uppfattning, klicka här.

Rapportens slutsatser:

Förekommer skönmålning, är den vanlig och stark? Svaret är ett entydigt ja.
Har skönmålning effekter på beslutsfattandet på grundval av testning, t ex vid urval? Svaret är ja.
Här skönmålning betydelse för normdata? Svaret är ja, om testet ska användas i skarpt läge måste normdata vara insamlade i skarpt läge.
Kan skönmålning undvikas, åtminstone till betydande del, med hjälp av

Varningar
Omformulering av item till at bli mera neutrala
Särskilda mätningar av tendensen att tillskriva sig mera kunskaper än man har
Anpassning av matematiska modeller till testdata och mätning av i vilken mån testpersoner avviker från dessa modeller

Svaret för alla dessa ansatser är nej, de löser inte problemet

Ett ganska vanligt sätt att hantera skönmålning tycks vara att utesluta de testpersoner som har högst värde i en sådan skala, t ex de 25 % som ligger högst. Detta har en svag och otillräcklig effekt, se Reeder och Ryan (Reeder & Ryan, 2012).

Ännu tycks det inte finnas någon ny metodik för att upptäcka och korrigera för skönmålning som är tillräckligt lovande för att leva upp till kraven att den ska vara teoretiskt och empiriskt väl underbyggd, och praktiskt användbar. Korrektion med en särskild skala som mäter skönmålning fungerar, även om inte heller denna metod helt eliminerar effekterna.

Skönmålning - finns det?

2013-05-06T02:10:00.001-07:00

Ett populärt argument bland testleverantörer som arbetar med test som är helt eller till största delen oskyddade mot skönmålning är att sådan inte förekommer. Det går på tvären mot sunt förnuft och berg av forskning. Om den ignoreras kommer man att prioritera bluffare i den mån man bryr sig om resultatet av personlighetstest.

En aktuell artikel av Griffith och Converse (2012) ger en sammanställning av uppskattningar av hur många som skönmålade i olika undersökningar, se tabell nedan.

Det handlar alltså om ca 30 % i genomsnitt. Det är en hög siffra, men troligen är den mycket högre om man tittar enbart på dem som rankas högst på testet. Det är uppenbart att här finns ett gigantiskt problem för testindustrin, ett problem som inte försvinner för att man blundar för det eller förnekar det. För den som letar efter en lösning, ty en sådan finns, se min rapport om skönmålning (Sjöberg, 2012).

Referens

Griffith, R. L., & Converse, P. D. (2012). The rules of evidence and the prevalence of applicant faking. In M. Ziegler, C. Maccann & R. D. Roberts (Eds.), New perspectives on faking in personality assessment. Oxford: Oxford University Press.

Sjöberg, L. (2012). Skönmålning i personlighetstest. Handelshögskolan i Stockholm, Rapport 2012:2. Klicka här.

Skönmålning i personlighetstest

2013-04-27T02:18:00.000-07:00

SSE/EFI Working Paper Series in Business Administration

No 2012:2:
Skönmålning i personlighetstest

Lennart Sjöberg (lennartsjoberg@gmail.com) Abstract: Skönmålning är ett stort problem vid användning av personlighetstest av självrapporttyp. Det är ofta lätt att genomskåda vad olika testfrågor syftar till att mäta och vill man bluffa är det lätt att göra det. Trots det är denna typ av test vanliga och de tycks få en ökande användning i näringslivet. Det kan delvis bero på att vissa test använder ett format (ipsativt) där den testade är instruerad att välja mellan alternativ som man har försökt matcha i social önskvärdhet. Sådana test har troligen en viss trovärdighet, men forskningen visar att de inte lyckas särskilt väl med att eliminera effekterna av skönmålning. Dessutom samvarierar de med intelligens, och den validitet de eventuellt kan ha beror troligen till stor del på detta. Ett annat skäl till den omfattande användningen av personlighetstest är det vanliga påståendet att dessa test, även om de är helt oskyddade mot skönmålning, har högt prognosvärde i arbetslivet. Men detta påstående är felaktigt om man ser till den omfattande forskningen om "Big Five" som visat att dessa dimensioner, bara har en marginell prognosförmåga i förhållande till arbetsresultat. Ett test som är oskyddat mot skönmålning, eller bara mycket ineffektivt skyddat, ger regelmässigt kraftiga överskattningar av testvärden hos dem som utnyttjar chansen att svara taktiskt. Andra, ofta kvinnor och invandrare, skönmålar mindre och missgynnas därför av testen. I denna rapport, klicka här beskrivs en alternativ metodik som bygger på användning av särskilda skalor för att mäta tendensen till skönmålning. Modeller som anpassas på grundval av empiriska data och som är olika för olika testskalor påvisas eliminera ca 95 % av effekterna av skönmålning. Metodiken har validerats i en rad empiriska studier som kortfattat beskrivs i rapporten. Korrektion för skönmålning är av mycket stor betydelse vid tolkning av testdata, och för etablering av en fungerande normdatabas.
Keywords: faking; personality tests; (follow links to similar papers)
40 pages, December 17, 2012

Testgranskning leder till fel slutsatser

2013-03-29T02:44:00.000-07:00

STP (Stiftelsen för Tillämpad Psykologi) genomför testgranskningar, och dess företrädare uttalar sig ofta i media. De omdömen de ger om test (nästan alltid personlighetstest) brukar vara mycket kritiska, men tycks inte påverka marknaden. Det senare kan ju bero på att STP:s rapporter sprids mycket ineffektivt (för dyra), men det kan också bero på att trovärdigheten är låg. I så fall, varför? Jag hade anledning att intressera mig för frågan för en tid sedan och fann att verksamheten sköttes mycket ineffektivt, men också med tveksam kompetens. Man har övertagit ett europeiskt system men utan att riktigt förstå det. Jag ger en detaljerad kritik här. Slutsatsen är att STP missförstått hur testen ska bedömas, och att de genomgående gjort alldeles för negativa bedömningar av det skälet.

Testen ignoreras?

2013-03-28T09:04:00.000-07:00

I en intervju i tidskriften Personal och Ledarskap läser jag att testresultat till allra största delen ignoreras vid anställningsbeslut. Det är förvånande och stämmer inte alls med mina erfarenheter med UPP-testet. Men kanske kan det vara sant i en del fall, beroende på vilket test det rör sig om. En del test bygger på svårförståeliga teorier som inte har någon tydlig relation till arbetslivet. Det gäller t ex Myers-Briggs och vissa andra test som baseras på Jungs typteori. Andra test ger en komplex bild av testpersonen som man medvetet kopplat bort från arbetsprestation med resonemang av typen "alla resultat är bra" eller "alla behövs". Kanske det, men om man tror det, varför testa - då borde ju slumpen vara lika bra eller bättre, eftersom ett lotteri inte kostar något.

Norms - a crucial issuse in testing

2012-12-21T08:19:00.000-08:00

Test norms need to be specific to the user and the test context. This should be obvious, still is often ignored, perhaps due to the expenses involved. What happens if norms are not specific?

1. A very important aspect is that of faking. Faking is abundant in job applicants. If norms are collected from incumbents or, even worse, the population at large, test scores can be grossly misleading. The reason is that many applicants fake and the distribution of their test scores is shifted towards a higher mean than for incumbents who fake very little or not at all. As a consequence, test scores for applicants will be systematically overestimated. In a stanine scale, the error could easily be 2 or 3 steps. This problem could be greatly mitigated by using a correction procedure using one or several scales for measuring the tendency to respond in a socially desirable manner. In our data, about 95 % of the effect is eliminated this way. Note, however, that the correction model must be scale specific since scales are usually not equally vulnerable to distortion.

2. Test scores may be strongly dependent on the organizational context. In some contexts, independences is not a desired trait and people will on the average have low scores on this trait. Another example is perseverance in the face of failure. If failure is rarely obvious, test takers will report low perseverance. For reasons such as these, norms need to be specific to the organizations.

It is not excessively demanding to construct specific norms, given modern IT technology, and the sample size need to be only as small as 300, or even in some cases 120. The first step is to realize the importance of specific norms, of norms corrected for impression management if they are based on incumbents or the population at large, and the fact that the sample size can be fairly small. In our practice we work with such norms, but many Swedish test providers seem unaware of the issue and that the problems can be solved with relatively modest resources.

Successfully dealing with faking on a self-report personality test

2012-08-22T08:20:00.001-07:00

Faking on self-report personality tests is common and a strong drawback of such tests. Many approaches have been tried to counteract this serious source of error, see e.g. a recent papers in the Journal of Applied Psychology (Bangerter, Roulin, & König, 2012; Fan, et al., 2012).

The UPP test (Sjöberg, 2010/2012) is a self-report personality test and as such it is vulnerable to faking in high-stakes testing situations. However, this test uses a simple but powerful methodology for correcting test scores for faking. It measures separately two social desirability (SD) dimensions, one overt (similar to the classical Crowne-Marlowe scale (Crowne & Marlowe, 1960)) and one covert. The covert scale uses items similar to conventional personality items but selected for their strong correlation with the overt scale. The two scales are highly correlated and give similar results when used to correct test scales for faking.

The correction procedure uses regression models where each test scale in turn is the dependent variable and the SD scales are independent variables. It is necessary to fit a new model for each test scale because the different scales are related to SD in different ways, correlations varying widely. The corrected test scales are the residuals in these regression models.

This procedure gives corrected test scales which correlate zero with SD. So far, so good, but does it also work? In other words, can it be validated on empirical data? One way to validated it is to study groups tested under different levels of involvement, from incumbents where test results have no consequences, to applicants where they do, and consequences are very important. In a recent study of applicants to the officers' training program in the Swedish Army, I had a chance to study this question, using the UPP test and its SD scales. (Previous studies had given similar results). Data were available for 5 groups:

A. Norm

B. Incumbents

C. Applicants (low consequences of test results)

D. Applicants (moderate consequences)

E. Applicants (high-stakes testing)

I expected increasing SD scale values in the order A - E. I also expected test scales to have the same rank order, if they were sensitive to SD, such as emotional stability. Finally, I expected the group differences in emotional stability to vanish if the test data were corrected for faking using the two SD scales (and a multiple regression model). For the results, see Figs. 1 and 2 below, and Table 1.

Fig. 1. Means of SD scales

Fig. 2. Means of emotional stability before and after SD correction

Tabell 1. Mean values of emotional stability (standardized scales), uncorrected and corrected data, effect size and one-way ANOVA of group differences.
Grupp	Before correction	Corrected for SD
A. Norm	-0.25	-0.05
B. Incumbents	0.05	0.07
C. Applicants (low consequences of test results)	0.43	0.28
D. Applicants (moderate consequences)	0.56	0.06
E. Applicants (high-stakes testing)	0.73	0.11
Effect size (eta²)	0.147	0.006
One-way ANOVA	F(4,1638) = 70.693, p < 0.0005	F(4,1828) = 2.763, p = 0.026

Note that the effect size decreased to about 5 %.

In other work on leader effectiveness, using 360 degrees feedback as criterion, I found that the validities of the test scales increased after correction for SD according to the same method (Sjöberg, Bergman, Lornudd, & Sandahl, 2011), see Fig. 3.

Fig. 3. Validities of uncorrected and corrected persnality scales

In conclusion, a simple method for correction for faking has been found to successfully remove about 95 % of the variance due to SD in test responses, and such a method increased the validity of the test scores against an external criterion.

It is often argued that SD scales really measure "personality", such as need for approval, and not a tendency to distort responses. However, the present results strongly refute this view. It is very plausible that different levels of consequences of testing should lead to different levels of motivation for impression management, but unlikely that they should result in different levels of some personality dimension such as need for approval.

References

Bangerter, A., Roulin, N., & König, C. J. (2012). Personnel selection as a signaling game. [doi:10.1037/a0026078]. Journal of Applied Psychology, 97, 719-738.

Crowne, D. P., & Marlowe, D. (1960). A new scale of social desirability independent of psychopathology. Journal of Consulting and Clinical Psychology, 24, 349-354.

Fan, J., Gao, D., Carroll, S. A., Lopez, F. J., Tian, T. S., & Meng, H. (2012). Testing the efficacy of a new procedure for reducing faking on personality tests within selection contexts. [doi:10.1037/a0026655]. Journal of Applied Psychology, 97, 866-880.

Sjöberg, L. (2010/2012). A third generation personality test (SSE/EFI Working Paper Series in Business Administration No. 2010:3). Stockholm: Stockholm School of Economics.

Sjöberg, L., Bergman, D., Lornudd, C., & Sandahl, C. (2011). Sambandet mellan ett personlighetstest och 360-graders bedömningar av chefer i hälso- och sjukvården. (Relationship between a personality test and 360 degrees judgments of health care managers). Stockholm: Karolinska Institute, Institutionen för lärande, informatik, management och etik (LIME).

Validity of integrity tests

2012-08-14T02:58:00.002-07:00

Traditionally the view has been that integrity tests (actually honesty tests) have very high validity, based on an early meta-analysis (Ones, Viswesvaran, & Schmidt, 1993). Some skeptical comments have pointed out that many of the studies in this meta-analysis came directly from reports from test vendors. Yet the high validity of integrity tests it has become an established truth, and a basis for an entire industry producing integrity tests, based on Schmidt and Hunter (1998) who wrote that the g-factor + integrity is the best basis for prediction of work performance. This is probably wrong.

A current and updated meta-analysis clearly shows that validities of integrity tests are not higher than 0.2, perhaps as low as 0.1 (Van Iddekinge, Roth, Raymark, & Odle-Dusseau, 2012a, 2012b), even if they are corrected for measurement error in criteria and range restriction in the test. The earlier estimates were at level 0.4, i.e. higher than the standard personality test. It appears now that the skeptics have been right: the high validities come from test providers' own information, independent research does not confirm therm. A rather high value of validity can be obtained with self-ratings of counterproductive behavior at work, but this is not very interesting.

This is an example of how early meta-analysis can result in errors. Van Iddekinge et al. have published a very ambitious project. The result is clear. Integrity test seems not to have significant practical value. And then we have not even discussed that such tests can easily be faked..

References

One, DS, Viswesvaran, C., & Schmidt, FL (1993). Comprehensive meta-analysis of integrity test validities: findings and implications for personnel selection and theories of job performance. Journal of Applied Psychology Monograph, 78, 679-703.

Schmidt, F. L. & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274.

Van Iddekinge, CH, Roth, PL, Raymark, PH, & Odle-Dusseau, HN (2012a). The criterion-related validity of integrity tests: An updated meta-analysis. [Doi: 10.1037/a0021196]. Journal of Applied Psychology, 97 (3), 499-530.

Van Iddekinge, CH, Roth, PL, Raymark, PH, & Odle-Dusseau, HN (2012b). The critical role of the research question, inclusion criteria the, and transparency in meta-Analyses of integrity test research: A reply to Harris et al. (2012) and Ones, Viswesvaran, and Schmidt (2012). [Doi: 10.1037/a0026551]. Journal of Applied Psychology, 97 (3), 543-549.

Optimal combination of personality and intelligence

2012-08-10T07:50:00.000-07:00

Personality and intelligence are both related to job performance, but how should they be weighted for optimal results? The most straightforward approach is a linear combination, and indeed there is little evidence for other types of models. Once this is decided the final question is what weights should be given to the two types of information, in order to maximize predictive efficiency. It is well-known that they tend to be uncorrelated, hence the crucial question is how valid they are in relation to job performance criteria. Intelligence, or GMA (the g factor) correlates around 0.6 with job performance (Schmidt & Hunter, 1998). "Personality" is a less stringent term, and could mean many things. However, I shall take personality as referring to an optimal index of subscales, and such indices have been found to correlate around 0.55 with job performance (de Colli, 2011; Sjöberg, 2010; Sjöberg, Bergman, Lornudd, & Sandahl, 2011), after correction for measurement errors in criteria and range restriction in the independent variable (Schmidt, Shaffer, & Oh, 2008). Hence, intelligence and personality, in this sense, are equally efficient as predictors and an evidence-based strategy is to treat them that way, with equal weights.

It should be noted that the usual Big Five dimensions are much weaker predictors of job performance, as shown in a number of meta-analyses (Barrick, Mount, & Judge, 2001). To get an efficient personality predictor it is necessary to form an index based on focused and narrow scales (Bergner, Neubauer, & Kreuzthaler, 2010; Christiansen & Robie, 2011; Sjöberg, 2010/2012). Big Five personality tests are not sufficient for optimal prediction of job performance.

References

Barrick, M. R., Mount, M. K., & Judge, T. A. (2001). Personality and performance at the beginning of the new millennium: What do we know and where do we go next? International Journal of Selection and Assessment, 9, 9-30.

Bergner, S., Neubauer, A. C., & Kreuzthaler, A. (2010). Broad and narrow personality traits for predicting managerial success. [doi:10.1080/13594320902819728]. European Journal of Work and Organizational Psychology, 19, 177-199.

Christiansen, N. D., & Robie, C. (2011). Further consideration of the use of narrow trait scales. [doi:10.1037/a0023069]. Canadian Journal of Behavioural Science/Revue canadienne des sciences du comportement, 43, 183-194.

de Colli, D. (2011). Ett nytt svenskt arbetspsykologiskt test och arbetsprestation inom polisen – samtidig validitet: Mälardalens högskola, Akademin för hållbar samhälls- och teknikutveckling.

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274.

Schmidt, F. L., Shaffer, J. A., & Oh, I.-S. (2008). Increased accuracy for range restriction corrections: Implications for the role of personality and general mental ability in job and training performance. Personnel Psychology, 61, 827-868.

Sjöberg, L. (2010). Upp-testet och kundservice: Kriteriestudie. Forskningsrapport 2010:6. Stockholm: Psykologisk Metod AB.

Sjöberg, L. (2010/2012). A third generation personality test (SSE/EFI Working Paper Series in Business Administration No. 2010:3). Stockholm: Stockholm School of Economics.

Sjöberg, L., Bergman, D., Lornudd, C., & Sandahl, C. (2011). Sambandet mellan ett personlighetstest och 360-graders bedömningar av chefer i hälso- och sjukvården. Stockholm: Karolinska Institutet, Institutionen för lärande, informatik, management och etik (LIME).

Job interest and performance: a revised view

2012-07-21T02:40:00.002-07:00

Is job interest of any importance to job performance? It seems very likely that it should be, but as pointed out by Nye et al. (Nye, Su, Rounds, & Drasgow, 2012), "interest measures are generally ignored in the employee selection literature" (p. 384). Part of the reason seems to be that previous meta-analytic work reported a very low correlation between interest and performance, only about 0.1 (Hunter & Hunter, 1984). However, Nye at al. criticized the often cited meta-analysis published by Hunter and Hunter and conducted a very extensive new analysis of the relation between interest and performance. They came up with a different conclusion: for studies where the interest scales matched the character of the jobs, the estimated correlation was 0.36, after correction for measurement errors and indirect range restriction. They concluded that interest should be considered in selection contexts.

This is not the only example showing that earlier meta analyses of the effectiveness of predictors of job performance may be quite misleading. A recent publication on integrity tests by van Iddekinge et al. (2012) showed that earlier meta analytic work (Ones et al., 1993), cited by Hunter and Hunter, grossly over-estimated the validity of integrity tests.

The recent Nye at al. work is undoubtedly very important. However, even stronger results can probably be obtained with specific interest measures. Vocational interest does not measure interest in a specific job, but in a class of jobs. In the UPP test, we measure routinely interest in the specific job under consideration, either in selection or in various types of follow-up. As an example, data from a study of employees in customer service in a finance company (Sjöberg, 2010) was re-analyzed. The correlation between job (not vocational) interest and supervisor rated performance on core job tasks was 0.55, after correction for measurement error and indirect range restriction. The specific interest measure is proximal to job performance, while vocational interest is distal, hence it should be expected to have a lower correlation.

What creates interest (Sjöberg, 2006)? For a given task content, optimal challenge may be the answer to the question. Interests are also probably somewhat elastic, i.e. you may develop a new interest under favorable circumstances (support, optimal challenge). Maybe one should try measure not only interest but also potential for developing interest. In a selection situation, it must be expected that interest scores are contaminated with impression management, and there is a need to correct for that factor. Alternatively, indirect measurement can be attempted, such as knowledge of facts. People who are strongly interested inform themselves about a job or area of study, hence know more. I tried this idea in the selection of applicants to the Stockholm School of Economics, with some success.

References

Hunter, J. E., & Hunter, R. F. (1984). Validity and utility of alternative predictors of job performance. Psychological Bulletin, 96, 72-98.

Nye, C. D., Su, R., Rounds, J., & Drasgow, F. (2012). Vocational interests and performance: A quantitative summary of over 60 years of research. Perspectives on Psychological Science, 7(4), 384-403.
Ones, D. S., Viswesvaran, C., & Schmidt, F. L. (1993). Comprehensive meta-analysis of integrity test validities: findings and implications for personnel selection and theories of job performance. Journal of Applied Psychology Monograph, 78, 679-703.
Van Iddekinge, C. H., Roth, P. L., Raymark, P. H., & Odle-Dusseau, H. N. (2012). The criterion-related validity of integrity tests: An updated meta-analysis. [doi:10.1037/a0021196]. Journal of Applied Psychology, 97(3), 499-530.

Sjöberg, L. (2006). What makes something interesting? (Review of the book, Exploring the psychology of interest by Paul J. Silvia). PsycCRITIQUES, 51 (46, Article 4), No Pagination Specified.

Sjöberg, L. (2010). UPP-testet och kundservice: Kriteriestudie. (The UPP test and customer service: A criterion study). Forskningsrapport 2010:6. Stockholm: Psykologisk Metod AB.
Sjöberg, L. (2010/2012). A third generation personality test (SSE/EFI Working Paper Series in Business Administration No. 2010:3). Stockholm: Stockholm School of Economics.
Click here,

Dealing with test complexity

2012-07-19T09:10:00.000-07:00

People have a limited ability to make complex judgments without the support of computers and explicit decision rules. This fact has been well-known for many years. An often cited classic is a paper by Miller [12] . Expert judgments of many kinds, including the assessment of job applicants, have confirmed this general principle [3; 8] . There are some interesting exceptions in special cases, if the experts get fast and clear feedback based on valid theory [9] . These conditions are rarely present in the assessment of job applicants.

It is usual for judges to come to different conclusions if the information they use is complex and extensive - a common situation. Furthermore, assessments tend to vary over time. At the same time that we have these limitations in our judgment capacity, we have a tendency to fall prey to an illusion. The more information we get, the more confident we are - but beyond a modest limit, judgments become worse as in formation increases. See Fig. 1.

Figure 1. Decision quality as a function of amount of information.

Most personality tests give a complicated picture of a person. This is reasonable since everyone "knows" that people are complicated. Popular tests provide results for 30-40 dimensions. It is likely that such abundance of information is popular due to the information illusion discussed above. More information makes us more confident. Research has, however, shown that explicit rules for combining formation gives better results. Such a rule can simply be based on the decision maker's own systematic strategy, so-called boot-strapping [7] , or explicitly judged importance weights. The use of weights is an effective way of answering the question: "How do I interpret this test result?" The alterative approach is use a holistic evaluation based on the pattern of results. Holism has traditionally had a strong position in the interpretation of test results, but it cannot be justified on empirical and scientific grounds [14] .

Subjective interpretation typically results in narrative texts which may be very credible, due to a number of psychological factors. Such factors have been discussed as enabling "cold reading", i.e. credible inferences about a person, which lack factual basis [13] . Historical examples show how credibility of the Rorschach test was established by "wizards" who could seemingly produce surprisingly correct statements about a person on the basis of responses to that test [18] , in spite of the fact that this test, as well as other projective techniques have been found to lack validity [6; 10] . I give two examples of research, which illustrate how illusory credibility may be established.
The Forer effect. Flattering texts, which are full of statements which are generally true and which say "both A and its Opposite B" are perceived as very accurate. Forer showed this in a classic study a long time ago [5] ; results which have been replicated many times [4; 16] .

Forer gave a group of students a "test" which he said would reveal their personalities. After some time a returned with narrative texts said to be based on the responses to the test. Each students got his or her text, but they were all the same. They were asked to judge how well the texts described their personalities. About 90 % said that the texts fitted very well. Here is what they got (typical astronomical texts):

"You have a need for other people to like and admire you, and yet you tend to be critical of yourself. While you have some personality weaknesses you are generally able to compensate for them. You have considerable unused capacity that you have not turned to your advantage. Disciplined and self-controlled on the outside, you tend to be worrisome and insecure on the inside. At times you have serious doubts as to whether you have made the right decision or done the right thing. You prefer a certain amount of change and variety and become dissatisfied when hemmed in by restrictions and limitations. You also pride yourself as an independent thinker; and do not accept others' statements without satisfactory proof. But you have found it unwise to be too frank in revealing yourself to others. At times you are extroverted, affable, and sociable, while at other times you are introverted, wary, and reserved. Some of your aspirations tend to be rather unrealistic. "

MBTI and PPA excel in using statements of this type , and they provide popular reading for those who have taken the tests. They are perceived to be almost perfectly accurate and to give self insights, but they simply flatter [15] and/or confirm already existing self beliefs. Once credibility is established the tester can give important advice about selection, team composition and personal development. No research exists, which shows such advice to be useful, but since the test report is so persuasive the advice is probably also believed.

The "Draw-a-man"-effect". The draw-a-man test is credible to many users although it has no demonstrated validity [17] . This is because of common-sense thinking about what various aspect of a drawing could mean. Example: large muscles mean problem with male self-image, large eyes imply paranoid tendencies, etc. Inn addition, there is selective memory of cases which supported these speculations, the others are forgotten or explained away [1; 2] .

The UPP test deals with complexity with aggregate variables, which are linear composites of selected subscales. Extensive research, over a period of 50 years, has shown that this approach is superior to subjective integration of information [8; 11] . For a reveiew of work on UPP, click here.

References

[1]. Chapman, L. J., & Chapman, J. P. (1967). Genesis of popular but erroneous psychodiagnostic observations. Journal of Abormal Psychology, 73, 193-204.

[2]. Chapman, L. J., & Chapman, J. P. (1969). Illusory correlation as an obstacle to the use of valid psychodiagnostic signs. Journal of Abnormal Psychology, 74, 271-280.

[3]. Dawes, R. M., Faust, D., & Meehl, P. E. (1989). Clinical versus actuarial judgment. Science, 243, 1668-1674.

[4]. Dickson, D. H., & Kelly, I. W. (1985). The 'Barnum Effect in Personality Assessment: A Review of the Literature. Psychological Reports 57, 367-382.

[5]. Forer, B. R. (1949). The fallacy of personal validation: a classroom demonstration of gullibility. Journal of Abnormal & Social Psychology, 44, 118-123.

[6]. Garb, H. N., Lilienfeld, S. O., & Wood, J. M. (2004). Projective techniques and behavioral assessment. In S. N. Haynes & E. M. Heiby (Eds.), Comprehensive handbook of psychological assessment, Vol. 3: Behavioral assessment (pp. 453-469). Hoboken, NJ, US: John Wiley & Sons Inc.

[7]. Goldberg, L. R. (1970). Man versus model of man: A rationale plus some evidence for a method of improving clinical inferences. Psychological Bulletin, 73, 422-432.

[8]. Grove, W. M., & Meehl, P. E. (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algorithmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293-323.

[9]. Kahneman, D., & Klein, G. (2009). Conditions for intuitive expertise: A failure to disagree. [doi:10.1037/a0016755]. American Psychologist, 64, 515-526.

[10]. Lilienfeld, S. O., Wood, J. M., & Garb, H. N. (2000). The scientific status of projective techniques. Psychological Science in the Public Interest, 1, 27-66.

[11]. Meehl, P. E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review of the evidence. Minneapolis: University of Minnesota Press.

[12]. Miller, G. A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review, 63, 81-97.

[13]. Rowland, I. (2005). The full facts book of cold reading, 4th edition. London: Full Facts Books.

[14]. Ruscio, J. (2002). The emptiness of holism. Skeptical Inquirer, 26, 46-50.

[15]. Thiriart, P. (1991). Acceptance of personality test results. Skeptical Inquirer, 15, 166-172.

[16]. Trankell, A. (1961). Magi och förnuft i människobedömning. Stockholm: Bonnier.

[17]. Willcock, E., Imuta, K., & Hayne, H. (2011). Children’s human figure drawings do not measure intellectual ability. [doi:10.1016/j.jecp.2011.04.013]. Journal of Experimental Child Psychology, 110, 444-452.

[18]. Wood, J. M., Nezworski, M. T., Lilienfeld, S. O., & Garb, H. N. (2003). What's wrong with the Rorschach?: Science confronts the controversial inkblot test. San Francisco, CA, US: Jossey-Bass.

Publiceras flera "signifikanta" resultat än vad forskarna faktiskt funnit?

2012-06-26T22:53:00.002-07:00

Det är en vanlig misstanke att ej signifikanta resultat inte publiceras och att därför den vetenskapliga litteraturen ger en felaktig bild av hur starka sambanden faktiskt är ("the file drawer problem"). En sådan felfaktor skulle snedvrida meta-analyser som normalt enbart bygger på publicerade arbeten. I en aktuell artikel har emellertid Dalton et al. (2012) gått igenom dels ett stort antal publicerade arbeten, dels många opublicerade doktorsavhandlingar. Resultaten är slående: Det är ungefär lika många signifikanta samband i båda fallen. På grundval av denna omfattande studie kan man dra den slutsatsen att problemet med "the file drawer" inte existerar eller åtminstone att det är betydligt mindre allvarligt än vad man hittills trott.

Referens

Dalton, D. R., Agunis, H., Dalton, C. M., Bosco, F. A., & Pierce, C. A. (2012). Revisiting the file drawer problem in meta-analysis: Assessment of published and nonpublished correlation matrices. Personnel Psychology, 65(2), 221-249.

Integritetstestens validitet

2012-06-21T09:02:00.001-07:00

Traditionellt har det ansetts att integritetstest (egentligen test på ärlighet) har mycket hög validitet, på grundval av en tidig meta-analys (Ones, Viswesvaran, & Schmidt, 1993). En del skeptiska kommentarer har pekat på att en stor del av de studier denna analys byggde på ej var publicerade utan kom direkt från rapporter från testleverantörerna. Ändå har det blivit en etablerad sanning, och en grundval för en hel industri som producerar integritetstestningar, utifrån Schmidt och Hunter (1998) som skrev att g-faktorn + integritet är den bästa grunden för prognos av arbetsresultat. Det är nog fel.

En aktuell och uppdaterad meta-analys visar tydligt att validiteterna hos integritetstesten inte är högre än 0.2, kanske så låga som 0.1 (Van Iddekinge, Roth, Raymark, & Odle-Dusseau, 2012a, 2012b), t o m om de är korrigerade för mätfel i kriterierna och begränsad spridning i testen. De tidigare uppskattningarna låg på nivån 0.4, alltså högre än de vanliga personlighetstesten. Det tycks som om skeptikerna har haft rätt: de höga validiteterna kommer från testleverantörernas egen information, oberoende forskning bekräftar den inte. Ett ganska högt värde på validiteten kan man få mot självskattningar av kontraproduktivt beteende i jobbet, men detta är ganska ointressant. Skattningar av andra som kriterium ger validiteter om kring 0.1. Schmidt och Hunter uppskattade validiteten till 0.41, vilket nu framstår som starkt vilseledande.

Detta är ett exempel på att tidiga meta-analyser kan leda fel. Van Iddekinge et al. har gjort ett enormt ambitiöst arbete. Resultatet är tydligt. Integritetstest tycks inte ha nämnvärt praktiskt värde. Och då har vi inte ens diskuterat att sådana test, liksom alla, kan fejkas.

Referenser

Ones, D. S., Viswesvaran, C., & Schmidt, F. L. (1993). Comprehensive meta-analysis of integrity test validities: findings and implications for personnel selection and theories of job performance. Journal of Applied Psychology Monograph, 78, 679-703.
Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274.

Van Iddekinge, C. H., Roth, P. L., Raymark, P. H., & Odle-Dusseau, H. N. (2012a). The criterion-related validity of integrity tests: An updated meta-analysis. [doi:10.1037/a0021196]. Journal of Applied Psychology, 97(3), 499-530.

Van Iddekinge, C. H., Roth, P. L., Raymark, P. H., & Odle-Dusseau, H. N. (2012b). The critical role of the research question, inclusion criteria, and transparency in meta-analyses of integrity test research: A reply to Harris et al. (2012) and Ones, Viswesvaran, and Schmidt (2012). [doi:10.1037/a0026551]. Journal of Applied Psychology, 97(3), 543-549.

Begåvningstest och studieresultat vid HHS

2012-06-03T08:42:00.001-07:00

Begåvningstest har ofta ett bra prognosvärde för studieresultat, ett exempel finns i en rapport jag gjorde på uppdrag av Handelshögskolan i Stockholm för ganska länge sedan, men resultaten står sig nog, se rapporten här. Rapporten återger de skilda perspektiv som gällde på 1980-talet och numera. Det är slående hur viktig g-faktorn var i dessa data, och hur en enkel sammanvägning av 7 test med lika vikter var jämförbar med en multipel regressionsmodell.

Referens

Sjöberg, L. (2012). Begåvningstest vid urval av sökande till Handelshögskolan i Stockholm. Stockholm: Psykologisk Metod AB.

Kontrollbehov ledde till avsked

2012-06-03T02:55:00.002-07:00

I Dagens Industri den 1 juni 2012 läser jag att "Ledarstilen fick Södras VD på fall". Ordföranden citeras: "Det har funnits ett stort kontrollbehov".

Det är ett intressant fall, eftersom UPP-testet är ett av de få personlighetstesten (det enda?) som mäter just kontrollbehov, med en validerad och normerad skala. (Plus ett antal andra relevanta egenskaper, allt kontrollerat för skönmålning. Se denna artikel i Dagens Industri, här.) Ett stort antal chefskandidater har testats i skarpt läge och utgör en lämplig norm, men även andra normer kan användas. Se vidare om testet här.

Personlighet är i hög grad avgörande för om högt uppsatta chefer lyckas eller misslyckas, se en utmärkt översikt av Hogan m. fl. här.

Alla har inte den personlighet som krävs för ett ledarskap som måste fungera både socialt och ekonomiskt. Man kan få värdefull information om en kandidat med hjälp av test, även sådana aldrig ger ett slutgiltigt svar. Vi vet dock att vissa test knappast har något samband alls med arbetsresultat; detta gäller bl a de populära Big Five-testen, se en översikt här.

Open access: Lärobok i forskningsmetodik

2012-05-28T17:29:00.000-07:00

Mer och mer information blir gratis tillgänglig på nätet. Här är en ambitiös lärobok i forskningsmetodik som just har publicerats

klicka här.

Information om skönmålning kan leda till förbättrad kvalitet i testdata

2012-05-28T17:27:00.000-07:00

Skalor för att mäta skönmålning har ofta ifrågasatts. Här är en studie som använts sådana skalor för att besluta om omtestning, som befanns ge mera rättvisande resultat.

Self-report personality questionnaires often contain validity scales designed to flag individuals who intentionally distort their responses toward a more favorable characterization of themselves. Yet, there are no clear directives on how scores on these scales should be used by administrators when making high-stakes decisions about respondents. Two studies were conducted to investigate whether administrator-initiated retesting of flagged individuals represents a viable response to managing intentional distortion on personality questionnaires. We explored the effectiveness of retesting by considering whether retest responses are more accurate representations of a flagged individual's personality characteristics. A comparison of retest scores to a baseline measure of personality indicated that such scores were more accurate. Retesting should only work as a strategy for dealing with intentional distortion when individuals choose to respond more accurately the second time. Thus, we further explored the emotional reaction to being asked to retest as one possible explanation of why individuals who engage in intentional distortion respond more accurately upon retest.

Referens
Ellingson, J. E., Heggestad, E. D., & Makarius, E. E. (2012). Personality retesting for managing intentional distortion. [doi:10.1037/a0027327]. Journal of Personality and Social Psychology, 102, 1063-1076.

Ledarskap och personlighetens mörka sida

2012-04-13T18:03:00.009-07:00

Harms et al. (2011) har publicerat ett mycket ambitiöst försök att validera HDS-testet mot ledarskap i det militära. Det är ett av mycket få arbeten som har försökt validera HDS. Se den utmärkta litteraturgenomgången i artikeln.

Officerskadetter följdes under 4 års utbildning där deras ledarförmåga bedömdes varje år. Data på HDS samlades in och relaterades (korrelationer) till ledarskap och utvecklingen av ledarskap.

HDS är ett test som ofta används, även i Sverige, för att mäta den mörka sidan, dvs kliniska eller subkliniska syndrom av typ av passiv aggression. Det är alltså inte utpräglade kliniska problem som mäts, utan tendenser till sådana, som kan vara av varierande styrka. Det är definitivt dimensioner bortom Big Five som det handlar om, men tyvärr tog Harms et al. inte in data på Big Five, inte heller försökte de studera skönmålning, som givetvis är viktig i HDS, som i alla självrapporttest.

De 11 HDS-skalorna bör alla vara negativt relaterade till ledarförmåga, om testet lyckas mäta det som det avser att mäta. Hur blev det?

Enskilda skalor hade svaga samband med ledarskap. 7 av de 11 skalorna hade inga samband alls med kriterierna. I övriga 4 fall fanns en tendens till negativa samband men för vissa skalor blev sambanden positiva. Kanske berodde sådana resultat på att de negativa effekter kommer först på längre sikt, säger författarna, men det är ju bara en spekulation så länge inga sådana data finns. Det kan dock ligga något i denna misstanke eftersom en metaanalys fann tydliga samband mellan narcissism, Machiavellianism och kontraproduktivt beteende bland icke-ledare (O'Boyle et al., 2011). Mönstret av samband mellan subkliniska tendenser och ledarskap ger emellertid inget stöd åt att använda HDS för att mäta den mörka sidan som det var tänkt. Nedanstående tabell som bygger på deras publicerade resultat ger detaljer.

Korrelationer mellan HDS-skalor och ledarskap i amerikanska armén, Harms et al. (2011), 12 kriterier med likartade trender
Kliniskt begrepp (DSM-IV)	Innehåll	Korrelation i genomsnitt
Borderline	Lynnig och socialt inkonsistent	-0.03
Paranoid	Skeptisk, misstänksam	-0.18
Avoidant	Negativ till förändringar	0.08
Schizoid	Tillbakadragen, förstår ej andra	-0.03
Passive-aggressive	Självgående, ignorerar andras krav	-0.04
Narcissistic	Har extrem självuppskattning, tål ej kritik	0.06
Antisocial	Tycker om att ta risker och testa gränser	-0.08
Histrionic	Dramatisk, vill bli uppmärksammad	0.06
Schizotypal	Visar ovanligt tänkande, ibland kreativ	-0.23
Obsessive-compulsive	Mycket noggrann och kritisk	0.16
Dependent	Vill vara till lags, beroende av andras uppskattning	0.16

Harms et al. lyckades visa ganska höga samband mellan ledarskap och HDS i multipla regressionsanalyser, ca 15 % förklarad varians, motsvarande en multipel korrelation omkring 0.4. Detta är intressant men för praktikern tämligen lite användbart. Analysen tar ju fram vikter som kan vara negativa eller positiva och den prognos av ledarskap man tvingas göra måste grundas på en ad hoc-modell som inte stämmer med teorin och som är bara delvis psykologiskt begriplig. Vikterna är på ett komplicerat sätt beroende av hela mönstret av korrelationer. Fältet öppnas för spekulationer vilkas värde för prognoser är okänt och tveksamt. Vi ställs inför frågan om validiteten av subjektiva bedömningar utifrån testdata eller andra kvantitativa data och sådana bedömningar är väl studerade inom många områden, med svaga resultat.

HDS är ett kreativt pionjärarbete men tycks ha kommit till utbredd praktisk användning alldeles för tidigt. Det behövs mera empirisk forskning och teoretisk analys av personlighetens mörka sida och ledarskap och andra arbetsrelevanta dimensioner. Som det ser ut nu tycks det praktiska värdet vara svagt.

Referenser

Dawes, R. M., Faust, D., & Meehl, P. E. (1989). Clinical versus actuarial judgment. Science, 243, 1668-1674.

Grove, W. M., & Meehl, P. E. (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algorithmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293-323.

Harms, P. D., Spain, S. M., & Hannah, S. T. (2011). Leader development and the dark side of personality. [doi:10.1016/j.leaqua.2011.04.007]. The Leadership Quarterly, 22(3), 495-509.

O'Boyle Jr, E. H., Forsyth, D. R., Banks, G. C., & McDaniel, M. A. (2011). A meta-analysis of the dark triad and work behavior: A social exchange perspective. [doi:10.1037/a0025679]. Journal of Applied Psychology, No Pagination Specified.

Psychological testing and psychometrics

Artikel om psykologiska tester

Testforskning

Marknadsföring av testinstrument

Hurdan är en bra säljare?

Vi har de test vi vill ha...

Big Five, skönmålning mm

Frekventa misslyckanden bland toppchefer

Stor genomgång av problematiken med skönmålning

Skönmålning - finns det?

Skönmålning i personlighetstest

No 2012:2: Skönmålning i personlighetstest

Testgranskning leder till fel slutsatser

Testen ignoreras?

Norms - a crucial issuse in testing

Successfully dealing with faking on a self-report personality test

Validity of integrity tests

Optimal combination of personality and intelligence

Job interest and performance: a revised view

Dealing with test complexity

Publiceras flera "signifikanta" resultat än vad forskarna faktiskt funnit?

Integritetstestens validitet

Begåvningstest och studieresultat vid HHS

Kontrollbehov ledde till avsked

Open access: Lärobok i forskningsmetodik

Information om skönmålning kan leda till förbättrad kvalitet i testdata

Ledarskap och personlighetens mörka sida

No 2012:2:
Skönmålning i personlighetstest