Assessment Center – Sinn und Unsinn einer weit verbreiteten Selektionsmethode
Die traditionelle Erklärung zur Funktionsweise eines Assessment-Centers geht davon aus, dass die für den beruflichen Erfolg relevanten Eigenschaften/Fähigkeiten eines Menschen mittels Anforderungsanalyse identifiziert werden können und tatsächlich werden. Die Assessoren/Beobachter werden als mehr oder weniger zuverlässiges „Messinstrumente“ betrachtet. Sie können im Sinne dieser Rechtfertigungsrethorik die vorhandene Eigenschaften/Fähigkeiten der AC-Teilnehmer auf den relevanten Dimensionen (z.B. soziale Kompetenz) adäquat erfassen. Wenn ein Mensch dann die Anforderungen des Jobs möglichst perfekt erfüllt, wird er in diesem erfolgreich sein. So zumindest die zugrunde liegende Annahme.
Was ist dran, an dieser Prämisse? Auf den ersten Blick klingt die Logik des Assessment Centers sehr überzeugend. In vielen wissenschaftlichen Untersuchungen wurde zudem der statistische Zusammenhang zwischen gutem Abschneiden im Assessment Center und späterem Berufserfolg (=prädiktive Validität) immer wieder bestätigt. Man kann also davon ausgehen, dass ein Assessment Center eine geeignete Methode zur Personalauswahl ist. ABER, stimmt deswegen automatisch auch das oben beschriebene Prinzip?
Das daran berechtigte Zweifel bestehen, zeigten schon 1982 Sacket & Dreher. Beide überprüften als erste ein Assessment-Center auf seine Konstruktvalidität. Ihre Ergebnisse implizieren, dass Beobachter anders als angenommen, nicht in der Lage sind, innerhalb einer Übung/Situation zwischen verschiedenen Anforderungsdimensionen zu differenzieren. Die Leistung eines Teilnehmers wird eher pauschal im Sinne eines Gesamteindrucks eingeschätzt.Trotz aller Bemühungen, die Messgenauigkeit der Beobachter und damit die Konstruktvalidität von Assessment-Centern zu verbessern, bleiben Zweifel an der ausschließlichen Richtigkeit des Grundgedankens bestehen. Seit geraumer Zeit werden deswegen auch alternative Erklärungen zur Funktionsweise von Assessment-Centern diskutiert. Klimoski & Brickner (1987) haben diese in fünf Thesen zusammengefasst, die ich in diesem Beitrag etwas detaillierter diskutieren werde.
Direkte Kriterienkontamination
Das Abschneiden eines Teilnehmers entscheidet besonders im Fall des Auswahl-Assessment-Centers über seine zukünftige Karriere. Dieser Gedanke entspricht zumindest der Grundintention des Verfahrens und rechtfertigt zudem die hohen Kosten. Die Bestimmung der prädiktiven Validität eines Assessment-Centers ist aufgrund einer solchen Konfundierung zwischen Abschneiden und späterer Karriere nicht möglich, da das Abschneiden im AC somit in einem systematischen Zusammenhang zur weiteren beruflichen Entwicklung der Teilnehmer steht Eine Ausnahme bilden wissenschaftliche Studien, in denen sichergestellt wird, dass das vorhergesagte Kriterium des beruflichen Erfolges (z.B. Beförderung oder Gehaltszuwachs) ausnahmsweise nicht vom Prädiktor (AC-Ergebnis) abhängig ist. Dies ist gewährleistet, wenn niemand, der Einfluss auf die weitere berufliche Entwicklung des Teilnehmers nehmen kann, Kenntnis von dessen Abschneiden im Assessment-Center besitzt. Die These der direkten Kriterienkontamination geht davon aus, dass AC-Ergebnisse zum Beispiel von Beobachtern, die häufig spätere Linienvorgesetzte der Teilnehmer sind, mehr oder weniger bewusst als Grundlage für Beförderungsentscheidungen verwendet werden. Sie befördern ihre Angestellten, weil sie zu wissen glauben, dass es sich um einen besonders fähigen Mitarbeiter handelt und nicht, weil dieser durch tatsächliche Arbeitsleistung eine Beförderung verdient hätte.
Dieser Vorbehalt ist berechtigt. Die gefundenen prädiktiven Validitäten könnten tatsächlich die „wahre“ prognostische Leistung der Methode überschätzen. Als gewichtiges Gegenargument kann jedoch die viel zitierte Management Progress Studie bei AT&T (Bray, Campbell, & Grant, 1974; Bray & Grant, 1966; Howard & Bray, 1988) angeführt werden. In dieser Untersuchung wurde sichergestellt, dass die AC-Ergebnisse niemandem im Unternehmen bekannt waren. Auch die Metaanalyse von Gaugler et al. (1987) lässt den Einfluss einer direkten Kontamination der Kriterien eher unbedeutend erscheinen. Studien, bei denen AC-Ergebnisse an die Vorgesetzten weitergegeben wurden, unterscheiden sich bezüglich der Höhe der gefundenen Zusammenhänge nicht von den Studien, in denen die Weitergabe der Daten unterblieb. Auch wenn Kompa (1995) vermutet, dass bei At&T nicht ausgeschlossen war, dass spätere Vorgesetzte sich trotzdem auf „inoffiziellem“ Wege Informationen über die Ergebnisse des Assessment-Centers beschafft haben, sprechen weitere Untersuchungen eher dafür, dass prädiktive Validität kein allein auf direkter Kriterienkontamination beruhendes Artefakt ist.
Kraut & Scott (1972) steuern ein weiteres Indiz bei. Als Kriterium beobachten sie die Beförderung in die übernächste Managementebene. Es erscheint eher wahrscheinlich, dass über einen mehrjährigen Zeitraum die ursprünglichen Ergebnissen im Assessment-Center an Bedeutung verlieren und die tatsächliche Arbeitsleistung wichtiger wird. Die prädiktive Validität bewegte sich aber auch bei diesem langen Zeitraum im üblichen Rahmen.
Ebenfalls im Widerspruch zu dieser These stehen Untersuchungen, deren Außenkriterien augenscheinlich nicht oder weniger anfällig für eine Kontamination sind. Thornton (1992) nennt als Beispiele Leistungsbeurteilungen durch Untergebene und unabhängige Personen, sowie das Abschneiden bei Weiterbildungen. McEvoy & Beatty (1989) verwendeten solche Kriterien und finden dennoch, dass sich diese durch die AC-Ergebnisse vorhersagen lassen. In Anbetracht dieser Befunde erscheint es somit unwahrscheinlich, dass die „wahre“ prädiktive Validität überschätzt wird.
2. Sich selbst erfüllende Prophezeiung
Eine andere Erklärung für das Auftreten prädiktiver Validität ist die These der sich selbst erfüllenden Prophezeiung. Bandura (1982) beobachtet, dass das Gefühl von Selbstwirksamkeit (self-efficacy), der Glaube daran, großen Einfluss auf seinen Erfolg haben zu können, bestimmt, wie viel Anstrengung Personen aufwenden, um ein Ziel zu erreichen und wie lange sie auf das Erreichen dieses Zieles hinarbeiten. Im Kontext des Assessment-Centers führt sowohl die Einladung zur Teilnahme als auch besonders positives Feedback zu einer höheren Selbstwirksamkeitsüberzeugung bei den Teilnehmern (Schmitt & Ostroff, 1986). Folglich kann erwartet werden, dass diese positiv beurteilten Personen besonders konsequent an ihren Stärken und Schwächen für den beruflichen Erfolg arbeiten und ihre Ziele ausdauernd verfolgen. Die prädiktive Validität könnte daher im Sinne der sich selbst erfüllende Prophezeiung erklärbar sein.
Zudem kann Eden (1990) zeigen, dass Vermutungen der Vorgesetzten bezüglich des Leistungsvermögens ihrer Untergebenen starken Einfluss auf deren Selbstwirksamkeits-erleben haben. Dieses Phänomen kann im Sinne des „Pygmalion Effects“ (Eden, 1984) interpretiert werden, der besagt, dass ein Vorgesetzter, der seinen Angestellten als hoch qualifiziert wahrnimmt, diesen in besonderem Maße fördert, um seine Leistungen zu verbessern.
Ein weiteres wichtiges, die Selbstwirksamkeit der Teilnehmer beeinflussendes Element, ist das Feedback nach der Beobachterkonferenz. Gaugler et al. (1987) finden in ihrer Metastudie zwar keinen generellen Moderatoreneffekt für „Feedback an die Kandidaten“, werden jedoch nur Potential-Assessment-Center analysiert, zeigt sich eine höhere Validität, wenn die Teilnehmer Feedback erhalten. Gerade bei einem ausführlichen und differenzierten Feedback resultieren große Weiterbildungsanstrengungen. Auch Fletcher (1991) stützt die These der sich selbst erfüllenden Prophezeiung. Im Vergleich zu erfolgreichen Teilnehmern sinkt bei erfolglosen die Motivation, mit anderen in Wettbewerb zu treten.
Gegen einen besonders ausgeprägten Effekt sprechen aber erneut die Ergebnisse der Management Progress Studie (Bray et al., 1974; Bray & Grant, 1966; Howard & Bray, 1988). Da weder das Unternehmen, noch die Teilnehmer selbst Kenntnis von den Ergebnissen hatten, sind die hohen Validitäten in dieser Studie nicht über eine durch das Assessment-Center erhöhte Selbstwirksamkeit zu erklären.
3. Leistungskonsistenz
Wenn im Assessment-Center neben den Verhaltensbeobachtungen auch biographische Daten zur Verfügung stehen, könnten diese, sofern sie ein geeigneter Prädiktor für das Kriterium des Berufserfolgs sind, eine weitere Quelle prädiktiven Validität sein. Dagegen spricht, dass zumindest offiziell in vielen Assessment-Centern während der Durchführung den Beobachtern keine Informationen über die Teilnehmer zugänglich sind. Es kann aber nicht ausgeschlossen werden, dass die Beobachter zum Beispiel während der gemeinsamen Mahlzeiten mit den Teilnehmern informelle Kontakte knüpfen und so biographische Informationen über deren bisherige Laufbahn erhalten, die sie anschließend zur Vorhersage zukünftiger Leistung verwenden.
Ein zweiter Aspekt der Leistungskonsistenzhypothese besagt, dass allein aus aktuellem Verhalten in den situativen Übungen auf zukünftiges Verhalten im Job geschlossen werden kann. Die Beobachter könnten zu prädiktiv validen Gesamteinschätzungen gelangen, obwohl sie eine differenzierte Beurteilung auf den intendierten Dimensionen vollständig umgehen. Die Konsequenz aus dieser Überlegung wäre, dass auf abstrakte und differenzierte Dimensionen in Zukunft verzichtet werden könnte. Thornton (1992) berichtet von einer Dissertation, in der kein Unterschied gefunden wurde zwischen Beurteilungen auf Dimensionsebene und solchen, die nur die einzelnen Aufgaben (ohne das Dimensionskonzept) bewerteten. Leider geht aus dieser Studie nicht hervor, welche Kriterien alternativ angelegt werden, und ob diese tatsächlich Leistungskriterien sind.
4. Managementintelligenz
Nach Ansicht einer anderen Gruppe von Forschern sind Assessment-Center-Ratings Messungen intellektueller Fähigkeiten und keine Beurteilungen bezüglich der formulierten Anforderungen, die an die Teilnehmer gestellt werden. Dies ist die Grundaussage jener Forscher, die davon ausgehen, dass die indirekte Messung von Intelligenz die prognostische Validität des Assessment-Centers erklärt. Klimoski & Brickner (1987) zitieren viele Untersuchungen, die zeigen, dass Intelligenztests berufliche Leistung vorhersagen und zugleich mit der Leistung in Assessment-Centern korrelieren (siehe auch Kapitel 2.3.3). Kleinmann (1998) fasst den Begriff der Managementintelligenz weiter: Er integriert soziale Intelligenz und im Speziellen die Fähigkeit in wenig transparenten Situationen, Anforderungen zu erkennen, die an einen gestellt werden. Mit dieser erweiterten Perspektive gehören diese Überlegungen zum Teil zur fünften, im nächsten Absatz beschriebenen alternativen Erklärung.
5. Indirekte Kriterienkontamination
Klimoski & Strickland (1977) gehen davon aus, dass Beobachter anstelle von einer systematischen Beurteilung der Kandidaten auf den vorgegebenen Dimensionen implizit andere Kriterien haben, die sie zur Beobachtung und Beurteilung der Teilnehmer heranziehen. Sie vermuten, dass diese Kriterien wichtig für den Berufserfolg in der Organisation sind. Ein einfaches Beispiel ist die implizite Vorstellung eines Beobachters, dass erfolgreiche Manager rauchen, da sie viel arbeiten und deswegen ständig gestresst sind. Vermutlich liegt dieser Beobachter falsch und beurteilt nicht tatsächliche Arbeitsleistung. Trotzdem wird sich eine Korrelation zwischen dem Gesamtergebnis im Assessment-Center und dem Validierungskriterium ergeben, sofern auch dieses von den selben (falschen) Annahme kontaminiert ist. Da die in der Assessment-Center-Forschung üblichen Validierungskriterien (z.B. Leistungsbeurteilung durch Vorgesetzte, Beförderung, Gehaltszuwachs, etc.) häufig von denselben Personen (-gruppen) abhängen, die auch im Assessment-Center als Beobachter auftreten, könnte die prädiktive Validität des Assessment-Centers eine auf diesen impliziten Annahmen beruhende Scheinkorrelation sein.
Diese Erklärung geht also nicht davon aus, dass der Mangel an Konstruktvalidität auf einen Messfehler zurückzuführen ist, sondern auf falsche Annahmen über die zugrundeliegende Struktur der Konstrukte. Russell & Domm (1995) konkretisieren, dass Assessment-Center-Ratings valide Repräsentationen bestimmter Konstrukte sein müssen, bislang allerdings nicht bekannt ist, um welche Konstrukte es sich wirklich handelt.
Thornton (1992) widerspricht dieser These in dreierlei Hinsicht: Zunächst bezweifelt er, dass alle in der Forschung verwendeten Kriterien durch ein irrelevantes Bild des guten Arbeitnehmers beeinflusst sein könnten. Assessment-Center erweisen sich nämlich auch dann als valide, wenn die Teilnehmer von unabhängigen Dritten (Bray & Campbell, 1968) oder von Untergebenen (McEvoy & Beatty, 1989; Schmitt, Schneider, & Cohen, 1990) beurteilt werden. Als zweites Argument gegen diese These führt Thornton (1992) die Metaanalyse von Gaugler et al. (1987) an. Da gemischte, aus Psychologen und Führungskräften zusammengesetzte Beobachterteams die prädiktive Validität erhöhen, Psychologen aber keinen Einfluss auf die verwendeten Validierungskriterien ausüben und teilweise nicht einmal Mitglieder der Organisation sind, wäre gemäss der oben erläuterten These eine geringere indirekte Kriterienkontamination, also eine geringere prädiktive Validität, zu erwarten.
Als drittes Gegenargument führt Thornton (1992) an, dass es ein Widerspruch ist, anzunehmen, Manager könnten zwar im Assessment-Center, nicht aber im Arbeitsalltag mit Hilfe ihres Stereotyps des „guten Mitarbeiters“ beruflichen Erfolg vorhersagen. Manager sind jedoch außerhalb des Assessment-Centers dazu nicht in der Lage (vgl. Murphy & Cleveland, 1991).
Fazit
Die Hypothese der indirekten Kriterienkontamination ist von anderer Qualität als die vier zuvor beschriebenen, denn sie stellt die Theorie des Assessment-Centers grundsätzlich in Frage. Es ist durchaus nicht unwahrscheinlich, dass im Assessment Center andere Faktoren eine Rolle spielen, die explizit nicht bekannt sind. Eine viel diskutierte Größe ist der sogenannte PO-Fit, also die Passung einer Person zur Unternehmenskultur. Als Durchführer von Assessment Centern ist es demnach wichtig und notwendig, mögliche Störeinflüsse auszuschließen und zugleich relevante implizite Variablen explizit zu erfassen. In einem späteren Beitrag werde ich genauer auf die besondere Rolle des PO-Fit-Konstruktes eingehen. Bis dahin freue ich mich, über Ergänzungen, Kritik und Kommentare!
___
Bildquelle: OpenAI. (2024). Assessment Center [Digital image created with DALL-E]. Retrieved from https://openai.com/