
Einleitung
2018 machte Amazon weltweit Schlagzeilen: Ein internes Recruiting-Tool sortierte weibliche Bewerbungen systematisch aus, weil es aus historischen Daten „gelernt“ hatte, dass Tech-Positionen vor allem von Männern besetzt wurden. Dieser Fall zeigt: Wenn eine KI unfair entscheidet, kann das immense Folgen haben — für Betroffene, Unternehmen und die Gesellschaft.
Mit dem wachsenden Einsatz von Künstlicher Intelligenz (KI) im Personalwesen steigt deshalb der Druck, Entscheidungen transparent und fair zu gestalten. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) beleuchtet in seinem aktuellen Whitepaper „Erklärbarkeit von KI im adversarialen Kontext“ zentrale Schwachstellen der sogenannten Explainable AI (XAI).
Erklärbare KI umfasst Methoden, die die oft komplexen Entscheidungswege moderner Machine-Learning-Modelle für Menschen nachvollziehbar machen sollen. Doch wie das Whitepaper zeigt, sind viele dieser Erklärungen anfällig für Uneinigkeit, Manipulation und sogenanntes Fairwashing – und gerade im HR-Bereich kann das weitreichende rechtliche und gesellschaftliche Folgen haben.
Der kommende EU AI Act stuft KI-Systeme, die im Personalwesen eingesetzt werden – etwa zur Einstellung, Leistungsbewertung oder Beförderung – ausdrücklich als Hochrisiko-KI ein. Für Unternehmen bedeutet das: Sie müssen besonders strenge Anforderungen an Transparenz, Fairness und Überprüfbarkeit erfüllen. Die Verwendung solcher Systeme ohne nachvollziehbare Erklärungen oder ohne wirksames Bias-Monitoring verstößt gegen die neuen Vorgaben und kann empfindliche Bußgelder nach sich ziehen.
1. Das Uneinigkeitsproblem: Wenn Erklärungen sich widersprechen
Ein Kernproblem, das das Whitepaper anspricht, ist die mangelnde Robustheit vieler Erklärverfahren. Unterschiedliche XAI-Methoden können für dieselbe Entscheidung völlig verschiedene Begründungen liefern.
Beispiel HR:
Ein Bewerber erhält eine Absage von einem automatisierten Screening-Tool. Eine SHAP-Analyse erklärt die Entscheidung mit „zu wenig Team-Erfahrung“, während eine andere Methode dasselbe Profil mit „zu häufige Jobwechsel“ begründet. Für Bewerbende wird so nicht nur die Nachvollziehbarkeit erschwert, auch HR-Abteilungen geraten in eine Zwickmühle: Welche Erklärung ist gültig? Welche wird im Streitfall kommuniziert?
Grenze:
XAI kann meist nur lokale Entscheidungslogiken sichtbar machen, aber nicht das gesamte Modellverhalten erklären. Zudem reagieren viele Verfahren empfindlich auf kleine Änderungen in den Eingangsdaten (Stichwort: adversarial examples). Für HR bedeutet das: Erklärungen sind keine belastbare Garantie, sondern nur eine Annäherung. Umso gefährlicher wird es, wenn Unternehmen diese Erklärungen nicht nur falsch deuten – sondern aktiv manipulieren.
2. Manipulationspotenzial: Wenn Erklärungen täuschen
Ein zweites Risiko ist die Möglichkeit, Erklärungen gezielt zu manipulieren. Forschende zeigen, dass Machine-Learning-Modelle so angepasst werden können, dass problematische Faktoren (z. B. Geschlecht, Alter) in den Erklärungen nicht mehr auftauchen, obwohl sie intern weiter genutzt werden.
Beispiel HR:
Ein Unternehmen setzt ein Recruiting-Modell ein, das eigentlich indirekt diskriminierende Merkmale nutzt (z. B. Wohnort, der mit Einkommen oder Herkunft korreliert). Um Audits zu bestehen, wird die Erklärbarkeit manipuliert, sodass der Wohnort in den Erklärungen keine Rolle mehr spielt. Nach außen wirkt das System fair – intern bleibt der Bias bestehen. Diese gezielte Täuschung kann noch einen Schritt weiter gehen: Dann wird nicht nur die Erklärung gefälscht, sondern gleich ein ganzes Ersatzmodell ins Schaufenster gestellt – das nennt man Fairwashing.
3. Fairwashing: Scheinsicherheit durch „schöne“ Modelle
Eine besonders perfide Spielart ist das sogenannte Fairwashing. Dabei werden Surrogat-Modelle (vereinfachte Ersatzmodelle) präsentiert, die fair erscheinen, während das tatsächlich produktive Modell weiter unfair arbeitet.
Beispiel HR:
Für interne Audits oder externe Zertifizierungen wird ein gut erklärbares Modell mit ausgewogenen Entscheidungen vorgezeigt. In der Realität läuft aber ein komplexeres Modell, das noch immer bestimmte Gruppen benachteiligt.
Rechtlicher Kontext: Was ist Pflicht?
Mit der EU-Grundrechtecharta, dem Allgemeinen Gleichbehandlungsgesetz (AGG), der DSGVO und dem kommenden EU AI Act haben Unternehmen eine rechtliche Pflicht, automatisierte Personalentscheidungen nicht diskriminierend zu gestalten und auf Nachfrage transparent zu begründen.
Verstöße gegen AGG, DSGVO oder den EU AI Act können für Unternehmen schnell teuer werden: Die DSGVO sieht Bußgelder von bis zu 4 % des weltweiten Jahresumsatzes vor. Und Personalentscheidungen, die auf unfairer KI basieren, können im Ernstfall für unwirksam erklärt werden – mit Folgen bis hin zu Schadenersatzklagen.
Wenn die Risiken konkret werden: Typische HR-Tools im Check
Viele Unternehmen setzen heute schon KI-gestützte Tools ein – von der Bewerbervorauswahl bis zur Fluktuationsprognose. Gerade hier können die im Whitepaper beschriebenen Schwachstellen von erklärbarer KI ganz praktisch zum Problem werden: Widersprüchliche Erklärungen, gezielte Manipulation oder scheinbar faire Ersatzmodelle bleiben oft unerkannt, wenn HR-Teams nicht genau hinschauen.
Die folgende Übersicht zeigt, wo im HR-Alltag Uneinigkeitsprobleme, Manipulationspotenzial und Fairwashing auftreten können – und welche Fragen sich jedes Unternehmen stellen sollte, um Risiken früh zu erkennen.
Wo Uneinigkeit, Manipulation und Fairwashing in HR-Tools lauern können
Automatisierte CV-Screenings
- Lebensläufe werden automatisch bewertet, oft mit NLP- und ML-Verfahren.
- Risiko: Unterschiedliche Erklärmethoden begründen denselben Score verschieden. Es kann sein, dass sensible Merkmale intern genutzt, aber in der Begründung verschleiert werden.
Video-Interview-Analysen
- Mimik, Stimme oder Sprache werden automatisch ausgewertet.
- Risiko: Die Erklärung, welche Merkmale für die Bewertung wichtig waren, kann mit Gradient Tricks beeinflusst werden. Erklärungen können widersprüchlich sein oder verschleiern, dass z. B. Akzent oder Sprechtempo berücksichtigt werden.
Matching-Tools (z. B. interne Jobvorschläge)
- Tools, die automatisiert vorschlagen, wer zu welcher Stelle passt.
- Risiko: Diskriminierende Muster können sich unbemerkt einschleichen. Erklärungen zu Matching-Faktoren können unvollständig oder manipuliert sein. Oft wird ein einfaches Ersatzmodell auditiert, während intern ein komplexeres läuft.
People Analytics & Performance Prognosen
- Vorhersage von Fluktuation, High Potentials oder Trainingsbedarf.
- Risiko: Unterschiedliche XAI-Verfahren liefern unterschiedliche Begründungen. Merkmale wie Teilzeit oder Elternzeit können intern relevant bleiben, aber in den Erklärungen unsichtbar gemacht werden.
Prüffragen HR-Teams
✅ Welche Erklärmethoden nutzt das Tool konkret?
✅ Wer darf das zugrunde liegende Modell (inkl. Trainingsdaten) prüfen?
✅ Gibt es Mechanismen gegen Bias-Drift?
✅ Werden alle übermittelten Erklärungen dokumentiert – und für wen?
Erklärbarkeit allein schützt nicht! Robustheit, Audit-Rechte und menschliche Kontrolle sind Pflicht, wenn automatisierte HR-Entscheidungen fair und rechtskonform sein sollen.
Konkrete Handlungsempfehlungen – und wer sie umsetzen sollte
Was folgt daraus für Unternehmen? Allein auf Erklärungen darf man sich nicht verlassen. Notwendig ist ein mehrstufiger Ansatz:
✅ 1. Lieferanten prüfen:
Fordern Sie White-Box-Audit-Rechte ein, um Fairwashing-Risiken zu erkennen. Holen Sie unabhängige Prüfer:innen ins Boot, die auch die Trainingsdaten und Modell-Parameter bewerten können.
✅ 2. Mehrere Erklärmethoden nutzen:
Setzen Sie nicht nur auf eine XAI-Methode, sondern vergleichen Sie verschiedene Verfahren regelmäßig. Dokumentieren Sie Widersprüche – und legen Sie fest, wer diese bewertet (z. B. interne KI-Governance, externe Datenschutzbeauftragte).
✅ 3. Menschliche Kontrolle sichern:
Automatisierte Entscheidungen sollten nie ohne menschliche Letztprüfung umgesetzt werden. Das HR-Team muss befähigt sein, Entscheidungen kritisch zu hinterfragen — dazu braucht es Schulungen und klare Prozesse.
✅ 4. Governance und Monitoring aufbauen:
Bias-Monitoring, Fairness-Metriken (z. B. Demographic Parity, Equal Opportunity) und dokumentierte Erklärungsprotokolle gehören in jedes KI-Risikomanagement. In vielen Fällen sind IT-Abteilungen oder Data-Science-Teams notwendig, um diese Prüfungen technisch umzusetzen. Kleine HR-Teams sollten daher externe Expertise einplanen.
Fazit
Erklärbare KI ist keine Garantie für faire und transparente Entscheidungen – gerade im HR-Bereich, wo Diskriminierung gravierende Folgen hat. Das BSI-Whitepaper mahnt: Uneinigkeitsprobleme, Manipulationspotenziale und Fairwashing sind reale Risiken, die nur durch robuste Technik, organisatorische Checks und rechtlich saubere Prozesse eingedämmt werden können.
Nur wer Erklärbarkeit kritisch prüft, Fairness regelmäßig misst und Audits nicht als einmalige Show versteht, wird Künstliche Intelligenz im HR so einsetzen, dass sie Menschen Chancen eröffnet – statt sie systematisch auszuschließen.
Begriffserkärungen
Was versteht man unter Due Diligence bei KI-Lösungen?
Due Diligence bedeutet Sorgfaltspflicht. Im Zusammenhang mit KI prüft ein Unternehmen sehr genau, wer die Software liefert, wie transparent sie entwickelt wurde und ob Risiken wie Diskriminierung erkannt und kontrolliert werden.
Was ist ein White-Box-Audit-Recht?
Ein White-Box-Audit-Recht erlaubt es, den Quellcode, die Trainingsdaten und die Modelllogik einer KI einzusehen. So können Manipulationen oder versteckte Diskriminierung aufgedeckt werden. Im Gegensatz dazu bleibt bei einer Black Box das Innenleben verborgen.
Was ist eine Quellcode-Begutachtung?
Bei einer Quellcode-Begutachtung überprüfen Fachleute den Programmcode der KI-Lösung, um sicherzustellen, dass keine verbotenen Merkmale wie Geschlecht oder Alter genutzt werden und dass Erklärungen nicht manipuliert sind.
Was bedeutet Fairwashing?
Fairwashing beschreibt den Versuch, eine KI fairer darzustellen, als sie tatsächlich ist – zum Beispiel, indem man für Audits ein harmloses Ersatzmodell zeigt, während das eigentliche Modell diskriminierend arbeitet.
Was ist ein Rashomon-Set?
Das Rashomon-Set umfasst alle Modelle, die mit denselben Daten ähnlich gute Ergebnisse liefern können, aber intern unterschiedlich arbeiten. Das zeigt: Eine plausible Erklärung heißt nicht, dass es nicht auch andere Modelle mit anderen Entscheidungswegen gibt.
Was sind Fairness-Metriken?
Fairness-Metriken sind Messgrößen, mit denen man prüft, ob ein Modell verschiedene Gruppen gleich behandelt. Beispiele sind Demographic Parity (alle Gruppen haben dieselbe Chance auf ein positives Ergebnis) und Equal Opportunity (alle Gruppen haben die gleiche Chance auf ein korrekt positives Ergebnis).
Was bedeutet Bias-Monitoring?
Bias-Monitoring bezeichnet die laufende Überwachung, ob ein KI-Modell bestimmte Gruppen systematisch benachteiligt. So kann man frühzeitig gegensteuern, bevor Diskriminierung entsteht.
Was ist SHAP?
SHAP steht für SHapley Additive exPlanations und ist ein bekanntes Verfahren der erklärbaren KI. Es zeigt, welchen Beitrag jede Eingabegröße (z. B. Alter, Berufserfahrung) zur Entscheidung des Modells leistet.
Was sind Gradient Tricks?
Gradient Tricks sind Techniken, mit denen man Erklärungen gezielt steuern oder fälschen kann. Dabei manipuliert man die mathematischen Ableitungen (Gradienten), auf denen viele Erklärverfahren basieren.