Jenseits der Blackbox: Bias-Analysen und rechtssichere Fairness-Prüfung von KI-Recruiting-Systemen

von | Okt. 13, 2025 | KI im Recruiting

Künstliche Intelligenz entscheidet zunehmend mit, wer zu einem Vorstellungsgespräch eingeladen wird. Doch wie lässt sich Bias im Recruiting mit KI reduzieren und sicherstellen, dass dabei keine Bewerbergruppen benachteiligt werden? Wie Fairness- und Bias-Analysen nach EU AI Act und DSGVO praktisch umgesetzt werden können.

Eine gemeinsame Studie mit dem Titel „Uncovering bias in AI recruitment: A legally assured methodology to assess a real-world candidate recommender system under European regulation“ von The Stepstone Group, TÜV AI.Lab und QuantPi untersucht, wie sich KI-Systeme im Recruiting auf Fairness prüfen lassen und welche Lehren sich daraus für HR-Abteilungen ergeben, die künftig den Anforderungen des EU AI Act genügen müssen.

Einleitung: Verantwortung der Personalabteilung im KI-Zeitalter

Künstliche Intelligenz (KI) ist längst Bestandteil moderner Recruiting-Prozesse. Sie filtert Bewerbungen, erkennt Muster in Lebensläufen und schlägt passende Kandidatinnen und Kandidaten vor. Damit steigt jedoch auch die Verantwortung der Personalabteilungen, algorithmische Diskriminierung zu verhindern.

Denn KI lernt aus historischen Daten – und diese spiegeln häufig unbewusste menschliche Vorurteile wider. Der EU AI Act stuft KI-Systeme im Personalwesen deshalb als Hochrisikoanwendungen ein. Sie müssen nachweislich sicher, nachvollziehbar und diskriminierungsfrei sein.

Das Whitepaper bringt die Herausforderung auf den Punkt: Man benötige eine „Teststrategie mit einer robusten rechtlichen Rechtfertigung“, die nur durch ein „qualifiziertes, multidisziplinäres Team aus den Bereichen Compliance, Ethik, Data Science und Ingenieurwesen“ umgesetzt werden könne.
Diese Aussage verdeutlicht: Fairness ist kein rein technisches Thema, sondern eine unternehmensweite Verantwortung, die juristische, ethische und datenwissenschaftliche Expertise vereint.

Der „Assurance Case“: Ein Rahmen für Nachvollziehbarkeit und Rechtssicherheit

Zentraler Bestandteil der vorgestellten Methodik ist der sogenannte Assurance Case – eine strukturierte Argumentations- und Evidenzkette, die die Behauptung „Unser KI-System diskriminiert nicht“ anhand dokumentierter Beweise untermauern soll.

Der Ansatz folgt einem aus der Sicherheitszertifizierung bekannten Prinzip: Entscheidungen und Prüfergebnisse werden nachvollziehbar dokumentiert, um im Streitfall eine nachweisbare Sorgfaltspflicht belegen zu können.

Rechtlich bewegt sich das Verfahren auf einem abgesicherten Fundament: Artikel 9 (2)(j) der DSGVO erlaubt die Verarbeitung sensibler Daten zu statistischen Zwecken, sofern geeignete Schutzmaßnahmen wie Pseudonymisierung, Zweckbindung und Datenlöschung gewährleistet sind.

Allerdings sollte betont werden, dass ein Assurance Case zwar gerichtlich nachvollziehbar, aber nicht automatisch „gerichtsfest“ ist, ein wichtiger Unterschied, solange es noch keine Präzedenzfälle für Fairness-Audits im europäischen Kontext gibt.

KI im Recruiting: Digitale Profile im Gleichgewicht – gleiche Chancen durch transparente Technologie.

Die Praxisstudie: Wie Fairness empirisch überprüft wurde

Die Fallstudie analysierte ein KI-basiertes Empfehlungssystem mit rund 3200 Datenpunkten, das Recruitern passende Bewerbende vorschlägt. Der Fokus lag auf möglichen Benachteiligungen aufgrund ethnischer Herkunft.

Neben der ethnischen Herkunft wurden in der Untersuchung auch die Merkmale Geschlecht und Alter berücksichtigt. Erste Tests zeigten keine signifikanten Auffälligkeiten, stehen jedoch noch unter Validierungsvorbehalt. Weitere geschützte Merkmale wie Religion, Behinderung oder sexuelle Orientierung konnten aufgrund zu geringer Datenbasis nicht zuverlässig ausgewertet werden.
Das Forschungsteam kündigt an, in künftigen Analysen auch intersektionale Effekte – also die Überschneidung mehrerer Diskriminierungsmerkmale, etwa von Ethnizität und Geschlecht – systematisch zu untersuchen. Dieser breitere Ansatz ist entscheidend, um Diskriminierung im Recruiting umfassend zu verstehen und zu verhindern.

Labeling und Ground Truth

Ein Teil der Referenzdaten wurde durch menschliche Expertinnen und Experten bewertet, ein weiterer Teil mithilfe des Sprachmodells GPT-4. Erst nachdem GPT-4 auf einer Stichprobe eine Übereinstimmung von 97 Prozent mit den menschlichen Urteilen zeigte, wurde es zur Skalierung des Datensatzes eingesetzt.

Dieser Ansatz ist pragmatisch, aber nicht unproblematisch: Eine KI kann Bias enthalten, der mit menschlichen Vorurteilen korreliert. Eine hohe Übereinstimmung bedeutet daher Konsistenz, nicht zwangsläufig Fairness.
Die Forscher selbst verweisen auf dieses Risiko – ein Zeichen methodischer Sorgfalt, aber auch ein Hinweis auf die Grenzen solcher hybriden Labeling-Verfahren.

Ein Ergebnis mit zwei Gesichtern

Stufe 1: Individuellen Fairness

Zuerst prüften die Experten die individuelle Fairness: Würde das System eine einzelne Person anders behandeln, wenn man nur Hinweise auf ihre ethnische Herkunft im Lebenslauf ändert? Hierfür wurden Profile dupliziert und lediglich Attribute wie Ortsangaben oder Namen variiert.

Das positive Ergebnis: Es zeigten sich keine statistisch signifikanten Unterschiede in der Bewertung. Ein Lebenslauf wurde nicht besser oder schlechter eingestuft, nur weil er mit einer türkischen statt einer deutschen Universität verknüpft war. Dies deutet stark darauf hin, dass das untersuchte System keine direkte, individualisierte Diskriminierung vornimmt – ein wichtiges erstes Qualitätsmerkmal.

Stufe 2: Diskrepanz bei der Gruppengerechtigkeit

Doch ein wichtiges Ergebnis für die Praxis offenbarte sich erst im zweiten Schritt. Hier analysierte das Team, ob das System ganze Personengruppen systematisch benachteiligt. Dafür wurde die sogenannte „False Negative Rate“ (FNR) berechnet – also wie oft qualifizierte Kandidaten fälschlicherweise nicht als passend empfohlen werden.

Trotz der individuellen Fairness zeigte sich hier ein anderes Bild. Es gab deutliche Unterschiede zwischen den Gruppen:

  • Bei Bewerbenden mit west- oder südeuropäischer Herkunft lag die Fehlerrate bei hohen 0,134 bzw. 0,138.
  • Bei Bewerbenden mit südasiatischer oder iranisch-zentralasiatischer Herkunft war sie mit 0,045 bzw. 0,024 signifikant niedriger.

Das KI-System übersah qualifizierte Talente aus bestimmten europäischen Gruppen also weitaus häufiger als Talente aus bestimmten asiatischen Gruppen. Es funktionierte für manche besser als für andere.

Ethnische GruppeFNRInterpretation
West-europäisch0,13413,4 % der geeigneten Kandidat:innen aus dieser Gruppe wurden fälschlich nicht empfohlen
Süd-europäisch0,13813,8 % nicht empfohlen
Südasiatisch0,045„nur“ 4,5 % übersehen
Iranisch-zentralasiatisch0,024„nur“ 2,4 % übersehen

Warum dieser Widerspruch entscheidend ist

Genau diese Diskrepanz zwischen einem „fairen“ Einzelergebnis und einem „unfairen“ Gruppenergebnis ist eine zentrale Erkenntnis der Studie. Sie beweist, dass ein oberflächlicher Bias-Check nicht ausreicht. Ein System kann auf Mikroebene fair erscheinen, aber auf Makroebene dennoch systematisch diskriminierende Muster erzeugen. Dies ist das klassische Muster einer indirekten Diskriminierung, die für HR-Abteilungen rechtlich und ethisch hochrelevant ist.

Die Ursache liegt vermutlich in korrelierten Variablen. So könnten etwa Unterschiede im Bildungsniveau in den Trainingsdaten ungleich verteilt gewesen sein, was die KI zu falschen Verallgemeinerungen verleitet hat.

Eine methodische Einschränkung: Die ethnische Herkunft wurde nicht direkt erhoben, sondern aus Namen und Orten hergeleitet. Dadurch entstehen Unsicherheiten, die die Aussagekraft der Ergebnisse begrenzen.

💡 Was die FNR-Zahlen in der HR-Praxis bedeuten

Die False Negative Rate (FNR) zeigt, wie oft das System eine eigentlich geeignete Bewerberin oder einen geeigneten Bewerber nicht empfiehlt – also wie viele Talente im Auswahlprozess unbemerkt durchs Raster fallen.

Eine FNR von 0,13 bedeutet, dass rund 13 % der geeigneten Kandidat:innen einer Gruppe nicht erkannt werden, während bei einer FNR von 0,02 nur etwa 2 % übersehen werden. Im Recruiting-Alltag heißt das: Bestimmte Gruppen erscheinen deutlich seltener in den Shortlists, obwohl sie objektiv geeignet wären.

Diese Unterschiede sind kein direkter Beweis für Diskriminierung, aber sie sind starke Indikatoren für ungleiche Chancen. Eine dauerhaft höhere FNR kann darauf hinweisen, dass das System für bestimmte Gruppen weniger sensibel ist – etwa weil Trainingsdaten unausgewogen waren oder bestimmte Bildungs- und Sprachmuster bevorzugt werden.

Für HR-Verantwortliche ist das doppelt relevant:

  1. Operativ, weil das Unternehmen geeignete Talente verliert, bevor sie überhaupt im Bewerbungsprozess erscheinen.
  2. Rechtlich, weil solche Muster als indirekte Diskriminierung gewertet werden können (§ 3 Abs. 2 AGG), wenn sie unbeachtet bleiben.
  3. Strategisch, weil sie das Vertrauen in KI-Systeme und die Glaubwürdigkeit von Diversity-Zielen untergraben.

Eine kontinuierliche Überwachung der FNR-Werte – und ihrer Unterschiede zwischen Gruppen – ist daher ein zentraler Bestandteil jeder KI-Governance im Recruiting. Sie hilft, blinde Flecken aufzudecken, Fairness messbar zu machen und den rechtlichen wie ethischen Anforderungen des EU AI Act gerecht zu werden.

Von der Analyse zur Governance: Was HR daraus lernen kann

Die zentrale Erkenntnis lautet: Ein einzelner Fairness-Test reicht nicht aus. Während die individuelle Fairness positiv ausfiel, zeigten sich gruppenspezifische Unterschiede – ein klassisches Muster indirekter Diskriminierung.

Für HR und Compliance lassen sich daraus drei Handlungsfelder ableiten:

  1. Ursachenanalyse statt Schnellurteil:
    Statistische Disparitäten sind ein Diagnoseinstrument, kein Beweis für Diskriminierung. Nur weiterführende Analysen (z. B. nach Bildungsgrad, Berufserfahrung oder Region) können Ursachen klären.
  2. Verantwortung klären:
    Der EU AI Act reguliert vor allem Anbieter, doch im operativen Einsatz bleibt das Allgemeine Gleichbehandlungsgesetz (AGG) maßgeblich. HR-Abteilungen tragen die Verantwortung, die Fairness eingesetzter Systeme kontinuierlich zu überprüfen.
  3. Kontinuierliche Verbesserung etablieren:
    Fairness-Audits sind kein einmaliges Ereignis, sondern Teil eines regelmäßigen Prüf- und Verbesserungszyklus. Hier sollte HR eine aktive Rolle im Qualitätsmanagement von KI-Systemen übernehmen.

Praktische Leitlinien für den verantwortungsvollen KI-Einsatz

  • Bei der Anschaffung: Fordern Sie von Anbietern eine transparente Dokumentation. Stellen Sie kritische Fragen: „Wie genau testen Sie auf indirekte Diskriminierung nach den Kriterien des AGG? Können Sie uns die Testergebnisse für demografische Gruppen zeigen, die für unseren Arbeitsmarkt relevant sind?“
  • Bei der Implementierung: Definieren Sie interne Zuständigkeiten und Prozesse für Monitoring und Nachjustierung.
  • Im Betrieb: Führen Sie regelmäßig eigene Audits durch – idealerweise mit externen Partnern und nach Referenzrahmen wie der ISO/IEC 42001 (Management System for Artificial Intelligence) oder den OECD AI Principles.
  • Im Team: Schulen Sie Recruiter im Umgang mit algorithmischen Empfehlungen. KI bleibt ein Hilfsmittel, keine Entscheidungsmacht.

Fazit: Fairness entsteht durch Kontrolle – und Verantwortung

Die Studie zeigt, dass rechtlich fundierte Fairness-Prüfungen technisch machbar sind – aber sie beweist auch, dass Fairness kein statischer Zustand ist.

KI-Systeme sind Produkte ihrer Trainingsdaten. Ihre Fairness hängt davon ab, wie sorgfältig diese Daten geprüft, wie differenziert die Tests konzipiert und wie verantwortungsvoll die Ergebnisse interpretiert werden.

Für HR-Verantwortliche heißt das: Fairness lässt sich nicht an die Technik delegieren. Sie entsteht dort, wo rechtliche, ethische und datenwissenschaftliche Perspektiven zusammengeführt werden – kontinuierlich, transparent und überprüfbar.

Und jenseits von Compliance bleibt eine ethische Verpflichtung: KI im Recruiting dient nicht nur der Effizienz, sondern dem gerechten Zugang zu Chancen.

Jenseits der Blackbox: Wie Unternehmen Bias erkennen, Fairness prüfen und rechtssichere KI-Systeme im Recruiting einsetzen – ein Leitfaden für HR und Compliance nach EU AI Act und DSGVO.

Verzerrte Entscheidungen durch KI? Warum Bias im Recruiting ein Risiko für HR ist

FAQs zu Bias-Prüfung von KI-Recruiting-Systemen

Was versteht man unter einer Bias-Prüfung in KI-Recruiting-Systemen?

Eine Bias-Prüfung untersucht, ob ein KI-System im Recruiting bestimmte Bewerbergruppen systematisch bevorzugt oder benachteiligt. Sie analysiert zum Beispiel Unterschiede in Empfehlungsraten oder Fehlklassifikationen zwischen Gruppen wie Geschlecht, Alter oder ethnischer Herkunft.

Welche Rolle spielt der EU AI Act bei der Fairness-Prüfung?

Der EU AI Act stuft KI-Systeme im Personalwesen als Hochrisiko-Anwendungen ein. Anbieter und Anwender müssen nachweisen, dass ihre Systeme transparent, sicher und nicht diskriminierend arbeiten. Regelmäßige Fairness-Tests sind Teil dieser Nachweispflicht.

Was bedeutet die False Negative Rate (FNR) im Kontext von KI-Recruiting?

Die False Negative Rate misst, wie oft ein System eine eigentlich geeignete Person fälschlicherweise nicht empfiehlt. Eine hohe FNR bedeutet, dass potenzielle Talente übersehen werden. Unterschiede zwischen Gruppen deuten auf mögliche Ungleichbehandlungen hin.

Welche Fairness-Dimensionen wurden in der Stepstone/TÜV/QuantPi-Studie geprüft?

Analysiert wurden die Merkmale ethnische Herkunft, Geschlecht und Alter. Weitere Merkmale wie Religion, Behinderung oder sexuelle Orientierung konnten aufgrund zu geringer Datenbasis nicht getestet werden. Künftige Analysen sollen intersektionale Effekte berücksichtigen.

Was ist ein Assurance Case und warum ist er wichtig?

Ein Assurance Case ist eine strukturierte Argumentationskette, die belegt, dass ein KI-System rechtssicher und diskriminierungsfrei arbeitet. Sie dokumentiert Prüfmethoden, Ergebnisse und Schutzmaßnahmen – als Nachweis der Sorgfaltspflicht gegenüber Behörden und Auditoren.

Wie können HR-Abteilungen Bias in KI-Systemen erkennen?

HR-Abteilungen sollten regelmäßig Auswertungen durchführen, um Abweichungen in Empfehlungs- oder Erfolgsraten zwischen Gruppen zu identifizieren. Auffällige Werte sollten gemeinsam mit dem KI-Anbieter analysiert und gegebenenfalls durch Trainingsdatenanpassungen korrigiert werden.

Welche rechtlichen Risiken bestehen bei unentdecktem Bias?

Bleiben Diskriminierungen in KI-gestützten Auswahlprozessen unbemerkt, kann dies als Verstoß gegen das Allgemeine Gleichbehandlungsgesetz (AGG) gewertet werden. Unternehmen riskieren Schadensersatzforderungen und Reputationsverlust. Regelmäßige Audits mindern dieses Risiko erheblich.

Wie häufig sollten Fairness-Audits durchgeführt werden?

Empfohlen wird, mindestens einmal jährlich einen Fairness-Audit durchzuführen oder bei größeren Modell-Updates. Kontinuierliches Monitoring sorgt dafür, dass Änderungen in Daten oder Bewerberprofilen keine ungewollten Bias-Effekte verursachen.

Welche Standards können HR-Abteilungen als Orientierung nutzen?

Relevante Leitlinien sind die ISO/IEC 42001 für KI-Managementsysteme, die OECD AI Principles sowie der EU AI Act. Diese Standards fördern Transparenz, Nachvollziehbarkeit und Fairness in KI-gestützten Entscheidungsprozessen.

Was ist das wichtigste Fazit der Studie?

Die Untersuchung zeigt, dass rechtlich fundierte Fairness-Prüfungen technisch möglich sind. Fairness entsteht jedoch nicht einmalig, sondern durch fortlaufende Überprüfung, Anpassung und transparente Governance im Zusammenspiel von HR, Data Science und Compliance.

Neueste Artikel & Insights über den Einsatz von KI im Personalwesen

Impressum & Datenschutz