Bevorzugen KIs KI-Texte? Folgen des AI-AI Bias für Recruiting und HR

von | Sep. 12, 2025 | KI im Personalwesen, News

zuletzt aktualisiert 5. Januar 2026

Künstliche Intelligenz bewertet nicht neutral: Neue Forschung zeigt, dass große Sprachmodelle (LLMs) Texte aus ihrer eigenen „Feder“ bevorzugen. Für HR birgt das erhebliche Risiken – von verzerrten Screening-Prozessen bis zu rechtlichen Fallstricken. Gleichzeitig eröffnen sich Chancen durch Standardisierung und Barriereabbau. Was hinter dem sogenannten AI–AI Bias steckt und warum er für Recruiting und Talentmanagement relevant ist und wie Unternehmen darauf reagieren sollten.

Inhaltsverzeichnis

Einleitung

Eine aktuelle Studie (Laurito et al. (2025), „AI–AI bias: Large language models favor communications generated by large language models“, PNAS (Open Access)) zeigt: Große Sprachmodelle (LLMs) bevorzugen Inhalte, die ebenfalls von LLMs verfasst wurden – selbst wenn die beschriebenen Optionen inhaltlich gleichwertig sind. Dieses „AI–AI Bias“ genannte Phänomen kann sich unmittelbar auf HR‑Prozesse auswirken, wenn KI‑Assistenten an Kandidatenscreenings, Textbeurteilungen oder Kaufentscheidungen für HR‑Tools beteiligt sind. Die Konsequenz: Bewerbungen, Stellenausschreibungen oder interne Policy‑Texte mit LLM‑„Prosa“ könnten systematisch besser abschneiden als rein menschlich verfasste Texte – mit potenziell diskriminierender Wirkung gegenüber Kandidat:innen ohne Zugang zu leistungsfähigen KI‑Assistenten. Die Studie testet drei Entscheidungsdomänen und findet konsistente Präferenzen zugunsten LLM‑generierter Texte.

Symbolische Illustration einer Waage mit KI-generiertem Dokument und handgeschriebenem Text, die Schieflage des AI–AI Bias im Recruiting darstellend.
AI–AI Bias im Recruiting: KI-generierte Texte könnten im Vergleich zu menschlichen Bewerbungen einen Vorteil erhalten.

Kernergebnisse der Studie – kompakt

  • Design: In binären Wahlaufgaben mussten LLM‑Assistenten zwischen zwei inhaltlich vergleichbaren Optionen wählen (z. B. Produkte, Paper‑Abstracts, Filmkäufe). Jeweils eine Beschreibung stammte von Menschen, die andere von einem LLM. Mehrere verbreitete Modelle (u. a. GPT‑3.5, GPT‑4 sowie offene Modelle wie Llama‑3.1‑70B, Mixtral‑8x22B und Qwen‑2.5‑72B) fungierten dabei in zwei Rollen: als Generatoren und als Selektoren. Generatoren verfassen die Texte; Selektoren erhalten Paare und treffen eine Auswahl. Ergebnis: LLMs bevorzugten signifikant häufiger LLM‑Texte als menschliche Vergleichsgruppen.
  • Domänenübergreifend: Der Effekt zeigte sich in Produktbeschreibungen, wissenschaftlichen Abstracts und Filminhaltsangaben; bei Menschen fiel die Präferenz für LLM‑Texte deutlich schwächer aus oder kehrte sich teilweise um.
  • First‑Item‑Bias: Zusätzlich wurde ein Positionsbias beobachtet (Tendenz, die erstgenannte Option zu wählen). Auch nach Gegenmaßnahmen (Positionswechsel der Texte) blieb ein Restbias bestehen – relevant für jede Art von Ranking oder Paarvergleich in HR‑Systemen.
  • Implikation: Die Autor:innen diskutieren eine „Gate‑Tax“: Ohne Zugang zu Frontier‑LLMs droht Benachteiligung; mit Zugang zahlen Bewerbende faktisch eine Eintrittsgebühr, um Diskriminierung zu vermeiden.

Methodische Grenzen

Domänenabdeckung: Untersucht wurden drei textuelle Domänen mit klar umrissenen Prompts. Komplexe HR‑Texte (z. B. Arbeitszeugnisse, Leistungsbeurteilungen) enthalten zusätzliche Signale (Kontext, Belege), die im Studiendesign fehlen können.

Modellversionen & Reproduzierbarkeit: LLMs werden laufend aktualisiert. Ergebnisse können sich mit neuen Gewichten, Kontextlängen oder Sicherheitsrichtlinien verschieben. Für HR bedeutet das: Regelmäßige Re‑Validierung ist Pflicht.

Prompt‑Einfluss & Formatierungsartefakte: Schreibstil, Länge, Listen/Absätze und „verkaufsorientierte“ Tonalität können Proxy‑Signale darstellen. Ohne strikte Längen‑ und Strukturkontrolle kann Stil als Qualitätsmerkmal fehlinterpretiert werden.

Menschen‑Baseline: Die humanen Vergleichsstichproben waren klein. Daraus folgt: Die Effektgröße des AI–AI Bias im realen Verhalten von Recruiter:innen ist noch genauer zu bestimmen.

First‑Item‑Bias als Maskierung: Ein starker Positionsbias kann echte Präferenzen überlagern. Auch doppelte Präsentation (A/B, B/A) beseitigt nicht zwingend alle Ordnungs‑Effekte. HR‑UIs sollten deshalb standardmäßig shufflen und Ergebnisse über mehrere Durchläufe aggregieren.

Ökologische Validität: Reale HR‑Prozesse umfassen mehrstufige Entscheidungen (Pre‑Screening → Fachinterview → Assessment). Ein Bias in einer frühen Stufe kann kumulativ wirken. Studienergebnisse sollten daher prozessual interpretiert werden.

Rechtlicher Rahmen

Das deutsche Allgemeine Gleichbehandlungsgesetz (AGG) verbietet Benachteiligungen aufgrund von Herkunft, Geschlecht, Alter, Religion oder Behinderung. Indirekte Diskriminierung kann entstehen, wenn scheinbar neutrale Praktiken – etwa die Belohnung bestimmter Sprachstile – bestimmte Gruppen systematisch benachteiligen. Auf europäischer Ebene stuft der geplante EU‑AI‑Act den Einsatz von KI im Beschäftigungs- und Recruiting‑Kontext als Hochrisiko ein. Daraus ergeben sich Pflichten wie Risikomanagement, Daten- und Modell‑Governance, Protokollierung, Transparenzhinweise, menschliche Aufsicht sowie Anforderungen an Genauigkeit und Robustheit. Für HR bedeutet das, dass Dokumentation und Nachweisbarkeit von Fairness‑Kontrollen zwingend Teil der Compliance sein müssen. Auch die Datenschutzgrundverordnung (DSGVO) ist relevant: Bei automatisierten Entscheidungen gelten Vorgaben zu Transparenz, Widerspruchsmöglichkeiten und „Privacy by Design“. Sensible Merkmale dürfen nicht direkt oder indirekt zu Entscheidungsgrundlagen werden.

Für die Praxis ergeben sich daraus klare Compliance‑Implikationen: HR sollte Datenschutz‑Folgenabschätzungen (DPIA/DSFA) für KI‑gestützte Screenings durchführen, bei Anbietern gezielt Prüfprotokolle zu Bias‑Tests, Modell‑Updates und Logging einfordern, Bewerbende transparent über den Einsatz von KI informieren und eine Kontaktstelle für Rückfragen bereitstellen. Zudem ist es notwendig, dass kritische Schritte – etwa die Aufnahme in die Shortlist, also die engere Auswahl an Kandidat:innen – einer kontrollierten menschlichen Aufsicht unterliegen und jederzeit begründet werden können.

Was bedeutet das konkret für HR?

1) Bewerbungsunterlagen und Vorselektion

Wenn Vorselektion, Screening‑Assistenz oder Ranking‑Hilfen auf LLMs basieren, kann KI‑„Prosa“ als Qualitäts‑Proxy fehlinterpretiert werden. Beispiel: Zwei gleichwertige Lebensläufe, einer manuell verfasst, einer mit LLM geglättet – der LLM‑gestützte Text hat höhere Chancen, positiv bewertet zu werden. Das ist keine valide Leistungsdifferenz, sondern ein Stil‑/Identitätssignal.

2) Stellenausschreibungen und Employer Branding

LLM‑basierte Ranking‑ oder A/B‑Assistenten könnten LLM‑optimierte Ausschreibungen bevorzugen. Das verzerrt interne Entscheidungen (z. B. Auswahl der Anzeigevariante) und kann die Diversität der Ansprache beeinträchtigen.

3) Digitale Kluft und Fairness

Ohne flankierende Maßnahmen wird Zugang zu leistungsfähigen LLMs zum Wettbewerbsvorteil. HR sollte Ausgleichsmechanismen schaffen (z. B. strukturierte Formulare, klare Rubriken, Schulungen für Kandidat:innen).

Praxisbeispiele aus HR‑Systemen

  • Applicant Tracking Systems (ATS): Ranking/NLP‑Module können Prosa‑Signale überbewerten; Gegenmaßnahme: Feature‑Selektion auf evidenzbasierte Kriterien (Skills, Nachweise), Stil‑Degewichtung.
  • E‑Recruiting‑Portale: A/B‑Testing‑Assistenten bevorzugen „glatte“ LLM‑Prosa; Gegenmaßnahme: Längenparität, Template‑Vorgaben, Content‑Checks.
  • Matching‑Engines: Profile mit KI‑Unterstützung erhalten bessere Scores; Gegenmaßnahme: standardisierte Profilmasken und Validierung gegen Gold‑Labels.
  • In‑Tool‑Prompts: Vorlagen sollten Format‑ und Längenbudgets durchsetzen; UI‑Shuffle bei Vergleichen aktivieren.

Handlungsempfehlungen für HR‑Leitungen und People Analytics

A. Governance & Beschaffung

  • Fairness‑Anforderungen in SLAs: Nachweis, dass AI–AI Bias und First‑Item‑Bias getestet und mitigiert werden (Balanced Presentation, Randomization, Order‑Effects‑Kontrollen).
  • Audit‑Protokolle & Logging: Reproduzierbare Tests; dokumentierte Mitigation‑Wirksamkeit (Pre/Post), Update‑Historie.
  • Human‑in‑the‑Loop als Default**: Kritische Entscheidungen (Shortlist, Ablehnung) nicht allein KI‑gestützt; Begründbarkeit und Revision sicherstellen.

B. Prozessdesign & Prompting

  • Normalisierung statt „Schönschreiben“: Bei Vergleichen Stil‑/Längenausgleich erzwingen.
  • Robuste Paarvergleiche: Reihenfolge randomisieren; doppelt präsentieren (A/B und B/A); über Iterationen aggregieren.
  • Bewertungsrubriken: Evidenzbasierte Kriterien (nachprüfbare Qualifikationen, messbare Ergebnisse) priorisieren; Stil‑Score explizit abwerten.

C. Chancengleichheit für Kandidat:innen

  • Transparente Leitlinien zur erlaubten KI‑Assistenz; standardisierte Formulare statt Freitext; barrierearme Alternativen bereitstellen.
  • Kommunikation & Schulung: Hinweise, wie aussagekräftige Inhalte geliefert werden (Belege, Zahlen, Links zu Arbeiten), statt „Hochglanz‑Prosa“.

D. Technische Mitigation

  • Stylometrie‑gestützte Kalibrierung: Stilmerkmale erkennen, nicht sanktionieren, sondern zur Score‑Korrektur nutzen.
  • Ensemble‑Bewertung: Mehrere Modelle + menschliche Reviews; Konsens nur bei inhaltsbasierter Übereinstimmung.
  • UI‑Kontrollen: Shuffle‑Standard, verzögerte Anzeige formaler Merkmale, Blind‑Bewertung wo möglich.

Risiken und Chancen einer Automatisierung

Automatisierung im HR‑Kontext birgt sowohl Risiken als auch Chancen. Risiken entstehen durch mögliche Fehlsteuerungen, wenn Stilmerkmale anstelle von Inhalten als Qualitätsindikatoren herangezogen werden. Auch kumulative Verzerrungen über mehrere Prozessstufen hinweg, rechtliche Angreifbarkeit oder ein Verlust an Vertrauen sind nicht zu unterschätzen. Chancen liegen hingegen in der Standardisierung von Eingaben, in einer sprachlichen Inklusion durch verständlichere Formulierungen sowie in der Skalierbarkeit bei gleichzeitiger Qualitätskontrolle. Voraussetzung für die Nutzung dieser Chancen ist jedoch ein kontrolliertes Design mit klaren Mess‑ und Korrekturmechanismen.

Praktische Ansätze zur Bias‑Robustheit

Anstelle eines festen Zeitplans lassen sich allgemeine Handlungslinien für die Praxis formulieren:

  • Inventur und Analyse: HR‑Abteilungen sollten ihre Entscheidungsstellen identifizieren, in denen LLMs Texte vergleichen, bewerten oder ranken. Dabei gilt es, verwendete Prompts, UI‑Reihenfolgen, Bewertungsmetriken und Protokolle zu dokumentieren.
  • Schnelle Gegenmaßnahmen: Reihenfolgen randomisieren, Längen‑/Strukturvorgaben für Freitext einführen, Bewertungsrubriken stärker auf überprüfbare Kriterien ausrichten und kritische Fälle durch Menschen gegenprüfen lassen. Auch von Anbietern sollten Nachweise zu Bias‑Tests eingefordert werden.
  • Kontinuierliche Tests: Mit synthetischen Vergleichspaaren (LLM‑ vs. Human‑Prosa) lässt sich der AI–AI Bias regelmäßig messen. Akzeptanzkriterien helfen, Schwellenwerte festzulegen, und die Wirksamkeit von Gegenmaßnahmen sollte dokumentiert werden.

Begriffs‑Glossar

  • Generatoren / Selektoren: Generatoren erstellen Texte; Selektoren wählen zwischen zwei Texten.
  • First‑Item‑Bias (Positionsbias): Tendenz, die zuerst gezeigte Option zu bevorzugen – unabhängig vom Inhalt.
  • Stylometrie: Mathematische Analyse von Schreibstilen (z. B. Satzlänge, Wortwahl, Rhythmus).
  • Frontier‑LLMs: Leistungsfähigste, meist proprietäre Modelle der neuesten Generation.
  • Bias‑Mitigation: Maßnahmen zur Messung, Reduzierung oder Kontrolle von Verzerrungen.
  • ATS (Applicant Tracking System): Software zur Verwaltung von Bewerbungen und Kandidatenpipelines.
  • Shuffle‑Standard: Voreinstellung, Inhalte zufällig anzuordnen, um Reihenfolge‑Effekte zu minimieren.
  • Gate‑Tax: Faktische „Eintrittsgebühr“: Wer keine LLM‑Assistenz nutzt, ist im Nachteil; wer nutzt, zahlt dafür.
  • Ökologische Validität: Realitätsnähe eines Experiments im Vergleich zum praktischen Einsatzkontext.
  • UIs (User Interfaces): Bedienoberflächen, über die Nutzer:innen mit Software interagieren.

Fazit

AI–AI Bias ist real und relevant für HR. LLM‑Assistenten neigen dazu, LLM‑verfasste Texte zu bevorzugen, unabhängig vom eigentlichen Inhaltswert. Für faire, rechtskonforme und diversitätssensible HR‑Entscheidungen braucht es Governance, Prozessdisziplin und technische Gegenmaßnahmen: Reihenfolgen randomisieren, Stil‑Einfluss reduzieren, evidenzbasierte Kriterien priorisieren, menschliche Reviews verankern – und den Zugang zu unterstützenden Tools gerecht gestalten. Wer heute seine HR‑KI‑Pipelines auditierbar macht, minimiert morgen rechtliche, reputative und ethische Risiken.

FAQ zum AI–AI Bias in Recruiting & HR

Was versteht man unter AI–AI Bias?

AI–AI Bias beschreibt das Phänomen, dass große Sprachmodelle (LLMs) Texte bevorzugen, die ebenfalls von LLMs erstellt wurden, selbst wenn die Inhalte gleichwertig sind. Dadurch können Verzerrungen in Entscheidungsprozessen entstehen.

Welche Modelle wurden in der Studie getestet?

Neben GPT-3.5 und GPT-4 kamen auch offene Modelle wie Llama-3.1-70B, Mixtral-8x22B und Qwen-2.5-72B zum Einsatz. Sie wurden sowohl als Generatoren (Texterstellung) als auch als Selektoren (Textauswahl) genutzt.

Was ist mit Generatoren und Selektoren gemeint?

Generatoren sind Instanzen, die Texte verfassen. Selektoren hingegen wählen zwischen zwei Texten aus und zeigen, welche Präferenzen in Entscheidungsprozessen bestehen.

Was bedeutet First-Item-Bias?

First-Item-Bias bezeichnet die Tendenz, die zuerst gezeigte Option zu bevorzugen, unabhängig vom eigentlichen Inhalt. Auch nach Gegenmaßnahmen blieb in der Studie ein Restbias bestehen, was für HR-Rankings und Vergleiche relevant ist.

Welche Risiken ergeben sich für Bewerbungsverfahren?

Bewerbungen mit KI-gestützter Prosa könnten systematisch bevorzugt werden, obwohl kein inhaltlicher Qualitätsunterschied besteht. Dadurch entsteht eine Benachteiligung von Kandidat:innen ohne Zugang zu leistungsfähigen LLMs.

Welche Chancen bietet die Nutzung von LLMs im Recruiting?

Richtig eingesetzt können LLMs Texte standardisieren, sprachliche Barrieren abbauen und die Vergleichbarkeit von Bewerbungen erhöhen. Das setzt aber voraus, dass Bias erkannt und kontrolliert wird.

Welche rechtlichen Aspekte sind für HR wichtig?

Wesentliche Vorgaben ergeben sich aus dem AGG in Deutschland und dem geplanten EU AI Act, der KI im Recruiting als Hochrisiko einstuft. Auch die DSGVO ist relevant, da sie Transparenz und Widerspruchsmöglichkeiten bei automatisierten Entscheidungen fordert.

Wie können Unternehmen Bias im HR-Prozess reduzieren?

Maßnahmen umfassen die Randomisierung von Reihenfolgen, die Fokussierung auf evidenzbasierte Bewertungskriterien, den Einsatz von Human-in-the-Loop, stilistische Normalisierung und technische Kontrollen wie Stylometrie oder Ensemble-Bewertungen.

Was bedeutet der Begriff Gate-Tax?

Gate-Tax beschreibt den Nachteil, wenn Bewerbende ohne Zugang zu leistungsfähigen LLMs benachteiligt werden. Wer KI-Hilfen nutzen will, muss Zugang „erkaufen“, um Chancengleichheit zu sichern.

Welche Rolle spielen HR-Systeme wie ATS oder E-Recruiting-Portale?

Applicant Tracking Systems (ATS) oder E-Recruiting-Portale nutzen oft Ranking- und Testfunktionen, die von LLMs unterstützt werden. Ohne Gegenmaßnahmen können diese Systeme Bewerbungen mit KI-optimierten Texten bevorzugen oder Ausschreibungen verzerrt bewerten.

Wo liegen die methodischen Grenzen der Studie?

Die Studie untersuchte nur drei Textdomänen (Produkte, Abstracts, Filme). Komplexe HR-Texte mit zusätzlichen Kontext- und Beleginformationen wurden nicht getestet. Ergebnisse sollten deshalb kritisch auf reale HR-Prozesse übertragen werden.

Was bedeutet Bias-Mitigation?

Bias-Mitigation bezeichnet Maßnahmen, die darauf abzielen, Verzerrungen zu messen, zu reduzieren oder zu kontrollieren. Dazu gehören etwa Randomisierung, Score-Korrekturen oder Ensemble-Bewertungen.

Was bedeutet das konkret für HR-Führungskräfte?

Für HR-Führungskräfte heißt das: Sie müssen Bias bei der Einführung und Nutzung von KI-Systemen aktiv berücksichtigen, Fairness-Anforderungen in Verträgen und Prozessen verankern und sicherstellen, dass Compliance (AGG, EU-AI Act, DSGVO) eingehalten wird.

Neueste Artikel & Insights über den Einsatz von KI im Personalwesen

Wenn KI-Trainer vor Chatbots warnen

Einleitung: Die paradoxe Vertrauenskrise im KI-Ökosystem Generative KI wird in Organisationen und im Alltag immer präsenter. Unternehmen versprechen Effizienzgewinne und setzen zunehmend auf Automatisierung – teils verbunden mit Stellenabbau. Ein...

mehr lesen

Personalplanung mit KI: Eine Übersicht

Summary In der Personalplanung vollzieht sich ein Wandel durch Künstliche Intelligenz (KI), der sämtliche Branchen und Unternehmensgrößen umfasst. KI-gestützte Workforce-Planning-Lösungen werden branchenübergreifend – etwa im Gesundheitswesen,...

mehr lesen

Impressum & Datenschutz