Inhaltsverzeichnis
- Einleitung: Die paradoxe Vertrauenskrise im KI-Ökosystem
- Wer die KI trainiert – und warum diese Stimmen zentral sind
- Warum viele AI-Rater KI privat meiden
- Systemische Probleme hinter den Erfahrungsberichten
- Relevanz für HR und Organisationen
- Der Faktor Mensch: Wissensarbeit hinter KI sichtbar machen
- Fazit: KI bleibt fragil – und verlangt verantwortliche Gestaltung
Einleitung: Die paradoxe Vertrauenskrise im KI-Ökosystem
Generative KI wird in Organisationen und im Alltag immer präsenter. Unternehmen versprechen Effizienzgewinne und setzen zunehmend auf Automatisierung – teils verbunden mit Stellenabbau. Ein Bericht des Guardian zeigt nun, dass ausgerechnet jene Menschen, die KI-Systeme trainieren und evaluieren, ihren Familien raten, Chatbots wie ChatGPT, Gemini oder Grok nicht zu verwenden. Diese Stimmen geben einen seltenen Einblick in strukturelle Defizite, die über technische Fragen hinausreichen und auch für HR zentrale Bedeutung haben.
Wer die KI trainiert – und warum diese Stimmen zentral sind

Die Weiterentwicklung generativer Modelle basiert maßgeblich auf menschlicher Arbeit. AI-Rater bewerten Texte, ordnen Bilder ein, prüfen Fakten, analysieren Videos oder klassifizieren Nutzereingaben. Ihre Entscheidungen beeinflussen, wie ein Modell später antwortet, welche Inhalte es zulässt und welche es ablehnt.
Ein wesentlicher Teil dieser Tätigkeiten wird über Plattformen wie Amazon Mechanical Turk organisiert. Dort können Anbieter von KI-Systemen Aufträge einstellen und Trainer*innen frei wählen. Die Aufgaben umfassen etwa das Bewerten von Bot-Antworten, das Einordnen oder Labeln von Bildern sowie das Übersetzen oder Kommentieren von Texten – Tätigkeiten, die unmittelbar dazu dienen, KI-Modelle zu verbessern.
Trotz dieser zentralen Bedeutung findet diese Arbeit meist unter prekären Bedingungen statt: geringe Bezahlung, hoher Zeitdruck, unklare Vorgaben. Die Berichte der befragten Worker machen deutlich, wie sehr die Qualität der KI von dieser „unsichtbaren Wissensarbeit“ abhängig ist – und wie schnell Fehler, Verzerrungen oder Fehlbewertungen in das System übertragen werden können.
Warum viele AI-Rater KI privat meiden
Ethik und kognitive Belastungen in der Moderationsarbeit
Ein Beispiel liefert die AI-Trainerin Krista Pawloski. Während der Bewertung eines Tweets musste sie innehalten und recherchieren, bevor sie erkannte, dass ein vermeintlich harmloser Begriff tatsächlich ein rassistischer Ausdruck war. Dieser Moment führte ihr vor Augen, wie leicht Fehlbewertungen passieren können – und wie gravierend die Folgen sein können, wenn Moderationsfehler in Trainingsdaten einfließen.
Nach Jahren in der Branche nutzt sie selbst keine generativen KI-Systeme mehr und hat deren Einsatz in ihrer Familie untersagt.
Fehlinformationen und medizinische Inhalte ohne Fachwissen
Besondere Sorge bereitet AI-Raterinnen die Bewertung medizinischer Antworten, etwa im Kontext von Google Searchs „AI Overviews“. Eine Mitarbeiterin berichtet, Kolleginnen würden ohne medizinische Expertise komplexe gesundheitsbezogene Antworten bewerten müssen. Der potenzielle Schaden fehlerhafter Inhalte sei offensichtlich – ebenso wie das Risiko, dass Qualitätsprobleme ungefiltert in die Modelle gelangen.
Strukturelle Schwächen der Trainingsdaten
Mehrere Rater berichten über unzuverlässige Ursprungsdaten. Ein Google-Datenarbeiter schildert, dass ein Modell auf Fragen zur Geschichte Palästinas wiederholt keine Antwort lieferte, während es zur Geschichte Israels problemlos ausführlich antwortete. Diese Asymmetrie wurde gemeldet, jedoch ohne sichtbare Reaktion. Der Rater zweifelt grundsätzlich daran, dass Modelle auf Basis der vorliegenden Daten zu konsistentem Verhalten befähigt werden können – ein klassisches „Garbage in, garbage out“-Problem.
Ökonomische Prioritäten: Geschwindigkeit vor Sorgfalt
Weitere Rater kritisieren, dass Unternehmen hohe Bearbeitungsgeschwindigkeiten einfordern, gleichzeitig aber nur unzureichende Anweisungen und kaum Schulungen bereitstellen. Brook Hansen, seit 2010 im Bereich Datenverarbeitung tätig, beschreibt den Widerspruch deutlich: Modelle sollen sicher, ethisch und qualitativ hochwertig antworten – ihre Trainer*innen erhalten jedoch oftmals weder die notwendigen Informationen noch angemessene Arbeitsbedingungen.
Systemische Probleme hinter den Erfahrungsberichten
Qualität vs. Skalierung: Marktlogiken der KI-Industrie
Der Guardian-Bericht zeigt, dass wirtschaftlicher Druck häufig Vorrang hat: Neue Modelle werden schnell veröffentlicht, um Marktanteile zu sichern. Die Folge ist eine zunehmende Unberechenbarkeit der Systeme. Eine Auswertung von NewsGuard zeigt, dass Falschaussagen der führenden Chatbots innerhalb eines Jahres von 18 auf 35 Prozent stiegen, während die Non-Response-Rate gegen null sank. Modelle antworten also lieber falsch, als eine Antwort zu verweigern.
Unsichtbare Arbeit und mangelnde Professionalisierung
AI-Rating ist eine anspruchsvolle Wissensarbeit, wird aber oft schlecht strukturiert und kann emotional belastend sein. Fehlende Schulung, niedrige Bezahlung und unklare Qualitätskriterien beeinträchtigen nicht nur die Arbeitsbedingungen, sondern auch die Ergebnisse. Für Unternehmen, die KI integrieren, ist dies ein wesentlicher Risikofaktor.
Bias und politische Sensibilität
Die beschriebenen Fälle zeigen, wie modellinterne Vorannahmen oder Datenlücken zu verzerrten Ausgaben führen können. Politisch oder gesellschaftlich sensible Themen sind dabei besonders anfällig. Organisationen müssen daher die Grenzen dieser Technologien kennen, bevor sie sie in entscheidungsrelevanten Bereichen einsetzen.
Relevanz für HR und Organisationen
Was Unternehmen aus den Erfahrungen der AI-Rater lernen können
Für HR und Führungskräfte ergeben sich mehrere Konsequenzen:
- KI-Modelle müssen systematisch evaluiert und nicht unkritisch eingesetzt werden.
- Organisationsinterne KI-Kompetenz ist unverzichtbar, um Risiken zu erkennen und zu managen.
- Modellverhalten ist keine „Naturgegebenheit“, sondern Ergebnis menschlicher Arbeit – einschließlich möglicher Fehler.
Psychische und ethische Belastungen in KI-naher Arbeit
Mit zunehmender KI-Integration entstehen neue Rollen im Unternehmen, etwa Prompt-Engineering, interne Moderation oder Qualitätssicherung. Diese Tätigkeiten können emotional wie kognitiv herausfordernd sein. HR muss entsprechende Unterstützungsstrukturen, Trainingsangebote und Schutzmechanismen einplanen.
Risiken fehleranfälliger Modelle für HR-Entscheidungen
Fehlerhafte oder verzerrte KI-Ausgaben haben direkte Folgen, wenn sie in HR-Kontexten genutzt werden – etwa bei:
- Recruiting und Talentmatching,
- Leistungsbeurteilungen,
- Learning-&-Development-Angeboten,
- Gesundheits- und Compliance-Themen.
Der EU AI Act unterstreicht diese Risiken, da HR-KI in vielen Fällen als Hochrisiko-Technologie eingestuft wird und strenge Anforderungen erfüllen muss.
Der Faktor Mensch: Wissensarbeit hinter KI sichtbar machen
Die Debatte um KI muss stärker auf die Herkunft und Qualität der Daten sowie die Arbeitsbedingungen der Trainer*innen fokussieren. Dazu gehören Fragen wie:
- Werden Daten rechtmäßig und fair erhoben?
- Sind die Arbeitsbedingungen der annotierenden Personen verantwortungsvoll gestaltet?
- Welche ökologischen und sozialen Kosten entstehen durch KI-Entwicklung?
Nur wenn diese Faktoren transparent sind, kann Vertrauen in KI langfristig aufgebaut werden.
Fazit: KI bleibt fragil – und verlangt verantwortliche Gestaltung
Die Stimmen derjenigen, die täglich an der Entwicklung moderner KI-Systeme mitwirken, zeigen ein klares Muster: Generative KI ist weniger futuristisch als vielmals angenommen – sie ist fragil, fehleranfällig und abhängig von menschlicher Arbeit, deren Bedingungen oft unzureichend sind. Für HR bedeutet das, KI weder zu romantisieren noch reflexhaft abzulehnen, sondern sie im Rahmen robuster Governance, sorgfältiger Qualitätsprüfung und klar definierter Verantwortung einzusetzen.
Nur wenn die Arbeitsbedingungen der Menschen hinter den Modellen und die Qualität der Daten ernst genommen werden, kann KI verlässlich und verantwortungsvoll in Organisationen integriert werden.








