Cultural AI im Personalwesen: Warum KI soziale Intelligenz lernen muss

von | Okt. 29, 2025 | News

Summary

Künstliche Intelligenz versteht Sprache, aber nicht immer Kultur. Die neue Studie TaarofBench zeigt, wie selbst fortgeschrittene Modelle an den Feinheiten persischer Höflichkeit scheitern. Was wie ein linguistisches Detail klingt, hat weitreichende Folgen für das Personalwesen: Ohne kulturelle Intelligenz riskieren HR-KI-Systeme Missverständnisse, Bias und Vertrauensverlust. Warum kulturelle Kompetenz zum neuen Maßstab für faire und globale HR-Technologien wird und wie Unternehmen ihre KI darauf vorbereiten können.

Einleitung

Künstliche Intelligenz kann heute Bewerbungen sichten, Chatgespräche führen und Mitarbeiterfeedback analysieren. Doch sie versteht nicht immer, was Menschen wirklich meinen – vor allem, wenn Kommunikation kulturell geprägt ist. Ein „Nein“ kann in manchen Kulturen Zustimmung bedeuten, eine höfliche Ablehnung kann ein Ausdruck von Respekt sein. Für HR-Systeme, die weltweit eingesetzt werden, ist das mehr als ein sprachliches Detail: Es entscheidet über Fairness, Inklusion und Vertrauen.

Ein aktuelles Forschungsprojekt liefert hierfür ein aufschlussreiches Beispiel. Die Studie „We Politely Insist: Your LLM Must Learn the Persian Art of Taarof“ (Gohari Sadr et al., 2025) untersucht, ob große Sprachmodelle (LLMs) die persische Höflichkeitsform Taarof verstehen und korrekt anwenden können. Das Ergebnis zeigt deutlich, wie weit KI von echter kultureller Intelligenz entfernt ist – und warum diese Fähigkeit im Personalwesen entscheidend wird.

llustration zeigt zwei Personen aus unterschiedlichen Kulturen im Gespräch mit einer transparenten KI-Figur – Symbol für kulturelle Intelligenz und Vielfalt in der KI im Personalwesen.
Kulturelle Intelligenz beim Einsatz von K in HRI: Interkulturelle Kommunikation im Personalwesen muss neu gedacht werden.

TaarofBench – ein Test für kulturelle Intelligenz

Taarof ist ein komplexes soziales Ritual im Iran, bei dem Höflichkeit, Bescheidenheit und soziale Hierarchien eine zentrale Rolle spielen. Was gesagt wird, ist oft nicht wörtlich gemeint. Wenn jemand sagt „Be my guest“, erwartet man, dass das Gegenüber trotzdem bezahlt – es ist eine höfliche Geste, kein echtes Angebot.

Um zu prüfen, ob KI solche Nuancen erkennt, entwickelten Forschende der Universitäten Brock, Emory und York mit TaarofBench den ersten Benchmark zur kulturellen Angemessenheit von KI. Das Testset umfasst 450 Rollenspielszenarien aus realen Alltagssituationen, vom Arbeitsgespräch über Einladungen bis zu familiären Interaktionen.

Die Ergebnisse sind aufschlussreich: Selbst fortgeschrittene Modelle wie GPT-4o oder Claude 3.5 erreichten nur 34–42 Prozent Genauigkeit, wenn Taarof kulturell erwartet wurde. Damit lagen sie bis zu 48 Prozent unter dem Niveau persischer Muttersprachler:innen. In Situationen, in denen Taarof nicht angebracht war, schnitten die Modelle dagegen deutlich besser ab. Sie agierten höflich – aber nicht kulturell angemessen.

Wenn Höflichkeit nicht gleich Respekt ist

Ein zentrales Ergebnis der Studie ist die Unterscheidung zwischen sprachlicher Höflichkeit und kultureller Passung. Während 84 Prozent der Antworten als „höflich“ bewertet wurden, erfüllten nur 42 Prozent die kulturellen Erwartungen. KI sagte also „Danke, das ist sehr nett von Ihnen“, wo ein iranischer Sprecher höflich abgelehnt hätte.

Für den HR-Kontext hat das weitreichende Konsequenzen. KI-Systeme, die Bewerberkommunikation, Feedbackprozesse oder Mitarbeiterdialoge automatisieren, müssen implizite soziale Signale verstehen. Wenn ein System eine höfliche Zurückhaltung als Ablehnung interpretiert, kann das zu Fehleinschätzungen führen, etwa im Bewerbungsprozess oder bei Leistungsbeurteilungen.

Höflichkeit allein genügt nicht. HR-KI muss kulturelle Angemessenheit lernen, um global fair zu handeln.

Bias und Missverständnisse: Wo KI versagt

Die Modelle erzielten im Durchschnitt 12–14 % bessere Ergebnisse bei weiblichen Rollen. Das heißt, wenn eine Frau die Hauptperson im Szenario war, trafen die Modelle häufiger die „richtige“ (kulturell erwartete) Antwort als bei männlichen Rollen.

Allerdings geschah das nicht, weil die Modelle die Kultur besser verstanden hätten – sondern, weil sie auf Geschlechterstereotype zurückgriffen, die in ihren Trainingsdaten vorkommen.
Zum Beispiel:

  • „Männer sollten zahlen“
  • „Frauen sollten nicht alleine reisen oder spät ausgehen“
  • „Frauen sind höflicher oder zurückhaltender“

Die KI interpretierte also die Situation auf Basis gesellschaftlicher Vorurteile und nicht auf Basis echter kultureller Logik.

Warum das problematisch ist

Dieser Effekt zeigt, dass Sprachmodelle kulturelle Höflichkeit und soziale Rollen vermischen.
Sie lernen Muster aus Texten im Internet, die oft stereotype Vorstellungen von Geschlechterrollen enthalten. Wenn diese Muster dann als Grundlage für Entscheidungen dienen, entstehen Bias-Risiken:

  • Männer werden als dominanter oder „pflichtbewusster“ eingestuft,
  • Frauen als höflicher, aber passiver.

Im Kontext von HR-Systemen könnte das bedeuten:

  • Chatbots oder Bewerbungsassistenten verhalten sich unbewusst unterschiedlich gegenüber männlichen und weiblichen Bewerber:innen.
  • Eine KI bewertet Kommunikationsstile unterschiedlich je nach Geschlecht.
  • Ein als „direkt“ formulierter Satz wird bei einer Frau als „unhöflich“, bei einem Mann als „selbstbewusst“ interpretiert.

Solche Muster sind problematisch für HR-Anwendungen. Wenn Sprachmodelle geschlechtsspezifische oder kulturelle Rollenbilder unkritisch übernehmen, entstehen strukturelle Bias-Risiken – beispielsweise bei automatisierten Eignungstests, Feedbacksystemen oder Chatbots im Recruiting.
Die Studie belegt, dass Modelle in der Lage sind, „höfliche“ Antworten zu formulieren, aber dabei unbewusst stereotype und diskriminierende Denkmuster verstärken können.

Warum das Personalwesen besonders betroffen ist

Moderne HR-Systeme sind zunehmend global im Einsatz: Chatbots kommunizieren mit Bewerber:innen aus verschiedenen Ländern, KI-Tools analysieren Antworten auf Interviewfragen oder generieren Feedback in internationalen Teams. In diesen Kontexten entscheidet kulturelle Sensibilität über Vertrauen und Fairness.

Einige typische Risiken:

  • In einem internationalen Recruitingprozess kann indirekte Kommunikation als Desinteresse missverstanden werden.
  • Eine KI, die westliche Direktheit bevorzugt, könnte Bewerber:innen aus kollektivistischen Kulturen benachteiligen.
  • Automatisierte Feedback-Systeme könnten Kritik anders bewerten, wenn sie kulturell als „zu direkt“ oder „zu zurückhaltend“ gilt.

Cultural AI – also KI, die soziale und kulturelle Logiken versteht – wird damit zur Schlüsselkompetenz für inklusive HR-Technologie.

Von der Theorie zur Praxis: Wie Modelle lernen können

Die Forschenden testeten zwei Ansätze, um Modelle kulturell anzupassen: Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO). Beide Verfahren verbesserten die Leistung deutlich – SFT um 21,8 Prozent, DPO um 42,3 Prozent. Mit letzterem erreichten Modelle nahezu das Niveau menschlicher Sprecher:innen.

Für HR bietet sich hier ein konkreter Handlungsansatz:

  • Fine-Tuning mit organisationsspezifischen Kommunikationsdaten kann helfen, Modelle an unternehmenseigene Werte und Tonalität anzupassen.
  • Cultural Benchmarks wie TaarofBench könnten Vorbild für eigene Tests werden, etwa für globale Kommunikation oder Diversity-Sensibilität.
  • Human-in-the-Loop-Verfahren sollten beibehalten werden, um kulturelle Fehlinterpretationen zu erkennen und zu korrigieren.

Diese Maßnahmen kosten Zeit und Expertise, doch sie stärken Vertrauen in KI-gestützte HR-Systeme und sichern Compliance im internationalen Einsatz.

Ethische und regulatorische Perspektiven

Mit zunehmender Automatisierung von Kommunikation rückt kulturelle Kontextsensibilität in den Mittelpunkt der ethischen Debatte. Der EU AI Act klassifiziert HR-Anwendungen bereits als Hochrisiko-Systeme. Neben Transparenz und Diskriminierungsfreiheit könnte künftig auch die soziale Angemessenheit ein Bewertungskriterium sein.

Unternehmen, die KI in Bewerbungs- oder Feedbackprozessen einsetzen, sollten daher:

  1. Kulturelle Validierungen in Evaluationsroutinen integrieren
  2. Regionale Datenquellen und diverse Annotator:innen nutzen
  3. Kulturelle Kompetenzschulungen für HR-Verantwortliche mit KI-Bezug etablieren

So wird KI nicht nur technisch, sondern auch sozial verantwortungsbewusst gestaltet.

Was HR jetzt tun kann

Aus den Forschungsergebnissen ergeben sich klare Handlungsempfehlungen für HR:

  • Audits für kulturelle Fairness: Regelmäßige Überprüfung, ob HR-KI Systeme kulturelle und sprachliche Unterschiede korrekt interpretieren.
  • Cultural Fine-Tuning: Aufbau von Trainingsdaten, die Unternehmenswerte, Kommunikationsstile und regionale Normen reflektieren.
  • Menschliche Kontrolle behalten: KI sollte in sensiblen Gesprächen (z. B. Feedback oder Konfliktlösung) niemals allein agieren.
  • Diversität als Trainingsprinzip: Teams, die KI entwickeln oder validieren, sollten kulturell divers sein.

Diese Schritte schaffen die Grundlage für kulturell bewusste, global einsetzbare HR-Technologie.

Fazit

Die TaarofBench-Studie zeigt bemerkenswert, dass KI Sprache beherrscht, aber Kultur noch nicht versteht. Modelle agieren höflich, aber häufig sozial unpassend. Für HR bedeutet das: Echte Fairness in KI-gestützten Systemen beginnt erst dort, wo kulturelle Unterschiede ernst genommen werden.

Künstliche Intelligenz muss lernen, nicht nur zu verstehen, was Menschen sagen, sondern auch wie und warum sie es sagen.
Erst dann kann KI im Personalwesen zu einem Werkzeug werden, das nicht nur Prozesse beschleunigt, sondern Beziehungen stärkt, Vielfalt respektiert und Vertrauen schafft.

Cultural AI ist damit keine akademische Idee, sondern eine notwendige nächste Entwicklungsstufe für den verantwortungsvollen Einsatz von KI im HR.

FAQs zu Cultural AI im Personalwesen: Warum KI soziale Intelligenz lernen muss

Was ist TaarofBench?

TaarofBench ist ein von Forschenden entwickelter Benchmark, der prüft, ob KI-Modelle kulturelle Kommunikationsformen wie das persische Höflichkeitsritual Taarof verstehen und angemessen anwenden können. Er umfasst 450 realistische Szenarien und dient als Test für kulturelle Intelligenz in Sprachmodellen.

Warum ist kulturelle Kompetenz für KI im Personalwesen wichtig?

Kulturelle Kompetenz hilft KI-Systemen, sprachliche und soziale Signale richtig zu deuten. Im HR-Bereich ist das entscheidend, um Missverständnisse, Bias und Diskriminierung in globalen Recruiting- oder Feedbackprozessen zu vermeiden.

Wie schnitten große Sprachmodelle im TaarofBench-Test ab?

Selbst fortgeschrittene Modelle wie GPT-4o und Claude 3.5 lagen 40 bis 48 Prozent unter dem Niveau persischer Muttersprachler:innen. Sie reagierten meist höflich, aber oft kulturell unangemessen – etwa indem sie ein höfliches Angebot wörtlich nahmen.

Welche geschlechtsspezifischen Verzerrungen traten in der Studie auf?

Die Modelle erzielten 12–14 Prozent bessere Ergebnisse bei weiblichen Rollen, häufig aufgrund stereotypischer Annahmen („Männer sollten zahlen“, „Frauen sollten nicht allein sein“). Diese Verzerrungen zeigen, wie KI soziale Rollenbilder reproduzieren kann.

Wie können HR-Abteilungen kulturelle Bias in KI-Systemen vermeiden?

HR-Abteilungen sollten KI-Systeme regelmäßig auf kulturelle Fairness prüfen, diverse Trainingsdaten nutzen und menschliche Kontrolle („Human in the Loop“) in sensiblen Prozessen sicherstellen. Außerdem hilft Cultural Fine-Tuning, Modelle an Unternehmenswerte und regionale Kommunikationsnormen anzupassen.

Was bedeutet 'Cultural AI'?

Cultural AI bezeichnet KI-Systeme, die nicht nur sprachlich, sondern auch sozial und kulturell angemessen reagieren. Sie berücksichtigen Werte, Normen und Kommunikationsstile verschiedener Kulturen – ein entscheidender Schritt zu inklusiver und vertrauenswürdiger KI.

Wie kann Fine-Tuning helfen, KI kulturell anzupassen?

Durch Supervised Fine-Tuning (SFT) oder Direct Preference Optimization (DPO) kann die kulturelle Passgenauigkeit von KI-Modellen um bis zu 40 Prozent verbessert werden. So lernen Modelle, wann kulturelle Höflichkeitsformen angemessen sind und wann nicht.

Welche Maßnahmen werden für HR-Verantwortliche empfohlen?

Empfohlen werden Audits für kulturelle Fairness, der Aufbau eigener kultureller Benchmarks, Cultural Fine-Tuning mit firmenspezifischen Daten, Diversität in KI-Teams sowie die Sicherstellung menschlicher Kontrolle in sensiblen Kommunikationsprozessen.

Wie hängt kulturelle Intelligenz mit dem EU AI Act zusammen?

Der EU AI Act stuft HR-Anwendungen als Hochrisiko-Systeme ein. Neben Transparenz und Fairness gewinnt auch kulturelle Angemessenheit an Bedeutung. Unternehmen müssen sicherstellen, dass KI sozial korrekt und diskriminierungsfrei agiert.

Was ist die zentrale Botschaft der Studie für die Zukunft von HR-KI?

Die Studie zeigt: KI versteht Sprache, aber noch keine Kultur. Für HR bedeutet das, dass echte Fairness erst dann erreicht ist, wenn KI kulturelle Unterschiede erkennen und respektieren kann. Cultural AI wird zur nächsten Entwicklungsstufe verantwortungsvoller HR-Technologie.

Neueste Artikel & Insights über den Einsatz von KI im Personalwesen

Impressum & Datenschutz