zuletzt aktualisiert 6. Oktober 2025
Die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) hat eine Konsultation gestartet, die den datenschutzkonformen Einsatz großer Sprachmodelle (Large Language Models, LLMs) zum Schwerpunkt macht. Ziel ist es, Chancen und Risiken dieser Technologien zu beleuchten und Leitlinien für deren sichere Nutzung zu entwickeln.
Hintergrund der Konsultation
Große Sprachmodelle werden mit enormen Datenmengen trainiert, die häufig auch personenbezogene Daten enthalten. Der Europäische Datenschutzausschuss (EDSA) stellte in seiner Stellungnahme 28/2024 fest, dass KI-Modelle personenbezogene Daten enthalten können, wenn diese im Training genutzt wurden. Im regulatorischen Diskurs wird dieser Umstand als „Memorisierung“ bezeichnet – und umfasst neben wortwörtlichen Reproduktionen auch sinngemäße Wiedergaben, sofern sie zur Identifizierung einer Person beitragen.
Die BfDI sieht daher die Notwendigkeit, datenschutzrechtliche Fragen systematisch zu adressieren – von der Planung über das Training bis hin zur Nutzung solcher Modelle. Mit der Konsultation sollen konkrete technische und rechtliche Einschätzungen gesammelt werden, insbesondere zum Umgang mit memorisierten Daten. Die Ergebnisse fließen in einen Konsultationsbericht ein, der öffentlich zugänglich gemacht wird.
Bitkoms Position
Der Digitalverband Bitkom begrüßt ausdrücklich die Initiative und betont in seiner Stellungnahme, dass Sprachmodelle nicht mit klassischen Datenbanken gleichzusetzen seien. Sie speichern keine personenbezogenen Daten im ursprünglichen Format, sondern bilden Muster und Strukturen in Modellgewichten ab.
Bitkom warnt jedoch vor einer zu engen Fokussierung auf LLMs. Datenschutzfragen beträfen auch kleinere, spezialisierte Modelle, die in der Praxis weit verbreitet sind. Zudem fehle bislang eine präzise Definition des Begriffs „großes Sprachmodell“, was regulatorische Unsicherheit schaffe.
Anonymität und Risikobewertung
Eine vollständige Anonymisierung von Trainingsdaten sei kaum realistisch. Entscheidend sei daher eine kontext- und risikobasierte Bewertung: Ein Modell könne als anonym gelten, wenn es nicht zur Reproduktion personenbezogener Daten konzipiert sei, eine Identifikation mit zumutbaren Mitteln nicht möglich sei und keine stabilen personenbezogenen Inhalte ausgegeben würden.
Technische Maßnahmen wie Differential Privacy, Deduplikation, Loss Masking oder Prompt-Shielding könnten das Risiko weiter verringern. Gerade bei internen, streng kontrollierten Modellen sei die Wahrscheinlichkeit einer Re-Identifikation deutlich geringer.
Technische Schutzmaßnahmen
Bitkom-Mitglieder setzten bereits eine Vielzahl von Schutzmaßnahmen ein, darunter:
- Deduplikation und Datenbereinigung,
- Fine-Tuning mit anonymisierten Daten,
- Ausgabefilter und Prompt-Blocking,
- Red Teaming und adversariale Tests,
- experimentelle Verfahren wie Differential Privacy.
Ein Lebenszyklus-Ansatz, der Datenschutz in allen Phasen von Training bis Anwendung berücksichtigt, sei essenziell. Unter realistischen Bedingungen schätzt Bitkom das Risiko einer gezielten Extraktion personenbezogener Daten aus LLMs als sehr gering ein.
Betroffenenrechte und Verantwortlichkeiten
Besondere Herausforderungen ergeben sich bei der Umsetzung von Auskunfts-, Berichtigungs- und Löschrechten nach DSGVO. Da Modelle keine personenbezogenen Daten im klassischen Sinn speichern, sei ein gezieltes Löschen nur durch Neu-Training denkbar und praktisch kaum umsetzbar. Stattdessen empfiehlt Bitkom den Fokus auf Trainingsdaten und Modellausgaben zu legen.
Zudem fordert der Verband klare Vorgaben für die Rollenverteilung zwischen Entwicklern, Anbietern und Anwendern von KI-Systemen, um Rechtssicherheit entlang der Wertschöpfungskette zu gewährleisten.
Fazit
Der Bitkom spricht sich für einen datenschutzrechtlichen Rahmen aus, der risikobasiert, technologieneutral und innovationsfreundlich gestaltet ist. Die Regulierung solle praxisnah bleiben, ohne unverhältnismäßige Bürokratie aufzubauen. Darüber hinaus regt der Verband die Einrichtung einer dauerhaften, interdisziplinären Arbeitsgruppe an, in der Aufsichtsbehörden, Wirtschaft, Wissenschaft und Zivilgesellschaft gemeinsam Lösungen für Datenschutz in KI-Systemen erarbeiten.







