Alte GPAI-Modelle bald besser wie neue?

Alte GPAI-Modelle bald besser wie neue?

Wenn die Trainingsdaten ausgehen, greifen Anbieter von GPAI-Modellen immer öfter auf so genannte synthetische Daten zurück. Was auf den ersten Blick nur nach einem KI-fachlichem Problem klingt, hat auch handfeste regulatorische Auswirkungen: Sowohl für Hochrisiko-KI, aber vor allem für nachgelagerte Anbieter von GPAI-Modellen.

In einem LinkedIn-Post sowie einem Blogbeitrag weist der Berliner KI-Trainer Martin Talmeier auf das Problem hin, dass den Anbietern großer KI-Modelle die Trainingsdaten ausgehen. Das Problem ist nicht neu, wird aber in dem Beitrag gut und übersichtlich thematisiert. Die rechtliche Dimension dieser Entwicklung wird bislang kaum beleuchtet.

Der Beitrag dient nachfolgend als Anlass, die rechtlichen Aspekte näher zu beleuchten:

  • Die Entwicklung betrifft sowohl Art. 10 EU AI Act bei Hochrisiko-KI als auch Art. 53 (1) b) und d) EU AI Act bei GPAI-Modellen.
  • Relevant sind beide Fälle vor allem für so genannte „nachgelagerte Anbieter“, die fremde KI-Modelle verwenden (vgl. Art. 3 Nr. 68 EU AI Act).

Zunächst zum Wortlaut des LinkedIn-Beitrags von Michael Talmeier. Er wird an dieser Stelle unkommentiert wiedergegeben. Jeder Leser kann und sollte sich zunächst selbst Gedanken zu seinen Aussagen und den potenziellen Grenzen „echter“ Trainingsdaten machen:

„Das Internet als Datenquelle wächst nicht schnell genug und dann auch noch vor allem durch KI-generierte Inhalte. Und nun?

Was bedeutet das für die KI-Weiterentwicklung und welche Lösungen werden angedacht?

Während KI-Trainingsdaten sich jährlich mehr als verdoppeln, wächst das Internet nur um 10%.
Epoch AI prognostiziert: Hochwertige, menschengemachte Textdaten sind zwischen 2026 und 2032 vollständig aufgebraucht.

Der Zwischenschritt „synthetische Daten“ wird bereits getestet.
Anthropic und OpenAI experimentieren damit, extra dafür KI-generierte Inhalte als Trainingsmaterial zu nutzen. Die Daten sind aber nicht annähernd so wertvoll wie vom Menschen ererzeugter Content (also fleißig selbst posten!)

Die Forschung zeigt:
Das führt zu „Model Autophagy Disorder“ (MAD) – KI-Systeme verschlechtern sich dramatisch, wenn sie wiederholt auf eigenen Ausgaben trainiert werden. (Wenn Affen von Affen lernen).

Die Folgen sind messbar:
📉 Verlust von Randverteilungen und Minderheitsdaten
🔄 Zunehmende Konzeptverwechslungen
⚠️ Massive Qualitätsverluste bei nachfolgenden Generationen

Die KI-Forschung arbeitet mit Hochdruck an Lösungen:
Google DeepMind entwickelt „Generative Data Refinement“, andere setzen auf Active Learning und Few-Shot Learning.

Aber hier die gute Nachricht für Unternehmen:
Ihr seid von diesem Problem nicht betroffen! Die wirklich wertvollen Daten für eure tägliche Arbeit besitzt ihr bereits:
Eure eigenen Unternehmensdaten, Prozesse, Dokumente, Kundenkommunikation.

Nichts, was ein LLM lernen könnte und sollte. Verfügbar nur lokal, nur für euch. Diese hausinternen Datenschätze mit lokal betriebener KI zu heben – das ist euer entscheidender Vorteil gegenüber den großen Language Models.

Das Mittelstand-Digital Zentrum Berlin hat Workshops dazu. Gefördert vom Bundesministerium für Wirtschaft und Energie Link zum Zentrum in den Kommentaren.

******
❓ Welche alternativen Datenquellen könnte es geben?
❓ Oder werden doch synthetische Daten es retten?
❓ Habt ihr schon erkannt, welche Datenschätze in eurem Unternehmen schlummern?
********

Ich schreibe diese Posts und meinen Blog, um Kontext in den täglichen KI-Lärm zu bringen.
📖 Wer tiefer einsteigen möchte in die Datenkrise der Tech-Giganten, wissenschaftliche Lösungsansätze und wie die Tech-Unternehmen neue Datenschätze für KI erschließen wollen, sollte meinen ausführlichen Blogbeitrag dazu lesen.
Link im ersten Kommentar.👇

Wenn die Anbieter der großen GPAI-Modelle immer öfter auf auf synthetische Daten zurückgreifen, führt dies zu einer Art „Model Collapse“: Systeme lernen zunehmend aus sich selbst und verzerren dadurch ihr Weltwissen: Es wird eher schlechter als besser.

Das hat wenigstens zwei rechtliche Konsequenzen:

  • In Art. 10 EU AI Act werden klare Anforderungen an Datenqualität, Repräsentativität und Bias-Kontrolle gestellt – insbesondere für Hochrisiko-KI. Art. 95 EU AI Act empfiehlt aber, die Anforderungen für Data Governance auch freiwillig bei allen Risikoklassen zu verwenden.
  • Bei General Purpose AI (GPAI) greifen zudem die Transparenzpflichten des Code of Practice, CoP: Vgl. Art. 53 (1) b) u. d) EU AI Act. GPAI-Modell-Anbieter müssen dokumentieren, woher ihre Daten stammen und wie sie Bias vermeiden.
  • Wenn die Datenbasis aber zunehmend künstlich wird, steigt auch das Risiko, dass Dokumentation und Realität auseinanderfallen – und Compliance für nachgelagerte Anbieter zum Glückspiel wird.

Der wer fremde KI-Modelle oder GPAI-Modelle in KI-Systeme integriert, ist deren „nachgelagerter Anbieter“ (Art. 3 Nr. 68 EU AI Act). Derjenige trägt als Anbieter des übergeordneten KI-Systems bzw. GPAI-System (Art. 3 Nr. 3 u. Nr. 66 EU AI Act) die volle Verantwortung für den Output seines Systems – auch wenn das zugrundeliegende Modell das Produkt eines Dritten ist.

Das bedeutet: Wer etwa einen Chatbot oder eine branchenspezifische Anwendung auf ein Foundation-Modell stützt, muss sicherstellen, dass die Ergebnisse belastbar sind. Wenn synthetische Trainingsdaten Halluzinationen verstärken, können neue rechtliche Risiken entlang der gesamten Wertschöpfungskette entstehen.

Die intuitive Antwort lautet oft: Als Anbieter eines KI-Systems sollte man möglichst die neuesten Modelle einsetzen. Doch angesichts der Datenknappheit könnte genau das in naher Zukunft riskant sein. Neue Generationen gerade von GPAI-Modellen sind stärker von synthetischem Material geprägt – ältere Modelle hingegen basieren auf einem breiteren Fundamend „echter“ Daten der realen Welt.

  • Das gilt auf jedem Fall für GPAI-Modelle mit oder ohne systemische Risiken (vgl. Art. 53, Art. 55, Art. 3 Nr. 65 EU AI Act).
  • Aber auch bei Hochrisiko-KI spielen synthetische Daten eine wichtige Rolle, u.a. im Bereich der Medizin (vgl. Art. 10 EU AI Act). Sie müssen besonders sorgfältig geprüft werden.

Strategisch klug kann es daher sein, künftig nicht jede Modell-Generation mitzugehen, sondern bewusst bewährte Modelle zu behalten: Voraussetzung, sie sind stabil, transparent dokumentiert und mit unverfälschten Daten trainiert.

Das Festhalten an älteren Modellen ist aus rechtlicher Sicht – und durchaus auch aus fachlicher Sicht – ein überlegenswerter Schritt. Vielleicht noch nicht heute, aber spätestens in den nächsten drei Jahren. Dann sind auch die Vorschriften für Hochrisiko-KI gültig.

Kategorie:

Inhalte des Beitrags, u.a.:

  • Trainingsdaten
  • Data Governance
  • Code of Practice für GPAI
  • nachgelagerte Anbieter

* Aus Gründen der besseren Lesbarkeit wird im Text die männliche Form verwendet, die weibliche Form ist selbstverständlich immer mit eingeschlossen.