Wenn KI schummelt: Warum der wichtigste Schritt vor dem Training passiert

Geschrieben von anacision GmbH | 19. Juni 2026

Viele KI-Projekte beginnen vielversprechend. In der Testphase stimmen die Metriken, die Vorhersagen wirken stabil und die Ergebnisse überzeugen. Doch im Betrieb zeigt sich oft ein anderes Bild: Die Leistung lässt nach, teilweise deutlich, besonders dann, wenn sich Daten, Prozesse oder Nutzerverhalten leicht verändern.

Dieses Muster begegnet uns in Projekten immer wieder. Und es hat selten damit zu tun, dass einfach das falsche Modell gewählt wurde.

Wo das Problem wirklich entsteht

Der kritische Punkt liegt meist früher. Modelle orientieren sich beim Training an den Mustern in den Daten, die ihnen helfen, gute Vorhersagen zu treffen. Dabei unterscheiden sie nicht automatisch zwischen fachlich relevanten Zusammenhängen und zufälligen Mustern.

Wenn ein Merkmal stark mit dem Ziel korreliert, wird es genutzt. Auch dann, wenn es inhaltlich nur ein Nebeneffekt ist.

„Always look at the data.“

Dieser Satz bringt den Grund vieler KI-Probleme auf den Punkt. Nicht immer ist das Modell zu schwach. Oft liefern die Daten Hinweise, die im Training hilfreich wirken, im Betrieb aber in die falsche Richtung führen.

Ein Beispiel aus der Forschung zeigt das sehr deutlich: In einer Bildklassifikationsaufgabe enthielten die Trainingsdaten visuelle Hinweise, die stark mit den Klassen zusammenhingen, aber nichts mit dem eigentlichen Objekt zu tun hatten. Im Testdatensatz wurden diese Hinweise entfernt.

Modelle, die im Training überzeugten, verloren daraufhin deutlich an Leistung. Sie hatten nicht gelernt, was sie sollten, sondern nur, was am einfachsten funktionierte.

Warum das lange unauffällig bleibt

Das Tückische daran ist, dass dieses Verhalten zunächst kaum sichtbar ist. Wenn Trainings- und Testdaten ähnliche Muster enthalten, wirkt das Modell stabil. In Wirklichkeit erkennt es jedoch vor allem bekannte Strukturen wieder.

Erst wenn sich die Umgebung verändert, zeigt sich, wie belastbar das Gelernte wirklich ist.

Für Bildmodelle ist gut belegt, dass sie häufig Texturen oder Kontext statt Formen nutzen (Geirhos et al., 2019). Ein verwandter Forschungsansatz, die Invariant Risk Minimization, setzt genau an diesem Punkt an. Vereinfacht gesagt geht es darum, nicht nur Muster zu lernen, die in einem Datensatz funktionieren, sondern solche, die auch unter veränderten Bedingungen gültig bleiben (Arjovsky et al., 2019).

Wo diese Abkürzungen konkret entstehen

In der Praxis sind es oft unscheinbare Details in den Daten, die später zum Problem werden. Typische Muster, die wir in Projekten sehen, sind:

Metadaten mit versteckter Aussagekraft
Zeitstempel, Statusfelder oder System-IDs korrelieren mit dem Ziel, ohne fachlich relevant zu sein.

Prozessbedingte Spuren in den Daten
Bestimmte Felder werden nur in speziellen Fällen ausgefüllt und dienen dadurch ungewollt als Signal.

Trainings- und Testdaten mit denselben Verzerrungen
Das Modell wird auf Mustern bewertet, die auch schon im Training vorhanden waren. Dadurch wirkt es robuster, als es wirklich ist.

Aggregationen oder Vorverarbeitungsschritte
Daten werden so aufbereitet, dass Informationen über das Ziel indirekt erhalten bleiben.

Diese Effekte entstehen selten bewusst. Gerade deshalb sind sie so gefährlich.

Was das für die Projektarbeit bedeutet

An diesem Punkt wird klar: Es reicht nicht, sich nur auf das Training selbst zu konzentrieren. Entscheidend ist, wie Daten entstehen, welche Signale sie enthalten und wie Tests aufgebaut sind.

Bei anacision liegt ein großer Teil der Arbeit in KI-Projekten genau darin, diese Zusammenhänge sichtbar zu machen. Dazu gehört, Daten systematisch zu prüfen, Tests bewusst zu variieren und Modelle so zu analysieren, dass nachvollziehbar wird, welche Faktoren sie tatsächlich nutzen.

Robustheit entsteht nicht zufällig. Sie ist das Ergebnis dieser Vorarbeit.

Drei Leitlinien aus der Praxis

1. Daten gezielt prüfen:
Nicht nur Strukturen betrachten, sondern Beispiele analysieren und Verteilungen vergleichen. So werden indirekte Zusammenhänge sichtbar, bevor sie im Modell verstärkt werden.

2. Tests bewusst variieren:
Neben klassischen Splits auch Szenarien einbauen, in denen sich Daten, Prozesse oder Rahmenbedingungen ändern. Nur so zeigt sich, ob ein Modell wirklich generalisiert.

3. Modelle nachvollziehbar machen:
Erklärbarkeit hilft nicht nur bei der Kommunikation, sondern vor allem bei der Analyse. Wenn unklar ist, welche Signale ein Modell nutzt, entsteht ein technisches Risiko (Barredo Arrieta et al., 2020).

Fazit

Modelle sind sehr gut darin, Muster zu erkennen. Sie bewerten jedoch nicht, ob diese Muster stabil, fachlich sinnvoll oder zufällig sind.

Genau deshalb entscheidet sich die Qualität eines KI-Systems oft schon vor dem eigentlichen Training. Wer die Daten und ihre Entstehung versteht, reduziert das Risiko, dass Modelle die falschen Zusammenhänge lernen.

Das ist kein zusätzlicher Schritt im Projekt, sondern die Grundlage dafür, dass KI im Betrieb zuverlässig funktioniert.

Literatur

Arjovsky, M., Bottou, L., Gulrajani, I., & Lopez-Paz, D. (2019). Invariant Risk Minimization.

Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2019). ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. Proceedings of the International Conference on Learning Representations.

Sagawa, S., Koh, P. W., Hashimoto, T. B., & Liang, P. (2020). An Investigation of Why Overparameterization Exacerbates Spurious Correlations. Proceedings of the International Conference on Machine Learning.

Barredo Arrieta, A., Díaz-Rodríguez, N., Del Ser, J., et al. (2020). Explainable Artificial Intelligence: Concepts, taxonomies, opportunities and challenges. Information Fusion.

Vollständigen Beitrag anzeigen