Wie lernt ein KI-Agent vom Team, ohne dass die Kollegen extra Arbeit haben?

Der Agent postet jede Entscheidung mitsamt kurzer Begründung dorthin, wo das Team ohnehin hinschaut. Die Kollegen wählen wie immer eine Handlung und halten sie mit einer einzigen Reaktion fest, bei Bedarf mit einer Zeile als Notiz. Der Agent vergleicht seinen Vorschlag mit der echten Handlung und behandelt jede Lücke als Lektion. So entsteht das Signal aus Arbeit, die ohnehin passiert.

Warum verbessert sich mein KI-Agent durch Feedback nicht richtig?

Meistens, weil er aus jeder Rückmeldung eine neue Regel bastelt, die nur in genau einem Fall feuert. Das ist gelernt, aber das Brüchigste überhaupt. Bringen Sie ihm stattdessen bei zu fragen, welches Prinzip die ideale Lösung produziert hätte. Aus einer Einzelfall-Regel wird so ein Prinzip, das viele ähnliche Lagen abdeckt.

Ist es nicht gefährlich, wenn ein Agent seine eigenen Anweisungen ändert?

Nur ohne Tor. Bei uns liegen die Anweisungen in einer Versionsverwaltung. Der Agent schlägt Änderungen vor, ändert sich aber nie heimlich selbst. Ein Mensch liest morgens die paar geänderten Zeilen und gibt sie frei, in etwa einer Minute. Selbstverbessernd ist damit nicht dasselbe wie unbeaufsichtigt.

Für welche Aufgaben lohnt sich diese Lernschleife und für welche nicht?

Sie lohnt sich bei Aufgaben mit Urteil und Geschmack, für die es keine billige Prüfung von außen gibt, etwa Antworten, Vorsortieren oder Priorisieren. Sie lohnt sich nicht, wenn feststeht, was passieren soll, denn dann reicht eine Regel. Und sie braucht genug echten Verkehr. Eine Handvoll Fälle im Monat lehrt nichts.

KI-Agent lernt vom Team und wird besser

redaktion

2026-05-28 KI-Betrieb 8 Minuten Lesezeit

Sie haben schon einen KI-Agent gebaut. Eine Antwort-Hilfe fürs Postfach, eine Vorsortierung, eine Zusammenfassung. Und er funktioniert. So halb.

Er ist nicht schlecht. Er ist nur nicht gut genug, um ihn allein laufen zu lassen, ohne hinzuschauen. Über genau diese Lücke geht es hier, und über die Disziplin, die sie schließt.

Vorweg der wichtigste Satz: Hören Sie auf, am perfekten Prompt zu feilen. Bauen Sie stattdessen die Feedback-Schleife.

Der Friedhof bei achtzig Prozent

Stellen Sie einem Raum voller Leute drei Fragen. Wer hat schon mal einen Agenten gebaut? Viele Hände. Wer hat einen, der regelmäßig etwas Echtes erledigt? Weniger. Wer hat einen, der so gut läuft, dass man ihm vertraut, ohne zuzusehen? Fast keiner.

Diese letzte Lücke ist der Ort, an dem Agenten sterben. Nicht bei null. Bei achtzig Prozent.

Der Achtzig-Prozent-Agent ist der gefährliche. Er klappt oft genug, dass man ihn fast fertig spürt. Also schraubt man weiter. Eine Zeile im Prompt hier, ein Beispiel da. Sie stecken echte Stunden in etwas, das nie ganz rauskommt.

In unserer Arbeit sehen wir: Das ist schlimmer als gar kein Agent. Ein fehlender Agent kostet nichts. Ein halbfertiger zieht jede Woche leise an Ihrer Aufmerksamkeit.

Der Reflex ist, das Modell oder den Prompt zu beschuldigen. Meistens ist es weder noch. Der Agent steckt fest, weil er keinen Weg hat, besser zu werden, nachdem Sie aufhören hinzuschauen. Ihm fehlt die Schleife.

Eine waagerechte Fortschrittsleiste von null bis hundert Prozent, an der sich kurz vor der Achtzig-Prozent-Marke viele kleine Punkte vor einer Mauer stauen, während ein einzelner Punkt jenseits der Mauer die Hundert erreicht. — Die Punkte stauen sich bei achtzig Prozent. Nur wenige kommen über die Mauer.

Warum die übliche Schleife nicht passt

Agenten sind in einer Sache erstaunlich gut: auf ein Ziel zuzuarbeiten, wenn sie ihre eigene Arbeit prüfen können. Darum fühlen sich Programmier-Agenten fast mühelos an. Der Agent schreibt Code, lässt den Test laufen, korrigiert. Grün heißt fertig, rot heißt neu versuchen. Die Prüfung ist billig, schnell und eindeutig.

Jetzt schauen Sie auf die Arbeit einer Antwort-Hilfe. Ob man antwortet, und was, in welchem Ton, und wann man besser schweigt, ist kein Pass oder Fail. Es gibt keinen Test für den Satz, dass sich der Kunde verstanden fühlt.

Die einzige echte Prüfung ist langsam und sozial. Antwort rausschicken, sehen wie die Person reagiert, sehen wie der Verlauf für alle anderen wirkt. Das Signal existiert, aber es steckt in den Köpfen Ihres Teams, in dessen Urteilsvermögen und Geschmack.

In diese Kategorie fallen die meisten nützlichen Agenten. Antworten, vorsortieren, priorisieren, in der Stimme von jemandem schreiben. Alle brauchen Urteil, keiner hat eine billige Prüfung von außen.

Die Frage ist nicht: Wie prüft der Agent sich selbst? Sondern: Wie bekomme ich das Urteil meines Teams in den Agenten?

Wenn das Signal im Team steckt, braucht ein Agent, der besser wird, drei Teile, die zusammenspielen. Fehlt einer, bleibt er stehen.

Prinzipien, damit der Agent weiß, wie er entscheidet, nicht nur was er ausgibt. Das Urteil, aufgeschrieben.
Eine Lern-Routine, damit er aus Rückmeldung das Richtige lernt und nicht das Brüchige. Die eigentliche Fähigkeit.
Eine Feedback-Schleife, damit das Urteil des Teams laufend ankommt, ohne dass jemand ein Meeting ansetzt. Der Nachschub.

Jeder Teil braucht die anderen. Prinzipien ohne Schleife frieren bei Version eins ein. Eine Schleife ohne Lern-Routine türmt nur Müll auf. Lernen ohne Prinzipien hat nichts Stimmiges, das es verbessern könnte.

Drei ineinandergreifende Zahnräder nebeneinander, beschriftet mit Prinzipien, Lern-Routine und Feedback-Schleife, darunter ein dünner Verbindungsbalken. — Drei Teile, die ineinandergreifen. Jeder braucht die anderen zwei.

Teil eins: Prinzipien statt Regeln

Fast alle fangen gleich an. Sie versuchen, den Prompt festzunageln: alles aufschreiben, was der Agent tun soll, und es dann mit dem Modell schärfen. Vernünftiger Instinkt. Und er scheitert leise.

Der Prompt wird zur Checkliste. Wenn die Nachricht Rechnungen erwähnt, mach X. Wenn es ein Fehlerbericht ist, mach Y. Regel um Regel.

Zwei Dinge gehen schief. Erstens klingt die Ausgabe wie ein Roboter, weil eine Checkliste nicht entscheiden kann, wie man etwas sagt. Zweitens, und schlimmer, zerbricht sie, sobald etwas Neues auftaucht, das keine Regel vorhergesehen hat. Regeln sind von Natur aus brüchig. Die Wirklichkeit ist es nicht.

Also ändern Sie das Denkmodell. Einen Agenten zu bauen ist viel wie einen neuen Kollegen einzuarbeiten. Sie würden keinem neuen Menschen eine tausendzeilige Entscheidungstabelle hinlegen. Sie würden erklären, wie man denkt und wie gut aussieht. Sie geben Prinzipien.

Prinzipien verallgemeinern. Vor einer Lage, für die niemand eine Regel geschrieben hat, kann ein Agent mit Prinzipien sich trotzdem zu einer guten Entscheidung durchdenken. Genau wie der neue Kollege es täte.

Und ein Nebeneffekt überrascht die Leute. Wechselt man von Regeln auf Prinzipien, wird die Anweisungsdatei oft drastisch kürzer und die Ausgabe gleichzeitig besser. Weniger Text, mehr Urteil.

KI fürs Urteil, Code für die Handlung. Prinzipien sind, wie Sie dem Modell das Urteil übergeben.

Die festen Teile, das Posten in einen Kanal, das Aufrufen einer Schnittstelle, bleiben im Code, wo sie hingehören. Bei uns lebt dieses Urteil im BrandOS: alles, was die KI über das Unternehmen wissen muss, versioniert wie Code. Die Arbeitsroutinen daneben nennen wir Skills.

Zwei übereinander gestapelte Karten, oben eine graue lange Checkliste mit vielen kleinen Regeln, unten eine kurze grün betonte Liste mit wenigen Prinzipien. — Oben die lange Regelliste, die bei jedem neuen Fall bricht. Unten die kurze Prinzipienliste, die verallgemeinert.

Teil zwei: bringen Sie ihm bei, wie er lernt

Prinzipien bringen Sie den größten Teil des Wegs. Bis zum Ausgeliefert bringen sie Sie nicht. Den Rest schließen Sie, indem der Agent aus echter Rückmeldung lernt. Und hier ist die Falle, in die fast alle tappen.

Die naive Fassung: Man sammelt einen Stapel Ausgaben, schreibt zu jeder ein Feedback und gibt es mit dem Auftrag zurück, daraus zu lernen. Was macht der Agent? Er rennt zurück zu Regeln. Er liest Ihre Notiz zu einem Rechnungsfall und schreibt sich eine Regel, die genau in dieser einen Lage feuert und sonst nirgends hilft. Technisch hat er gelernt, aber das Brüchigste überhaupt.

Der Ausweg ist, dem Agenten als eigene Fähigkeit beizubringen, wie er lernt. Wieder das Bild vom neuen Kollegen. Sie würden nicht nur sagen, mach es nächstes Mal so. Sie würden erklären, warum Ihre Fassung besser ist, und dann fragen lassen: Was hätten meine Anweisungen sagen müssen, damit ich von allein die ideale Lösung produziere?

Diese Frage erzwingt Verallgemeinerung. Aus der brüchigen Regel wird ein Prinzip, das hundert Lagen abdeckt statt einer.

Fassen Sie diesen Zug zusammen: Ausgabe mit dem Ideal vergleichen, die Lücke finden, verallgemeinern, an der richtigen Stelle der bestehenden Prinzipien nachbessern. Das ist die Lern-Routine, die der Agent ausführt.

Teil drei: die Schleife, die das Team kaum bemerkt

Jetzt das eigentliche Problem. Jemand muss dem Agenten weiter beibringen, Fälle einspeisen, Feedback schreiben. Macht man das von Hand, wird es zur Pflichtaufgabe, die niemand übernimmt und die leise stirbt.

Der Trick ist, vorhandene Arbeit zu ernten. Das Team produziert das Signal ohnehin im Alltag. Denn der schwierigste Teil jeder Feedback-Schleife ist nie der Agent, es sind die Menschen. Wenn Feedback extra Zeit kostet oder in einem neuen Werkzeug lebt, geben die Leute es nicht.

Die Form, die funktioniert: Der Agent postet jede Entscheidung dorthin, wo das Team ohnehin hinschaut. Hier ist die Nachricht, das würde ich tun, deshalb. Die Begründung ist wichtig, denn so hat ein Kollege den Zusammenhang in Sekunden.

Dann tut das Team, was es ohnehin getan hätte. Es wählt eine Handlung und hält sie mit einer einzigen Reaktion fest. Ein Haken für beantwortet, ein anderer für übersprungen. Wenn es mehr braucht, eine Zeile als Notiz.

Das ist die ganze Eingabe. Der Agent vergleicht, was er vorgeschlagen hat, mit dem, was das Team wirklich getan hat, behandelt jede Lücke als Lektion und lässt seine Lern-Routine darüber laufen.

Zwei Hinweise aus der Praxis. Halten Sie es brutal einfach, denn jedes Gramm Reibung auf der menschlichen Seite ist Signal, das Sie nicht bekommen. Und geben Sie dem Agenten einen Namen und etwas Charakter. Für etwas, das sich wie ein Kollege anfühlt, gibt man besseres Feedback als für ein gesichtsloses Skript.

Anweisungen als Code: die Leitplanke

In dem Satz, dass der Agent seine eigenen Anweisungen verbessert, steckt eine offensichtliche Sorge. Was hält ihn davon ab, irgendwohin abzudriften und sich dann darauf zu versteifen? Die Antwort macht das Ganze sicher: Behandeln Sie die Anweisungen des Agenten wie Code.

Die Skills liegen in einer Versionsverwaltung. Zieht der Agent seine Lehren, ändert er sich nicht heimlich selbst. Er schlägt die Änderung vor und meldet kurz, was sich ändert. Eine gute Änderung schraubt keine neue Regel ans Ende einer Liste. Sie findet das passende Prinzip und passt es an Ort und Stelle an.

Jeden Morgen liest ein Mensch eine Handvoll Zeilen in klarem Deutsch und gibt frei, wenn es stimmt. Weil es ein paar Zeilen sind, dauert die Prüfung etwa eine Minute. Sie können den Wortlaut auch vorher von Hand anpassen und behalten so die Kontrolle.

Dieser Prüfschritt ist keine Bürokratie. Er ist der Grund, warum Sie den Agenten überhaupt lernen lassen dürfen.

Selbstverbessernd ist nicht dasselbe wie unbeaufsichtigt. Eine Lernschleife ohne menschliches Tor ist Drift, die sich leise aufsummiert.

Genau diese Disziplin bauen wir bei Schwarzwald Digital in jeden Ablauf ein. Drei Leitplanken, die zusammengehören:

Freigabe. Ein Mensch genehmigt jede Verhaltensänderung, bevor sie greift. Die morgendliche Prüfung ist das Tor.
Nachvollziehbar. Anweisungen sind versioniert, geprüft und zuordenbar. Sie sehen, was sich wann und warum geändert hat, und können es zurücknehmen.
Beobachtet. Der Agent berichtet über sich selbst. Eine tägliche Meldung mit den Zahlen zeigt, dass die Schleife gesund ist und nicht abdriftet.

Mensch im Loop nur bei der Freigabe, nicht bei jedem Schritt. Das Tor ist billig. Es wegzulassen ist es nicht.

Bauen Sie Ihre eigene Schleife, oder eben nicht

Sie können fast jeden Urteils-Agenten so ausstatten. Die Reihenfolge: die richtige Aufgabe wählen, Prinzipien statt Regeln schreiben, eine Lern-Routine ergänzen, Signale ernten, Anweisungen in die Versionsverwaltung legen, jede Änderung freigeben, den Agenten sich selbst beobachten lassen.

Und der Teil, den die meisten Anleitungen auslassen: wann Sie das nicht bauen sollten.

Wenn niemand die tägliche Freigabe wirklich übernimmt. Das Tor ist die Sicherheit. Kein Prüfer, keine Schleife.
Wenn die Aufgabe in Wahrheit eindeutig ist. Wenn feststeht, was passieren soll, ist das eine Frage für eine Regel, nicht für KI. Eine Regel kostet nichts, irrt nie und läuft in zehn Jahren noch.
Wenn das Signal des Teams zu dünn ist. Eine Handvoll Fälle im Monat lehrt nichts. Warten Sie, bis genug echter Verkehr da ist.

Nicht alles braucht KI. Regel vor Code vor Automatisierung vor Mensch vor Agent. Eine gute Faustregel: Ein Agent passt, wenn Sie den Ablauf einem neuen Mitarbeiter in einer Stunde erklären könnten.

Wenn Sie einen einzigen Gedanken behalten, dann diesen: Bauen Sie die Feedback-Schleife, nicht den perfekten Prompt.

Der erste Prompt muss nur gut genug sein. Richtig muss er nicht sein, denn er bleibt nicht richtig. Ihr Verständnis des Problems wandert, neue Lagen tauchen auf, und ein eingefrorener Prompt kann nicht folgen.

Was einen Agenten ausliefert und ausgeliefert hält, ist die Schleife, die ihn besser werden lässt, während sich die Welt ändert. Mit einem menschlichen Tor, damit er sich in die Richtung verbessert, die Sie wollen. Prinzipien geben ihm Urteil, die Lern-Routine schärft es, die Schleife liefert das Signal Ihres Teams, und Anweisungen als Code halten es sicher.

Wenn Sie ein Fundament wollen, das zeigt, wo sich eine solche Schleife bei Ihnen lohnt und wo ehrlicherweise nicht, ist Managed KI-Mitarbeiter. Suchen Sie die Tür, die zu Ihrem Stand passt.

Häufige Fragen

Wie lernt ein KI-Agent vom Team, ohne dass die Kollegen extra Arbeit haben?: Der Agent postet jede Entscheidung mitsamt kurzer Begründung dorthin, wo das Team ohnehin hinschaut. Die Kollegen wählen wie immer eine Handlung und halten sie mit einer einzigen Reaktion fest, bei Bedarf mit einer Zeile als Notiz. Der Agent vergleicht seinen Vorschlag mit der echten Handlung und behandelt jede Lücke als Lektion. So entsteht das Signal aus Arbeit, die ohnehin passiert.
Warum verbessert sich mein KI-Agent durch Feedback nicht richtig?: Meistens, weil er aus jeder Rückmeldung eine neue Regel bastelt, die nur in genau einem Fall feuert. Das ist gelernt, aber das Brüchigste überhaupt. Bringen Sie ihm stattdessen bei zu fragen, welches Prinzip die ideale Lösung produziert hätte. Aus einer Einzelfall-Regel wird so ein Prinzip, das viele ähnliche Lagen abdeckt.
Ist es nicht gefährlich, wenn ein Agent seine eigenen Anweisungen ändert?: Nur ohne Tor. Bei uns liegen die Anweisungen in einer Versionsverwaltung. Der Agent schlägt Änderungen vor, ändert sich aber nie heimlich selbst. Ein Mensch liest morgens die paar geänderten Zeilen und gibt sie frei, in etwa einer Minute. Selbstverbessernd ist damit nicht dasselbe wie unbeaufsichtigt.
Für welche Aufgaben lohnt sich diese Lernschleife und für welche nicht?: Sie lohnt sich bei Aufgaben mit Urteil und Geschmack, für die es keine billige Prüfung von außen gibt, etwa Antworten, Vorsortieren oder Priorisieren. Sie lohnt sich nicht, wenn feststeht, was passieren soll, denn dann reicht eine Regel. Und sie braucht genug echten Verkehr. Eine Handvoll Fälle im Monat lehrt nichts.

KI-Agenten, die vom Team dazulernen