Heißt eine Verifikationsschleife, dass der Agent am Ende völlig autonom läuft?

Nein. Die Schleife korrigiert sich selbst bei allem, was sich umkehren lässt. Ein menschliches Tor bleibt auf allem, was sich nicht rückgängig machen lässt: in Produktion ausspielen, Daten löschen, etwas an einen Kunden senden. Mensch im Loop nur bei der Freigabe, nicht bei jedem Schritt.

Wir haben noch kein sauberes Erfolgskriterium für unsere Abläufe. Wo fangen wir an?

Genau dort. Ohne eine klare Definition von fertig gibt es keine Schleife, sie würde sich ins Nichts hocharbeiten. Nehmen Sie eine wiederkehrende Aufgabe und schreiben Sie auf, woran ein Mensch heute erkennt, dass sie erledigt ist. Wenn Sie das nicht beantworten können, ist das die nützlichste Erkenntnis über Ihren Prozess, noch bevor KI ins Spiel kommt.

Was ist der Unterschied zwischen einer Schleife und einem klassischen automatisierten Test?

Ein Test prüft feste, vorher geschriebene Fälle. Eine Verifikationsschleife gibt dem Agenten die Mittel, sich Daten anzulegen, sich anzumelden und die echte Wirkung zu beobachten, sodass er eine weit größere Bandbreite an Situationen prüft. Die Setup-Skripte aus Ihren Integrationstests sind die Hälfte der Arbeit. Sie reichen sie nur an den Agenten weiter und halten sie beweglich.

Können wir mehrere Agenten parallel laufen lassen, um schneller zu werden?

Erst wenn jeder einzelne sich selbst prüfen kann. Die Beschränkung ist nicht Rechenleistung, sondern Ihre Aufmerksamkeit. Mehrere ungeprüfte Agenten parallel bedeuten nur mehr Bildschirme, die nach Ihren Augen verlangen. Die Reihenfolge ist nicht verhandelbar: zuerst die Schleife, dann die Parallelität.

KI-Agenten überwachen: Schluss mit dem Babysitten

redaktion

2026-06-16 KI-Betrieb 7 Minuten Lesezeit

Ein geschlossener Kreislauf aus vier Knoten, an dem ein Mensch nur am Freigabe-Tor steht.

Niemand hat Sie davor gewarnt. Je besser die Modelle wurden, desto weniger Ihres Tages ging ins Schreiben und desto mehr ins Zusehen. Sie tippen eine Anweisung, dann warten Sie. Die Ausgabe kommt, und jetzt lesen Sie jede Zeile, klicken durch jeden Screen, starten die Sache von Hand neu, um zu sehen, ob sie wirklich funktioniert. Das Modell wurde schneller. Sie wurden zum Prüfer.

Die Zeit, die KI Ihnen beim Schreiben spart, kommt beim Kontrollieren postwendend zurück. Das ist kein Modellproblem. Ein besseres Modell produziert mehr und schneller, also gibt es mehr zu prüfen, nicht weniger. Der Engpass ist gewandert. Er liegt nicht mehr beim Tippen, sondern bei Ihnen, der einzigen Stelle im System, die beurteilen kann, ob die Arbeit fertig ist.

Wie aus dem Macher ein Kontrolleur wurde

Stellen Sie sich einen kleinen Agenten vor, der auf einer Website das Anfrageformular betreut. Eine neue Anfrage soll im CRM landen, eine automatische Eingangsbestätigung an den Absender auslösen und eine Notiz im Team-Kanal hinterlassen. Diese Woche bleibt die Bestätigung aus. Jemand bittet den Agenten, das zu reparieren.

Der Agent ändert eine Einstellung und meldet: erledigt. Sie trauen dem Wort nicht. Also öffnen Sie die Seite, schicken selbst eine Testanfrage ab, wechseln ins Postfach, warten, sehen nichts ankommen, kopieren den Fehler aus dem Log und schicken ihn zurück. Der Agent versucht es erneut. Sie testen erneut. Nach der dritten oder vierten Runde funktioniert es. Der Agent hat getippt. Geprüft haben Sie, jedes Mal.

Die Schleife aus schreiben, prüfen und korrigieren gab es also bereits. Sie lief nur durch Sie hindurch.

Ein schnelleres Modell entfernt den langsamen Schritt nicht. Es verlagert ihn auf Sie.

Was eine Verifikationsschleife wirklich ist

Die Frage ist nicht, wie Sie eine bessere Antwort aus dem Agenten herausholen. Die Frage ist: Was braucht ein Agent von Ihrem System, das ein Mensch für selbstverständlich hält?

Ein erfahrener Kollege prüft seine eigene Arbeit, ohne dass man ihn dazu auffordert. Er startet die Sache, schaut auf den Bildschirm, bemerkt, dass der Knopf nichts tut, liest die Logs und korrigiert. Ein Dutzend winziger Prüfungen pro Minute, so automatisch, dass er sie nicht als Arbeit zählt. Ihr Agent tut davon nichts von allein. Er schreibt, hält an und wartet darauf, dass Sie die Augen sind.

Eine Verifikationsschleife schließt genau diese Lücke. Sie geben dem Agenten zwei Dinge: einen Weg, die Arbeit zu tun, und einen Weg, zu sehen, ob die Arbeit gewirkt hat. Schreiben, ausführen, beobachten, korrigieren, wiederholen, bis ein Erfolgszustand erreicht ist, den Sie vorher definiert haben. Damit hört der Agent auf, ein einmaliger Textgenerator zu sein. Er fängt an, sich an das Ziel heranzuarbeiten.

Beim Anfrageformular sieht das so aus: Der Agent startet die Anwendung, schickt selbst eine Testanfrage ab wie ein echter Besucher, prüft, ob eine Antwort rausging, sieht, dass keine kam, liest das Mail-Log, findet den falsch konfigurierten Absender, korrigiert ihn, schickt eine zweite Testanfrage und bestätigt, dass die Antwort ankommt. Erst dann hält er an. Was bei Ihnen ankommt, ist kein Ich habe etwas geändert, sondern eine Änderung, die sich bereits als funktionierend gezeigt hat.

Geschlossener Kreislauf aus schreiben, ausführen, beobachten und korrigieren, mit einem einzelnen Freigabe-Tor, an dem ein Mensch steht — Der Agent läuft die Schleife allein. Der Mensch steht nur am Freigabe-Tor.

Warum die Schleife schlägt das schlauere Modell

Es liegt nahe zu denken, der Ausweg aus unzuverlässigen Ausgaben sei ein klügeres Modell. Ist er nicht, jedenfalls nicht allein. Ein Modell ohne Möglichkeit, seine Arbeit zu prüfen, rät im Dunkeln, so clever das Raten auch sein mag. Ein Modell mit dieser Möglichkeit tut etwas grundsätzlich anderes. Es kann den Unterschied zwischen ich habe etwas geschrieben und es funktioniert erkennen und auf die Lücke reagieren.

Damit hängt alles an einem Punkt: am Erfolgskriterium. Die Schleife arbeitet sich zu dem hin, was Sie als fertig definieren. Definieren Sie es scharf, etwa eine Eingangsbestätigung trifft binnen sechzig Sekunden nach einer Testanfrage ein, und die Anfrage erscheint im CRM, dann hat der Agent ein echtes Ziel. Definieren Sie es vage oder gar nicht, arbeitet er sich zu sieht gut aus hoch, also genau zu der ungeprüften Ausgabe, der Sie entkommen wollten.

Vier-Schritt-Kreislauf, der nach innen auf einen definierten Erfolgszustand mit Häkchen zuläuft. — Die Schleife arbeitet sich auf das hin, was Sie als fertig definiert haben.

Die erste Frage ist nie, was der Agent tun soll. Sie lautet: Woran erkennt er, dass er fertig ist?

Wenn Sie diese Frage für eine Aufgabe nicht beantworten können, können Sie sie noch nicht in eine Schleife legen. Das ist keine Schwäche, die man übertünchen müsste. Es ist das Nützlichste, was die Schleife Ihnen über Ihren eigenen Prozess verrät.

Die vier Schritte, an denen Schleifen scheitern

Eine Verifikationsschleife klingt abstrakt, bis man eine baut. Dann zeigt sich: Es sind fast immer dieselben vier Schritte.

Ausführen. Geben Sie dem Agenten den Befehl, die Sache zum Leben zu erwecken: den Dev-Server starten, den Ablauf anstoßen, den Container hochfahren. Ein Agent, der Ihr System nicht starten kann, kann nur von außen darüber nachdenken.
Benutzen wie ein echter Nutzer. Code lesen ist nicht das Produkt benutzen. Der Agent muss die echte Oberfläche bedienen: das Formular im Browser ausfüllen, die Schnittstelle aufrufen, die Testanfrage abschicken.
Beweisen. Sichern Sie den Nachweis der echten Wirkung, vorher und nachher: ein Screenshot der Antwort im Postfach, die Logzeile, die erscheinen soll, die Zeile, die jetzt in der Datenbank stehen muss. Beweisen ist, was Verifikation von Hoffnung trennt.
Zugang schaffen. Echte Systeme lassen keinen Fremden hinein. Zwei Hürden stoppen fast jede Schleife beim ersten Lauf, und sie haben Namen.

Die beiden Hürden heißen Zugang und Zustand. Zugang: Der Agent braucht einen Weg, sich anzumelden, einen Testaccount oder einen dokumentierten Anmeldepfad, den er nutzen darf. Ohne das starrt er auf eine Login-Wand und meldet, die Seite habe geladen. Das stimmt und ist nutzlos. Zustand: Ein echter Ablauf braucht echte Daten. Ein leeres CRM hat keine Anfrage zu sortieren. Sie legen den Zustand vorher an, den die Schleife braucht.

Wer je einen Integrationstest geschrieben hat, kennt diese Setup-Skripte. Die Verschiebung ist klein und wichtig: Geben Sie diese Skripte dem Agenten in die Hand und halten Sie sie beweglich. Schreiben Sie nicht jeden Wert vor. Geben Sie dem Agenten die Mittel, eine realistische Anfrage anzulegen und sich als Testnutzer anzumelden, und er prüft eine weit größere Bandbreite an Situationen, als jedes feste Skript es je könnte.

Eine Schleife, die nicht mit der Sitzung stirbt

Sie haben den Agenten durch eine Schleife geführt: die App starten, den Browser bedienen, die Wirkung beweisen, Zugang und Zustand klären. Es hat funktioniert. Nur lebt dieses mühsam erarbeitete Wissen jetzt in einer einzigen Terminal-Sitzung und in Ihrem Kopf. Es verdampft, sobald Sie das Fenster schließen. Ihr Kollege rennt nächste Woche gegen dieselben Hürden, von null. Sie selbst nächsten Monat ebenfalls.

Bei uns landet eine solche Schleife im BrandOS, dem Teil des Unternehmens, den KI kennen muss, versioniert wie Code. Konkret als Skill, also als dokumentierte Arbeitsroutine: So verifizieren wir dieses System. Stack hochfahren, Browser-Werkzeug laden, diesen Rauchtest fahren, auf diese Wirkungen achten. Die Schleife ist damit keine Sache mehr, die Sie einmal getan haben. Sie ist ein Werkzeug, das jeder im Team aufrufen kann und das jedes Mal gleich läuft.

Der Schritt, der wirklich Zinsen trägt: Schreiben Sie in den Skill die Anweisung, sich bei jeder Hürde selbst zu verbessern. Stolpert die Schleife über einen undokumentierten Anmeldeschritt, umgeht der Agent ihn nicht nur, sondern trägt den Fix in den Skill ein. Die nächste Person rennt nie gegen diese Wand. So entsteht eine lebende Beschreibung, die mit jeder Nutzung stabiler wird, statt zu verrotten, wie Dokumentation es sonst tut.

Was die Schleife freischaltet, und in welcher Reihenfolge

Erst wenn ein Agent seine eigene Arbeit prüfen kann, werden zwei Dinge sicher, die vorher fahrlässig waren. Das Wort erst ist keine Zierde. Ein Agent, dem Sie das Selbstprüfen nicht zutrauen, ist einer, den Sie überwachen müssen. Überwachen ist der Engpass. Solange die Schleife nicht echt ist, bedeutet skalieren nur mehr Bildschirme, auf die Sie starren.

Mehrere Agenten gleichzeitig. Die Beschränkung war nie die Rechenleistung, sondern Ihre Aufmerksamkeit. Eine Handvoll ungeprüfter Agenten ist eine Handvoll Dinge, die nach Ihren Augen verlangen. Eine Handvoll selbstprüfender Agenten ist ein Team, das Sie beaufsichtigen, statt es zu bedienen.
Im Hintergrund laufen lassen. Vieles, was Ihre Woche frisst, ist Buchhaltung, nicht Bauen: Anfragen sichten, Entwürfe vorbereiten, Berichte aktuell halten. Das muss in einer Schleife laufen, aber Sie müssen nicht in der Schleife stehen. Ein Auftrag, der in festen Abständen aufwacht, nimmt Ihre Tastatur aus dem heißen Pfad.

Vier eigenständige, selbstprüfende Schleifen, die in ein einziges menschliches Aufsichts-Tor münden. — Selbstprüfende Agenten skalieren: viele Schleifen, ein Mensch, der beaufsichtigt statt bedient.

Überspringen Sie den ersten Schritt, vervielfachen die beiden anderen nur das, was Sie ohnehin schon überwachen müssen. Die Reihenfolge trägt. Bei uns selbst gilt eine schlichte Schwelle, bevor ein Ablauf unbeaufsichtigt läuft: Kann er erkennen, ob er fertig ist? Wenn nicht, läuft er noch nicht allein.

Damit ändert sich Ihr Job. Sie hören auf, dem Agenten Arbeit zu geben und sie danach selbst zu kontrollieren. Sie geben die Arbeit zurück an den Agenten, samt der Mittel, seine eigene Arbeit zu sehen, und einer Definition von fertig. Aus Ausgaben inspizieren wird Schleifen entwerfen. Das ist der Unterschied zwischen jemandem, der gut darin ist, Agenten zu prüfen, und einem Team, das es ist.

Wer dieses Handwerk im eigenen Team aufbauen will, lernt es in der AI Academy am besten an der eigenen Arbeit. Wer eine geprüfte Schleife lieber laufen lassen will, ohne sie selbst zu babysitten, findet sie bei den Managed KI-Mitarbeitern: Was wir betreiben, pflegen wir, die Verifikation eingeschlossen.

Häufige Fragen

Heißt eine Verifikationsschleife, dass der Agent am Ende völlig autonom läuft?: Nein. Die Schleife korrigiert sich selbst bei allem, was sich umkehren lässt. Ein menschliches Tor bleibt auf allem, was sich nicht rückgängig machen lässt: in Produktion ausspielen, Daten löschen, etwas an einen Kunden senden. Mensch im Loop nur bei der Freigabe, nicht bei jedem Schritt.
Wir haben noch kein sauberes Erfolgskriterium für unsere Abläufe. Wo fangen wir an?: Genau dort. Ohne eine klare Definition von fertig gibt es keine Schleife, sie würde sich ins Nichts hocharbeiten. Nehmen Sie eine wiederkehrende Aufgabe und schreiben Sie auf, woran ein Mensch heute erkennt, dass sie erledigt ist. Wenn Sie das nicht beantworten können, ist das die nützlichste Erkenntnis über Ihren Prozess, noch bevor KI ins Spiel kommt.
Was ist der Unterschied zwischen einer Schleife und einem klassischen automatisierten Test?: Ein Test prüft feste, vorher geschriebene Fälle. Eine Verifikationsschleife gibt dem Agenten die Mittel, sich Daten anzulegen, sich anzumelden und die echte Wirkung zu beobachten, sodass er eine weit größere Bandbreite an Situationen prüft. Die Setup-Skripte aus Ihren Integrationstests sind die Hälfte der Arbeit. Sie reichen sie nur an den Agenten weiter und halten sie beweglich.
Können wir mehrere Agenten parallel laufen lassen, um schneller zu werden?: Erst wenn jeder einzelne sich selbst prüfen kann. Die Beschränkung ist nicht Rechenleistung, sondern Ihre Aufmerksamkeit. Mehrere ungeprüfte Agenten parallel bedeuten nur mehr Bildschirme, die nach Ihren Augen verlangen. Die Reihenfolge ist nicht verhandelbar: zuerst die Schleife, dann die Parallelität.

KI spart keine Zeit, wenn Sie zum Kontrolleur werden