Mit KI-Agenten arbeiten: drei Gewohnheiten, die sich ändern müssen

KI vervollständigt nicht mehr nur schneller, sie arbeitet stundenlang allein. Wer dabei wie früher tippt, zahlt teuer. Drei Gewohnheiten holen den echten Hebel heraus.

Mit KI-Agenten arbeiten: drei Gewohnheiten, die sich ändern müssen

Auf jedem Team, das ernsthaft mit KI anfängt, gibt es diesen einen Moment. Jemand tippt eine schnelle Anweisung in einen Agenten, sieht ein paar Minuten zu, mag das Ergebnis nicht und tippt: mach es besser.

Letztes Jahr war das in Ordnung. Das Modell antwortete in Sekunden, Sie überflogen die Antwort, Sie machten weiter. Eine schludrige Anweisung kostete Sie ein paar Sekunden Ihrer Zeit.

Diese Rechnung hat sich geändert.

Die Modelle unter diesen Werkzeugen sind gut genug geworden, um lange an einer einzigen Aufgabe zu bleiben. Sie lesen sich in einen Bestand ein, entwerfen einen Ablauf, bauen ein kleines internes Tool, prüfen ihre eigene Arbeit, versuchen es nochmal.

Das ist nützlich. Es ist auch der Grund, warum Ihre alten Gewohnheiten aufhören zu funktionieren.

Wenn ein Agent eine Stunde laufen kann, kostet eine vage Anweisung keine Sekunden mehr. Sie kostet eine Stunde, in der der Agent selbstbewusst in die falsche Richtung rennt, und danach Ihre Zeit, seinen Schaden zu entwirren.

Je fähiger der Agent, desto teurer der erste falsche Zeiger. Die Frage ist nicht mehr, welches Modell. Die Frage ist, wie sich Ihre Arbeitsweise ändert.

Die Antwort sind drei Gewohnheiten. Keine davon ist ein Prompt-Trick. Es geht darum, wo Sie Ihre Aufmerksamkeit ausgeben.

Wir nehmen sie der Reihe nach und bauen das Gleiche durchgehend mit: ein kleines internes Board, das zeigt, welche Kundenverträge zur Verlängerung anstehen, wer sie betreut und was erledigt ist gegen was offen. Bewusst banal. Es geht nicht um das Board. Es geht darum, wie Sie mit einem Agenten arbeiten, um es zu bekommen.

Zwei gegenübergestellte Schleifen. Links schiebt ein Mensch-Knoten eine lange Spezifikation in ein Agenten-Modul, das ein Ergebnis ausspuckt, und ein Rückpfeil dreht erneut. Rechts richtet das Agenten-Modul Fragepfeile zurück auf den Menschen, und aus dem Hin und Her entsteht die Spezifikation.
Alte Gewohnheit: Anforderungen hineindrücken. Neue Gewohnheit: den Agenten herausziehen lassen.

Hören Sie auf zu spezifizieren, lassen Sie sich befragen

Es gibt eine kleine, alltägliche Lektion, die direkt vor Ihnen liegt: Das Modell ist vermutlich besser darin, herauszuholen, was Sie wollen, als Sie darin, es zu benennen.

Denken Sie daran, wie das mit Menschen längst funktioniert. Wenn Sie mit Ihren eigenen Kunden sprechen, reichen die Ihnen selten saubere Anforderungen. Sie erkennen das Richtige, wenn sie es sehen. Vorher in Worte fassen können sie es kaum.

Sie nehmen ihnen das nicht übel. Sie befragen sie, Sie zeigen Optionen, Sie beobachten die Reaktion.

Vor einem Agenten sind Sie genauso. Ihre Anforderungen an das Board sind echt, aber sie liegen versteckt in Ihrem Kopf. Sie werden die richtige Fassung sofort erkennen. Sie werden sie nicht aus dem Stand vollständig und korrekt aufschreiben.

Der Reflex der meisten Leute ist, das mit einem besseren Prompt zu bekämpfen: länger, detaillierter, sorgfältiger. Dieser Reflex altert schlecht. Der bessere Zug ist, die Richtung des Gesprächs umzudrehen.

Statt dem Agenten zu sagen, was er bauen soll, bitten Sie ihn, Sie zu befragen, bevor er irgendetwas baut. Eine gute Eröffnung klingt weniger nach Lastenheft und mehr nach Auftrag an einen klugen Kollegen.

Bevor du etwas baust, befrag mich. Frag nach den Nutzern, nach den Zuständen, die ein Vertrag haben kann, nach der Definition von fertig und danach, was ausdrücklich nicht dazugehört. Ein Thema nach dem anderen, und warte auf meine Antwort.

Beachten Sie, was dieser Prompt tut und was nicht. Er nennt die Bereiche, die Ihnen wichtig sind, ohne die Antworten vorwegzunehmen. Genau das ist der Unterschied zwischen gutem und schlechtem Anweisen, und er ist feiner als nur sei ausführlich.

  • Schlecht: Bau ein Verlängerungs-Board. Mach es gut. Keine Bereiche, keine Richtung. Der Agent rät, Sie reagieren, die Schleife verbrennt.
  • Überspezifiziert: Bau es mit exakt diesen sieben Spalten, dieser Farbe, dieser Sortierung. Jetzt haben Sie die Grenzen von Hand gebaut und verbringen die Sitzung damit, die drei Dinge zu entdecken, die Sie vergessen, und die zwei, die Sie falsch hatten.
  • Gut: Befrag mich zu Nutzern, Zuständen, fertig und Umfang, dann schlag einen Plan vor. Sie haben auf das Wichtige gezeigt und die fähigere Partei das Herausholen erledigen lassen.

Arbeiten Sie so, kommt der Agent mit Fragen zurück. Ist das für die Betreuer selbst gedacht oder für eine Leitung, die quer übers Team schaut? Soll ein verlängerter Vertrag verschwinden oder in einen geschlossenen Zustand wandern, den man noch sieht? Was passiert mit einem Vertrag, den niemand betreut?

Jede dieser Fragen ist eine Anforderung, die Sie im Kopf hatten und nicht aufgeschrieben hätten. Sie beantworten sie, wie sie kommen, und eine echte Spezifikation setzt sich aus dem Gespräch zusammen, Zug um Zug, ohne dass Sie alles kalt verbalisieren müssen.

Darunter sitzt eine klare Form: KI fürs Urteil, Code fürs Handeln. Das Herausziehen Ihrer Absicht ist eine Urteilsaufgabe, und beim Urteil sind diese Modelle inzwischen eine echte Hilfe. Die Absicht stammt weiter von Ihnen. Sie tun nur nicht mehr so, als könnten Sie sie in einem perfekten Absatz auskippen.

Machen Sie den Plan prüfbar, bevor er läuft

Sie haben jetzt eine sauber herausgeholte Spezifikation. Der Agent ist bereit zu bauen. Das ist der teuerste Moment im ganzen Ablauf, und es ist der, den die Leute überspringen.

Hier ist die Falle. Das natürliche Ergebnis von lass uns einen Plan abstimmen ist ein langes Textdokument, eine Wand aus Aufzählungspunkten und Prosa. Es wirkt gründlich. Und fast niemand liest es.

Ab ein paar Bildschirmseiten wird ein Textplan nicht mehr geprüft, sondern überflogen, abgenickt und auf Vertrauen freigegeben. So segelt die falsche Richtung genau durch den einen Kontrollpunkt, der sie hätte abfangen sollen, und der Agent läuft eine Stunde auf einem Plan, den keiner wirklich angesehen hat.

Die Abhilfe ist, darauf zu bestehen, dass der Plan bequem zu prüfen ist: dicht, konkret und etwas, das man anschauen kann statt durchwaten zu müssen.

Für das Board heißt das: bevor die echte Anwendung entsteht, lassen Sie den Agenten den Plan als etwas Sichtbares liefern. Eine grobe, klickbare Attrappe des Bildschirms. Nicht das fertige Tool, eine schnelle Skizze: das Layout, die Zustände, der leere Zustand, wie ein überfälliger Vertrag aussieht, wie ein unbetreuter aussieht.

Noch besser, fragen Sie nach mehreren Richtungen auf einmal.

Bevor du es echt baust, zeig mir drei Versionen des Bildschirms als schnelle Attrappen: eine schlicht-dichte, eine ruhig-luftige und eine, die mit dem Überfälligen anführt. Lass mich durchklicken.

Jetzt ist das Prüfen wirklich billig. Sie schauen auf drei konkrete Dinge und wissen in Sekunden, welches dem Bild in Ihrem Kopf entspricht. Schneller, als Sie es je hätten beschreiben können, und verlässlicher, als drei Absätze über drei Layouts zu lesen.

Sie zeigen auf die Überfällig-Farbe und sagen lauter. Sie machen einen Screenshot der Lieblingsversion, kritzeln drauf und geben ihn zurück. Plötzlich ist die Schleife eng und sichtbar statt lang und textlastig.

Eine sanft, dann steil ansteigende Kurve. Die Achse darunter trägt vier Stufen: Idee, Plan, mitten im Lauf, nach dem Ausliefern. Die senkrechte Achse heißt Kosten zu korrigieren. Ein grün markierter Punkt sitzt tief bei Plan und ist mit hier prüfen beschriftet.
Der billigste Ort, eine falsche Abzweigung zu fangen, ist bevor der Agent sie nimmt.

Das Prinzip gilt weit über dieses Beispiel hinaus. Ein Ablaufentwurf, eine Datenzuordnung, eine Dokumentgliederung, ein Bildschirm: Was immer der Agent gleich baut, der Plan dafür sollte etwas sein, das ein vielbeschäftigter Mensch in unter einer Minute tatsächlich inspiziert.

Hängt Ihr Prüfschritt davon ab, dass jemand zweihundert Zeilen liest, haben Sie keinen Prüfschritt.

In der Technik nennen wir das ein Tor: ein bewusster menschlicher Kontrollpunkt vor der teuren, schwer umkehrbaren Aktion, in einer Form, die das Prüfen schnell macht. Überspringen Sie das Tor, haben Sie nur das Tempo automatisiert, mit dem es schiefgeht.

Bauen Sie die Prüfung in die Arbeit ein, nicht daneben

Die meisten prüfen das Ergebnis eines Agenten so, wie sie die Arbeit eines Kollegen prüfen würden: Sie schauen es an. Sie öffnen das Board, legen einen Testvertrag an, markieren einen als verlängert, sehen, ob die Zahlen stimmen, zucken mit den Schultern und machen weiter.

Das funktioniert genau einmal, durch eine Person, in einem Moment. Es übersteht die zweite Änderung nicht, lässt sich nicht an einen Kollegen weiterreichen und kann erst recht nicht der Agent selbst laufen lassen, wenn er das nächste Mal den Code anfasst.

Die tiefste Verschiebung im Arbeiten mit fähigen Agenten ist diese: Hören Sie auf, die Arbeit von außen zu prüfen, und bauen Sie die Prüfung in die Arbeit hinein.

Für das Board heißt das konkret: Die Anwendung zeigt ihren Zustand nicht nur an, sie veröffentlicht ihn. Neben dem Bildschirm, den ein Mensch sieht, gibt jeder Teil seinen aktuellen Zustand in lesbarer, strukturierter Form aus. Wie viele Verträge gezeigt werden, wie viele erledigt sind, wie viele noch aktiv, wer was betreut.

Dieselben Zahlen, die der Mensch vom Bildschirm abliest, sind jetzt als kleiner, ausdrücklicher Vertrag verfügbar, den alles lesen kann, ohne den Bildschirm abzukratzen oder zu raten.

Sobald die Arbeit ihren eigenen Zustand und die Regeln veröffentlicht, denen sie folgen muss, läuft dieselbe Prüfung auf drei Flächen, identisch.

Ein zentraler Block, beschriftet mit der Vertrag veröffentlicht Zustand und Regeln. Drei Pfeile fächern zu drei Feldern auf: ein Mensch liest ein grün-rotes Prüfbrett, ein Agent liest denselben veröffentlichten Zustand, ein Bauserver fährt dieselben Prüfungen ohne Bildschirm bei jeder Änderung.
Den Vertrag einmal schreiben. Als Mensch, als Agent oder automatisch prüfen, gleiche Prüfung, gleiche Antwort.
  • Als Mensch. Ein kleines Brett fährt die Prüfungen und zeigt Ihnen grün und rot. Sie lesen es in Sekunden.
  • Als Agent. Weil der Zustand als Vertrag veröffentlicht ist und nicht im Bildschirm vergraben, liest der Agent ihn direkt, fährt dieselben Prüfungen und hält fest, was er gesehen hat.
  • Ohne Bildschirm, automatisch. Genau dieselben Prüfungen laufen auf einem Bauserver, jedes Mal wenn jemand den Code ändert, ganz ohne Menschen im Spiel.

Geprüft wird nicht nur, ob es richtig aussieht. Sie legen die Dinge fest, die immer gelten müssen, egal was passiert. Wir nennen sie die Invarianten.

Für das Board: erledigt plus aktiv ergibt immer die gezeigte Gesamtzahl, jeder Vertrag hat genau einen Zustand, kein Vertrag fällt still hinten runter. Dann gehen Sie bewusst vom glatten Pfad ab und prüfen, ob die Kontrolle wirklich anschlägt. Der ehrliche Weg, einer Prüfung zu trauen, ist, absichtlich etwas kaputtzumachen und zuzusehen, wie es rot wird.

Hier dieser Moment, konkret. Jemand ändert den Code so, dass das Board zwar noch gut aussieht, es rendert, es ist klickbar, nichts bricht sichtbar, aber die veröffentlichten Summen stimmen nicht mehr zusammen. Es behauptet eine Gesamtzahl von zehn, zeigt aber sieben erledigte und vier aktive.

Mit bloßem Auge fällt das vielleicht nie auf. Aber die Invariante erledigt plus aktiv gleich Gesamt ist jetzt verletzt. Das Prüfbrett des Menschen wird rot. Der Agent, der denselben veröffentlichten Vertrag liest, fängt es ebenfalls und sagt genau, was los ist: Die Summen gehen nicht auf, sieben plus vier ist nicht zehn.

Sie haben nicht die App kaputtgemacht. Sie haben den Vertrag kaputtgemacht, und weil der Vertrag Teil der Arbeit ist, fing ihn jede Fläche auf einmal.

Genau das ist das ganze Spiel. Der Fehler war kein Absturz. Er war eine leise Unstimmigkeit zwischen dem, was die App zeigte, und dem, was wahr war. Die Art Fehler, die an einem flüchtigen Blick vorbeirutscht und drei Wochen später als die Verlängerungszahlen sehen komisch aus auftaucht.

In die Arbeit eingebaute Prüfung fängt diese Klasse von Problem in dem Moment, in dem es auftritt, automatisch, dauerhaft. Nicht weil sich jemand erinnert hat hinzuschauen.

In unserer eigenen Sprache sind das zwei Eigenschaften, die ein Ablauf haben muss, bevor wir ihm trauen, allein zu laufen: Der echte Zustand ist sichtbar, nicht erschlossen. Und die festgelegten Invarianten müssen halten, sonst stoppt er und sagt es.

Ein fähiger Agent macht das deutlich leichter zu bauen, weil er die Verträge schreiben und sie fahren kann. Aber Sie müssen sich entscheiden, die Prüfung zum Bestandteil der Sache zu machen, nicht zu einer Nebenpflicht, die Sie im Stress leise weglassen.

Die Schleife, die Sie am Montag laufen lassen

Jede Gewohnheit hilft für sich. Zusammen ergeben sie eine Schleife, die Sie mit jedem fähigen Agenten auf jeder Aufgabe laufen lassen: das Board bauen, einen Ablauf entwerfen, ein Dokument umbauen, eine Warteschlange sortieren. Sie ist mit Absicht kurz.

  • Absicht herausholen. Lassen Sie sich vom Agenten befragen, statt vorab zu diktieren.
  • Den Plan toren. Prüfen Sie ihn billig und sichtbar, bevor der Lauf beginnt.
  • Prüfung einbauen. Invarianten und absichtliche Stichproben, als Vertrag veröffentlicht.
  • Laufen lassen. Der fähige Agent erledigt die lange, mechanische Mitte.
  • Belege prüfen. Lesen Sie grün und rot, behalten Sie das Protokoll, und prüfen Sie erneut, wenn sich Dinge ändern.

Lesen Sie die Schleife und beachten Sie, wo Sie als Mensch jetzt Ihre Aufmerksamkeit ausgeben. Nicht in der Mitte, wo Sie Anweisungen tippen und Ergebnisse flicken. Sie geben sie am Anfang aus, bei der Frage was will ich eigentlich, und an den Toren, halten die Invarianten.

Fähige Agenten nehmen den Menschen nicht aus der Arbeit. Sie schieben ihn nach vorn, zu Absicht und Prüfung, und aus der Mitte heraus, wo er nur Reibung war.

Ein Stück hält die Schleife über die Zeit ehrlich. Die Welt ändert sich, Ihre Daten verschieben sich, das Modell hinter dem Agenten wird aktualisiert, die Aufgabe driftet. Also schließt sich die Schleife: Sie fahren die Prüfung erneut, wenn sich Dinge ändern, und frischen die Prüfungen selbst in einem festen Takt auf.

Ein Ablauf läuft nach zwölf Monaten noch korrekt, weil seine Invarianten weiter geprüft werden, nicht weil jemand ihn jede Woche heimlich flickt. Dieser Takt, neu prüfen und auffrischen, ist der Unterschied zwischen einer Sache, die in der Demo läuft, und einer, die im Betrieb läuft.

Was das von einem Team verlangt

Lesen Sie die Schleife noch einmal, und eine leisere Wahrheit taucht auf. Alles bisher Beschriebene schafft eine einzige fähige Person. Die meisten Teams haben diese Person, die schon mehr aus KI holt als alle anderen und beim Lesen nickt.

Das Problem ist fast nie dieser eine Mensch. Das Problem ist, dass es bei ihm aufhört.

So nutzen die meisten Teams KI heute: als Sammlung privater Gewohnheiten. Jeder hat einen eigenen Zugang. Jeder hat seine eigene Art zu prompten. Nichts ist geteilt, nichts ist aufgeschrieben, nichts ist wiederholbar.

Einer befragt den Agenten sauber und tort seine Pläne. Der Kollege daneben tippt weiter mach es besser und liefert aus, was zurückkommt. Es gibt keine gemeinsame Definition von geprüft, also heißt wir haben es geprüft an jedem Schreibtisch etwas anderes.

Eine Verschiebung der Gewohnheit zahlt sich erst aus, wenn ein Team sie gleich fährt. Das Befragungsmuster, das billige sichtbare Tor, die Disziplin aus Invarianten und Stichproben müssen werden, wie das Team arbeitet, nicht ein Trick, den ein Bediener im Kopf behält.

Das ist eine Praxis, und eine Praxis ist genau das Eine, was ein kluger Einzelner nicht allein über ein Team ausrollen kann.

Wo Sie ansetzen, je nachdem wo Sie stehen

Bevor das alles ein Thema wird, steht oft eine ruhigere Frage: Ist Ihr Unternehmen überhaupt so beschrieben, dass eine KI damit arbeiten kann? Das ist die Arbeit der AI Readiness (/readiness), ein Befund plus das Rohgerüst Ihres BrandOS, bevor irgendein Agent läuft.

Genau dort liegt übrigens auch der Kontext, aus dem ein Agent gut befragen kann. Bei uns wird er nicht jedes Mal neu in einen Prompt getippt, sondern liegt im BrandOS: alles, was KI über das Unternehmen wissen muss, versioniert wie Code, dazu dokumentierte Arbeitsroutinen und Leitplanken, was die KI darf und was nicht.

Wer dieses Handwerk im eigenen Team aufbauen will, lernt es in der AI Academy (/academy) am besten an der eigenen Arbeit, live. Die Schleife wird genau dann eine geteilte Praxis, wenn Ihre Leute sie an echten Aufgaben fahren, nicht an Beispielen.

Wer eine fertig durchdachte Schleife lieber laufen lassen will, ohne sie selbst zu bauen und zu betreuen, findet sie bei den Managed KI-Mitarbeitern (/agenten): Befragung, Tor und eingebaute Prüfung sitzen drin, und was wir betreiben, pflegen wir. Faustregel, ob ein Ablauf überhaupt passt: Sie könnten ihn einem neuen Mitarbeiter in einer Stunde erklären.

Soll der Agent maßgeschneidert auf der eigenen Infrastruktur sitzen, führt der Weg über Custom KI-Mitarbeiter (/ki-mitarbeiter).

Drei Gewohnheiten also. Absicht herausholen statt diktieren. Den Plan toren, solange er billig ist. Die Prüfung einbauen. Fähig heißt dabei nie unbeaufsichtigt. Der menschliche Griff bleibt am Steuer, er wandert nur an die bessere Stelle.

Häufige Fragen

Was heißt es, mit KI-Agenten zu arbeiten, statt KI nur als Autovervollständigung zu nutzen?
Autovervollständigung antwortet in Sekunden, Sie überfliegen und machen weiter. Ein fähiger Agent bleibt lange an einer Aufgabe und arbeitet stundenlang allein. Damit verschiebt sich, wo Ihre Aufmerksamkeit zählt: weniger beim Tippen mittendrin, mehr am Anfang bei der Absicht und an den Prüfpunkten. Wer KI-Agenten richtig nutzen will, ändert nicht den Prompt, sondern die eigene Arbeitsweise.
Warum ist eine vage Anweisung bei einem fähigen KI-Agenten teurer als früher?
Solange ein Modell in Sekunden antwortet, kostet eine schludrige Anweisung ein paar Sekunden Ihrer Zeit. Läuft ein Agent eine Stunde an einer Aufgabe, kostet dieselbe Anweisung eine Stunde in die falsche Richtung plus die Zeit, die Sie brauchen, das Ergebnis wieder zu entwirren. Je fähiger der Agent, desto teurer ist es, ihn am Start falsch zu zeigen.
Wie prüfe ich, ob ein KI-Agent das Richtige tut, ohne ihm die ganze Zeit zuzusehen?
Bauen Sie die Prüfung in die Arbeit selbst ein, statt sie von außen anzuschauen. Die Arbeit veröffentlicht ihren Zustand und die Regeln, die immer gelten müssen, die Invarianten. Dieselbe Prüfung läuft dann als Mensch über ein Prüfbrett, als Agent, der den Zustand liest, und automatisch auf einem Bauserver bei jeder Änderung. Bricht eine Regel, wird es überall zugleich rot.
Reicht es, wenn eine Person im Team gut mit KI-Agenten arbeitet?
Meist nicht. In vielen Teams ist KI eine Sammlung privater Gewohnheiten: eigener Zugang, eigene Art zu prompten, nichts geteilt, nichts aufgeschrieben. Eine Verschiebung der Gewohnheit zahlt sich erst aus, wenn das Team sie gleich fährt und es eine gemeinsame Definition von geprüft gibt. Das ist eine Praxis, und eine Praxis kann ein kluger Einzelner nicht allein über ein Team ausrollen.

Sprechen Sie mit uns, bevor Sie ein KI-Projekt starten.

Ein kurzes Erstgespräch klärt, welcher Weg trägt, was zuerst gebaut wird und wo KI bewusst nicht hingehört. Kostenlos, unverbindlich, kein Verkaufsgespräch.

Erstgespräch vereinbaren 30 Minuten · kostenlos · unverbindlich