Wir haben eine beeindruckende Demo von einem Anbieter gesehen. Reicht das als Entscheidungsgrundlage?

Nein. Eine Demo zeigt, dass der Agent einmal funktioniert, während Sie zusehen. Sie sagt nichts darüber, ob er unter Identität, Grenzen, Freigaben und einer Definition von fertig betrieben werden kann. Lassen Sie sich die sechs Eigenschaften konkret zeigen, nicht nur das Ergebnis.

Woran erkenne ich überhaupt, ob eine Aufgabe zu einem KI-Agenten passt?

Eine gute Heuristik: Sie passt, wenn Sie den Ablauf einem neuen Mitarbeitenden in einer Stunde erklären könnten. Klarer Eingang, klare Schritte, klare Freigabe. Aufgaben mit viel impliziter Erfahrung und ständigem Sonderfall gehören eher nicht in einen Agenten, jedenfalls nicht zuerst.

Müssen KI-Agenten vollautonom arbeiten, um sich zu lohnen?

Im Gegenteil. Für folgenreiche Handlungen ist Vollautonomie kein Qualitätsmerkmal, sondern ein Risiko. Der Wert entsteht, wenn der Agent die Routine übernimmt und die wenigen heiklen Schritte an einen Menschen übergibt. Lieber hält er an und fragt, als dass er handelt und sich entschuldigt.

Wer ist verantwortlich, wenn der Agent nach dem Start nicht mehr richtig läuft?

Das müssen Sie vor dem Start klären. Entweder hostet und wartet ihn der Anbieter, oder Sie tun es selbst mit einem Handbuch. Die teure Variante ist die Grauzone dazwischen. Bei uns gilt: was wir hosten, halten wir instand; was Sie hosten, halten Sie instand.

KI-Agent: Demo oder produktionsreif? Sechs Prüffragen

redaktion

2026-06-18 KI-Mitarbeiter 9 Minuten Lesezeit

Links eine glänzende, inszenierte Form, rechts dieselbe Form als präziser technischer Bauplan: der Unterschied zwischen Demo und Produktion.

Sie kennen das Bild. Jemand tippt einen Satz ein, ein KI-Agent legt los, und kurz darauf liegt eine fertige Analyse auf dem Tisch, ein formulierter Antwortentwurf, ein sauber strukturierter Vorgang. Es sieht aus, als wäre die Zukunft auf einem Laptop gelandet. Und dann stellt jemand im Raum die einzige Frage, die zählt: Können wir das jetzt wirklich einsetzen.

An dieser Stelle sterben die meisten KI-Vorhaben leise. Nicht, weil das Modell zu schwach wäre. Sondern weil niemand auf diese eine Frage eine belastbare Antwort geben kann.

Eine Demo ist dafür gebaut, einmal zu funktionieren, während Sie zusehen. Ein produktiver KI-Agent muss weiterlaufen, wenn niemand zusieht. Durch ein abgelaufenes Passwort, eine kaputte Eingabe, einen Montagmorgen und einen Kollegen, der ihn so benutzt, wie Sie es nie getestet haben. Der Abstand zwischen beidem ist keine Frage der Intelligenz. Es ist Ingenieursarbeit. Und genau die lässt eine Demo bewusst weg.

Dieser Artikel gibt Ihnen einen Weg, diese Lücke selbst zu schließen. Sechs Fragen, die Sie an jeden Agenten stellen können. An den eines Anbieters, an den Prototyp Ihres eigenen Teams oder an einen Ablauf, den Sie abonnieren wollen. Die Antworten sagen Ihnen, ob Sie eine Demo vor sich haben oder etwas, das in den Betrieb darf.

Das Modell ist nicht mehr der Engpass

Eine Weile lang stand tatsächlich das Modell zwischen Ihnen und einem brauchbaren Agenten. Es musste an die Hand genommen, korrigiert und bei jedem Schritt überwacht werden. Jede neue Modellgeneration hat ein Stück dieser Reibung weggenommen.

Inzwischen ist das gekippt. Die Modelle sind gut genug. Was fehlt, ist alles, was ein Modell überhaupt erst sicher in Ihrem Unternehmen arbeiten lässt: eine eigene Identität, ein abgegrenzter Ort zum Arbeiten, die richtigen Fakten, jemand, der heikle Schritte freigibt, eine Möglichkeit zu sehen, was passiert ist, und eine klare Definition davon, wann die Arbeit erledigt ist.

Ein fähiges Modell ist ein Rohstoff. Ein produktiver Agent ist ein Erzeugnis. Dazwischen liegt kein besserer Prompt, sondern Konstruktion. An einer Fertigungslinie gilt: gleiche Eingänge müssen verlässlich gleiche Ergebnisse liefern, sonst geht nichts raus. Bei Agenten ist es nicht anders.

Die Frage ist nicht, wie schlau das Modell ist. Das Modell ist schlau genug. Die Frage ist, ob das Drumherum gebaut wurde.

Behandeln Sie den Agenten wie einen neuen Mitarbeitenden

Sie wissen längst, wie man entscheidet, ob man jemandem echte Arbeit anvertraut. Sie tun es jedes Mal, wenn Sie jemanden einarbeiten.

Sie geben einem neuen Mitarbeitenden nicht am ersten Tag Vollzugriff auf alle Systeme und verschwinden dann für eine Woche, ohne je nachzusehen. Sie geben eine Identität und genau die Rechte, die der Job braucht. Einen Platz zum Arbeiten. Den Kontext, um die Aufgabe zu erledigen. Eine Führungskraft, die die heiklen Entscheidungen abnickt. Eine Möglichkeit, die Arbeit zu sehen. Und ein gemeinsames Verständnis davon, was fertig heißt.

Ein Agent ist kein Kollege. Er versteht Ihr Geschäft nicht, und er denkt nicht. Er erzeugt strukturierte Ergebnisse, auf die dann normaler, vorhersagbarer Code reagiert. KI für das Urteil, Code für die Handlung. Aber die Sorgfalt, die Sie bei einem Menschen aufwenden, ist genau die Sorgfalt, die ein produktiver Agent braucht. Lassen Sie die Metapher weg, bleiben sechs konkrete Eigenschaften übrig. Fehlt eine davon, haben Sie keinen produktiven Agenten, sondern einen selbstbewussten Neuzugang ohne Vorgesetzten und mit dem Generalschlüssel.

Frage eins bis drei: Wer ist es, wo darf es handeln, was weiß es

Die erste Frage betrifft die Identität. Unter welcher Kennung handelt der Agent, und welche Systeme erreicht er damit genau. In einer Demo läuft der Agent meist als Sie: Ihre Sitzung, Ihre Rechte, Ihre Reichweite im Schadensfall. Auf der Bühne unsichtbar, im Betrieb fatal. Ein produktiver Agent hat eine eigene Kennung wie ein Mitarbeiterausweis, mit Zugriff genau auf das, was die Aufgabe braucht. Sie können namentlich beantworten, was er erreicht, und die ehrliche Antwort ist eine kurze Liste.

Die zweite Frage betrifft den Ort. Wo läuft der Agent, und was kann er von dort aus berühren. Eine Demo läuft auf einem vertrauenswürdigen Rechner mit offenem Zugang zu allem. Nichts ist eingezäunt, weil für neunzig Sekunden nichts eingezäunt sein muss. Im Betrieb ist „er kann beliebigen Code ausführen und alles aufrufen“ kein Feature, sondern der Vorfall, der nur auf seinen Termin wartet. Produktiv heißt: der Agent arbeitet in einem abgegrenzten Raum, in dem Sie festlegen, welche Ziele er im Netz erreicht und welche Werkzeuge er hat.

Die dritte Frage betrifft das Wissen. Woher nimmt der Agent die Fakten, auf die er handelt. Demos nutzen saubere Eingaben und kurze Aufgaben, da gibt es nichts, woran man abdriften könnte. Echte Arbeit ist lang und unordentlich. Ein produktiver Agent stützt sein Urteil auf echte, abgerufene Quellen, nicht auf das, woran sich das Modell halb erinnert. Das ist der Unterschied zwischen „aus Ihren echten Daten erstellt“ und „etwas erfunden, das plausibel klang“.

Schematische Darstellung der Schwelle zwischen einer glänzenden KI-Demo und dem verlässlichen Produktivbetrieb, dunkler Hintergrund mit grünen Akzentlinien — Zwischen Demo und Betrieb liegt keine Intelligenz, sondern Konstruktion.

Frage vier bis sechs: Wer gibt frei, sehen Sie es, wann ist es fertig

Die vierte Frage betrifft die Freigabe. Bevor der Agent etwas Folgenreiches tut, eine Mail verschickt, etwas verändert, einen Vorgang abschließt, wer oder was gibt das frei. Eine Demo will autonom wirken und macht deshalb alles in einem Zug. Vollautonom ist ein schöner Bühneneffekt und eine schlechte Voreinstellung für jede Handlung mit echten Folgen, weil der erste Fehler schon passiert ist, bevor Sie ihn sehen. Produktiv heißt: folgenreiche Schritte laufen durch eine Freigabe, eine menschliche Bestätigung oder eine feste Prüfung. Die Routine fließt durch, das Wenige, das zählt, wartet auf ein Ja.

Hier ziehen wir eine harte Linie. Wir bauen keine vollautonomen Agenten für folgenreiche Handlungen. Wenn ein Schritt übersteigt, was der Agent allein entscheiden sollte, ist das richtige Ergebnis keine Vermutung. Es ist, anzuhalten und zu eskalieren. Lieber hält ein Agent an und fragt, als dass er handelt und sich später entschuldigt.

Routineaufgaben fließen frei durch einen offenen Kanal, ein folgenreicher Schritt wird an ein Freigabe-Tor umgeleitet. — Die Routine fließt durch, das Wenige mit Folgen wartet auf ein Ja.

Die fünfte Frage betrifft die Sicht. Können Sie sehen, was der Agent getan hat, in welcher Reihenfolge und warum. Auf der Bühne braucht es das nicht, Sie schauen ja live zu. Im Betrieb läuft der Agent, während Sie in einem Termin sitzen oder im Urlaub sind. Wenn Sie nicht rekonstruieren können, was passiert ist, können Sie weder beurteilen, ob er erfolgreich war, noch ihn reparieren, wenn er scheitert. Produktiv heißt: jeder Lauf hinterlässt eine lesbare Spur aus Eingaben, Werkzeugaufrufen, Entscheidungen und Fehlern, die Sie live verfolgen oder später nachspielen können.

Die sechste Frage betrifft das Ziel. Woran erkennt der Agent, dass die Arbeit fertig und gut ist, und ist das ein echter Maßstab oder nur „er hat aufgehört“. Eine Demo ist fertig, wenn die Präsentierende aufhört zu reden. Produktiv arbeitet der Agent gegen eine ausgeschriebene Definition von fertig, eine Liste von Kriterien, an denen er sein eigenes Ergebnis messen kann, und arbeitet weiter, bis der Maßstab erreicht ist, statt bei der ersten plausiblen Antwort stehenzubleiben.

Sechs gerade Antworten an einem echten Beispiel

Abstrakte Eigenschaften nickt man leicht ab. Darum hier ein einzelner Agent durch alle sechs Fragen, ein Lead-Triage-Ablauf, wie wir ihn in der Managed-Bibliothek anbieten und in der eigenen Arbeit laufen lassen, bevor wir ihn jemandem geben. Die Aufgabe: jede eingehende Anfrage wird gelesen, eingeordnet, angereichert und weitergeleitet, mit einem fertigen Antwortentwurf für einen Menschen.

Wer ist es: Der Agent handelt unter eigener, eng gefasster Kennung mit den Zugangsschlüsseln des Kunden für CRM und Mail. Er darf den Posteingang lesen und einen Entwurf schreiben. Versenden kann er nicht, Finanz- und Personalsysteme erreicht er nicht.
Wo darf er handeln: Er läuft in einem abgegrenzten Raum, der nur das CRM und die Anreicherungsquelle erreicht. Kein offenes Internet, keine Überraschungsaufrufe.
Was weiß er: Er ordnet gegen den echten CRM-Eintrag und den Anfragetext ein, nicht gegen eine Vermutung. Fehlen Daten, sagt er das, statt einen Treffer zu erfinden.
Wer gibt frei: Er schreibt den Entwurf, er verschickt ihn nicht. Ein Mensch prüft und sendet. Was er nicht sicher einordnen kann, wird markiert, nicht geraten.
Sehen Sie es: Jede Triage hinterlässt ihre Spur. Wird ein Lead falsch geleitet, sehen Sie in Sekunden warum, statt zu raten.
Wann ist es fertig: Fertig ist definiert. Eingeordnet über der Schwelle, angereichert gegen benannte Felder, an den richtigen Eigentümer geleitet, Entwurf angehängt. Wenn er das nicht schafft, eskaliert er, statt sich selbst als erledigt zu melden.

Sechs Messuhren in einer Reihe wie ein Instrumentenbrett, vier grün ausgeschlagen, zwei noch grau. — Sechs Prüffragen, sechs Anzeigen. Erst wenn alle ausschlagen, darf der Agent in den Betrieb.

Sechs gerade Antworten. Das macht aus einem Ablauf etwas, das wir betreiben und für das wir geradestehen, statt einer Demo. Und beachten Sie, was er nicht ist: kein vollautonomer Vertriebler, der Leads unbeaufsichtigt anschreibt. So etwas bauen wir nicht, und Sie sollten misstrauisch sein, wenn es Ihnen jemand verspricht.

Wer betreibt das Ding nach dem Start

Bestehen alle sechs Fragen, bleibt eine letzte, und sie entscheidet, wen Sie nachts um zwei anrufen. Wer betreibt den Agenten, sobald er läuft. Es gibt zwei ehrliche Antworten: Entweder hostet ihn jemand für Sie und hält ihn instand, oder Sie hosten ihn selbst. Der Fehlerfall ist die Grauzone dazwischen, in der Verantwortung im Schadensfall ein Meeting ist statt ein Name.

Jeder individuell gebaute Agent ist am Tag der Übergabe am besten. Danach ändern sich Modelle, Schnittstellen und Anforderungen, und jemand muss nachziehen. Bei Einzelprojekten ohne klare Zuständigkeit heißt dieser Jemand am Ende oft: niemand. Darum ziehen wir die Linie hart. Was wir hosten, halten wir instand. Was Sie hosten, halten Sie instand. Abonnieren Sie einen Ablauf aus der Managed-Bibliothek, läuft er bei uns, durch Modellwechsel, Drift und die monatlichen Prüfungen gegen seine Definition von fertig. Bauen Sie auf eigener Infrastruktur, begleiten wir Sie in der Readiness dorthin und übergeben sauber, mit dem Handbuch zum Selbstbetrieb.

Was Sie jetzt damit machen

Sie kamen herein und konnten erkennen, ob eine Demo beeindruckend aussieht. Sie gehen mit der Fähigkeit, zu erkennen, ob ein Agent echt ist. Beim nächsten Mal, wenn jemand Ihnen einen Agenten zeigt, gehen Sie die sechs Fragen durch und schreiben die Antworten auf. Nicht „fühlte sich solide an“, sondern ein gerades Ja, Nein oder Teilweise mit Beleg.

Sechs klare Ja heißt, Sie sehen etwas, das in den Betrieb darf. Jedes Nein ist kein Ausschlusskriterium, sondern eine Hausaufgabe mit Namen. Ein Teilweise ist ein Gespräch, keine Freigabe. Was Sie nicht tun dürfen: die Demo die Fragen für Sie beantworten lassen. Ihr ganzer Job ist es, alle sechs als erledigt erscheinen zu lassen und Ihnen keine davon zu zeigen.

Bekommen Sie keine geraden Antworten, ist genau das die Antwort. Ein Team, das einen produktiven Agenten gebaut hat, geht alle sechs Punkte mit Ihnen durch, ohne zu zucken, weil es jeden lösen musste, um in Betrieb zu gehen. Ein Team, das nur eine Demo gebaut hat, greift irgendwann zum Wort „reibungslos“. Wenn Sie unsicher sind, wo Ihr Vorhaben steht, ist ein kostenloses Erstgespräch der schnellste Weg zu Klarheit. Wenn Sie einen geprüften Ablauf einfach laufen lassen wollen, lohnt der Blick in die Managed-KI-Mitarbeiter. Wenn Sie auf eigener Infrastruktur bauen, ist die AI Readiness das Fundament.

Häufige Fragen

Wir haben eine beeindruckende Demo von einem Anbieter gesehen. Reicht das als Entscheidungsgrundlage?: Nein. Eine Demo zeigt, dass der Agent einmal funktioniert, während Sie zusehen. Sie sagt nichts darüber, ob er unter Identität, Grenzen, Freigaben und einer Definition von fertig betrieben werden kann. Lassen Sie sich die sechs Eigenschaften konkret zeigen, nicht nur das Ergebnis.
Woran erkenne ich überhaupt, ob eine Aufgabe zu einem KI-Agenten passt?: Eine gute Heuristik: Sie passt, wenn Sie den Ablauf einem neuen Mitarbeitenden in einer Stunde erklären könnten. Klarer Eingang, klare Schritte, klare Freigabe. Aufgaben mit viel impliziter Erfahrung und ständigem Sonderfall gehören eher nicht in einen Agenten, jedenfalls nicht zuerst.
Müssen KI-Agenten vollautonom arbeiten, um sich zu lohnen?: Im Gegenteil. Für folgenreiche Handlungen ist Vollautonomie kein Qualitätsmerkmal, sondern ein Risiko. Der Wert entsteht, wenn der Agent die Routine übernimmt und die wenigen heiklen Schritte an einen Menschen übergibt. Lieber hält er an und fragt, als dass er handelt und sich entschuldigt.
Wer ist verantwortlich, wenn der Agent nach dem Start nicht mehr richtig läuft?: Das müssen Sie vor dem Start klären. Entweder hostet und wartet ihn der Anbieter, oder Sie tun es selbst mit einem Handbuch. Die teure Variante ist die Grauzone dazwischen. Bei uns gilt: was wir hosten, halten wir instand; was Sie hosten, halten Sie instand.

Demo oder Produktion: woran Sie erkennen, ob Sie einem KI-Agenten echte Arbeit anvertrauen können