Wie kann ich einen KI-Agenten testen, ohne selbst zu programmieren?

Sie beginnen nicht mit Technik, sondern mit einer ehrlichen Antwort auf die Frage, wie ein gutes Ergebnis aussieht. Den Rest können Sie mit zwei einfachen Prüfern abdecken: eine feste Regel für alles, was immer stimmen muss, und ein zweites Modell als Gutachter für die Qualität. Beides lässt sich auch durch einen Dienstleister einrichten, der den Ablauf danach für Sie betreibt.

Was bedeutet es, die Qualität eines KI-Agenten zu messen?

Es bedeutet, ein vages Gefühl in eine Zahl zu verwandeln, die Sie über die Zeit verfolgen. Sie definieren eine Aufgabe und einen Prüfer, der das Ergebnis gegen Ihre Erwartung bewertet. So sehen Sie vor dem Ausliefern, ob eine Änderung geholfen oder geschadet hat, statt es erst zu merken, wenn sich ein Kunde beschwert.

Reichen die öffentlichen Modell-Ranglisten nicht aus?

Nein. Ranglisten vergleichen Modelle auf allgemeiner Fähigkeit und sind dafür nützlich. Über Ihren konkreten Fall sagen sie fast nichts. Ein Modell kann eine Rangliste anführen und trotzdem Ergebnisse liefern, die Ihre Leute ablehnen, weil die Rangliste einen anderen Job gemessen hat. Bauen Sie deshalb Ihren eigenen Maßstab auf Ihrer eigenen Arbeit.

Wie oft muss ich die Prüftests anpassen?

Regelmäßig. Während Ihr Agent besser wird, hören Prüfer irgendwann auf zu unterscheiden, weil jedes Ergebnis besteht. Dann brauchen Sie einen härteren Prüfer. Planen Sie das fest ein, etwa einen monatlichen Blick auf die Prüf-Sätze und einen Vergleich der Modelle pro Quartal. Prüftests sind kein einmaliges Projekt, sondern ein lebendiges Stück Ihrer Arbeit.

KI-Agent testen: Qualität messbar machen

redaktion

2026-06-12 KI-Qualität 8 Minuten Lesezeit

Funktioniert Ihr KI-Agent wirklich? So machen Sie aus einem Gefühl eine Zahl

Es kommt an einem Dienstag. Ein Kunde oder ein Kollege schreibt: „Irgendwas stimmt nicht mehr mit der KI. Das Ergebnis ist nicht mehr so wie früher.“

Sie öffnen die Protokolle. Nichts ist offensichtlich kaputt. Sie ziehen ein paar aktuelle Ergebnisse und schauen sie an. Vielleicht sind sie schlechter. Vielleicht bilden Sie sich das ein.

Vielleicht war es der Prompt, den Sie letzte Woche angefasst haben. Vielleicht hat der Modell-Anbieter still ein Update ausgerollt. Sie ändern eine Sache, schauen drauf und hoffen.

Das ist die Reaktionsschleife, und die meisten Teams, die KI im Betrieb haben, leben darin. Sie merken Probleme erst, wenn sich jemand beschwert. Sie reparieren nach Gefühl. Und jede Reparatur riskiert, etwas anderes zu zerschießen, das Sie gerade nicht im Blick hatten.

Was fehlt, ist nicht das bessere Modell. Was fehlt, ist eine Art zu messen.

„Fühlt sich komisch an“ ist kein Befund. Sie brauchen einen Satz, der sagt: hier genau bricht es, und das ändere ich, wenn die Zahl fällt.

Zwei nebeneinander gezeichnete Kreisläufe: links die graue Reaktionsschleife (ausliefern, auf Beschwerde warten, raten, ändern und hoffen), rechts die gemessene Schleife mit grün hervorgehobenem Knoten „lesen, was gebrochen ist“. — Dieselbe Schleife. Eine davon verrät Ihnen, ob es besser wird.

Was ein Prüftest eigentlich ist

Lassen Sie die Fachsprache weg, und ein Prüftest besteht aus zwei Teilen.

Erstens eine Aufgabe: ein konkretes Szenario, in das Sie das System stellen. Etwa „erstelle aus diesen Eckdaten ein Angebot für einen Wartungsvertrag“. Zweitens ein Prüfer: eine Logik, die Ihre Erwartung festhält und das Ergebnis bewertet. Etwa „genau ein Preis pro Position“ oder „der Ton passt zur Firma“.

Einfach gesagt ist ein Prüftest ein Funktionstest für Ergebnisse, die nicht eindeutig sind. Ein normaler Funktionstest prüft, ob 2 plus 2 wirklich 4 ergibt. Ein Prüftest prüft etwas Weicheres und Wichtigeres: ist dieses Angebot überhaupt gut?

Und er verwandelt die Antwort in eine Zahl, die Sie über die Zeit verfolgen können.

Genau das ist der ganze Punkt. Ohne diese Zahl lebt Qualität als Bauchgefühl in Ihrem Kopf. Mit ihr wird Qualität ein Wert: vergleichbar über Versionen hinweg, einer Ursache zuzuordnen, und unwiderlegbar, wenn eine Änderung etwas verschlechtert.

Ein vages „die Leute scheinen zufrieden“ ist ein brauchbares Rauchsignal. Als Grundlage für eine Entscheidung taugt es nichts.

Warum die berühmten Ranglisten Ihnen nicht helfen

Jedes neue Modell kommt mit einem Zeugnis. Es löst soundsoviel Prozent bei diesem Coding-Test, soundsoviel beim Werkzeug-Test. Das sind auch Prüftests, und sie sind für eine Sache gut: Modelle untereinander auf allgemeiner Fähigkeit zu vergleichen.

Über Ihren Anwendungsfall sagen sie fast nichts.

Ihr Agent macht nicht „Coding im Allgemeinen“. Er schreibt Ihre Angebote, sortiert Ihre Anfragen vor, baut Ihre Monatsberichte. Gegen Ihre Standards, Ihre Formate, Ihre Vorstellung von fertig.

Ein Modell, das eine öffentliche Rangliste anführt, kann trotzdem Ergebnisse liefern, die Ihre Leute ablehnen. Die Rangliste hat einen anderen Job gemessen.

Daraus folgt die Regel, auf die jedes ernsthafte Team irgendwann kommt: bauen Sie Ihren eigenen Maßstab. Messen Sie die Modelle an Ihrer Arbeit, nicht umgekehrt.

Nur so nutzen Sie das richtige Modell für den Job. Und nur so wissen Sie, wann ein neues Modell für Sie wirklich besser ist und nicht bloß im Durchschnitt.

Links ein Stapel grauer Chips für generische öffentliche Ranglisten unter der Überschrift „misst allgemeine Fähigkeit“, rechts ein einzelner grün umrandeter Kasten unter „misst Ihren Job“ mit der Frage, ob das Angebot gut genug für einen Kunden ist. — Öffentliche Tests wählen das Modell. Ihr eigener Maßstab sagt, ob es Ihren Job macht.

Was Sie davon haben

Ohne eigene Prüftests sind vier Probleme nicht zufällig, sondern eingebaut.

Sie merken Fehler erst im Echtbetrieb. Das erste Signal ist ein Nutzer, dem etwas auffällt. Da ist es längst draußen.
Sie reparieren eins und zerschießen drei. Ein Eingriff am Prompt, der einen Fall verbessert, kann andere still verschlechtern, die Sie nie geprüft haben.
Sie können Signal nicht von Rauschen trennen. Menschen nehmen Qualität ungleichmäßig wahr. Ohne Ausgangswert verwechseln Sie einen echten Rückschritt mit einem schlecht gelaunten Dienstag.
Sie können eine Verbesserung nicht beweisen. Das ist das Schlimmste. Sie ändern etwas, es fühlt sich besser an, aber Sie können nicht zeigen, dass es das auch ist.

Drehen Sie jedes dieser Probleme um, und Sie haben den Grund für den Aufwand.

Klarheit zuerst. Um einen Prüftest zu schreiben, müssen Sie erst sagen, wie Erfolg aussieht. Das klingt banal. Ist es nicht. Die meisten Teams können nicht konkret benennen, was ein gutes Ergebnis ausmacht. Und wenn Sie es nicht sagen können, kann Ihr Agent es erst recht nicht treffen.

Dann der schnellere, sicherere Modellwechsel. Neue Modelle kommen ständig. Mit Prüftests ist ein Wechsel kein Sprung ins Dunkle mehr, sondern ein klarer Befund: hier besser, dort schlechter, lohnt sich oder nicht.

Und der Schutz vor Rückschritten. Jede Änderung läuft gegen dieselbe Reihe von Fällen. Sie sehen sofort, ob Sie rückwärts gegangen sind, bevor ein Kunde es tut.

Prüftests sind die Brücke von „scheint zu laufen“ zu „wir wissen, dass es läuft, und so wissen wir es“.

Drei Arten zu bewerten

Ein Prüfer ist einfach die Art, wie Sie ein Ergebnis beurteilen. Davon gibt es drei Familien, und jede hat ihren Preis.

Die Regel im Code. Schlichte, feste Logik: ein Textvergleich, ein Muster, ein Zählen. Hat er überhaupt eine Datei erzeugt? Steht zu jeder Position ein Preis? Wie viele Pflichtfelder sind leer? Das ist schnell, billig und beliebig wiederholbar. Lassen Sie es tausendmal laufen, kommt dasselbe heraus. Die Schwäche: es ist stur und blind für Feinheiten. Es kann bestätigen, dass ein Angebot existiert. Ob es gut ist, sagt es nicht.

Das Modell als Gutachter. Hier lassen Sie ein Modell das Ergebnis gegen eine Bewertungsleitlinie benoten. Etwa „bewerte die Lesbarkeit dieses Berichts von 0 bis 5“. Das ist die einzige Art, die weichen Qualitäten zu prüfen, auf die es am meisten ankommt: Klarheit, roter Faden, Ton. Der Preis: es ist nicht eindeutig, dieselbe Eingabe kann verschieden ausfallen, es kostet Geld und Zeit, und es muss sorgfältig geeicht werden, bevor Sie ihm trauen.

Der Mensch als Fachgutachter. Eine Fachkraft sieht sich das Ergebnis direkt an. Höchste Qualität, feinste Beurteilung, mit Abstand am langsamsten und teuersten. Das nutzen Sie am seltensten: für Stichproben, für direkte Vergleiche, und vor allem, um die Modell-Gutachter gegen echtes Urteil zu eichen.

Drei Spalten als Vergleichsmatrix unter einer Achse von „fest, billig, schnell“ links zu „fein, teuer, langsam“ rechts: Code-Regel, Modell-Gutachter, Mensch. Jede Spalte nennt Beispiel, Stärke und Schwäche. — Kein Prüfer ist der beste. Jeder beantwortet eine andere Art von Frage.

Die Kunst ist nicht, die drei Arten zu kennen. Die Kunst ist, für jede Sache, die Sie messen, die richtige zu wählen.

Zwei Fragen zum selben Angebot machen das deutlich. „Wie viele Positionen stehen drin?“ ist zählbar, das macht eine Regel im Code. „Klingt der Begleittext nach uns oder nach Behörde?“ ist ein Urteil, das braucht einen Modell-Gutachter oder ein menschliches Auge.

Jeder Prüfer muss etwas liefern, auf das Sie reagieren können. Sonst misst er nicht, er dekoriert. Streichen Sie ihn.

Wie das an einem echten Agenten aussieht

Nehmen Sie einen Agenten, der aus Eckdaten ein Kundenangebot erstellt. Am Anfang ist seine Anweisung ein paar Zeilen lang: nimm die Daten, schreib ein Angebot.

Die erste Fassung ist brauchbar als Anfang und sonst nichts. Positionen ohne Preis. Ein Ton, der mal nüchtern, mal werblich kippt. Rabatte, die niemand freigegeben hat.

Das ist der richtige Moment für die Frage, die einen Prüf-Satz aufbaut: was genau ist hier schiefgegangen, und was sollten wir deshalb messen? Die Fehler schreiben die Liste selbst.

Aus den Fehlern fallen zwei Sorten Prüfer heraus. Regeln im Code für alles Zählbare: Preis pro Position, Pflichtfelder, kein Rabatt über der Freigabegrenze. Modell-Gutachter für das, was man nicht zählt: ein Ton-Gutachter, ein Gutachter für innere Logik, je 0 bis 5 gegen eine kurze Leitlinie.

Sie lassen alles laufen, und sofort kommt die erste Lektion. Sie betrifft nicht den Agenten, sondern die Prüftests selbst.

Ein Modell-Gutachter, den Sie nicht eichen, lügt Sie höflich an. Das schlechte Angebot bekommt freundliche 3,5 von 5, und Sie glauben es.

Jetzt dreht sich die Schleife. Jede Version ändert genau einen Hebel, und die Prüftests berichten, was er gebracht hat.

In der zweiten Version bringen Sie dem Agenten Geschmack bei: feste Reihenfolge der Positionen, Ton wie im Briefing, keine ungenehmigten Rabatte. Das Ergebnis ist sichtbar sauberer. Aber der Rabatt-Zähler meldet Treffer, wo gar kein Rabatt steht. Der Agent ist besser geworden, der Prüfer hat seinen eigenen Fehler gezeigt. Also reparieren Sie den Prüfer, nicht den Agenten.

Das ist der Schritt, den die meisten übersehen: wenn die Zahl der Wirklichkeit widerspricht, ist auch der Prüfer verdächtig.

In der dritten Version fordern Sie Belege: jede freie Behauptung im Begleittext muss sich auf eine konkrete Position stützen. Jetzt steht das Angebot auf Fakten statt auf Floskeln.

Die vierte Version ist der stärkste Hebel: der Agent prüft seine eigene Arbeit. Die Anweisung ist bewusst feindselig. Geh davon aus, dass etwas falsch ist. Such die Fehler. Behandle die Prüfung als Fehlerjagd, nicht als Abnicken. Lies das Angebot komplett, korrigiere, prüf erneut, und hör nicht auf, bevor du mindestens eine Runde Reparieren und Nachprüfen geschafft hast.

Der Agent wird sein eigener Kritiker. Die Ergebnisse steigen deutlich.

In der fünften Version werfen Sie die aufgeblähte Anweisung weg, nehmen wieder die simple und lassen sie auf einem stärkeren Modell laufen. Das Ergebnis ist das beste von allen. Sauberer Ton, ohne dass man es vorschreiben musste.

Zwei Lektionen daraus. Erstens: manchmal ist der richtige Hebel nicht der Prompt, sondern das Modell, und Ihre Prüftests sind genau das, was Ihnen das verrät. Zweitens, leiser: wenn jeder Gutachter für alles eine hohe Note gibt, unterscheiden Ihre Prüftests nicht mehr.

Die Disziplin dahinter

Der häufigste Fehler ist, einen Prüf-Satz einmal zu bauen und für immer zu glauben. So funktioniert er nicht.

Während Ihr Agent besser wird, hören Prüfer, die früher gut von schlecht getrennt haben, irgendwann auf zu unterscheiden. Jedes Ergebnis besteht. Dann hat der Prüftest seinen Dienst getan und braucht einen härteren Nachfolger. Planen Sie Budget fürs Nachschärfen ein, nicht nur fürs Bauen.

Die zweite Sache ist die Eichung, und sie ist fast das ganze Spiel. Ein Modell-Gutachter ist nur so gut wie seine Leitlinie. Sagen Sie ihm bloß „bewerte von 0 bis 5“, weiß er nicht, wie eine 0 aussieht und wie eine 5, und driftet in die höfliche Mitte.

Verankern Sie die Leitlinie mit Beispielen. Zeigen Sie ihm ein Angebot, das eine 0 ist, und eines, das eine 5 ist. Diese Arbeit ist kleinteilig und langsam, und hier entsteht der größte Teil der Qualität. Nehmen Sie sich die Zeit.

Und eine Falle, die teuer wird: Wenn Sie einen Gutachter um Note und Begründung bitten, ändert die Reihenfolge die Antwort. Bitten Sie zuerst um die Note, verteidigt das Modell danach diese Note, egal wie schlecht das Ergebnis ist. Drehen Sie es um. Erst die Argumente, Vor und Nachteile, Stärken und Schwächen, und erst danach die Note. Jetzt ist die Zahl ein Schluss aus Belegen, keine Behauptung, die ein Absatz lang gerechtfertigt wird.

Ein laufender Agent ist nicht dasselbe wie ein verlässlicher. Prüftests sind, wie Sie sich das zweite Wort verdienen.

Warum KI-Projekte im Mittelbau wirklich scheitern

Aus unserer Arbeit bei Schwarzwald Digital: KI-Vorhaben scheitern selten, weil das Modell zu schwach war. Sie scheitern, weil nichts gemessen hat, ob der Ablauf seinen Job tut. Also driftet er still, und bis es jemandem auffällt, kann keiner sagen, was sich geändert hat.

Prüftests sind die Antwort, und sie sind auch der Grund, warum eine unserer Regeln hält. Was wir betreiben, warten wir. Aber Sie können nicht warten, was Sie nicht messen können.

Deshalb bekommt jeder fertige Agent, den wir als Managed KI-Mitarbeiter betreiben, seinen eigenen Prüf-Satz mit: Regeln für das, was immer stimmen muss, geeichte Gutachter für die Qualität, und einen Takt zum Nachschärfen, damit die Prüfer nicht verstummen. Das ist kein Zusatz. Es ist die einzige Art, wie das Wartungsversprechen etwas wert ist.

Und eine Sache machen wir mit Absicht nicht. Wenn wir nicht sagen können, wie „gut“ für einen Anwendungsfall aussieht, wenn wir den Prüftest nicht schreiben können, dann bauen wir ihn nicht und raten ab. Ein Anwendungsfall, den Sie nicht messen können, ist nicht reif. Das auszusprechen gehört zum Job.

Fangen Sie da an, wo Sie stehen

Sie brauchen keine Plattform, um anzufangen. Sie brauchen einen Ablauf, der Ihnen wichtig ist, eine ehrliche Antwort auf „wie sieht gut aus?“, und den kleinsten Prüftest, der das festhält.

Eine Regel im Code für das, was immer stimmen muss. Ein geeichter Gutachter für das, was am meisten zählt. Lassen Sie ihn vor und nach Ihrer nächsten Änderung laufen. Diese eine Zahl, die sich in die richtige Richtung bewegt, ist die ganze Idee.

Wenn Sie wissen wollen, ob ein Ablauf bei Ihnen überhaupt messbar genug für einen Agenten ist, schauen wir uns im Rahmen unserer AI Readiness (/readiness) das Fundament an: Befund plus ein erstes BrandOS-Rohgerüst, damit die KI weiß, was bei Ihnen „gut“ heißt. Wollen Sie einen messbaren Ablauf laufen lassen, ohne selbst zu bauen, sind die Managed KI-Mitarbeiter (/agenten) der richtige Weg. Und wer das Handwerk an der eigenen Arbeit lernen will, ist in der AI Academy (/academy) richtig.

Sie wissen, was Ihre KI tun soll. Prüftests sind, wie Sie beweisen, dass sie es tut.

Häufige Fragen

Wie kann ich einen KI-Agenten testen, ohne selbst zu programmieren?: Sie beginnen nicht mit Technik, sondern mit einer ehrlichen Antwort auf die Frage, wie ein gutes Ergebnis aussieht. Den Rest können Sie mit zwei einfachen Prüfern abdecken: eine feste Regel für alles, was immer stimmen muss, und ein zweites Modell als Gutachter für die Qualität. Beides lässt sich auch durch einen Dienstleister einrichten, der den Ablauf danach für Sie betreibt.
Was bedeutet es, die Qualität eines KI-Agenten zu messen?: Es bedeutet, ein vages Gefühl in eine Zahl zu verwandeln, die Sie über die Zeit verfolgen. Sie definieren eine Aufgabe und einen Prüfer, der das Ergebnis gegen Ihre Erwartung bewertet. So sehen Sie vor dem Ausliefern, ob eine Änderung geholfen oder geschadet hat, statt es erst zu merken, wenn sich ein Kunde beschwert.
Reichen die öffentlichen Modell-Ranglisten nicht aus?: Nein. Ranglisten vergleichen Modelle auf allgemeiner Fähigkeit und sind dafür nützlich. Über Ihren konkreten Fall sagen sie fast nichts. Ein Modell kann eine Rangliste anführen und trotzdem Ergebnisse liefern, die Ihre Leute ablehnen, weil die Rangliste einen anderen Job gemessen hat. Bauen Sie deshalb Ihren eigenen Maßstab auf Ihrer eigenen Arbeit.
Wie oft muss ich die Prüftests anpassen?: Regelmäßig. Während Ihr Agent besser wird, hören Prüfer irgendwann auf zu unterscheiden, weil jedes Ergebnis besteht. Dann brauchen Sie einen härteren Prüfer. Planen Sie das fest ein, etwa einen monatlichen Blick auf die Prüf-Sätze und einen Vergleich der Modelle pro Quartal. Prüftests sind kein einmaliges Projekt, sondern ein lebendiges Stück Ihrer Arbeit.