Wie viel Rechenleistung eine Aufgabe wirklich braucht

Dasselbe Modell, drei Geschwindigkeiten. Wer KI-Rechenleistung und Kosten pro Aufgabe steuert, zahlt für die Qualität, die der Job braucht, und keinen Cent mehr.

Wie viel Rechenleistung eine Aufgabe wirklich braucht

Schauen Sie einmal zu, wie Teams KI im Alltag benutzen. Jemand wählt ein Modell, schaltet den Denkmodus ein, weil das sicherer wirkt als aus, und schickt danach alles durch dieselbe Einstellung. Die Zwei-Zeilen-Umformulierung und den heiklen Migrationsplan, gleicher Gang, den ganzen Tag.

Das fühlt sich verantwortungsvoll an. In Wahrheit ist es teuer, und zwar in beide Richtungen. Die einfachen Aufgaben warten länger und kosten mehr, als sie müssten. Die schweren bekommen weniger Sorgfalt, als sie bräuchten, und das merken Sie erst, wenn das Ergebnis still und leise falsch ist.

Hier kommt der Punkt, den Ihnen niemand auf eine Folie geschrieben hat: Ein Modell hat nicht eine Qualitätsstufe. Dasselbe Modell wird messbar besser, wenn es mehr Zeit in ein Problem stecken darf, und es kommt schneller und billiger zurück, wenn es weniger Zeit hat.

Es gibt also einen Regler. Die meisten fassen ihn nie an.

Sie bezahlen für eine Geschwindigkeit. Dabei gibt es mehrere.

In diesem Artikel geht es um genau diesen Regler. Was er ist, mit welchen zwei Hebeln Sie ihn bewegen, und wie Sie pro Aufgabe entscheiden, wo Sie sitzen wollen. Wir nehmen ein Beispiel mit und lassen es bis zum Schluss mitlaufen, damit nichts abstrakt bleibt.

Mehr Zeit, besseres Ergebnis, aber nur bis zu einem Punkt

Die Idee hinter dem Regler hat einen Namen. In der englischen Fachsprache heißt sie test-time compute. Wir nennen es schlicht den Rechenaufwand zur Laufzeit, also die Zeit, die das Modell in dem Moment investiert, in dem Sie fragen.

Es gibt zwei Wege, ein Modell klüger zu machen. Der eine ist, ein größeres Modell zu trainieren. Das passiert lange, bevor Sie es überhaupt anfassen. Der andere ist, das Modell genau jetzt länger an Ihrem Problem arbeiten zu lassen. Der zweite Hebel gehört Ihnen.

Wir haben das selbst nachgestellt. Dieselbe Aufgabe, eine kleine Verkehrssimulation, auf drei Aufwandsstufen. Auf der niedrigen Stufe arbeitete das Modell rund eine Minute und lieferte etwas Einfaches, das funktioniert: Autos, eine Ampel, ein schlichter Verkehrsfluss. Auf der hohen Stufe brauchte es etwa die doppelte Zeit und kam mit verschiedenen Fahrzeugtypen und klügeren Bewegungen zurück. Auf der höchsten Stufe lief es ungefähr zehnmal so lange wie auf der niedrigen, und das Resultat war das beste der drei.

Gleiches Modell. Drei Ergebnisse. Geändert hat sich nur, wie lange es denken und handeln durfte.

Schaubild mit drei aufsteigenden Stufen, die zeigen, wie dasselbe Modell bei höherem Aufwand länger arbeitet und ein besseres Ergebnis liefert
Ein Modell, eine Aufgabe, drei Aufwandsstufen. Mehr Zeit hebt die Qualität, kostet aber Tempo und Geld.

Wohin die Rechenleistung wirklich fließt

Alles, was ein Modell in dem Moment tut, in dem Sie fragen, tut es, indem es Token verbraucht. Ein Token ist die kleinste Einheit, die das Modell verarbeitet, in etwa eine Silbe oder ein kurzes Wort. Diese Token fallen in drei Töpfe, und wer die kennt, kann einen Lauf nachvollziehen, statt ihn nur zu bezahlen.

  • Denk-Token: der private Notizblock des Modells. Es wägt ab, geht ein Problem Schritt für Schritt durch, bevor es handelt.
  • Werkzeug-Token: damit greift das Modell nach draußen, startet eine Suche, liest eine Datei, ruft Ihre Schnittstelle auf. Hier hört es auf zu reden und tut etwas.
  • Text-Token: damit spricht es mit Ihnen, eine Zwischenmeldung, die Zusammenfassung, die Antwort auf eine schlichte Frage.

Jeder dieser Token hat zwei Preise. Sie bezahlen ihn auf der Rechnung, und Sie warten auf ihn auf der Uhr. Mehr Token heißt eine bessere Chance auf ein gutes Ergebnis und zugleich ein langsamerer, teurerer Lauf.

Genau diese Spannung ist der Grund, warum der Regler existiert. Und der Grund, warum alles hochdrehen keine Strategie ist.

Der Denkschalter ist das falsche Werkzeug

Jahrelang hatten die meisten nur einen Schalter: Denken an oder aus. Also benutzten sie ihn wie einen Lautstärkeregler. Besseres Ergebnis gewünscht, Denken an. Tempo gewünscht, Denken aus. Verständlicher Reflex, falsches Instrument.

Ein Schalter sagt nicht, wie sehr sich das Modell anstrengen soll. Er schaltet eine Grundfähigkeit an und aus. Aus nehmen Sie dem Modell den Notizblock ganz weg. An zwingen Sie es zum Nachdenken, selbst bei wie viel ist zwei plus zwei.

Eine Aufwandsstufe ist das richtige Instrument. Sie ist eine einzige Einstellung, die sagt: hier mehr investieren oder hier weniger. Und sie bewegt alle drei Token-Arten gemeinsam, das Denken, die Werkzeuge, den Text. Niedriger Aufwand heißt schnell und sparsam. Hoher Aufwand heißt gründlich.

Denken Sie daran, wie Sie eine gute Kollegin einweisen. Sie sagen ihr nicht, ob sie ihren inneren Monolog an- oder ausschalten soll. Sie sagen ihr, wie wichtig diese eine Sache ist, kurz drüberschauen oder richtig reingraben, und überlassen ihr, wie viel Nachdenken das braucht. Genau das ist die Aufwandsstufe für ein Modell.

Vergleich zwischen einem binären An-Aus-Schalter und einem stufenlosen Regler von niedrig bis maximal, der Denken, Werkzeuge und Text gemeinsam bewegt
Der Schalter entscheidet, ob das Modell denken darf. Der Regler entscheidet, wie sehr.
Ein Schalter entscheidet, ob gedacht wird. Ein Regler entscheidet, wie sehr, und lässt das Modell den Aufwand dort einsetzen, wo er sich lohnt.

Die zwei Hebel, die wirklich in Ihrer Hand liegen

Höherer Aufwand hebt die Qualität bei den meisten anspruchsvollen Aufgaben. Aber der Ertrag nimmt ab. Der Sprung von niedrig auf hoch kann dramatisch sein. Der Sprung von sehr hoch auf maximal ist oft nur ein Rundungsfehler in der Qualität, für einen echten Sprung bei Token und Zeit.

Die höchste Stufe per Reflex zu wählen, ist der leise Weg, ein Budget ausbluten zu lassen. Eine grobe Leiter von oben nach unten:

  • Maximal: für die härtesten, anspruchsvollsten Aufgaben. Testen Sie dort, aber gehen Sie nicht davon aus, dass es der beste Kauf ist. Eine Stufe darunter zieht oft gleich, zu einem Bruchteil der Kosten.
  • Sehr hoch: der Sweetspot für die meiste Programmier- und Agentenarbeit. Starke Ergebnisse, ohne zu übertreiben. Ein vernünftiger Standard, wenn Sie sich für eine Stufe entscheiden müssen.
  • Hoch: der Einstieg für alles, was Köpfchen verlangt und wo Kosten zählen. Hier anfangen, nach oben testen.
  • Mittel: kostensensible Arbeit, bei der Sie etwas Qualität gegen einen schnelleren, billigeren Lauf tauschen.
  • Niedrig: kurze, eng umrissene Aufgaben und Pfade, bei denen Tempo gewinnt.

Eine Warnung aus der eigenen Arbeit: Auf niedriger Stufe spart das Modell mit aller Kraft Token, und manchmal nimmt es dabei Abkürzungen, die Sie nicht erwartet haben. Das ist kein Grund, niedrig zu meiden. Es ist ein Grund, das Protokoll zu lesen und zu sehen, was es wirklich getan hat, bevor Sie der Einstellung im Echtbetrieb trauen.

Der zweite Hebel ist das Budget. Der Regler sagt, wie sehr sich das Modell anstrengen soll. Das Budget sagt, wie weit es gehen darf, bevor es anhält und bei Ihnen nachfragt.

Sie können einen Lauf nach Token deckeln, etwa: arbeite bis zu hunderttausend Token an dieser Sache, dann komm zurück zu mir. Zunehmend geht das auch nach Zeit oder Kosten.

Heute wirkt das optional. Das bleibt nicht so. Modelle arbeiten zunehmend über Minuten statt Sekunden, irgendwann über unbeaufsichtigte Strecken. Je länger ein Lauf wird, desto mehr ist eine Obergrenze das, was einen ehrgeizigen Auftrag vor einer teuren Überraschung bewahrt.

Ein Budget ist der Unterschied zwischen arbeite daran und arbeite daran, aber gib nicht mehr als X aus, ohne zu fragen.

Größeres Modell oder mehr Aufwand?

Ein größeres Modell zu trainieren und einem Modell mehr Zeit zu geben, beides kauft Ihnen Intelligenz. Also eine faire Frage: Wann greifen Sie zum kleineren Modell, und wann zur niedrigeren Aufwandsstufe auf einem großen?

Ein sauberer Weg, das zu denken: Ein großes Modell auf niedriger Stufe gewinnt, wenn die Aufgabe echt Köpfchen braucht, Sie es aber schnell wollen. In unserem Test verbrauchte das Topmodell auf niedriger Stufe etwa so viele Token wie das kleine Modell auf maximal und brauchte nur unwesentlich länger, lieferte aber ein klar besseres Ergebnis.

Ein kleineres Modell gewinnt, wenn die Aufgabe wenig anspruchsvoll ist und Sie auf Kosten oder die erste Antwort achten. Massen-Einordnung, Daten herausziehen, schlichte Zusammenfassungen, besonders in großer Stückzahl, sind genau dort, wo kleine Modelle echtes Geld sparen.

Die Merkregel, die hängenbleibt: kleines Modell für eine schnelle erste Antwort, großes Modell auf niedriger Stufe für ein schnelles fertiges Ergebnis. Das eine optimiert, wie schnell etwas zu kommen beginnt, das andere, wie schnell der ganze Job fertig ist.

Vier-Felder-Matrix mit den Achsen Anspruch der Aufgabe und Optimierungsziel, die zeigt, wann ein kleines Modell, ein großes auf niedriger Stufe oder ein großes auf hoher Stufe passt
Größe oder Aufwand. Was Sie wählen, hängt davon ab, wie anspruchsvoll die Aufgabe ist und worauf Sie optimieren.

Das Beispiel von Anfang bis Ende

Zurück zur Verkehrssimulation. Der Auftrag ändert sich nie: baue eine realistische Simulation von Autos, die an einer Ampel eine Einbahnstraße entlangfahren. Nur der Aufwand wandert.

  • Niedrig, rund eine Minute. Autos fahren die Straße entlang und halten an der Ampel. Funktional, schlicht. Der Fluss ist einfach, die Grafik begrenzt, und die Ampel landet mitten auf der Fahrbahn. Es besteht. Es beeindruckt nicht.
  • Hoch, etwa doppelte Zeit. Jetzt gibt es verschiedene Fahrzeugtypen, die Ampel ist vernünftig an den Rand gerückt, und die Autos reagieren aufeinander, statt auf Schienen zu fahren. Klar besser, für klar mehr Aufwand.
  • Maximal, ungefähr zehnfacher Lauf. Das beste der drei: die sauberste Grafik, der realistischste Fluss. Und mit Abstand das teuerste und langsamste.

Die Lesart aus Betreibersicht lautet nicht immer maximal. Niedrig auf hoch brachte einen großen Qualitätssprung für einen maßvollen Mehraufwand, klar lohnenswert. Hoch auf maximal verbesserte das Ergebnis weiter, aber Sie zahlten rund das Fünffache, um dorthin zu kommen, bei einer Aufgabe, die hoch schon gut gelöst hatte.

Für die meiste echte Arbeit sitzt die Antwort im oberen Mittelfeld, nicht an der Decke. Sie zahlen für die Intelligenz, die die Aufgabe wirklich braucht, und dann hören Sie auf.

Diese Zurückhaltung ist die eigentliche Fähigkeit. Dreh auf maximal ist keine Entscheidung. Es ist das Fehlen einer.

Wie Sie entscheiden, ohne zu raten

Zwei Gewohnheiten trennen Teams, die KI gut steuern, vom Rest. Keine davon ist exotisch.

Zeichnen Sie die Kurve. Wo Sie können, machen Sie eine kleine Auswertung. Nehmen Sie eine Handvoll typischer Aufgaben, lassen Sie sie über ein paar Aufwandsstufen und Modellgrößen laufen und tragen Sie Qualität gegen Kosten oder Zeit auf. Diese Kurve sagt Ihnen genau, wo bei Ihnen der abnehmende Ertrag einsetzt. Das ist die einzige Zahl, die für Ihren Fall zählt.

Lesen Sie die Protokolle. Zahlen sagen Ihnen, dass eine Einstellung funktioniert hat. Das Protokoll sagt Ihnen, wie. Dort fangen Sie die Abkürzung auf niedriger Stufe ab, das übersprungene Werkzeug, die Annahme, die das Modell getroffen hat. Eine Einstellung, die in der Auswertung passabel abschneidet, kann trotzdem etwas tun, das Sie nie freigeben würden.

Damit wird auch klar, wo die meisten Teams stehenbleiben. Eine Person lernt, Rechenleistung gut auszugeben, es bleibt in ihrem Kopf, und es wird nie zur gemeinsamen Praxis. Genau diese Routinen lassen sich dokumentieren, als Skills im BrandOS, damit jede neue Aufgabe mit der richtigen Stufe, dem richtigen Budget und dem richtigen Modell startet.

Wer diese Praxis einmal verankert, zahlt einmal. Wer bei jeder Aufgabe neu rät, zahlt jedes Mal wieder.

Wenn Sie das im eigenen Haus aufbauen wollen, ist die AI Academy der Ort, an dem Ihr Team es an der eigenen Arbeit lernt, live begleitet. Und wenn Sie einen Ablauf lieber abonnieren als selbst bauen wollen, steckt diese Aufwandsdisziplin in unseren Managed KI-Mitarbeitern bereits drin. Wo wir den Agenten betreiben, übernehmen wir auch die Wartung.

Häufige Fragen

Wie kann ich KI-Rechenleistung und Kosten pro Aufgabe steuern?
Über zwei Hebel. Die Aufwandsstufe legt fest, wie gründlich das Modell arbeitet, von niedrig bis maximal. Das Budget legt fest, wie viele Token, wie viel Zeit oder Kosten ein Lauf verbrauchen darf, bevor er nachfragt. Beides zusammen entscheidet über Qualität, Tempo und Rechnung, ohne dass Sie raten müssen.
Ist die höchste Aufwandsstufe immer die beste Wahl?
Nein. Mehr Aufwand bringt mehr Qualität, aber der Ertrag flacht ab. Der Sprung von niedrig auf hoch ist oft groß, der Sprung von sehr hoch auf maximal meist klein, kostet aber deutlich mehr Token und Zeit. Für die meiste Arbeit liegt der beste Kauf im oberen Mittelfeld, nicht an der Decke.
Wann nehme ich ein kleineres Modell statt eines großen auf niedriger Stufe?
Ein kleineres Modell lohnt sich bei wenig anspruchsvollen Aufgaben in großer Stückzahl, etwa Einordnen, Daten herausziehen oder schlichte Zusammenfassungen, und wenn die erste Antwort schnell da sein soll. Braucht die Aufgabe echtes Köpfchen, Sie wollen sie aber schnell, ist ein großes Modell auf niedriger Stufe meist der bessere Tausch.
Woran erkenne ich, ob eine Einstellung im Echtbetrieb sicher ist?
Lesen Sie das Protokoll des Laufs. Eine Zahl sagt nur, dass eine Einstellung passabel abgeschnitten hat. Das Protokoll zeigt, wie das Modell zum Ergebnis kam, welches Werkzeug es übersprang und welche Annahme es traf. Gerade auf niedriger Stufe nimmt ein Modell Abkürzungen, die Sie sehen sollten, bevor Sie ihm vertrauen.

Sprechen Sie mit uns, bevor Sie ein KI-Projekt starten.

Ein kurzes Erstgespräch klärt, welcher Weg trägt, was zuerst gebaut wird und wo KI bewusst nicht hingehört. Kostenlos, unverbindlich, kein Verkaufsgespräch.

Erstgespräch vereinbaren 30 Minuten · kostenlos · unverbindlich