KI-Kosten: Tokenmaxxing ist keine Strategie

Anfang Juni hat für viele Entwicklerteams eine neue Zeitrechnung begonnen. GitHub hat seinen Programmierassistenten GitHub Copilot zum 1. Juni von der Pauschale auf nutzungsbasierte Abrechnung umgestellt. Wichtig vorweg, weil der Markenname für Verwirrung sorgt: Gemeint ist nicht der Office-Assistent Microsoft 365 Copilot, den viele aus Word, Outlook oder Teams kennen. „Copilot“ ist bei Microsoft ein Markendach für ganz verschiedene Produkte – betroffen ist hier allein das Entwicklerwerkzeug GitHub Copilot. Wer ihn seither für Chat oder Agenten nutzt, zahlt nicht mehr einen festen Betrag, sondern für jeden Token – die kleinste Informationseinheit, die ein KI-Modell verarbeitet. Die Autovervollständigung bleibt frei, der Rest läuft über ein Credit-Konto. In den Foren häufen sich seitdem die Klagen über Rechnungen, die das Zehn- oder Fünfzigfache des alten Abos erreichen.

Und GitHub Copilot ist dabei nicht der Vorreiter, auch wenn es sich gerade so anfühlt. OpenAI, Anthropic, Google und Microsoft haben ihre Modelle längst auf Verbrauch umgestellt. Copilot ist nur das sichtbarste Beispiel, weil es direkt auf dem Schreibtisch der Entwickler landet. Der Mechanismus dahinter ist überall derselbe – und er ist kein KI-Problem. Er ist ein Strategie-Problem, das sich nur als KI-Rechnung tarnt.

Erst angefixt, dann abgerechnet

Die Vorgeschichte ist eine Sucht-Logik. Seit dem Herbst 2025 können Systeme wie Claude Code oder Codex beträchtliche Teile der Softwareentwicklung selbstständig erledigen. Die Branche taufte das „Agentic Engineering“ und feierte den Verbrauch als Fortschritt. „Tokenmaxxing“ hieß das Schlagwort, Konzerne führten interne Ranglisten über die Nutzung. Mehr Token galt als mehr Ambition.

Was in dieser Phase niemand gefragt hat: Was passiert, wenn der Anbieter das Preismodell dreht?

Die Antwort steht jetzt in den Bilanzen. Beim IT-Dienstleister Adesso hat sich der Tokenverbrauch seit Dezember fast verhundertfacht, Token sind dort ein sechsstelliger Budgetposten geworden. Der Fahrdienst Uber hat sein KI-Jahresbudget binnen weniger Monate verbrannt – und ein Topmanager räumte offen ein, dass sich ein klarer Zusammenhang zwischen dem Tokenverbrauch und einem Nutzen für die Kunden nicht erkennen lässt. Das ist die Pointe, nicht die Höhe der Rechnung: Da wurde Geld ausgegeben, ohne dass jemand den Gegenwert beziffern konnte.

Ein Witz, der in den sozialen Medien kursiert, bringt es auf den Punkt: ein Mann, der seine Zigarre mit einem Flammenwerfer anzündet. Bildunterschrift: „Wie ich mit einem der leistungsfähigsten Modelle eine Datei lösche.“ Genau das war der Fehlanreiz – das teuerste Werkzeug für die trivialste Aufgabe, weil der Verbrauch ja als Tugend galt.

Das kenne ich aus der Digitalisierung

Diese Bewegung habe ich schon einmal von innen gesehen, nur unter anderem Namen. Damals hieß sie Digitalisierung. Auch da war der Treiber selten ein Business Case und oft das Gefühl, mitmachen zu müssen, weil es alle tun. Man kaufte Systeme, weil „digital“ sein musste, nicht weil ein konkretes Problem gelöst werden sollte. Und ein paar Jahre später stand man mit einer Landschaft da, deren Mehrwert keiner beziffern konnte und aus der keiner mehr herauskam.

Token sind nur die neue Währung für denselben alten Fehler. Digitalisierung war kein Selbstzweck, und KI ist es auch nicht. Nur weil alle anderen aufs Pferd springen, ist Aufspringen noch keine Strategie. Die Lektion ist exakt die gleiche – sie kommt diesmal nur schneller und teurer zurück.

Wer vorgedacht hat, bekommt eine Rechnung, die er versteht

Der Gegenentwurf steht direkt neben den Schreckensbeispielen. Es geht nicht um „keine KI“, sondern um KI mit Architektur.

Der Softwareanbieter Coupa gibt seinen Entwicklungsteams ein Budget vor und lässt sie selbst Strategien erarbeiten, wo welches Modell sinnvoll ist. Für einfache Testszenarien braucht es eben nicht das teuerste Spitzenmodell, und manchmal ist ein Mensch die bessere Wahl als die Maschine. Ist das Limit erreicht, wird auf Plattformen mit Flatrate ausgewichen. Das ist kein Sparzwang, das ist Steuerung.

Die Technologieberatung Zühlke baut die Steuerung in die Technik. Eine Anfrage wird zuerst nach Vertraulichkeit klassifiziert und dann erst entschieden, ob sie ins große Cloud-Modell geht, anonymisiert übermittelt oder vollständig auf eigener Hardware verarbeitet wird. Daneben gewinnen lokale und quelloffene Modelle an Bedeutung – Llama, Mistral, Deepseek –, die sich deutlich günstiger betreiben lassen und die Daten im Haus halten.

Das ist genau die Frage, um die es bei digitaler Souveränität immer geht: Wie tief bin ich integriert, und wie schnell komme ich wieder raus? Wer Integrationstiefe ohne Exit-Plan einkauft, zahlt irgendwann den Preis, den der Anbieter setzt. Das gilt für Token wie für Cloud, Campus-Netze oder Beschaffungsplattformen.

Wie selten dieses Vorausdenken ist, zeigt eine KPMG-Umfrage: Nur 26 Prozent der Unternehmen haben einen vollständigen Überblick über ihre KI-Kosten, weitere 50 Prozent immerhin teilweise. 22 Prozent haben keinerlei Transparenz – sie erfahren die Ausgaben erst mit der Abrechnung. Das ist die Quote derer, die nicht zu Ende gedacht haben.

Drei Fragen vor dem Aufspringen

Der eigentliche Punkt ist nicht, dass KI teuer ist. Im Gegenteil: Laut Wall Street Journal erwägt OpenAI deutliche Preissenkungen und rechnet damit, dass Anthropic nachzieht. Die Preise können also auch wieder fallen. Genau das ist die Lehre – nicht „KI ist teuer“, sondern „die Preise sind volatil, und wer sich blind abhängig macht, hat darüber keine Kontrolle“.

Eine Strategie, die diesen Namen verdient, beantwortet drei Fragen, bevor das erste Token fließt:

Wofür? Welches konkrete Problem löse ich, und was ist mir die Lösung wert?
Woran merke ich, dass es wirkt? Welcher Checkpoint zeigt mir den Mehrwert – und zwar bevor die Rechnung kommt, nicht danach?
Komme ich wieder runter? Welche Exit-Option, welches günstigere oder lokale Modell steht bereit, wenn sich die Bedingungen ändern?

Wer diese drei Fragen vorher beantwortet, bekommt am Monatsende eine Rechnung, die er versteht. Wer sie überspringt, bekommt eine, die ihn überrascht. Das war bei der Digitalisierung so, und bei der KI ist es nicht anders.

Speed is key – sagte ich auf der Bühne. Tempo ohne Methode ist trotzdem nur eine schnellere Rechnung.

Erst angefixt, dann abgerechnet: Die Token-Rechnung trennt Mode von Methode

Erst angefixt, dann abgerechnet

Das kenne ich aus der Digitalisierung

Wer vorgedacht hat, bekommt eine Rechnung, die er versteht

Drei Fragen vor dem Aufspringen

Teilen mit:

Gefällt mir:

Kommentare

Kommentar verfassenAntwort abbrechen

Entdecke mehr von Toms Woche