AI-Coding Tip: Warnung vor OpenAI O3-Reasoning, Empfehlung Claude 4 Sonnet, Marktanteile in Bewegung
- Timon Fiddike
- AI-Coding
- 07 Aug, 2025
Geschrieben von Fachexperten:
Timon Fiddike, CSTÂź, Machine Learning seit 2005
Zusammenfassung
Verschwendet nicht Eure Zeit mit O3-Reasoning. Mitte 2025 ist Claude 4 Sonnet ein guter Startpunkt fĂŒr alle, die mit einem verlĂ€sslichen Modell den Einstieg suchen. O3-Reasoning hat fĂŒr mich deutlich schlechter funktioniert und OpenAI hat damit auch weltweit massiv Marktanteil verloren, also Vorsicht.
Inhalt
KĂŒrzlich war ich neugierig, ob das fortgeschrittene âReasoningâ Modell von OpenAI so gut funktioniert, wie das Marketing dafĂŒr suggeriert: Im OpenAI Update vom 10. Juni 2025 steht u.a. âOpenAI O3 ist unser bisher leistungsstĂ€rkstes Reasoning-Modell. Es setzt neue MaĂstĂ€be in Bereichen wie Programmierung, Mathematik, Wissenschaft, visueller Wahrnehmung, und mehr.â â es folgt ein langer Text, der die Vorteile des aufwĂ€ndigen Modells hervorhebt.
Die meisten Strategien, die mir geholfen haben, verlĂ€sslich zu liefern, sind unabhĂ€ngig vom jeweiligen Basismodell. In meinem Artikel KI-Coding Lernen: Ein Weg in 10 Schritten: Ein Erfahrungsbericht beschreibe ich im Einzelnen, was fĂŒr mich hilfreich war. Beim Stichwort Regeln fĂŒr Agenten geht es sogar recht nah an das Modell heran, aber da ich meine Regeln mit Hilfe von Cursor verwalte, kann ich diese auch mit anderen Modellen nutzen (ja, es wĂ€re möglich, Regeln modellspezifisch zu schreiben, aber meine Regeln beziehen sich auf ArbeitsablĂ€ufe und Architektur). So kann ich mein Setup insgesamt stabil halten und sehen, welche Unterschiede durch das Basismodell verursacht werden.
Und bei der Verwendung von OpenAI O3-Reasoning war ich tatsÀchlich schockiert, insbesondere, weil ich mehrmals versucht habe, damit zu arbeiten, auch im Abstand von mehreren Tagen und es jeweils grobe Schwierigkeiten hatte oder verursacht hat. In der Zwischenzeit hat die Arbeit mit anderen Basismodellen ganz normal funktioniert. Ich gehe also nun davon aus, dass es nicht an meiner Tagesform lag, oder an meinem Setup, sondern tatsÀchlich an dem Modell selbst.
Hier meine konkreten Schwierigkeiten damit:
O3-Reasoning löscht benötigten Code
Anwendungen, die bei uns in Produktion zum Einsatz kommen, prĂŒfe ich immer sehr aufmerksam, mit hoher Abdeckung durch automatisierte Tests und zusĂ€tzlich auch mit manuellen Tests. Aber ich arbeite auch immer wieder an Entwicklungswerkzeugen, die ausschlieĂlich intern verwendet werden. Hier kann ich mit kleinem Risiko schnelle Experimente machen:
Das konkrete interne Tool dient der Verwaltung von AWS Instanzen fĂŒr Entwicklungszwecke. Ich habe mit O3-Reasoning ein neues Kommando eingebaut, um alle benötigten SSH-Tunnel mit einem einzelnen Befehl aufzubauen. Das habe ich fĂŒr eine kleine, ungefĂ€hrliche Sache gehalten und wĂ€hrenddessen keine Screenshots gemacht. Das neue Kommando hat auch auf Anhieb sehr gut funktioniert. Aber als ich die Instanz dann stoppen wollte, war ich sehr ĂŒberrascht, denn wie im Screenshot zu sehen ist (in der Mitte, unten, roter Kasten), war auf einmal das âStopâ Kommando verschwunden, mit dem ich die letzten Wochen regelmĂ€Ăig gearbeitet hatte. Ich wollte das neue Kommando behalten (nachdem es nun schon gut funktioniert) aber natĂŒrlich muss bisherige FunktionalitĂ€t erhalten bleiben:
Also habe ich von O3-Reasoning wieder auf Claude 4 Sonnet umgeschaltet und damit den Fehler gesucht. Obwohl ich soeben das Modell gewechselt habe, spricht der Agent weiterhin in der Ich-Form und ĂŒbernimmt Verantwortung fĂŒr den Fehler (rechter Rand, roter Kasten):

Ohne AI hĂ€tte ich dieses Problem nicht gehabt. Aber zumindest kann ich mit AI UnterstĂŒtzung auch leicht den Fehler suchen. Die folgenden ĂberprĂŒfungen in GIT wĂ€ren mit der Hand viel umstĂ€ndlicher gewesen (rechter Rand):


Der Agent hat den Fehler auch tatsĂ€chlich gefunden. Wie befĂŒrchtet, wurde durch O3-Reasoning die âStopâ Methode gelöscht, und nicht nur das: Eine ganze Reihe weiterer grundlegender Kommandos und Methoden fehlte ebenfalls. Es war also noch schlimmer, als ich ursprĂŒnglich dachte (rechter Rand, roter Kasten):

Nun habe ich den Agenten das Problem auch gleich reparieren lassen. Die bisherigen Methoden wurden per GIT rekonstruiert und die neue Methode dann wieder hinzugefĂŒgt:

Wie durch meine Regeln vorgegeben fĂŒhrt der Agent zum Schluss auch gleich noch quality.sh aus, mein Skript zur QualitĂ€tssicherung, so dass Linting, Typechecks, statische Codeanalyse, Formatierung usw. schnell und verlĂ€sslich durch lokale Tools erledigt werden. Diese Vorgehensweise hilft auch dabei, Ănderungen zu erkennen, fĂŒr den Fall, dass das Modell mal eine Datei neu schreibt (statt ein Diff zu liefern) und dabei die Formatierung verĂ€ndert. Mit dem hier beschriebenen Workflow merke ich das gar nicht, sondern sehe nur die tatsĂ€chlichen Ănderungen nach Korrektur der Formatierung (rechter Rand, unten):

Und wie ĂŒblich zelebriert der Agent seinen Erfolg (rechter Rand). Ich war schon mehrmals kurz davor, das per Master Prompt zu reduzieren, aber im Moment ist es noch aktiv:

Nachdem der Agent mit O3-Reasoning also zunĂ€chst einiges kaputt gemacht hat, konnte er mit Claude 4 Sonnet den Fehler finden und beheben. Dabei ist er geschickt genug, mit GIT umzugehen. Diese Neben-Lern-Erfahrung war tatsĂ€chlich auch wertvoll fĂŒr mich, denn bisher habe ich mich um GIT hauptsĂ€chlich mit der Hand gekĂŒmmert, um an dieser Stelle mehr Kontrolle zu haben, aber das wird in Zukunft wohl nicht immer nötig sein.
O3-Reasoning versagt bei kleinen Ănderungen
Ein paar Tage spĂ€ter folgte mein nĂ€chster Anlauf und damit auch der nĂ€chste Fehlschlag mit O3-Reasoning: Nach einer kurzen Planungssession habe ich den Agenten angewiesen, die vorgeschlagenen Ănderungen auch gleich einzubauen. Mit anderen Modellen ist das ein banaler Routinevorgang, hier gibt es aber unerwartete Schwierigkeiten (roter Kasten rechts):

Ich will das nicht von Hand machen und sage dem Agenten noch einmal, dass er es tun soll. Der Agent versucht es erneut:

Auch der zweite Versuch ging schief, nun zeigt mir das Modell ein reduziertes Diff an:

Das Modell fordert mich auf, das reduzierte Diff manuell anzuwenden, âManual Patchâ. Das habe ich mit anderen Basismodellen noch nie erlebt. Nun bin ich irritiert, aber will nicht zu leicht aufgeben. Auch deswegen nicht, weil ich das Diff eigentlich gut finde. Also gebe ich dem Modell die Aufgabe gleich noch ein weiteres Mal zurĂŒck, sein eigenes reduziertes Diff nun auch wirklich anzuwenden:

Und im dritten Versuch hat O3-Reasoning es dann auch geschafft. Hier ist in Sourcetree (einem graphischen GIT Tool) zu sehen, worin diese kleine Ănderung nun wirklich besteht:

Die Ănderung war sinnvoll und funktioniert wie erhofft. Und:
- Warum schafft O3-Reasoning erst im dritten Anlauf, die bereits erstellten Zeilen einzufĂŒgen?
- Wieso sollte ich mich mit so einem Modell weiter herumÀrgern?
Mit anderen Modellen (meistens Claude 4 Sonnet) bin ich mittlerweile wirklich besseres gewöhnt. Im Nachhinein betrachtet bin ich froh und dankbar, dass ich fĂŒr meine ersten Schritte mit AI Coding schon eine ganze Menge von Hendrik abschauen durfte und dann auch gleich mit Claude Sonnet (damals noch in Version 3) gestartet bin. Wenn O3-Reasoning mein erstes Modell gewesen wĂ€re, hĂ€tte ich es vermutlich weniger leicht gehabt.
Marktanteile sprechen BĂ€nde
Andere Entwickler scheinen Àhnliche Erfahrungen zu machen: Im Mid-Year LLM Market Update von Menlo Ventures (Zusammenfassung auch hier bei heise.de) finden wir u.a.:

- Ende 2023 hatte OpenAI noch 50 % Marktanteil im Enterprise Bereich
- Mitte 2025 fĂŒhrt Anthropic mit 32 % gegenĂŒber OpenAI mit 25 %
- Speziell im Bereich AI-Coding ist der Anteil von Anthropic mit 42% sogar doppelt so groĂ wie der von OpenAI mit 21%
Zusammenfassung
Hier gibt es zwar viel Bewegung und die Daten haben allerlei Fehler, aber: Faktor zwei bei den Marktanteilen ist ein derart groĂer Unterschied, dass ich mir sicher bin, dass meine Erfahrung kein Einzelfall ist. Daher: Verschwendet nicht Eure Zeit mit O3-Reasoning. Mitte 2025 ist Claude 4 Sonnet ein guter Startpunkt fĂŒr alle, die mit einem verlĂ€sslichen Modell den Einstieg suchen.
Reflexion, Einladung und Angebot
- Hast Du als Entwickler konkrete Ideen fĂŒr Deinen eigenen Weg bekommen?
- Hast Du als FĂŒhrungskraft einen Eindruck gewonnen, welche Schritte Deine Mitarbeiter gehen könnten? Denkst Du darĂŒber nach, ihnen andere Impulse und UnterstĂŒtzung anzubieten als bisher?
- Hast Du einen ersten Eindruck von mir?
Nimm Kontakt mit mir auf, wenn Du Dich fĂŒr einen Impulsvortrag (mit Coding Demo) oder Workshop interessierst! Lass uns gemeinsam ĂŒberlegen, welche Art von UnterstĂŒtzung fĂŒr Euch hilfreich sein kann:
Unten auf der Seite Kontakt kannst Du Dir direkt per Calendly einen Termin fĂŒr ein ErstgesprĂ€ch aussuchen (unverbindlich und kostenlos).
Ăber den Autor

Dr. Timon Fiddike
- Seit 2010 auf dem Pfad der AgilitÀt
- Seit 2005 KI, AI, Machine Learning, siehe Werdegang
- Erfahrung als Entwickler im Team, Product Owner, Scrum Master, GeschĂ€ftsfĂŒhrer und Coach
- Höchste Zertifizierung: Certified Scrum TrainerÂź (weltweit ca. 220 Personen) fĂŒr die Scrum AllianceÂź
- Erfahrung in Startup, Mittelstand & Konzern
- Integraler Coach â Ausbildung nach ICF ACTH-Standard
- UnterstĂŒtzt mit Begeisterung das menschliche Wachstum, das agile Arbeit ermöglicht
- GeschĂ€ftsfĂŒhrer Agile.Coach GmbH & Co. KG
