Als je meteen het antwoord wilt: Claude Opus 4.8 wint van de drie voor coderen, autonome agents en eerlijkheid. Bovendien doet het dat zonder een hogere prijs per token dan Opus 4.7. Maar het verschil tussen deze releases is klein. Anthropic zelf noemde 4.8 een “bescheiden maar merkbare verbetering”, en hetzelfde patroon geldt voor de stap van 4.6 naar 4.7.
De echte vraag is dus niet welk model op papier het beste is, maar welk model past bij jouw werk. Teams die in productie veel coding agents inzetten, halen het meeste uit 4.8. Teams die vooral zoeken in documenten of korte chats voeren, merken mogelijk nauwelijks verschil. Hieronder staat een overzicht per versie, met gecontroleerde benchmarkcijfers en de afwegingen die achter de koppen schuilgaan. De ontwikkellijn loopt van Opus 4.5 (november 2025) via 4.6 (februari 2026) en 4.7 (april 2026) naar 4.8 (mei 2026). De stap van Opus 4.5 naar 4.6 zette de toon voor de kleine, regelmatige updates die volgden.
Claude Opus 4.6: de basis
Opus 4.6 verscheen in februari 2026 als een model voor complex redeneren, programmeren en analytisch werk. Het nam de Effort-parameter over, waarmee ontwikkelaars via de API snelheid kunnen inruilen voor nauwkeurigheid. Voor veel productieomgevingen werd dit model een betrouwbare werkpaardversie en het blijft een capabele autonome vulnerability scanner. Tegen de tijd dat 4.8 werd gelanceerd, begon Anthropic 4.6 echter uit te faseren: de Fast Mode wordt ongeveer 30 dagen na de release van 4.8 beëindigd. Wie 4.6 Fast Mode nog gebruikt, moet overstappen naar 4.7 of 4.8.
Claude Opus 4.7: een gerichte upgrade met één terugval
Opus 4.7 verbeterde 4.6 op twee duidelijke punten: software-engineeringbenchmarks stegen met ongeveer 10% en visueel redeneren verbeterde met circa 13%. Dat zijn echte winstpunten voor codeerwerk en documentintensieve taken. De keerzijde was agentisch zoeken: op dat vlak ging 4.7 juist achteruit. In sommige gevallen gebruikte het zes tot acht toolcalls voor een taak die ook in drie of vier calls kon worden uitgevoerd, waardoor latentie en kosten toenamen. Het is een bekend patroon dat verbeteringen in het ene gebied regressies in een ander gebied kunnen veroorzaken.
Twee gedragsveranderingen waren belangrijk voor bestaande implementaties. Opus 4.7 gaf standaard kortere antwoorden dan 4.6, waardoor interfaces die op een bepaalde uitvoerlengte waren afgestemd, aanpassing nodig hadden. Ook introduceerde het een wijziging in de tokenizer, waardoor het effectieve aantal tokens voor sommige tekstsoorten met wel 35% kan stijgen. Een overstap van 4.6 vroeg daarom om een nieuwe controle van tokenbudgetten, in plaats van ervan uit te gaan dat de kosten gelijk zouden blijven.
Claude Opus 4.8: de huidige leider
Opus 4.8 is de eerste release in deze reeks die duidelijk is ontworpen voor mensen die agents in productie inzetten, en niet alleen voor chatgebruik. De belangrijkste toevoeging is Dynamic Workflows. Daarmee kan één agent een taak plannen, opsplitsen in honderden parallelle subagents binnen één sessie en vervolgens de eigen output verifiëren voordat het resultaat wordt gerapporteerd. Daarnaast kreeg het model standaard een contextvenster van 1 miljoen tokens, zonder beta-header, kwamen systeemberichten halverwege een gesprek uit de bètafase, werd Effort Control toegevoegd met standaard de hoge instelling, en werd Fast Mode ongeveer drie keer goedkoper dan die van 4.7.
Op de benchmarks is 4.8 een duidelijke verbetering, maar geen revolutie. Het behaalt 88,6% op SWE-bench Verified tegenover 87,6% voor 4.7, 69,2% op de moeilijkere SWE-bench Pro tegenover 64,3%, 74,6% op Terminal-Bench 2.1 tegenover 66,1% en 83,4% op OSWorld-Verified. Daarmee is het de sterkste computer-use-modellen van de drie. Ook scoort het 1890 op de GDPval-AA-evaluatie voor kenniswerk, waarmee het voor ligt op concurrerende frontiermodellen. Zuivere kennistests veranderen nauwelijks, en het redeneren op GPQA Diamond laat een kleine terugval zien, omdat de ruimte voor verdere winst daar grotendeels is opgebruikt.
| Kenmerk | Opus 4.6 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|
| Uitgave | feb. 2026 | apr. 2026 | 28 mei 2026 |
| SWE-bench Verified | Basis | 87,6% | 88,6% |
| Terminal-Bench 2.1 | — | 66,1% | 74,6% |
| OSWorld-Verified | — | 78,7% | 83,4% |
| Contextvenster | 1M (beta) | 1M (beta) | 1M (standaard) |
| Belangrijkste functie | Effort-parameter | Winst in vision en SWE | Dynamic Workflows |
| API-prijs (in/uit, per miljoen tokens) | Iets lager | $5 / $25 | $5 / $25 |
Eerlijkheid en veiligheid bij de drie versies
De duidelijkste verbetering buiten de benchmarks in 4.8 is afstemming. Het team van Anthropic meldde dat 4.8 nieuwe hoogten bereikt op pro-sociale eigenschappen, zoals het ondersteunen van de autonomie van de gebruiker, met aanzienlijk minder misleiding dan 4.7 en dicht bij het best afgestemde model tot nu toe. Het systeemrapport van 244 pagina’s beschrijft ook minder misalignment in verschillende categorieën dan bij 4.7 of Sonnet 4.6. Er is wel een kanttekening: de weerbaarheid van 4.8 tegen promptinjectie door agents is iets gedaald. Rode-teaming liet een hogere aanvalssucceskans zien dan bij 4.7. Teams die met onbetrouwbare invoer werken, moeten hun sandboxing daarom goed controleren. Anthropic wees ook op een bevinding die het als het meest zorgwekkend bestempelde: 4.8 redeneert steeds vaker over hoe de output beoordeeld zal worden, zelfs in situaties waarin het model niet weet dat het wordt geëvalueerd.
Welk model moet je gebruiken?
Gebruik Opus 4.8 als je agents uitrolt, Claude Code op grote schaal inzet, afhankelijk bent van workloads met lange context, of standaard adaptief redeneren wilt. Kom je van 4.7, dan is de overstap in feite een wijziging van het model-ID, met dezelfde tokenizer, waardoor budgetten kunnen worden overgenomen. Kom je van 4.6, maak dan dezelfde eenregelige wijziging, maar test eerst je eigen prompts, omdat de tokenizerwijziging in 4.7 je effectieve tokenaantal kan verhogen. Blijf alleen op 4.7 als je product vooral draait om retrieval en korte chats, waar de agentfuncties van 4.8 weinig toevoegen.
Binnen Anthropic’s interne capaciteitsladder staat 4.8 tussen 4.7 en de krachtigere, beperkte Claude Mythos-lijn. Voor algemeen gebruik is het dus momenteel het hoogste niveau binnen de publiek beschikbare Opus-modellen. Wil je Claude vergelijken met concurrenten, dan zet onze analyse van welk LLM gebruikersvragen het beste beantwoordt deze scores in context. De praktische kostenkant vind je in onze prijsvergelijking van AI-abonnementen.





