OpenAI introduceert GPT-5.3-Codex-Spark

Een ultrasnel coderingsmodel aangedreven door Cerebras

Vorige maand kondigde OpenAI een samenwerking aan met Cerebras, een AI-startup die purpose-built systemen ontwikkelt om lange output van AI-modellen te versnellen. Destijds gaf OpenAI aan dat het de low-latency-technologie van Cerebras in fasen zou integreren in haar inference-stack om verschillende workloads te ondersteunen, waaronder het genereren van code en het creëren van afbeeldingen.

Vandaag kondigt OpenAI een onderzoeksvoorbeeld aan van GPT-5.3-Codex-Spark, een kleinere versie van GPT-5.3-Codex, ontworpen voor realtime coderingsscenario’s en aangedreven door Cerebras’ Wafer Scale Engine 3. OpenAI beweert dat Codex-Spark meer dan 1.000 tokens per seconde kan leveren, terwijl het een sterke capaciteit behoudt. Omdat het echter een kleiner model is, wordt van GPT-5.3-Codex-Spark niet verwacht dat het net zo goed presteert als de volledige GPT-5.3-Codex; OpenAI geeft aan dat de prestaties liggen tussen GPT-5.3-Codex en GPT-5.1-Codex-Mini.

Vooralsnog ondersteunt Codex-Spark een contextvenster van 128K en alleen tekstinput. OpenAI is van plan in de toekomst ondersteuning toe te voegen voor grotere modellen, langere contexten en multimodale input. Omdat dit een beperkte uitrol is voor ChatGPT Pro-gebruikers, heeft het model eigen snelheidslimieten, hoewel het gebruik niet meetelt voor de standaardlimieten. Bij een plotselinge stijging in vraag kan OpenAI de toegang verder beperken of gebruikers tijdelijk in een wachtrij plaatsen om de betrouwbaarheid te waarborgen.

Abonnees op ChatGPT Pro kunnen het ultrasnelle model uitproberen door te updaten naar de nieuwste versies van de Codex-app, CLI en VS Code-extensie. OpenAI maakt Codex-Spark ook via de API beschikbaar voor een kleine groep designpartners om te leren hoe ontwikkelaars het willen integreren in andere producten en diensten.

OpenAI benadrukte tevens dat GPU’s nog steeds het primaire platform zijn voor berekeningen binnen haar trainings- en inference-pijplijnen voor breed gebruik. Tegelijkertijd positioneerde het de technologie van Cerebras als beter geschikt voor extreem latency-gevoelige Codex-workloads. Het bedrijf voegde daaraan toe dat GPU’s en Cerebras-systemen in één workload gecombineerd kunnen worden om de beste algehele prestaties te bereiken.

  • Eater

    vraag en ik antwoord

    Related Posts

    DeepSeek V4 en Tencent Hunyuan-model naar verwachting in april gelanceerd

    Twee van de meest verwachte AI-modellen uit China — DeepSeek V4 en een nieuw model uit Tencent’s Hunyuan-reeks — staan volgens verwachting gepland voor april 2026. Dat meldt het Chinese…

    Nvidia investeert 2 miljard dollar in Amsterdamse neocloud Nebius

    Bouwt mee aan een 5 gigawatt AI-capaciteit Nvidia en Nebius Group N.V. (NASDAQ: NBIS), officieel gevestigd in Amsterdam, hebben een strategische samenwerking aangekondigd waarbij Nvidia 2 miljard dollar investeert in…

    Geef een reactie