Drie nieuwe realtime stemmodellen: GPT5 en spraaktechnologie -

OpenAI heeft drie nieuwe realtime stemmodellen uitgebracht: GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper. Deze modellen zijn nu beschikbaar via de Realtime API en Playground, waardoor ontwikkelaars ze makkelijk kunnen toevoegen aan bestaande apps via Codex. Deze vernieuwingen maken het mogelijk om spraakgebruik veel interactiever en krachtiger te maken. Waar het voorheen vooral ging om eenvoudige, beurtelingse gesprekken, kunnen de modellen nu realtime meedenken, vertalen en direct gesprekken uitschrijven.

Wat Maakt de Nieuwe Realtime Stemmodellen van OpenAI Beter?

GPT-Realtime-2 is het eerste stemmodel van OpenAI dat redeneervaardigheden heeft die vergelijkbaar zijn met GPT-5, een van de meest geavanceerde taalmodellen. Dit betekent dat het model niet alleen reageert op wat je zegt, maar ook complexere taken kan uitvoeren. Het kan meerdere opdrachten tegelijkertijd afhandelen, bijvoorbeeld je agenda checken terwijl je iets vraagt of snel informatie opzoeken, zelfs als het gesprek een keer wordt onderbroken. Ook kun je instellen hoeveel moeite het moet doen om na te denken, van korte antwoorden tot uitgebreide uitleg.
Door het grotere geheugen (van 32.000 naar 128.000 tokens) kan het model langere gesprekken en processen volgen zonder de draad kwijt te raken. Dit is handig in bijvoorbeeld klantgesprekken, vergaderingen of complexe workflows. Ook spreekt het model natuurlijker, met betere beheersing van de toon en het juist gebruiken van vaktaal, zoals medische termen of namen. Dit zorgt ervoor dat je gesprek meer als menselijk en professioneel aanvoelt.

GPT-Realtime-Translate maakt het mogelijk om spraak in meer dan 70 talen direct te vertalen in 13 talen, en houdt perfect tempo met de spreker. Dit is uitermate geschikt voor internationale klantenservice, live events en onderwijs, waarbij een wereldwijde groep mensen tegelijkertijd kan deelnemen. Grote bedrijven zoals Deutsche Telekom en Vimeo testen nu al hoe zij met dit model hun communicatie kunnen verbeteren en vertaaldiensten versnellen.

GPT-Realtime-Whisper biedt een snelle en nauwkeurige transcriptie van spraak naar tekst terwijl iemand spreekt. Dit maakt het geschikt voor live ondertiteling op tv of tijdens presentaties, maar ook om automatisch aantekeningen te maken in vergaderingen. Je kunt het gebruiken voor spraakassistenten die voortdurend moeten luisteren en begrijpen, of voor dagelijkse workflows in bijvoorbeeld de gezondheidszorg en verkoop, waar snelle toegang tot gespreksteksten belangrijk is.

Prijzen, Veiligheid en Privacy: Wat Je Moet Weten

De prijzen verschillen per model:

GPT-Realtime-2 kost $32 per miljoen audio-invoertokens, $0,40 per miljoen gecachte tokens en $64 per miljoen audio-uitvoertokens.
GPT-Realtime-Translate kost $0,034 per minuut spreektijd.
GPT-Realtime-Whisper kost $0,017 per minuut.

Naast geavanceerde functies zorgt OpenAI ervoor dat gesprekken veilig verlopen. Het systeem controleert actief of gesprekken voldoen aan de richtlijnen en kan gesprekken stoppen als er ongepaste inhoud is. Ontwikkelaars kunnen extra beschermingslagen toevoegen voor nog meer veiligheid. Ook kunnen Europese gebruikers er zeker van zijn dat data volgens Europese regels wordt opgeslagen en beschermd.

Daarnaast is het belangrijk dat gebruikers weten dat ze met AI praten. OpenAI stelt daarom dat ontwikkelaars dit moeten melden, tenzij het al duidelijk is uit de situatie.

Waarom Deze Modellen Beter Zijn

Relevanter en sneller: De modellen begrijpen beter wat je zegt en reageren direct, zelfs bij complexe vragen.
Meertaligheid ingebouwd: Vertalingen volgen direct mee, zonder vertraging. Dit maakt internationale communicatie veel gemakkelijker.
Langdurige gesprekken zonder informatieverlies: Door het veel grotere geheugen onthoudt het model ook lange dialogen en contexten, wat belangrijk is voor samenwerkingen en workflows.
Natuurlijke interactie: Betere controle over toon en woordgebruik zorgt ervoor dat gesprekken vloeiender en professioneler klinken.
Betrouwbaar en veilig: Preventie van ongepaste inhoud en bescherming van privacy maken het gebruik zorgeloos, ook in gevoelige situaties.

Met deze verbeteringen zet OpenAI een flinke stap vooruit in hoe computers via spraak kunnen communiceren, vertalen en ondersteunen — sneller, slimmer én natuurlijker dan ooit tevoren.