Open Ai Spraakagenten -

OpenAI introduceert geavanceerde audiomodellen voor spraakagenten

Op 20 maart 2025 heeft OpenAI een belangrijke stap gezet in de wereld van spraaktechnologie met de lancering van nieuwe audiomodellen die spraak-naar-tekst en tekst-naar-spraak functionaliteiten bieden. Deze innovaties zijn een aanvulling op de eerder geïntroduceerde tools zoals Operator, Deep Research, Computer-Using Agents en de Responses API, die zich voornamelijk richten op tekstgebaseerde agenten.

De nieuwe spraak-naar-tekst modellen, gpt-4o-transcribe en gpt-4o-mini-transcribe, zijn ontworpen om de nauwkeurigheid en effectiviteit van spraakherkenning aanzienlijk te verbeteren. Dankzij geavanceerde technieken zoals reinforcement learning en een uitgebreide tussentijdse training met diverse en hoogwaardige audiogegevens, overtreffen deze modellen de prestaties van de bestaande Whisper-modellen. OpenAI heeft geclaimd dat deze nieuwe audiomodellen beter in staat zijn om de nuances van spraak te begrijpen, misverstanden te verminderen en de betrouwbaarheid van transcripties te verbeteren, zelfs in uitdagende omstandigheden zoals verschillende accenten, rumoerige omgevingen en variërende spreektempo’s.

Daarnaast is er het gpt-4o-mini-tts model, het nieuwste tekst-naar-spraak model dat verbeterde aansturing biedt. Ontwikkelaars hebben nu de mogelijkheid om het model instructies te geven over hoe de tekst gearticuleerd moet worden. Het is echter belangrijk op te merken dat de huidige versie van het tekst-naar-spraak model beperkt is tot kunstmatige, vooraf ingestelde stemmen.

Wat betreft de kosten, zijn de tarieven voor het gpt-4o-transcribe model vastgesteld op $6 per miljoen Audio Input Tokens, $2.50 per miljoen Text Input Tokens en $10 per miljoen Text Output Tokens. Voor het gpt-4o-mini-transcribe model bedragen de kosten $3 per miljoen Audio Input Tokens, $1.25 per miljoen Text Input Tokens en $5 per miljoen Text Output Tokens. Het gpt-4o-mini-tts model kost $0.60 per miljoen text input tokens en $12 per miljoen audio output tokens. Dit resulteert in de volgende kosten per minuut: