Open Ai Spraakagenten

OpenAI introduceert geavanceerde audiomodellen voor spraakagenten

Op 20 maart 2025 heeft OpenAI een belangrijke stap gezet in de wereld van spraaktechnologie met de lancering van nieuwe audiomodellen die spraak-naar-tekst en tekst-naar-spraak functionaliteiten bieden. Deze innovaties zijn een aanvulling op de eerder geïntroduceerde tools zoals Operator, Deep Research, Computer-Using Agents en de Responses API, die zich voornamelijk richten op tekstgebaseerde agenten.

De nieuwe spraak-naar-tekst modellen, gpt-4o-transcribe en gpt-4o-mini-transcribe, zijn ontworpen om de nauwkeurigheid en effectiviteit van spraakherkenning aanzienlijk te verbeteren. Dankzij geavanceerde technieken zoals reinforcement learning en een uitgebreide tussentijdse training met diverse en hoogwaardige audiogegevens, overtreffen deze modellen de prestaties van de bestaande Whisper-modellen. OpenAI heeft geclaimd dat deze nieuwe audiomodellen beter in staat zijn om de nuances van spraak te begrijpen, misverstanden te verminderen en de betrouwbaarheid van transcripties te verbeteren, zelfs in uitdagende omstandigheden zoals verschillende accenten, rumoerige omgevingen en variërende spreektempo’s.

Daarnaast is er het gpt-4o-mini-tts model, het nieuwste tekst-naar-spraak model dat verbeterde aansturing biedt. Ontwikkelaars hebben nu de mogelijkheid om het model instructies te geven over hoe de tekst gearticuleerd moet worden. Het is echter belangrijk op te merken dat de huidige versie van het tekst-naar-spraak model beperkt is tot kunstmatige, vooraf ingestelde stemmen.

Wat betreft de kosten, zijn de tarieven voor het gpt-4o-transcribe model vastgesteld op $6 per miljoen Audio Input Tokens, $2.50 per miljoen Text Input Tokens en $10 per miljoen Text Output Tokens. Voor het gpt-4o-mini-transcribe model bedragen de kosten $3 per miljoen Audio Input Tokens, $1.25 per miljoen Text Input Tokens en $5 per miljoen Text Output Tokens. Het gpt-4o-mini-tts model kost $0.60 per miljoen text input tokens en $12 per miljoen audio output tokens. Dit resulteert in de volgende kosten per minuut:

  • Eater

    vraag en ik antwoord

    Related Posts

    AI-gegenereerde beelden nu nog moeilijker te herkennen

    Images 2.0 is indrukwekkend en tegelijkertijd verontrustend. AI-gegenereerde beelden worden steeds moeilijker om te onderscheiden van echte foto’s. Natuurlijk zijn er nog altijd enkele aanwijzingen, maar die verminderen met elke…

    GPT-5.5 is hier! Vandaag beschikbaar in de API, Codex en ChatGPT

    Maak kennis met GPT-5.5 Een nieuwe klasse van intelligentie, ontworpen voor échte taken en het aansturen van agents. GPT-5.5 begrijpt complexe doelen, kan zelf tools gebruiken, controleert zijn werk en…

    Geef een reactie