Open Ai Spraakagenten

OpenAI introduceert geavanceerde audiomodellen voor spraakagenten

Op 20 maart 2025 heeft OpenAI een belangrijke stap gezet in de wereld van spraaktechnologie met de lancering van nieuwe audiomodellen die spraak-naar-tekst en tekst-naar-spraak functionaliteiten bieden. Deze innovaties zijn een aanvulling op de eerder geïntroduceerde tools zoals Operator, Deep Research, Computer-Using Agents en de Responses API, die zich voornamelijk richten op tekstgebaseerde agenten.

De nieuwe spraak-naar-tekst modellen, gpt-4o-transcribe en gpt-4o-mini-transcribe, zijn ontworpen om de nauwkeurigheid en effectiviteit van spraakherkenning aanzienlijk te verbeteren. Dankzij geavanceerde technieken zoals reinforcement learning en een uitgebreide tussentijdse training met diverse en hoogwaardige audiogegevens, overtreffen deze modellen de prestaties van de bestaande Whisper-modellen. OpenAI heeft geclaimd dat deze nieuwe audiomodellen beter in staat zijn om de nuances van spraak te begrijpen, misverstanden te verminderen en de betrouwbaarheid van transcripties te verbeteren, zelfs in uitdagende omstandigheden zoals verschillende accenten, rumoerige omgevingen en variërende spreektempo’s.

Daarnaast is er het gpt-4o-mini-tts model, het nieuwste tekst-naar-spraak model dat verbeterde aansturing biedt. Ontwikkelaars hebben nu de mogelijkheid om het model instructies te geven over hoe de tekst gearticuleerd moet worden. Het is echter belangrijk op te merken dat de huidige versie van het tekst-naar-spraak model beperkt is tot kunstmatige, vooraf ingestelde stemmen.

Wat betreft de kosten, zijn de tarieven voor het gpt-4o-transcribe model vastgesteld op $6 per miljoen Audio Input Tokens, $2.50 per miljoen Text Input Tokens en $10 per miljoen Text Output Tokens. Voor het gpt-4o-mini-transcribe model bedragen de kosten $3 per miljoen Audio Input Tokens, $1.25 per miljoen Text Input Tokens en $5 per miljoen Text Output Tokens. Het gpt-4o-mini-tts model kost $0.60 per miljoen text input tokens en $12 per miljoen audio output tokens. Dit resulteert in de volgende kosten per minuut:

  • Eater

    vraag en ik antwoord

    Related Posts

    Anthropic haalt Fable 5 en Mythos 5 offline na Amerikaans exportcontrolebevel

    Anthropic heeft per direct wereldwijd de toegang tot zijn onlangs gelanceerde modellen Claude Fable 5 en Mythos 5 opgeschort vanwege zorgen over de nationale veiligheid in de Verenigde Staten. In…

    OpenAI maakt Codex krachtiger in Chrome en in de cloud

    Door de technologie van Ona te integreren, wil OpenAI Codex in staat stellen om langdurig en continu in de cloud te werken, gedurende dagen achtereen, volledig los van actieve gebruikerssessies.…

    Geef een reactie