Open Ai Spraakagenten

OpenAI introduceert geavanceerde audiomodellen voor spraakagenten

Op 20 maart 2025 heeft OpenAI een belangrijke stap gezet in de wereld van spraaktechnologie met de lancering van nieuwe audiomodellen die spraak-naar-tekst en tekst-naar-spraak functionaliteiten bieden. Deze innovaties zijn een aanvulling op de eerder geïntroduceerde tools zoals Operator, Deep Research, Computer-Using Agents en de Responses API, die zich voornamelijk richten op tekstgebaseerde agenten.

De nieuwe spraak-naar-tekst modellen, gpt-4o-transcribe en gpt-4o-mini-transcribe, zijn ontworpen om de nauwkeurigheid en effectiviteit van spraakherkenning aanzienlijk te verbeteren. Dankzij geavanceerde technieken zoals reinforcement learning en een uitgebreide tussentijdse training met diverse en hoogwaardige audiogegevens, overtreffen deze modellen de prestaties van de bestaande Whisper-modellen. OpenAI heeft geclaimd dat deze nieuwe audiomodellen beter in staat zijn om de nuances van spraak te begrijpen, misverstanden te verminderen en de betrouwbaarheid van transcripties te verbeteren, zelfs in uitdagende omstandigheden zoals verschillende accenten, rumoerige omgevingen en variërende spreektempo’s.

Daarnaast is er het gpt-4o-mini-tts model, het nieuwste tekst-naar-spraak model dat verbeterde aansturing biedt. Ontwikkelaars hebben nu de mogelijkheid om het model instructies te geven over hoe de tekst gearticuleerd moet worden. Het is echter belangrijk op te merken dat de huidige versie van het tekst-naar-spraak model beperkt is tot kunstmatige, vooraf ingestelde stemmen.

Wat betreft de kosten, zijn de tarieven voor het gpt-4o-transcribe model vastgesteld op $6 per miljoen Audio Input Tokens, $2.50 per miljoen Text Input Tokens en $10 per miljoen Text Output Tokens. Voor het gpt-4o-mini-transcribe model bedragen de kosten $3 per miljoen Audio Input Tokens, $1.25 per miljoen Text Input Tokens en $5 per miljoen Text Output Tokens. Het gpt-4o-mini-tts model kost $0.60 per miljoen text input tokens en $12 per miljoen audio output tokens. Dit resulteert in de volgende kosten per minuut:

  • Eater

    vraag en ik antwoord

    Related Posts

    OpenAI lanceert GPT-5.4 met AI-agenten die computers kunnen bedienen

    GPT-5.4 introduceert AI die een computer kan bedienen Een van de belangrijkste vernieuwingen in GPT-5.4 is de mogelijkheid om computers te gebruiken. Het model kan nu AI-agenten laten werken binnen…

    Mogelijke lek van OpenAI’s ChatGPT 5.4 opgemerkt tijdens Codex-demo

    De AI-wereld gonst van de speculaties na een vermeende lek van OpenAI’s model ChatGPT 5.4. Het bericht zorgt tegelijk voor enthousiasme en onrust. Volgens Universe of AI laat een eerste…

    Geef een reactie