Open Ai Spraakagenten

OpenAI introduceert geavanceerde audiomodellen voor spraakagenten

Op 20 maart 2025 heeft OpenAI een belangrijke stap gezet in de wereld van spraaktechnologie met de lancering van nieuwe audiomodellen die spraak-naar-tekst en tekst-naar-spraak functionaliteiten bieden. Deze innovaties zijn een aanvulling op de eerder geïntroduceerde tools zoals Operator, Deep Research, Computer-Using Agents en de Responses API, die zich voornamelijk richten op tekstgebaseerde agenten.

De nieuwe spraak-naar-tekst modellen, gpt-4o-transcribe en gpt-4o-mini-transcribe, zijn ontworpen om de nauwkeurigheid en effectiviteit van spraakherkenning aanzienlijk te verbeteren. Dankzij geavanceerde technieken zoals reinforcement learning en een uitgebreide tussentijdse training met diverse en hoogwaardige audiogegevens, overtreffen deze modellen de prestaties van de bestaande Whisper-modellen. OpenAI heeft geclaimd dat deze nieuwe audiomodellen beter in staat zijn om de nuances van spraak te begrijpen, misverstanden te verminderen en de betrouwbaarheid van transcripties te verbeteren, zelfs in uitdagende omstandigheden zoals verschillende accenten, rumoerige omgevingen en variërende spreektempo’s.

Daarnaast is er het gpt-4o-mini-tts model, het nieuwste tekst-naar-spraak model dat verbeterde aansturing biedt. Ontwikkelaars hebben nu de mogelijkheid om het model instructies te geven over hoe de tekst gearticuleerd moet worden. Het is echter belangrijk op te merken dat de huidige versie van het tekst-naar-spraak model beperkt is tot kunstmatige, vooraf ingestelde stemmen.

Wat betreft de kosten, zijn de tarieven voor het gpt-4o-transcribe model vastgesteld op $6 per miljoen Audio Input Tokens, $2.50 per miljoen Text Input Tokens en $10 per miljoen Text Output Tokens. Voor het gpt-4o-mini-transcribe model bedragen de kosten $3 per miljoen Audio Input Tokens, $1.25 per miljoen Text Input Tokens en $5 per miljoen Text Output Tokens. Het gpt-4o-mini-tts model kost $0.60 per miljoen text input tokens en $12 per miljoen audio output tokens. Dit resulteert in de volgende kosten per minuut:

  • Eater

    vraag en ik antwoord

    Related Posts

    ChatGPT sluit zich aan bij de AI-leeftijdsverificatie

    De app zal je leeftijd raden en limiteert functies voor gebruikers waarvan wordt gedacht dat ze jonger zijn dan 18 jaar. Toen OpenAI vorige maand GPT-5.2 aankondigde, zeiden ze er…

    Nvidia en piraten boeken

    NVIDIA neemt contact op met Anna’s Archive om toegang te krijgen tot miljoenen illegaal opgeslagen boeken NVIDIA-topmannen zouden de toegang tot miljoenen gepirateerde boeken van Anna’s Archive hebben geregeld om…

    Geef een reactie