Een team voor digitale diensten bouwt een klantgerichte Voice Bot die klantvragen beantwoordt met een hybride spraakstack die open-source ASR/TTS-modellen en fallback-oplossingen van leveranciers combineert. De rol richt zich op streaming audio, realtime STT/TTS en telefonie-integratie zoals SIP/WebRTC, en vraagt ervaring met het uitrollen van streaming spraak in productie en werken met WebSockets of gRPC.
De missie
Je treedt toe tot een interdisciplinaire community van AI Dev Engineers en Data Scientists die verantwoordelijk is voor het afleveren van een spraakassistent in productie, gebruikt door enterprise-klanten. Het project combineert open-source ASR (bijvoorbeeld Whisper, wav2vec2, NeMo) en neural TTS-componenten met API's van leveranciers om strikte latency- en betrouwbaarheidsdoelen voor livegesprekken te halen.
Dagelijks ontwerp en implementeer je streaming-pipelines voor audio-ingest, VAD/endpointing, STT, orchestratie met LLMs en streaming TTS. Je bent verantwoordelijk voor turn-taking-logica (barge-in, onderbrekingen, endpointing), meet conversatie-KPI's (WER per cohort, latency p95) en integreert telefoniekanalen (PSTN/IVR, SIP, CPaaS, WebRTC). Deze Senior Voice AI Engineer werkt met teams in België en de rest van de EU om deze services te deployen, monitoren en itereren in geïcontaineriseerde omgevingen.
Uw verantwoordelijkheden
- Ontwerpen en opleveren van productie streaming-audio pipelines die voldoen aan latency- en nauwkeurigheids-SLA's, inclusief VAD, STT, orchestratie en streaming TTS.
- Implementeren en afstellen van turn-taking, barge-in en endpointing-logica om latency p95 te verlagen en conversatie-KPI's te verbeteren.
- Integreren van telefonie- en app-kanalen, inclusief SIP, PSTN/IVR, WebRTC en CPaaS, en omgaan met codecs (u-law/A-law) en 8kHz-realiteiten.
- Veerkracht inbouwen in de stack met retries, backpressure, rate limiting en fallbacks tussen open-source en vendor-componenten.
- Builds, images en CI/CD-pijplijnen automatiseren (gitlab-ci), en code-, model- en dataversiebeheer implementeren voor productie-deployments.
- Samenwerken met Data Scientists en IT Production om evaluatiekaders te definiëren (WER per cohort, latency p95), monitoring en retraining-strategieën.
Uw profiel
Essentiële vaardigheden
- 4+ jaar engineeringervaring, met minstens 2+ jaar ervaring met het uitbrengen van streaming spraak in productie.
- Aantoonbare ervaring met streaming audio, WebSockets of gRPC, en realtime STT- en TTS-systemen.
- Hands-on ervaring met open-source ASR/TTS zoals Whisper, NeMo, wav2vec2 en neural TTS-stacks.
- Praktische ervaring met telefonie/WebRTC-integratie, bekendheid met SIP, PSTN/IVR, CPaaS en codecs (u-law/A-law).
- Sterke automatiseringsvaardigheden: containerisatie/virtualisatie, CI/CD (gitlab-ci), en versiebeheer voor modellen/gegevens/code.
- Comfortabel met het evalueren van modellen en systemen met WER per cohort, latency p95 en andere conversatie-KPI's.
Gewenste vaardigheden
- Beheersing van Python plus één systems language (Go, Rust of C++).
- Ervaring met PostgreSQL, speaker diarization, echo cancellation-issues en semantische VAD/endpointing-modellen.
- Ervaring in gereguleerde omgevingen (bankwezen, verzekeringen, gezondheid) en integratie met legacy/distribueerde systemen.
Talen
- Engels, C1 (verplicht)
- Nederlands, B2 (aanbevolen)
- Frans, B2 (aanbevolen)
Opleiding
- Bachelor in Informatica, Ingenieurswetenschappen of gelijkwaardige praktische ervaring