Une équipe de services numériques développe un Voice Bot orienté client qui répond aux demandes des utilisateurs en s'appuyant sur une pile vocale hybride combinant des modèles open-source d'ASR/TTS et des solutions de repli fournies par des fournisseurs. Le rôle porte sur le streaming audio, le STT/TTS en temps réel et l'intégration téléphonique comme SIP/WebRTC, et nécessite une expérience du déploiement de la parole en streaming en production ainsi que du travail avec WebSockets ou gRPC.
La mission
Vous rejoindrez une communauté interdisciplinaire d'AI Dev Engineers et de Data Scientists responsable de délivrer un assistant vocal en production utilisé par des clients entreprises. Le projet combine de l'open-source ASR (par exemple Whisper, wav2vec2, NeMo) et des composants neural TTS avec des API fournisseurs pour atteindre des objectifs stricts de latence et de fiabilité en conversation live.
Au quotidien, vous concevez et implémentez des pipelines de streaming pour l'ingestion audio, le VAD/endpointing, le STT, l'orchestration avec les LLMs et le TTS en streaming. Vous prendrez en charge la logique de prise de parole (barge-in, interruptions, endpointing), mesurerez les KPI de conversation (WER par cohorte, latence p95) et intégrerez les canaux téléphoniques (PSTN/IVR, SIP, CPaaS, WebRTC). Ce Senior Voice AI Engineer travaillera avec des équipes en Belgique et dans le reste de l'UE pour déployer, superviser et faire évoluer ces services dans des environnements containerisés.
Vos responsabilités
- Concevoir et livrer des pipelines audio de streaming en production qui respectent les SLA de latence et de précision, incluant VAD, STT, orchestration et TTS en streaming.
- Implémenter et optimiser la prise de parole, le barge-in et la logique d'endpointing pour réduire la latence p95 et améliorer les KPI au niveau conversationnel.
- Intégrer les canaux téléphoniques et applicatifs, y compris SIP, PSTN/IVR, WebRTC et CPaaS, en gérant les codecs (u-law/A-law) et les contraintes 8kHz.
- Renforcer la résilience de la stack avec des mécanismes de retry, backpressure, rate limiting et des fallbacks entre composants open-source et fournisseurs.
- Automatiser les builds, les images et les pipelines CI/CD (gitlab-ci), et mettre en place le versioning du code, des modèles et des données pour les déploiements en production.
- Collaborer avec les Data Scientists et la production IT pour définir des cadres d'évaluation (WER par cohorte, latence p95), ainsi que des stratégies de monitoring et de réentraînement.
Votre profil
Compétences essentielles
- 4+ années d'expérience en ingénierie, dont au moins 2+ années à déployer de la parole en streaming en production.
- Maîtrise avérée du streaming audio, de WebSockets ou gRPC, et des systèmes STT et TTS en temps réel.
- Expérience pratique avec des ASR/TTS open-source tels que Whisper, NeMo, wav2vec2 et des stacks neural TTS.
- Expérience concrète d'intégration téléphonie/WebRTC, familiarité avec SIP, PSTN/IVR, CPaaS et les codecs (u-law/A-law).
- Solides compétences en automatisation : containerisation/virtualisation, CI/CD (gitlab-ci), et versioning modèle/données/code.
- À l'aise pour évaluer modèles et systèmes en utilisant WER par cohorte, latence p95 et autres KPI de conversation.
Compétences souhaitées
- Maîtrise de Python plus un langage système (Go, Rust ou C++).
- Expérience avec PostgreSQL, diarisation de locuteurs, contraintes d'annulation d'écho et modèles de VAD/endpointing sémantique.
- Expérience en environnements régulés (banque, assurance, santé) et intégration avec des systèmes legacy/distribués.
Langues
- Anglais, C1 (obligatoire)
- Néerlandais, B2 (souhaitable)
- Français, B2 (souhaitable)
Formation
- Bachelier en informatique, en ingénierie ou expérience pratique équivalente