Un grand groupe d'assurances belge modernise sa plateforme Azure SQL et Data Vault héritée en un Lakehouse gouverné construit sur Databricks, Delta Lake et ADLS. Ce poste opérationnel accélère l'adoption de Databricks en mettant en œuvre des pipelines PySpark/Spark, la gouvernance Unity Catalog et des Databricks Workflows pour remplacer les processus batch hérités et permettre le reporting avec Power BI.
La mission
L'organisation exécute une migration vers un Lakehouse pour remplacer Azure SQL Server on-premise et les modèles Data Vault par une architecture Delta Lake évolutive sur Azure Data Lake Storage. Le travail plateforme se concentre sur Databricks Workspace, Delta Tables, Unity Catalog et l'orchestration via Azure Data Factory, avec une attention particulière à l'optimisation des performances et au contrôle des coûts entre les options cluster pool et serverless. Le résultat attendu est un environnement de production prêt pour l'entreprise qui supporte l'analytics et le reporting à grande échelle.
Au quotidien vous agirez comme ingénieur Databricks senior, hands-on et tech lead plutôt que comme simple architecte. Vous concevrez et construirez des frameworks d'ingestion et de transformation en utilisant des notebooks, Databricks Workflows et les patterns Delta, piloterez la migration des modèles Data Vault existants vers des structures medallion (Bronze/Silver/Gold) en Delta, et accompagnerez les équipes d'ingénierie sur les pratiques CI/CD et de déploiement des assets Databricks. Les premières tâches incluent la synchronisation avec le data architect, l'établissement de standards d'ingénierie, la mise en place de la gouvernance Unity Catalog et la livraison de modèles réutilisables de pipelines d'ingestion et de transformation.
Vos responsabilités
- Piloter et livrer des implémentations Databricks en production, en produisant des frameworks réutilisables d'ingestion et de transformation qui réduisent le délai de mise en production.
- Optimiser les jobs Spark/PySpark et les configurations Databricks pour les performances et les coûts, en appliquant des stratégies cluster pool et serverless.
- Migrer des datasets legacy SQL/Data Vault vers des modèles Delta Lake, en traduisant la logique métier en patterns medallion efficaces.
- Mettre en place des pipelines CI/CD et de déploiement pour les notebooks Databricks, jobs et Unity Catalog artifacts afin d'assurer des déploiements reproductibles.
- Coacher et encadrer les ingénieurs internes sur les bonnes pratiques Databricks, la gouvernance et l'observabilité pour faire monter en maturité l'équipe.
- Intégrer les sorties Databricks avec les outils de reporting d'entreprise, en supportant la consommation Power BI et l'optimisation des performances de requêtes.
Votre profil
Compétences essentielles
- Expérience avérée de mise en œuvre Databricks en environnement d'entreprise, délivrant des pipelines de bout en bout.
- Forte expertise pratique avec Databricks Workspace, Spark / PySpark et SQL pour les charges de travail d'ingénierie des données.
- Connaissance approfondie de Delta Lake / Delta Tables, Unity Catalog, et Databricks Workflows.
- Expérience pratique avec Azure Data Lake Storage (ADLS) et Azure Data Factory (ADF) pour l'orchestration.
- Capacité démontrée à optimiser les performances et gérer les compromis coûts et modèles de tarification de Databricks.
- Expérience de migration de plateformes héritées vers des plateformes data cloud modernes et de définition des bonnes pratiques d'ingénierie.
Compétences souhaitées
- Expérience Infrastructure as Code (Terraform, Bicep ou ARM) et pipelines DevOps (Azure DevOps ou GitHub Actions).
- Expérience des architectures streaming ou event-driven et des scénarios de migration Data Vault.
- Familiarité avec les patterns d'intégration Power BI.
Langues
- Anglais, C1
- Néerlandais, B2
- Français, B2