Blocs-notes Apache Spark VS pipelines de déploiement
- MYPE SAS
- 28 août
- 1 min de lecture
Quels sont les points communs et différences entre ces deux outils Fabric très puissants ? C'est ce que nous verrons dans cet article, pour vous aider à garder les idées claires et tirer le meilleur parti de chaque outil !
Blocs-notes Apache Spark
Les blocs-notes Apache Spark sont des environnements d'exécution de code. Dans un bloc-notes, on peut code en Scala, en PySpark, en SparkSQL, en R... Ils sont utiles pour ingérer les données, les charger, les transformer, les visualiser et les exploiter. Ils sont très puissants et très flexibles, mais ils nécessitent des compétences en programmation.
Pipelines de déploiement
Les pipelines de déploiement sont des outils d'orchestration. Dans un pipeline, on peut ajouter des activités, qui représentent des actions réalisées sur les données. Par exemple, l'activité 'Copy data' est très utilisée pour l'ingestion de données. On peut aussi utiliser des activités pour déclencher l'exécution d'un bloc-notes Apache Spark. On peut organiser les activités comme on le souhaite, avec l'évaluation de conditions si besoin. Les pipelines de déploiement permettent l'orchestration du processus Extract-Transform-Load et sont no-code.
Conclusion
Pour conclure, voici les différences et points communs de ces deux outils sous forme visuelle :

--
Pour apprendre à maîtriser tous les principaux outils de Fabric, inscrivez-vous à l'une de nos formations.
Commentaires