Les endpoints dans Fabric

MYPE SAS
7 août
3 min de lecture

Introduction

Microsoft Fabric est une plateforme qui permet de réaliser des projets de traitement de données de A à Z. Sur Fabric, tous les corps de métiers autour de la data peuvent travailler sur des outils dédiés comme des bloc-notes Apache Spark ou des outils no-code pour ingérer, transformer et analyser les données.

Dans Fabric, on peut construire divers objets : des data stores (entrepôts, lakehouses…), des datasets (outils de stockage de données modélisées), des dataflows (flux-de-données, outils d’ingestion de données), des blocs-notes, des pipelines de données (outils d’orchestration du processus Extract-Transform-Load)…

Ces objets peuvent exposer des endpoints (points de terminaison). Un endpoint est une adresse URL qui permet d’interagir avec un objet ou un service. Un endpoint peut permettre l’accès à des données, l’exécution de requêtes, la gestion de ressources, etc.

Ici, on va analyser tous les endpoints disponibles pour chaque objet Fabric.

Lakehouse

Un lakehouse est un data store combinant une architecture en data lake et les capacités analytiques d’un data warehouse. En d’autres termes, c’est un data store dans lequel on peut stocker des données ordonnées ou non, tout en étant en mesure de passer des requêtes SQL dessus et d’utiliser un modèle sémantique construit sur les données.

Un lakehouse expose les endpoints suivants :

- Spark Endpoint : Permet d’exécuter des bloc-notes Apache Spark sur les données du lakehouse.

- SQL endpoint : Permet d’exécuter des requêtes T-SQL pour interroger les tables du lakehouse.

- Power BI DirectLake endpoint : Permet de se connecter aux données du lakehouse depuis Microsoft Power BI, sans avoir à importer les données.

- OneLake shortcut : Endpoint exposé par toutes les sources de données OneLake ou Azure Data Lake, qui permet à un autre lakehouse d’accéder à des fichiers comme s’ils étaient stockées dedans.

Warehouse

Un warehouse de données (ou entrepôt) est un data store relationnel dans lequel sont stockées des données ordonnées.

Un warehouse expose les endpoints suivants :

- SQL endpoint : Permet d’exécuter des requêtes T-SQL pour interroger les tables du warehouse.

- Power BI DirectLake endpoint : Permet de se connecter aux données de l’entrepôt depuis Microsoft Power BI, sans avoir à importer les données.

Notebook

Un notebook (bloc-notes) Apache Spark est un environnement dans lequel on peut créer et exécuter des cellules de code en PySpark, SparkSQL, Scala…

Un notebook n’expose pas d’endpoint lui-même, mais utilise l’endpoint Spark de l’espace de travail dans lequel il s’exécute, ainsi que des lakehouses ou warehouses qu’il utilise.

Pipeline de données

Les pipelines de données (Azure Data Factory Gen2) sont des outils no-code d’orchestration du processus Extract-Transform-Load.

Un pipeline expose l’endpoint suivant :

- API REST : Permet de lancer ou surveiller un pipeline, grâce à une API classique.

Il utilise aussi les endpoints d’autres objets, par exemple pour faire une copie de données entre un lakehouse et un warehouse.

Dataset Power BI

Un dataset est un ensemble de données accompagnées d’une couche abstraite, qui sert dans la création de rapports.

Un dataset expose les endpoints suivants :

- XMLA (XML for Analysis) endpoint : Permet l’accès au dataset depuis un outil comme SQL Server Management Studio, le Tabular Editor, Excel, DAX Studio, etc.

- API REST Power BI : Permet d’automatiser et de gérer un dataset, à l’aide d’une adresse HTTP.

Un dataset utilise le DirectLake endpoint des lakehouses ou warehouses, pour accéder rapidement aux tables delta qui y sont stockées, sans les copier ou les importer.

KQL (Kusto Query Language) database

Une base de données KQL est conçue spécialement pour l’analyse en temps réel, par exemple pour stocker des données de log.

Une base de données KQL expose l’endpoint suivant :

- KQL enpdoint : Permet l’exécution de requêtes analytiques en KQL, via le KQL Query Editor, un notebook, une API REST ou autre.

Sécurité

Pour sécuriser l’accès aux points d’accès, on utilise trois outils :

· RBAC (Role-Based Access Control) : on crée des rôles, auxquels on attribue des autorisations sur les endpoints.

· Intégration avec Microsoft Purview : on utilise la plateforme de gouvernance des données de Microsoft pour tracer les données.

· Authentification Azure Active Directory : les utilisateurs s’authentifient dans Azure Active Directory pour avoir accès ou non à un endpoint.

Pour plus d'informations sur Fabric, n'hésitez pas à regarder notre offre de formation.