Après plusieurs mois de travail mon ouvrage sur Azure Data Factory est sortie aux @EditionsENI, celui-ci permet d’avoir une idée générale du service de traitement de données dans Azure de Microsoft mais aussi de voir comment le mettre en place lors de cas concrets d’utilisation. Il est associé d’un repository GIT => https://github.com/EditionsENI/AzureDataFactory/ permettant d’illustrer concrètement des exemples comme la récupération d’un jeton de sécurité dans Azure, le démarrage d’un SQLDW…
Cet ouvrage est évidemment non exhaustif au vu du nombre de mises à jour dont bénéficie le service. Mais dans le cas ou un doute existe ou si une question se pose, il est toujours possible de remonter une issue sur Git afin d’adresser le problème et préparer le prochaine version de celui-ci.
L’ouvrage est disponible sur #Amazon, #Fnac et #Eni mais aussi dans vos librairies #Indépendantes 😉
Dans tous les cas, si vous voulez comprendre les points ci-dessous, foncez et faites-moi vos retours que je puisse améliorer le contenu du livre.
-
Introduction à ADF
- 1. Cloud et ETL
-
2. Architectures
- 2.1 Architecture SSIS PaaS
-
2.2 Architecture Data Warehouse
- 2.2.1 Approche ELT
- 2.2.2 Approche ETL
- 2.3 Architecture Data Lake
- 2.4 Autres architectures
- 3. Positionner ADF et SSIS
-
Concepts ADF
- 1. Présentation générale
- 2. Correspondance SSIS – ADF
-
3. Outils de développement
- 3.1 Portail Azure Data Factory
- 3.2 SDK .NET
- 3.3 Azure PowerShell
- 3.4 Modèle Azure Resource Manager
- 3.5 API REST
-
4. Azure Data Factory
- 4.1 Création du service
- 4.2 Gestion des droits
- 5. Services liés
-
6. Integration Runtimes
- 6.1 Azure Integration Runtimes
-
6.2 Integration Runtimes Auto-Hébergé
- 6.2.1 Installation d’un IR Auto-Hébergé
- 6.2.2 Partage d’un IR Auto-Hébergé
- 6.2.3 Haute disponibilité et Scalabilité
- 6.2.4 Diagnostics
- 6.3 SSIS Integration Runtimes
- 7. Jeu de données
- 8. Activité
- 9. Pipeline
-
10. Déclencheur
- 10.1 Déclencheur sur planification
- 10.2 Déclencheur sur intervalle
- 10.3 Déclencheur sur évènement
-
11. Support des connecteurs
- 11.1 Connecteurs Azure
- 11.2 Connecteurs Base de données
- 11.3 Connecteurs NoSQL
- 11.4 Connecteurs Fichiers
- 11.5 Connecteurs génériques
- 11.6 Connecteurs Services et Applications
- 11.7 Connecteurs de service de traitement
-
Activités et Data Flows en détail
- 1. Introduction
-
2. Activité de flux de données
- 2.1 Copy Data
- 2.2 Mapping Data Flow
- 2.3 Delete
-
3. Activité de traitement
- 3.1 Batch Service
-
3.2 Databricks
- 3.2.1 Notebook
- 3.2.2 Jar
- 3.2.3 Python
- 3.3 Data Lake Analytics
-
3.4 HDInsight
- 3.4.1 Hive
- 3.4.2 Map Reduce
- 3.4.3 Pig
- 3.4.4 Spark
-
3.5 Machine Learning
- 3.5.1 ML Batch Execution
- 3.5.2 ML Update Resource
-
4. Activité de flux de contrôle
-
4.1 Général
- 4.1.1 Append Variable
- 4.1.2 Set Variable
- 4.1.3 Validation
- 4.1.4 Azure Function
- 4.1.5 Execute Pipeline
- 4.1.6 Execute SSIS Package
- 4.1.7 Get Metadata
- 4.1.8 Lookup
- 4.1.9 Stored Procedure
- 4.1.10 Web
- 4.1.11 WebHook
- 4.1.12 Wait
-
4.2 Iterations & Conditionals
- 4.2.1 Filter
- 4.2.2 ForEach
- 4.2.3 If Condition
- 4.2.4 Until
-
4.1 Général
-
Data Flow
- 1. Introduction aux Data Flow
-
2. Mapping Data Flow
-
2.1 Source et destination
- 2.1.1 Source
- 2.1.2 Sink
-
2.2 Multiples inputs/outputs
- 2.2.1 New Branch
- 2.2.2 Join
- 2.2.3 Conditional Split
- 2.2.4 Union
- 2.2.5 Lookup
- 2.2.6 Exists
-
2.3 Schema modifier
- 2.3.1 Derived Column
- 2.3.2 Aggregate
- 2.3.3 Surrogate Key
- 2.3.4 Select
- 2.3.5 Pivot
- 2.3.6 Window
-
2.4 Row modifier
- 2.4.1 Filter
- 2.4.2 Sort
- 2.4.3 Alter Row
-
2.5 Expression
- 2.5.1 Mathématique
- 2.5.2 Agrégations
- 2.5.3 Texte
- 2.5.4 Date/Temps
- 2.5.5 Type
- 2.5.6 Opérateur logique
- 2.5.7 Opérateur de comparaison
- 2.5.8 Hachage
- 2.5.9 Politique de mise à jour
- 2.5.10 Sélection de colonnes
- 2.5.11 Autre
-
2.6 Configuration avancée
- 2.6.1 Optimize
- 2.6.2 Inspect
- 2.6.3 Data Preview
-
2.1 Source et destination
-
3. Wrangling Data Flow
- 3.1 Initialisation
-
3.2 Interface Power Query
- 3.2.1 Liste des requêtes
- 3.2.2 Menu des transformations
- 3.2.3 Étapes
- 3.2.4 Formule
- 3.2.5 Prévisualisation
-
Développement ADF
-
1. Les bases
-
1.1 Convention de nommage
- 1.1.1 Azure Data Factory
- 1.1.2 Pipeline
- 1.1.3 Service lié et jeu de données
- 1.1.4 Activité
- 1.1.5 Mapping Data Flow
-
1.1 Convention de nommage
-
2. Premiers pipelines
- 2.1 Integration Runtimes Auto-Hébergé
-
2.2 Utilisation du portail Azure
- 2.2.1 Création d’un IR Auto-Hébergé
- 2.2.2 Copie de données
- 2.2.3 Débogage
- 2.2.4 Planification
-
2.3 Utilisation du SDK C#
- 2.3.1 Prérequis
- 2.3.2 Le client Data Factory Management
- 2.3.3 Création d’une Azure Data Factory
- 2.3.4 Création d’un IR Auto-Hébergé
- 2.3.5 Création des services liés
- 2.3.6 Création des jeux de données
- 2.3.7 Création du pipeline de copie
- 2.3.8 Déclenchement et planification
-
2.4 Utilisation de Template ARM
- 2.4.1 Prérequis
- 2.4.2 Création d’une Azure Data Factory
- 2.4.3 Création d’un IR Auto-Hébergé
- 2.4.4 Création des services liés
- 2.4.5 Création des jeux de données
- 2.4.6 Création du pipeline de copie
- 2.4.7 Déclenchement et planification
-
2.5 Utilisation de PowerShell
- 2.5.1 Prérequis
- 2.5.2 Création d’une Azure Data Factory
- 2.5.3 Création d’un IR Auto-Hébergé
- 2.5.4 Création des services liés
- 2.5.5 Création des jeux de données
- 2.5.6 Création du pipeline de copie
- 2.5.7 Déclenchement et planification
- 2.6 Quel outil choisir ?
-
1. Les bases
-
Administration et supervision
-
1. Administration d’Azure Data Factory
- 1.1 Droits
- 1.2 Identité managée
-
1.3 Gestion des environnements
- 1.3.1 Services liés
- 1.3.2 Déclencheur
- 1.4 Integration Runtimes
-
2. Supervision Azure Data Factory
-
2.1 Portail Azure
- 2.1.1 Tableau de bord
- 2.1.2 Exécution de pipeline
-
2.2 Azure Monitor
- 2.2.1 Les métriques
- 2.2.2 Journaux
- 2.2.3 Alertes
- 2.3 Azure Data Factory Analytics
-
2.4 Integration Runtimes
- 2.4.1 Azure
- 2.4.2 Auto-Hébergé
- 2.4.3 SSIS
-
2.1 Portail Azure
-
3. Gestion des coûts
- 3.1 Orchestration
- 3.2 Exécution
- 3.3 Data Flow
- 3.4 Opérations
- 3.5 Pipelines inactifs
-
1. Administration d’Azure Data Factory
-
Développement avancé
- 1. Présentation du chapitre
- 2. Les Templates
-
3. Architecture Data Warehouse
-
3.1 Cas d’étude
- 3.1.1 Contexte
- 3.1.2 Architecture
- 3.1.3 Mise en place de l’environnement
- 3.1.4 Accès aux données On-Premise
-
3.2 Approche ELT
- 3.2.1 Chargement SQL
- 3.2.2 Chargement CSV
- 3.2.3 Chargement Excel
- 3.2.4 Chargement API HTTP
- 3.2.5 Traitements des données
- 3.2.6 Gestion des erreurs
-
3.3 Approche ETL avec Mapping Data Flow
- 3.3.1 Integration Runtimes partagé
- 3.3.2 Collecte des données
- 3.3.3 Dimension géographie
- 3.3.4 Dimension client (SCD 2)
-
3.4 Approche ETL avec Wrangling Data Flow
- 3.4.1 Introduction
- 3.4.2 Collecte des données
- 3.4.3 Dimension géographie
- 3.5 Planification
- 3.6 ETL ou ELT, quelle approche choisir ?
-
3.1 Cas d’étude
-
4. Cas d’utilisation divers
-
4.1 Gestion de ressource Azure
- 4.1.1 Authentification AAD
- 4.1.2 Actualisation SSAS
- 4.1.3 Démarrage et pause de SQLDW
- 4.1.4 Authentification MSI
-
4.2 Envoyer des e-mails depuis Azure Data Factory
- 4.2.1 Logic App d’envoi de mail
- 4.2.2 Envoi d’e-mails depuis ADF
-
4.1 Gestion de ressource Azure
-
Intégration continue
- 1. Présentation CI/CD et Azure DevOps
- 2. Configuration d’un dépôt de code
- 3. Développement dans un contexte GIT
- 4. Déploiement continu
-
Conclusion
- 1. Développement Azure Data Factory
- 2. État de la solution
- 3. Perspective d’avenir
- Index
One comment
Je vais enfin pouvoir y voir plus clair dans cette usine à gaz 🙂