Masterclass · Data Engineering

SQL & Data
Warehousing

Comprendre comment passer de données opérationnelles dispersées à une base analytique exploitable

OLTP → OLAP SQLite · Streamlit · Docker

Objectifs du module

Ce que vous allez pouvoir faire

01
Lire une architecture data

Identifier les sources, les flux et le rôle d'une base analytique.

02
Modéliser pour analyser

Distinguer faits, dimensions et schéma en étoile.

03
Interroger avec SQL

Extraire, joindre, agréger et contextualiser des indicateurs.

Hors périmètre : MLOps Environnement : aperçu Docker
Masterclass SQL & Data Warehousing · Data Engineering

Partie 1

Penser comme un Data Engineer

La donnée devient utile quand elle circule, se transforme et reste fiable.

Masterclass SQL & Data Warehousing · Data Engineering

Data Engineering

La chaîne de valeur

Collecte

Capturer des données depuis applications, fichiers, API ou logs.

Stockage

Rendre les données accessibles, sécurisées et historisées.

Transformation

Nettoyer, encoder, joindre et préparer les données pour l'analyse.

Ce qui change tout

Le Data Engineer ne produit pas seulement des tables : il construit des chemins fiables entre les systèmes et les usages analytiques.

Masterclass SQL & Data Warehousing · Data Engineering

Data Warehousing

Lake, Warehouse, Mart

Lake
Données brutes

Grand volume, formats variés, usage exploratoire ou préparation amont.

DW
Analyse structurée

Stockage optimisé pour requêtes, indicateurs et données semi-structurées.

Mart
Vue métier

Sous-ensemble adapté aux besoins d'un service ou d'un domaine.

Masterclass SQL & Data Warehousing · Data Engineering

Besoins d'entreprise

OLTP versus OLAP

OLTP · opérations
  • Transactions traitées en temps réel
  • Bases fréquemment mises à jour
  • Exemples : commande, sinistre, inscription
OLAP · analyse
  • KPI construits à partir des opérations
  • Données historisées et agrégées
  • Exemples : ventes, visites, souscriptions
Point clé

Les bases analytiques sont construites à partir des bases opérationnelles. Le passage OLTP → OLAP est le coeur du data warehousing.

Masterclass SQL & Data Warehousing · Data Engineering

Modèle relationnel

Tables et relations

Trois objectifs
  • Des données valides
  • Des données faciles à retrouver
  • Une base que plusieurs équipes peuvent alimenter

On sépare les données en tables, puis on représente leurs relations avec des identifiants.

Clientsclient_idProduitsproduct_idCommandesclient_id · product_id
Masterclass SQL & Data Warehousing · Data Engineering

Modélisation analytique

Schéma en étoile

FaitscommandesClientsProduitsDatesCanaux
Table de faits

Le processus opérationnel à mesurer : commandes, visites, souscriptions.

Tables de dimensions

Le contexte qui rend les statistiques lisibles : client, produit, date, canal.

Masterclass SQL & Data Warehousing · Data Engineering

Partie 2

Construire le flux

Extraire, transformer, charger : le passage de l'opérationnel à l'analytique.

Masterclass SQL & Data Warehousing · Data Engineering

Pipeline ETL

Le modèle opérationnel

E
Extract

Identifier les sources et extraire vers une zone intermédiaire.

T
Transform

Encoder, nettoyer, joindre et structurer les données.

L
Load

Charger vers la base cible pour les requêtes analytiques.

Q
Quality

Contrôler exactitude, cohérence et fiabilité avant usage.

Démo du repo

Le flux peut être montré avec SQLite pour la base, Streamlit pour l'interface et Docker pour figer l'environnement.

Masterclass SQL & Data Warehousing · Data Engineering

SQL

Interroger la base

Commandes essentielles
SELECTextraire INSERTajouter UPDATEmodifier DELETEsupprimer CREATE TABLEstructurer JOINrelier
Requête analytique
SELECT d.month, SUM(f.amount) AS ca
FROM fact_orders f
JOIN dim_date d ON f.date_id = d.id
GROUP BY d.month
ORDER BY d.month;

SQL permet de passer d'une base relationnelle à une question métier mesurable.

Masterclass SQL & Data Warehousing · Data Engineering

Jointures

Donner du contexte

Commandesorder_idclient_idamountClientsclient_idsegmentcountryJOIN
Sans jointure

Une commande reste un événement isolé.

Avec jointure

On sait quel segment, pays ou produit explique le résultat.

Masterclass SQL & Data Warehousing · Data Engineering

Environnement

Pourquoi Docker ici

1
Même runtime

La démo démarre pareil sur Windows, macOS ou Linux.

2
Dépendances isolées

Streamlit, drivers et scripts restent dans un conteneur.

3
Déploiement simple

Une commande lance l'application et la base SQLite.

On garde cette partie comme contexte d'environnement, sans entrer dans le cycle de vie MLOps.

Masterclass SQL & Data Warehousing · Data Engineering

Atelier

Démo Data Engineering

Fil rouge

Charger des données opérationnelles dans SQLite, les transformer, puis exposer des KPI dans Streamlit.

01

Créer les tables sources et dimensions.

02

Écrire les requêtes de jointure et d'agrégation.

03

Afficher les KPI et filtres métier dans Streamlit.

Masterclass SQL & Data Warehousing · Data Engineering

Synthèse

Ce qu'il faut retenir

Architecture mentale
  • OLTP alimente OLAP
  • Le warehouse structure l'analyse
  • Les dimensions donnent le contexte
Compétence pratique
  • Modéliser les faits et dimensions
  • Construire un ETL lisible
  • Questionner les données avec SQL
Masterclass SQL & Data Warehousing · Data Engineering
Module terminé

Place à la démo

Docker lance l'environnement, SQLite porte les données, Streamlit rend les indicateurs visibles.