C'est quoi la Data science ?
La Data Science, c'est l'art de transformer une trace dans la boue (Donnée) en une stratégie de survie (Connaissance).
Les Dangers de la Jungle
Variété
Volume
(L'Acquisition)
Accessibilité
Vélocité
Déplacez la lampe pour trouver les 4 données sauvages
Nettoye les données à grandes eaux
On a capturé l'animal, mais il est inexploitable. On doit le brosser lisser les valeursle soigner convertir les types enlever les saletés purger les corruptions
La Carte à Collectionner
Transformer un être vivant complexe en une ligne de tableau (Features)
Feature Engineering
K-Means
Taille
Poids
Pour récapituler ...
Acquisition & Data Wrangling
La Jungle & Le Brossage : Traiter les erreurs, remplir les trous et standardiser.
Le Carte à Jouer & Les Axes : Transformer des caractéristiques réelles (poids, vitesse) en variables statistiques (X, Y).
Feature Engineering
Les Zones sur la Carte : Regrouper les points proches sans connaître leurs espèces à l'avance.
Clustering (K-Means)
La Cible Mouvante
La Vélocité
Temps Réel / Flux : La donnée change trop vite (cours de la bourse, capteurs IoT), le temps de la capturer, elle est périmée. -> Le guépard court trop vite. Si mon appareil photo (mon script de scraping) est trop lent, la photo sera floue ou l'animal sera déjà parti.
Connaissance
Actionnable. Utile.
Ex: Les lions chassent ici → Je dois fuir
Information
Analysé. Contextualisé
Ex: C'est une trace de Lion
La Végétation Impénétrable
Le Volume Massif
Surcharge / Big Data : On a des Téraoctets de logs, c'est trop lourd à stocker ou à traiter. -> La forêt est trop dense. Il y a des millions d'arbres pour un seul animal intéressant. On ne peut pas tout couper, on doit savoir où regarder.
Donnée (Data)
Brut. Sans contexte.
Ex: Une trace au sol
L'animal devient une observation. Ses caractéristiques deviennent des variables. C'est ici qu'on définit notre 'Holotype' (individu moyen).
Les Épines et barrières
L'Inaccessibilité
Restrictions d'accès : APIs payantes, sites protégés contre le scraping (Captchas), RGPD. -> Certaines zones sont protégées par des ronces vénéneuses ou des gardes-chasse. On ne peut pas juste se servir, il faut des autorisations ou des outils spéciaux pour passer sans se blesser.
Le Camouflage
L'Hétérogénéité
Données Non-Structurées : On reçoit du texte, des images, du son, des fichiers PDF et des Excels en même temps. -> Les animaux se cachent. Le caméléon se confond avec la feuille. Certaines données ne ressemblent pas à des données (ex: un tweet, une image), elles sont camouflées dans le décor.
C'est quoi la Data science ? (K-Means)
Antoine Gréa
Created on November 30, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Microlearning: Enhance Your Wellness and Reduce Stress
View
Microlearning: Teaching Innovation with AI
View
Microlearning: Design Learning Modules
View
Video: Responsible Use of Social Media and Internet
View
Mothers Days Card
View
Momentum: First Operational Steps
View
Momentum: Employee Introduction Presentation
Explore all templates
Transcript
C'est quoi la Data science ?
La Data Science, c'est l'art de transformer une trace dans la boue (Donnée) en une stratégie de survie (Connaissance).
Les Dangers de la Jungle
Variété
Volume
(L'Acquisition)
Accessibilité
Vélocité
Déplacez la lampe pour trouver les 4 données sauvages
Nettoye les données à grandes eaux
On a capturé l'animal, mais il est inexploitable. On doit le brosser lisser les valeursle soigner convertir les types enlever les saletés purger les corruptions
La Carte à Collectionner
Transformer un être vivant complexe en une ligne de tableau (Features)
Feature Engineering
K-Means
Taille
Poids
Pour récapituler ...
Acquisition & Data Wrangling
La Jungle & Le Brossage : Traiter les erreurs, remplir les trous et standardiser.
Le Carte à Jouer & Les Axes : Transformer des caractéristiques réelles (poids, vitesse) en variables statistiques (X, Y).
Feature Engineering
Les Zones sur la Carte : Regrouper les points proches sans connaître leurs espèces à l'avance.
Clustering (K-Means)
La Cible Mouvante
La Vélocité
Temps Réel / Flux : La donnée change trop vite (cours de la bourse, capteurs IoT), le temps de la capturer, elle est périmée. -> Le guépard court trop vite. Si mon appareil photo (mon script de scraping) est trop lent, la photo sera floue ou l'animal sera déjà parti.
Connaissance
Actionnable. Utile.
Ex: Les lions chassent ici → Je dois fuir
Information
Analysé. Contextualisé
Ex: C'est une trace de Lion
La Végétation Impénétrable
Le Volume Massif
Surcharge / Big Data : On a des Téraoctets de logs, c'est trop lourd à stocker ou à traiter. -> La forêt est trop dense. Il y a des millions d'arbres pour un seul animal intéressant. On ne peut pas tout couper, on doit savoir où regarder.
Donnée (Data)
Brut. Sans contexte.
Ex: Une trace au sol
L'animal devient une observation. Ses caractéristiques deviennent des variables. C'est ici qu'on définit notre 'Holotype' (individu moyen).
Les Épines et barrières
L'Inaccessibilité
Restrictions d'accès : APIs payantes, sites protégés contre le scraping (Captchas), RGPD. -> Certaines zones sont protégées par des ronces vénéneuses ou des gardes-chasse. On ne peut pas juste se servir, il faut des autorisations ou des outils spéciaux pour passer sans se blesser.
Le Camouflage
L'Hétérogénéité
Données Non-Structurées : On reçoit du texte, des images, du son, des fichiers PDF et des Excels en même temps. -> Les animaux se cachent. Le caméléon se confond avec la feuille. Certaines données ne ressemblent pas à des données (ex: un tweet, une image), elles sont camouflées dans le décor.