Want to create interactive content? It’s easy in Genially!

Get started free

C'est quoi la Data science ? (K-Means)

Antoine Gréa

Created on November 30, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

Microlearning: Enhance Your Wellness and Reduce Stress

Microlearning: Teaching Innovation with AI

Microlearning: Design Learning Modules

Video: Responsible Use of Social Media and Internet

Mothers Days Card

Momentum: First Operational Steps

Momentum: Employee Introduction Presentation

Transcript

C'est quoi la Data science ?

La Data Science, c'est l'art de transformer une trace dans la boue (Donnée) en une stratégie de survie (Connaissance).

Les Dangers de la Jungle

Variété

Volume

(L'Acquisition)

Accessibilité

Vélocité

Déplacez la lampe pour trouver les 4 données sauvages
Nettoye les données à grandes eaux

On a capturé l'animal, mais il est inexploitable. On doit le brosser lisser les valeursle soigner convertir les types enlever les saletés purger les corruptions

La Carte à Collectionner

Transformer un être vivant complexe en une ligne de tableau (Features)

Feature Engineering

K-Means

Taille

Poids

Pour récapituler ...

Acquisition & Data Wrangling

La Jungle & Le Brossage : Traiter les erreurs, remplir les trous et standardiser.

Le Carte à Jouer & Les Axes : Transformer des caractéristiques réelles (poids, vitesse) en variables statistiques (X, Y).

Feature Engineering

Les Zones sur la Carte : Regrouper les points proches sans connaître leurs espèces à l'avance.

Clustering (K-Means)

La Cible Mouvante

La Vélocité

Temps Réel / Flux : La donnée change trop vite (cours de la bourse, capteurs IoT), le temps de la capturer, elle est périmée. -> Le guépard court trop vite. Si mon appareil photo (mon script de scraping) est trop lent, la photo sera floue ou l'animal sera déjà parti.

Connaissance

Actionnable. Utile.

Ex: Les lions chassent ici → Je dois fuir

Information

Analysé. Contextualisé

Ex: C'est une trace de Lion

La Végétation Impénétrable

Le Volume Massif

Surcharge / Big Data : On a des Téraoctets de logs, c'est trop lourd à stocker ou à traiter. -> La forêt est trop dense. Il y a des millions d'arbres pour un seul animal intéressant. On ne peut pas tout couper, on doit savoir où regarder.

Donnée (Data)

Brut. Sans contexte.

Ex: Une trace au sol

L'animal devient une observation. Ses caractéristiques deviennent des variables. C'est ici qu'on définit notre 'Holotype' (individu moyen).

Les Épines et barrières

L'Inaccessibilité

Restrictions d'accès : APIs payantes, sites protégés contre le scraping (Captchas), RGPD. -> Certaines zones sont protégées par des ronces vénéneuses ou des gardes-chasse. On ne peut pas juste se servir, il faut des autorisations ou des outils spéciaux pour passer sans se blesser.

Le Camouflage

L'Hétérogénéité

Données Non-Structurées : On reçoit du texte, des images, du son, des fichiers PDF et des Excels en même temps. -> Les animaux se cachent. Le caméléon se confond avec la feuille. Certaines données ne ressemblent pas à des données (ex: un tweet, une image), elles sont camouflées dans le décor.