Want to create interactive content? It’s easy in Genially!

Get started free

Les données structurées

Laure Le Moigne

Created on November 2, 2021

Start designing with a free template

Discover more than 1500 professional designs like these:

Interactive Scoreboard

Interactive Bingo

Interactive Hangman

Secret Code

Branching Scenario: Academic Ethics and AI Use

The Fortune Ball

Repeat the Sequence Game

Transcript

Bonjour! Lisez bien les consignes afin de suivre le plan de travail de ce thème.

THEME : DONNÉES STRUCTURÉES

consignes :

Pour chaque chapitre- lire le support de cours - visionner les vidéos proposées - répondre aux questions correspondantes - réaliser les activités proposées

Ici, votre fiche d'activité

Support

de cours

SUPPORT DE COURS

Le vocabulaire à retenir

Ch2

Les supports de stockage

ch4

Formats des données

START

GOAL

Ch3

Caractéristiques et représentation des données

ch5

Métadonnées

L'ère du big Data

Ch1

1. L'ÈRE DU BIG DATA

DONNÉE : valeur attribuée à une entité pour la décrire. Il peut s’agir d’un objet, d’une personne, d’un événement ou par exemple d’un numéro de téléphone

Nos activités (écoute de musique en ligne, partage d’images, capteurs d’objets connectés, etc.) génèrent la circulation d’énormes quantités de données. La quantité de données se mesure désormais en zetta-octets (1021 octets) et même en yota-octets (1024 octets). Le terme Big Data, ou données massives, désigne l’énorme quantité de données récoltées actuellement dans le monde. Il répond à trois principes résumés par les « trois V » de l’analyse Doug Laney :- Le Volume de données de plus en plus conséquent ;- La Variété des données ;- La Vélocité qui désigne le fait que ces données doivent être vite produites, récoltées et analysées en temps réel.

LES DONNÉES PERSONNELLES ET LE RGPD

Une donnée est personnelle si elle se rapporte à une personne identifiable. Elle peut être de différentes natures, textuelle ou non ( nom, numéro de téléphone, photographie, goût musical, opinion politique, etc.). Elle doit permettre d’identifier une personne directement grâce à un identifiant, ou indirectement, par recoupement de plusieurs informations.

Les données peuvent être renseignées par un humain, comme lorsque nous créons un compte sur un site, ou être capturées et enregistrées par un dispositif matériel, comme les caméras de surveillance associées à un logiciel.

Les données issues de l’utilisation des outils numériques (navigateurs Web, réseaux sociaux, etc.) sont le nouvel or noir de toute une partie de l’industrie du numérique, qui les utilise principalement pour cibler la publicité.

Lorsque nous effectuons des actions sur Internet, nous y laissons, d’une manière ou d’une autre, des données personnelles. Face aux risques de mauvaises utilisations, l’Europe a mis en place, en 2018, le Règlement Générale de la Protection des Données (RGPD). Ce texte oblige tout organisme qui collecte des données à prouver la nécessité de cette collecte, à protéger celles recueillies et à être plus transparent sur leur utilisation.

Le RGPD concerne toute entreprise sur le sol européen et toute donnée sur un citoyen. Avec ce règlement, les données issues des utilisations de Facebook, d’Instagram ou encore de WhatsApp sont plus protégées qu’avant.

La CNIL (Commission Nationale de l’Informatique et des Libertés) aide les particuliers à avoir une maîtrise de leurs données personnelles et elle accompagne les entreprises dans leur mise en conformité avec la loi.

L'OPEN DATA

Les sites Open Data sont des sites qui recueillent et mettent à disposition de tous des données ouvertes pour être réutilisées sous forme de cartes, de graphiques, d’applications internet, etc. pour une meilleure compréhension et analyse. Il s'agit d'une source d'informations fiable. La mise à disposition des données publiques est une obligation légale.

2. LES SUPPORTS DE STOCKAGE ET L'IMPACT SUR L'ENVIRONNEMENT

L’augmentation du volume de données produites a provoqué l’apparition de nouvelles solutions de stockage et de partage de ressources.

Les fichiers sont toujours stockés sur des supports magnétiques, par exemple un disque dur d’ordinateur, une clé USB, une carte de téléphone portable, une clé USB, etc. qui permettent un stockage local. Ces supports peuvent subir des altérations d’où l’importance de faire des copies.

Les applications font de plus en plus souvent appel au cloud, un système permettant l’accès en ligne à des applications, un espace de stockage et d’autres ressources : des entreprises mettent à la disposition des clients des machines permettant de stocker des données accessibles à tout moment, de n’importe quel endroit

Ces machines sont généralement regroupées dans des data centers (centre de données : bâtiment qui regroupe un grand nombre de serveurs). Les volumes et l’importance des données traitées nécessitent une grande fiabilité et une sécurisation des serveurs.

L’espace de données dont dispose un utilisateur peut varier et devenir illimités selon les besoins mais il devient alors payant. Il est accessible via Internet, depuis n’importe quel ordinateur, tablette ou téléphone, n’importe où dans le Monde.

IMPACTS SUR L'ENVIRONNEMENT

Les activités numériques permettent des économies d’énergie mais elles engloutissent près de 10% de la consommation électrique mondiale.

En 2015, les data centers ont consommé 416 TWh (teraWattHeure) ; cela représente presque la consommation d’un pays comme la France. En 2030, le secteur numérique sera le plus gros consommateur électrique de la planète.

Par exemple, l’envoi d’un courriel consomme autant qu’une ampoule allumée d’une demi-heure, les visionnages en streaming du clip Gangnam style ont consommé l’équivalent de la production annuelle d’une centrale. Cette consommation qui explose est concentrée dans les pays les plus riches. Par ailleurs, la fabrication des objets connectés pollue et consomme beaucoup de ressources limitées.

Les plus grandes entreprises gérant le cloud commencent à modifier leurs pratiques et à produire leur propre énergie renouvelable pour faire fonctionner les centres de données. Les techniques employées sont variées : panneaux solaires, parcs éoliens, systèmes micro-hydroélectriques…

3. LES CARACTÉRISTIQUES DES DONNÉES ET LEUR REPRÉSENTATION

Pour retrouver et traiter des données facilement, on les organise sous forme de tableau appelé « table de données » : les données sont alors dites "structurées".

Une collection regroupe des objets partageant les même descripteurs.

Un objet est donné par la liste des valeurs de tous ses descripteurs.

Pour faciliter le traitement et l’analyse des données recueillies, elles peuvent être représentées sous forme de courbes, graphiques, diagrammes circulaires…

Il existe des logiciels appelés tableurs permettant à la fois de structurer les données dans des tableaux, de les traiter et de les analyser en utilisant leurs représentations graphiques.

4. LE FORMAT DES DONNÉES

Le format des données correspond à la manière dont celles-ci sont codées (le codage est fait sous forme de bits, c’est-à-dire sous forme de chiffre binaire 0 ou 1).

Les informations composant les données sont de différentes natures (textes, sons, images, fichiers exécutables…) et afin de faciliter leur usage, elles sont structurées puis stockées dans un fichier ayant une extension spécifique.

Il devient alors possible d’échanger des données structurées entre différents programmes informatiques et logiciels : c’est l’interopérabilité.

Il existe trois formats principaux pour représenter des données en tableau.

Ils se basent sur un fichier texte (les données sont représentées par des suites de caractères) :

- Le format CSV (Comma-Separed Values) se présente sous forme de table. La première ligne contient la liste des descripteurs, séparés par un caractère (point-virgule, virgule, tabulation…). Chaque ligne correspond à un objet. Format simple à lire et à écrire et peu gourmand en mémoire mais rigide (tous les descripteurs doivent être renseignés).

- Le format JSON (JavaScript Object Notation) associe les données avec une étiquette (descripteur) sous forme d’une liste. Format facile à lire et à écrire et non rigide.

- Le format XML (Extensible Markup Language) utilise des balises html(mot entre < et >) pour organiser les informations en sous-éléments. Format qui nécessite de longues lignes de code mais qui n’est pas rigide. C’est le format le plus rapide à traiter par les machines.

5. LES MÉTADONNÉES

Les métadonnées sont la carte d’identité d’un document : elles constituent un ensemble structuré d’informations décrivant une ressource.

Lorsqu’on recherche un ouvrage dans une médiathèque, il est possible de le retrouver en le recherchant par le nom de l’auteur, le titre, la catégorie… Ce sont les métadonnées servant au rangement structuré des livres d’une bibliothèque.

Les métadonnées se trouvent dans les propriétés d’un fichier (clic droit sur le nom du fichier), elles peuvent être modifiées ou supprimées si on veut protéger ses données personnelles lors du partage du fichier.

VOCABULAIRE

Format : type de fichier informatique

Métadonnée : informations relatives à un fichier, image, son, vidéo, etc.

Cloud Computing : utilisation de ressources situées dans des serveurs informatiques distants

Descripteur : élément servant à décrire une donnée

Donnée: valeur pouvant prendre plusieurs formes (nombre, caractères) et permettant de décrire un objet.

Donnée personnelle: information indentifiant une personne

Traitement de données:ensemble d'actions permettant d'extraire de l'information

Requête texte composé de mots-clés permettant une action sur des données

Table de données : données organisées en tableau

Objet : élément d'une table de données

Valeur d'un descripteur: valeur d'une caractéristique d'un objet