Want to create interactive content? It’s easy in Genially!

Get started free

GTSO_Donnees_FicheDonnesVolumineuses_avril2025_V3

ENPC

Created on February 24, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

Practical Presentation

Smart Presentation

Essential Presentation

Akihabara Presentation

Pastel Color Presentation

Modern Presentation

Relaxing Presentation

Transcript

Comment gérer des données de recherche volumineuses ?

Démarrer

Guide proposé par le GTSO Données Couperin Mai 2025

Cette fiche s’adresse aux personnels d’appui amenés à accompagner les chercheurs sur les questions de données volumineuses.

1. Définition

Il est difficile de définir cette notion tant elle dépend de la discipline et des types de données produits. Nous pouvons néanmoins convenir qu’il s’agit d’un ensemble de données qui peut atteindre ou dépasser la capacité des moyens traditionnels de gestion et d’analyse des données (espace de stockage, bande passante, etc.). Nous pouvons nous baser sur les critères suivants :

  • la quantité de données allant de plusieurs dizaines de gigaoctets aux téraoctets et au-delà ;
  • le temps important de téléchargement.
Les données peuvent parfois provenir de sources multiples et se présenter sous différents formats (textes, images, vidéos, données structurées et non structurées).

1. Définition

2. Partager

3. Spécificité Recherche Data Gouv

4. Recommandations, ressources

2. Comment partager un jeu de données volumineux ? 1/2

La mise à disposition d’un jeu de données volumineux peut s’avérer difficile du fait de sa spécificité et des contraintes techniques imposées par des solutions de partage. Cette liste de conseils non exhaustive a pour but de faciliter le processus d’ouverture d’un jeu de données de taille très importante (~ 500 Go à plusieurs To et plus) :

  • définir de quel(s) type(s) de données il s’agit et respecter les contraintes liées à la typologie
(voir la question “quels types de données est-ce que je produis ?” [1]dans la FAQ)
  • trier des données, définir des critères de sélection pertinents au contexte comme par exemple le coût de leur obtention, la facilité de leur reproduction, en particulier pour les types de données les plus volumineux (vidéos, images, …)
  • vérifier si un entrepôt thématique de confiance[2] existe et s’il accepte des jeux de données volumineux

1. Définition

2. Partager

3. Spécificité Recherche Data Gouv

4. Recommandations, ressources

[1] https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/ [2] https://recherche.data.gouv.fr/fr/entrepots

2. Comment partager un jeu de données volumineux ? 2/2

  • envisager l’option Recherche Data Gouv[3] si aucun entrepôt thématique ne correspond à votre domaine de recherche (voir partie 3 : Spécificité du dépôt dans Recherche Data Gouv).
  • s’adresser à l’atelier de la donnée de proximité[4] pour étudier la possibilité de création du lien avec l’un des mésocentres
  • vérifier l’offre de service de sa Direction des Systèmes d’Information pour identifier des outils efficaces et sécurisés pour le transfert de données volumineuses entre machines
ex : service Renater[5] (max 100 Go par dépot)ex : s’adresser aux services de la DSI en cas de besoin de solution personnalisée
  • vérifier et budgétiser le coût des espaces de partage, certains entrepôts peuvent facturer la prestation de mise à disposition d’un jeu de données en fonction de sa taille comme par exemple : https://publicneuro.eu/upload.html [6]

1. Définition

2. Partager

3. Spécificité Recherche Data Gouv

4. Recommandations, ressources

[3] https://recherche.data.gouv.fr/fr [4] https://recherche.data.gouv.fr/fr/ateliers-de-la-donnee [5] https://services.renater.fr/groupware/filesender/index [6] https://publicneuro.eu/upload.html

3. Spécificité du dépôt dans Recherche Data Gouv

La taille :

  • 50 Go par fichier. Le nombre de fichiers qu’il est possible de téléverser via l’interface utilisateur est limité à 1000 fichiers par téléversement. Au-delà, il faudra utiliser une API Dataverse[7] ou bien l’outil DVUploader[8]
  • la taille de l’espace institutionnel allouée par défaut : 5To max mais négociable et modifiable si besoin auprès des administrateurs de Recherche Data Gouv
  • pas de modèle économique connu à ce jour
  • exemple d’un jeu de données [9] de ~ 1To disponible sur Recherche Data Gouv.
Condition émise par Recherche Data Gouv : si un jeu de données est très volumineux il faut contacter les administrateurs de votre espace institutionnel pour un accompagnement personnalisé. Pour aller plus loin : voir ci-après le tableau Comment puis-je stocker et partager un jeu de données volumineux ? Étapes - Questions à se poser - Recommandations & ressources utiles

1. Définition

2. Partager

3. Spécificité Recherche Data Gouv

4. Recommandations, ressources

[7] https://guides.dataverse.org/en/latest/api/index.html [8] https://recherche.data.gouv.fr/fr/categorie/33/guide/dv-uploader [9] https://doi.org/10.57745/XWDCT4

4. Comment puis-je stocker et partager un jeu de données volumineux ? Recommandations et ressources utiles

2. COLLECTER PRODUIRE

3. STOCKER

1. PLANIFIER

4. TRAITER ANALYSER

1. PLANIFIER

1. Définition

2. Partager

3. Tableau

3. SpécificitéRecherche Data Gouv

6. ARCHIVER

4. Recommandations, ressources

5. PARTAGER OUVRIR

7. RÉUTILISER DÉCOUVRIR

Retour

Questions à se poser

> Quelle est la volumétrie envisagée des données qui seront partagées à la fin du projet (fourchette ouvolume initial avec taux de croissance estimé) ? > De quels outils vais je avoir besoin ? > Quels sont les outils d’accès facilité pour le téléchargement et la mise à disposition au sein du projet ? > De quel budget vais je avoir besoin pour gérer, stocker et partager un important volume de données ? > Comment estimer le coût de stockage et éventuellement le coût de l’archivage pérenne (données précieuses, patrimoniales… cf. archiver ) ? Estimation en fonction de la durée d’archivage.

Étape

Recommandations, ressources utiles

1. PLANIFIER

1. Définition

Penser à vous référer à un projet précédent similaire s’il y en a un. Formaliser les réponses à ces questions au sein du plan de gestion de données.

2. Partager

2. Partager

3. Tableau

3. Spécificité

3. SpécificitéRecherche Data Gouv

4. Tableau des étapes

4. Recommandations, ressources

4. Recommandations, ressources

Retour

Questions à se poser

Étape

Est-il possible de réutiliser les données qui existent plutôt que de collecter ou de créer des nouvelles données de forte volumétrie ? Lors de la collecte et du stockage pensez aux bonnes pratiques pour réduire la taille des jeux de données dans la mesure du possible : > Quelle est dans votre cas la résolution la plus optimale pour les images ? > Parmi les formats ouverts, quels sont ceux qui sont nativement compressés ?

Recommandations, ressources utiles

2. COLLECTER PRODUIRE

Rechercher des données [10] (fiche DoRANum)ou Rechercher des jeux de données [11] (fiche Cirad) Pensez à utiliser des API pour accéder aux données de forte volumétrie.

1. Définition

2. Partager

3. Tableau

3. Tableau

3. SpécificitéRecherche Data Gouv

4. Recommandations, ressources

[10] https://doranum.fr/acces-visualisation/rechercher-donnees_10_13143_9k8k-s875/ [11] https://coop-ist.cirad.fr/gerer-des-donnees/trouver-des-jeux-de-donnees-via-des-bases/1-l-interet-des-jeux-de-donnees

Retour

Questions à se poser

Recommandations, ressources utiles

Étape

Pour un gros volume de données : > À qui dois-je donner accès (consultation, modification) aux données en cours du projet ? > Certaines données seront-elles sensibles ? En accès restreint ? > Quelles solutions pour stocker mes données (bases de données, stockage déporté, cloud…) ? > À quelle fréquence ai-je besoin d’avoir accès aux données (disponibilité) ? > Comment concilier la règle de sauvegarde 3.2.1 [12] et de sobriété numérique[13]?

Liste des mésocentres Fr [14] (calcul et stockage) Consulter la direction informatique de votre établissement ou l’atelier de la donnée en proximité pour connaître les solutions proposées. Se renseigner auprès des centres de référence thématiques sur les outils mis à disposition. Par exemple, Huma-Num Box [15] d’Huma-Num.

3. STOCKER

1. Définition

2. Partager

3. Tableau

3. SpécificitéRecherche Data Gouv

4. Recommandations, ressources

[12] https://doranum.fr/stockage-archivage/la-sauvegarde-3-2-1_10_13143_1gdh-tk61/ [13] https://ecoresponsable.numerique.gouv.fr/docs/2021/impact-bonnes-pratiques-numeriques-ecoresponsables.pdf [14] https://calcul.math.cnrs.fr/pages/mesocentres_en_france.html [15] https://cat.opidor.fr/index.php/Huma-Num_Box

Retour

Questions à se poser

Étape

Recommandations, ressources utiles

4. TRAITER ANALYSER

COSTANZO, Lucia, 2023. Le nettoyage de données dans le processus de gestion des données de recherche. [en ligne]. 4 décembre 2023. DOI 10.5206/RHBN7291. [Consulté le 3 avril 2025]. in: La gestion des données de recherche dans le contexte canadien[18]

> Existe-t-il une puissance de calcul et des méthodes d’analyse ou outils adéquats pour ces volumes de données ? > Quels sont les outils permettant de nettoyer ses données (OpenRefine[16], Archifiltre[17]) etc. ?

1. Définition

2. Partager

3. Tableau

3. Tableau

3. SpécificitéRecherche Data Gouv

4. Recommandations, ressources

[16] https://ecampusontario.pressbooks.pub/gdrcanada/chapter/nettoyage-de-donnees-dans-le-processus-de-gestion-des-donnees-de-recherche/[17] https://openrefine.org/ [18] https://archifiltre.fabrique.social.gouv.fr/

Retour

Questions à se poser

Étape

Recommandations, ressources utiles

> Est-ce que les données sont soumises à une exception légale d’ouverture ? > Parmi toutes les données produites, quelles sont celles qui viennent valider les résultats de vos recherches ? > Est-il possible d’effectuer un nouveau tri et une sélection de données pour ne garder que la partie essentielle au partage ? > Quel entrepôt est adapté à ma discipline et à la volumétrie de mes données ? > Est-il possible de compresser les données sans perte (partielle ou totale) sur le long terme ? Sinon discuter au sein de votre communauté pour décider si la compression avec perte est acceptable. > Est-il possible de découper le jeu de données en sous-ensembles plus faciles à télécharger ?

5. PARTAGER OUVRIR

Liste Entrepôts thématiques[19]Si aucun entrepôt thématique ne convient, il est possible soit : > de déposer votre jeu de données dans un espace institutionnel ou dans l'espace générique de Recherche Data Gouv (voir « Spécificité du dépôt dans Recherche Data Gouv ») > de créer une notice signalétique dans l’entrepôt Recherche Data Gouv et ajouter le lien vers le stockage sur un serveur interne mais ouvert à l’extérieur en consultation. Il convient de s’assurer de la durée de maintenance de cet espace. Vous pouvez également contacter l’Atelier de la donnée [20] présent sur votre territoire qui vous aidera à trouver une solution. L’utilisation d’une partie d’espace proposé par les mésocentres est possible dans certains lieux.

1. Définition

2. Partager

3. Tableau

3. Spécificité Recherche Data Gouv

4. Recommandations, ressources

[19] https://recherche.data.gouv.fr/fr/entrepots[20] https://recherche.data.gouv.fr/fr/ateliers-de-la-donnee

Retour

Questions à se poser

Étape

Toutes les données du projet ont-elles vocation à être archivées de manière pérenne ? Faut-il conserver les données brutes ? De quel espace de stockage faut-il disposer sur le long terme ? Qui le fournira ? Quel lieu d’archivage est susceptible d’accueillir les gros volumes de données ?

Recommandations, ressources utiles

6. ARCHIVER

> Stockage et archivage : fiche synthétique (DORANum)[19] > Fixer des durées de conservation en lien avec les archivistes. Il est également conseillé de mettre en place à l'échelle de l'unité ou du projet un "référentiel d'archivage" également appelé "tableau de gestion" (cf. Référentiel de gestion des archives de la recherche, section Aurore de l'AAF)[20]

1. Définition

2. Partager

3. Tableau

3. SpécificitéRecherche Data Gouv

4. Recommandations, ressources

[19] https://doranum.fr/stockage-archivage/stockage-et-archivage-fiche-synthetique_10_13143_0c4b-2743/[20] https://www.archivistes.org/IMG/pdf/referentiel_recherche_intro_septembre2012_corrige_.pdf?2969/5f6fab86ece4147bb63a5425ca0ee5e8fcb3ab43c3d94b34c736d67f6188bd42

Retour

Étape

7. RÉUTILISER DÉCOUVRIR

Questions à se poser

1. Définition

> Quelle partie des données (dérivées, brutes, code logiciel) sera rendue accessible ? > Comment un nombre potentiellement important de résultats sera-t-il affiché ? > Quels seront les outils mis à disposition pour faciliter la réutilisation des données ?

2. Partager

3. SpécificitéRecherche Data Gouv

4. Recommandations, ressources