Want to create interactive content? It’s easy in Genially!
GTSO_Donnees_FicheDonnesVolumineuses_avril2025_V3
ENPC
Created on February 24, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Practical Presentation
View
Smart Presentation
View
Essential Presentation
View
Akihabara Presentation
View
Pastel Color Presentation
View
Modern Presentation
View
Relaxing Presentation
Transcript
Comment gérer des données de recherche volumineuses ?
Démarrer
Guide proposé par le GTSO Données Couperin Mai 2025
Cette fiche s’adresse aux personnels d’appui amenés à accompagner les chercheurs sur les questions de données volumineuses.
1. Définition
Il est difficile de définir cette notion tant elle dépend de la discipline et des types de données produits. Nous pouvons néanmoins convenir qu’il s’agit d’un ensemble de données qui peut atteindre ou dépasser la capacité des moyens traditionnels de gestion et d’analyse des données (espace de stockage, bande passante, etc.). Nous pouvons nous baser sur les critères suivants :
- la quantité de données allant de plusieurs dizaines de gigaoctets aux téraoctets et au-delà ;
- le temps important de téléchargement.
1. Définition
2. Partager
3. Spécificité Recherche Data Gouv
4. Recommandations, ressources
2. Comment partager un jeu de données volumineux ? 1/2
La mise à disposition d’un jeu de données volumineux peut s’avérer difficile du fait de sa spécificité et des contraintes techniques imposées par des solutions de partage. Cette liste de conseils non exhaustive a pour but de faciliter le processus d’ouverture d’un jeu de données de taille très importante (~ 500 Go à plusieurs To et plus) :
- définir de quel(s) type(s) de données il s’agit et respecter les contraintes liées à la typologie
- trier des données, définir des critères de sélection pertinents au contexte comme par exemple le coût de leur obtention, la facilité de leur reproduction, en particulier pour les types de données les plus volumineux (vidéos, images, …)
- vérifier si un entrepôt thématique de confiance[2] existe et s’il accepte des jeux de données volumineux
1. Définition
2. Partager
3. Spécificité Recherche Data Gouv
4. Recommandations, ressources
[1] https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/ [2] https://recherche.data.gouv.fr/fr/entrepots
2. Comment partager un jeu de données volumineux ? 2/2
- envisager l’option Recherche Data Gouv[3] si aucun entrepôt thématique ne correspond à votre domaine de recherche (voir partie 3 : Spécificité du dépôt dans Recherche Data Gouv).
- s’adresser à l’atelier de la donnée de proximité[4] pour étudier la possibilité de création du lien avec l’un des mésocentres
- vérifier l’offre de service de sa Direction des Systèmes d’Information pour identifier des outils efficaces et sécurisés pour le transfert de données volumineuses entre machines
- vérifier et budgétiser le coût des espaces de partage, certains entrepôts peuvent facturer la prestation de mise à disposition d’un jeu de données en fonction de sa taille comme par exemple : https://publicneuro.eu/upload.html [6]
1. Définition
2. Partager
3. Spécificité Recherche Data Gouv
4. Recommandations, ressources
[3] https://recherche.data.gouv.fr/fr [4] https://recherche.data.gouv.fr/fr/ateliers-de-la-donnee [5] https://services.renater.fr/groupware/filesender/index [6] https://publicneuro.eu/upload.html
3. Spécificité du dépôt dans Recherche Data Gouv
La taille :
- 50 Go par fichier. Le nombre de fichiers qu’il est possible de téléverser via l’interface utilisateur est limité à 1000 fichiers par téléversement. Au-delà, il faudra utiliser une API Dataverse[7] ou bien l’outil DVUploader[8]
- la taille de l’espace institutionnel allouée par défaut : 5To max mais négociable et modifiable si besoin auprès des administrateurs de Recherche Data Gouv
- pas de modèle économique connu à ce jour
- exemple d’un jeu de données [9] de ~ 1To disponible sur Recherche Data Gouv.
1. Définition
2. Partager
3. Spécificité Recherche Data Gouv
4. Recommandations, ressources
[7] https://guides.dataverse.org/en/latest/api/index.html [8] https://recherche.data.gouv.fr/fr/categorie/33/guide/dv-uploader [9] https://doi.org/10.57745/XWDCT4
4. Comment puis-je stocker et partager un jeu de données volumineux ? Recommandations et ressources utiles
2. COLLECTER PRODUIRE
3. STOCKER
1. PLANIFIER
4. TRAITER ANALYSER
1. PLANIFIER
1. Définition
2. Partager
3. Tableau
3. SpécificitéRecherche Data Gouv
6. ARCHIVER
4. Recommandations, ressources
5. PARTAGER OUVRIR
7. RÉUTILISER DÉCOUVRIR
Retour
Questions à se poser
> Quelle est la volumétrie envisagée des données qui seront partagées à la fin du projet (fourchette ouvolume initial avec taux de croissance estimé) ? > De quels outils vais je avoir besoin ? > Quels sont les outils d’accès facilité pour le téléchargement et la mise à disposition au sein du projet ? > De quel budget vais je avoir besoin pour gérer, stocker et partager un important volume de données ? > Comment estimer le coût de stockage et éventuellement le coût de l’archivage pérenne (données précieuses, patrimoniales… cf. archiver ) ? Estimation en fonction de la durée d’archivage.
Étape
Recommandations, ressources utiles
1. PLANIFIER
1. Définition
Penser à vous référer à un projet précédent similaire s’il y en a un. Formaliser les réponses à ces questions au sein du plan de gestion de données.
2. Partager
2. Partager
3. Tableau
3. Spécificité
3. SpécificitéRecherche Data Gouv
4. Tableau des étapes
4. Recommandations, ressources
4. Recommandations, ressources
Retour
Questions à se poser
Étape
Est-il possible de réutiliser les données qui existent plutôt que de collecter ou de créer des nouvelles données de forte volumétrie ? Lors de la collecte et du stockage pensez aux bonnes pratiques pour réduire la taille des jeux de données dans la mesure du possible : > Quelle est dans votre cas la résolution la plus optimale pour les images ? > Parmi les formats ouverts, quels sont ceux qui sont nativement compressés ?
Recommandations, ressources utiles
2. COLLECTER PRODUIRE
Rechercher des données [10] (fiche DoRANum)ou Rechercher des jeux de données [11] (fiche Cirad) Pensez à utiliser des API pour accéder aux données de forte volumétrie.
1. Définition
2. Partager
3. Tableau
3. Tableau
3. SpécificitéRecherche Data Gouv
4. Recommandations, ressources
[10] https://doranum.fr/acces-visualisation/rechercher-donnees_10_13143_9k8k-s875/ [11] https://coop-ist.cirad.fr/gerer-des-donnees/trouver-des-jeux-de-donnees-via-des-bases/1-l-interet-des-jeux-de-donnees
Retour
Questions à se poser
Recommandations, ressources utiles
Étape
Pour un gros volume de données : > À qui dois-je donner accès (consultation, modification) aux données en cours du projet ? > Certaines données seront-elles sensibles ? En accès restreint ? > Quelles solutions pour stocker mes données (bases de données, stockage déporté, cloud…) ? > À quelle fréquence ai-je besoin d’avoir accès aux données (disponibilité) ? > Comment concilier la règle de sauvegarde 3.2.1 [12] et de sobriété numérique[13]?
Liste des mésocentres Fr [14] (calcul et stockage) Consulter la direction informatique de votre établissement ou l’atelier de la donnée en proximité pour connaître les solutions proposées. Se renseigner auprès des centres de référence thématiques sur les outils mis à disposition. Par exemple, Huma-Num Box [15] d’Huma-Num.
3. STOCKER
1. Définition
2. Partager
3. Tableau
3. SpécificitéRecherche Data Gouv
4. Recommandations, ressources
[12] https://doranum.fr/stockage-archivage/la-sauvegarde-3-2-1_10_13143_1gdh-tk61/ [13] https://ecoresponsable.numerique.gouv.fr/docs/2021/impact-bonnes-pratiques-numeriques-ecoresponsables.pdf [14] https://calcul.math.cnrs.fr/pages/mesocentres_en_france.html [15] https://cat.opidor.fr/index.php/Huma-Num_Box
Retour
Questions à se poser
Étape
Recommandations, ressources utiles
4. TRAITER ANALYSER
COSTANZO, Lucia, 2023. Le nettoyage de données dans le processus de gestion des données de recherche. [en ligne]. 4 décembre 2023. DOI 10.5206/RHBN7291. [Consulté le 3 avril 2025]. in: La gestion des données de recherche dans le contexte canadien[18]
> Existe-t-il une puissance de calcul et des méthodes d’analyse ou outils adéquats pour ces volumes de données ? > Quels sont les outils permettant de nettoyer ses données (OpenRefine[16], Archifiltre[17]) etc. ?
1. Définition
2. Partager
3. Tableau
3. Tableau
3. SpécificitéRecherche Data Gouv
4. Recommandations, ressources
[16] https://ecampusontario.pressbooks.pub/gdrcanada/chapter/nettoyage-de-donnees-dans-le-processus-de-gestion-des-donnees-de-recherche/[17] https://openrefine.org/ [18] https://archifiltre.fabrique.social.gouv.fr/
Retour
Questions à se poser
Étape
Recommandations, ressources utiles
> Est-ce que les données sont soumises à une exception légale d’ouverture ? > Parmi toutes les données produites, quelles sont celles qui viennent valider les résultats de vos recherches ? > Est-il possible d’effectuer un nouveau tri et une sélection de données pour ne garder que la partie essentielle au partage ? > Quel entrepôt est adapté à ma discipline et à la volumétrie de mes données ? > Est-il possible de compresser les données sans perte (partielle ou totale) sur le long terme ? Sinon discuter au sein de votre communauté pour décider si la compression avec perte est acceptable. > Est-il possible de découper le jeu de données en sous-ensembles plus faciles à télécharger ?
5. PARTAGER OUVRIR
Liste Entrepôts thématiques[19]Si aucun entrepôt thématique ne convient, il est possible soit : > de déposer votre jeu de données dans un espace institutionnel ou dans l'espace générique de Recherche Data Gouv (voir « Spécificité du dépôt dans Recherche Data Gouv ») > de créer une notice signalétique dans l’entrepôt Recherche Data Gouv et ajouter le lien vers le stockage sur un serveur interne mais ouvert à l’extérieur en consultation. Il convient de s’assurer de la durée de maintenance de cet espace. Vous pouvez également contacter l’Atelier de la donnée [20] présent sur votre territoire qui vous aidera à trouver une solution. L’utilisation d’une partie d’espace proposé par les mésocentres est possible dans certains lieux.
1. Définition
2. Partager
3. Tableau
3. Spécificité Recherche Data Gouv
4. Recommandations, ressources
[19] https://recherche.data.gouv.fr/fr/entrepots[20] https://recherche.data.gouv.fr/fr/ateliers-de-la-donnee
Retour
Questions à se poser
Étape
Toutes les données du projet ont-elles vocation à être archivées de manière pérenne ? Faut-il conserver les données brutes ? De quel espace de stockage faut-il disposer sur le long terme ? Qui le fournira ? Quel lieu d’archivage est susceptible d’accueillir les gros volumes de données ?
Recommandations, ressources utiles
6. ARCHIVER
> Stockage et archivage : fiche synthétique (DORANum)[19] > Fixer des durées de conservation en lien avec les archivistes. Il est également conseillé de mettre en place à l'échelle de l'unité ou du projet un "référentiel d'archivage" également appelé "tableau de gestion" (cf. Référentiel de gestion des archives de la recherche, section Aurore de l'AAF)[20]
1. Définition
2. Partager
3. Tableau
3. SpécificitéRecherche Data Gouv
4. Recommandations, ressources
[19] https://doranum.fr/stockage-archivage/stockage-et-archivage-fiche-synthetique_10_13143_0c4b-2743/[20] https://www.archivistes.org/IMG/pdf/referentiel_recherche_intro_septembre2012_corrige_.pdf?2969/5f6fab86ece4147bb63a5425ca0ee5e8fcb3ab43c3d94b34c736d67f6188bd42
Retour
Étape
7. RÉUTILISER DÉCOUVRIR
Questions à se poser
1. Définition
> Quelle partie des données (dérivées, brutes, code logiciel) sera rendue accessible ? > Comment un nombre potentiellement important de résultats sera-t-il affiché ? > Quels seront les outils mis à disposition pour faciliter la réutilisation des données ?
2. Partager
3. SpécificitéRecherche Data Gouv
4. Recommandations, ressources
