Want to create interactive content? It’s easy in Genially!
Les principes FAIR
Urfist Méditerranée
Created on August 27, 2019
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Les principes FAIR
Les chercheurs s’appuient sur les connaissances scientifiques antérieures, notamment sur les résultats publiés dans les articles scientifiques. La reproductibilité des résultats, ainsi que leur croisement, ne sont cependant envisageables qu’avec des données originelles et leurs conditions d’obtention. C’est pourquoi la science ouverte vise à faciliter l'accès aux publications scientifiques et aux données de la recherche. Cette facilitation s’accompagne d’un certain nombre de mesures pour rendre les données scientifiques facilement découvrables, accessibles, interopérables et réutilisables. Ce sont les principes FAIR : Findable, Accessible, Interoperable, Reusable.
Références
FINDABLE
Persistent IDentifier (PID)
Attribuer des identifiants uniques et pérennes aux données
Qu'est-ce qu'un PID ?
Exemple
À quoi ça sert ?
En résumé
Qu'est-ce qu'un PID ?
Un PID (Persistant IDentifier) est un mécanisme permettant d'identifier de façon stable et unique des ressources sur le Web.
À l'image d'un code barre, un PID se présente sous la forme d'une suite de caractères qui est générée spécifiquement pour une ressource. Ainsi, deux jeux de données ne peuvent avoir le même PID.
Exemple
Il existe plusieurs types de PID . Le plus connu pour identifier un jeu de données est le DOI (Digital Object Identifier). Mais il en existe d'autres (Handle, ARK...).Ci-dessous un DOI attribué à une ressource disponible sur l'entrepôt de données Zenodo. En cliquant dessus, vous tomberez sur la page descriptive de la ressource, depuis laquelle vous pouvez la télécharger.
À quoi ça sert ?
Pointer vers une donnée unique de façon stable
Un PID permet de créer un lien hypertexte unique et pérenne à un jeu de données spécifique. Le PID permettra toujours de retrouver le jeu de données même si l'adresse URL a été modifiée.
Vous ne devriez plus tomber sur une erreur 404 avec un PID.
PAGE INTROUVABLE
LA PAGE DEMANDÉE N'EXISTE PLUS
404
À quoi ça sert ?
Faciliter la citation
Jeu de données
Citation
L'identifiant pérenne peut être un élément d’une référence bibliographique. Ainsi, lorsqu'un jeu de données est réutilisé, il sera facilement retrouvé depuis la citation .
En résumé
Pour être FAIR, les données doivent être identifiables de façon unique et pérenne à l'aide d'un PID.
Il est plus facile de trouver un jeu de données sur le Web s'il possède un identifiant unique et pérenne qui permet l’ubiquité de la ressource. Les PIDs sont donc un élément important du principe Findable.
FINDABLE
Métadonnées
Décrire finement vos données à l'aide de métadonnées
Qu'est-ce qu'une métadonnée ?
À quoi ça sert ?
Soyez généreux dans votre description
En résumé
Qu'est-ce qu'une métadonnée ?
Métadonnées
Description
- Titre
- Auteur
- Éditeur
- Date de publication
- Etc.
Donnée
Une métadonnée est un élément servant à décrire une ressource (donnée).Ci-dessus, quelques métadonnées que l'on peut attribuer à un livre.
À quoi ça sert ?
Les métadonnées servent à faciliter la recherche d'une donnée : lorsque vous tapez des mots clés dans une barre de recherche ou lorsque vous sélectionnez des filtres.
Soyez généreux dans votre description
Il vaut mieux en avoir trop que pas assez. Lorsque vous déposez un jeu de données, pensez à mettre autant de métadonnées que possible (à partir de référentiels, schémas de métadonnées). Cela facilitera la recherche du jeu de données ainsi que sa compréhension.
En résumé
Pour être FAIR, les données doivent être finement décrites à l'aide de métadonnées.
Les métadonnées permettent d'automatiser des tâches de tri et de hiérarchisation lors de la recherche de données. Elles permettent aussi au réutilisateur de mieux comprendre le contexte des données, les conditions dans lesquelles elles ont été créées ou collectées, leurs caractéristiques, etc. Plus vous donnerez d'informations sur vos données, plus elles seront compréhensibles et faciles à trouver.
FINDABLE
Métadonnées avec PID
Indiquer le PID dans les métadonnées
Pourquoi indiquer le PID dans les métadonnées ?
Exemple
En résumé
Pourquoi indiquer le PID dans les métadonnées ?
Jeu de données
PID
Métadonnées
PID
Lien explicite et formel
Les métadonnées qui décrivent un jeu de données sont souvent dans des fichiers séparés . Pour expliciter le lien qu'il y a entre eux, les métadonnées doivent intégrer l'identifiant pérenne et unique des données.
Exemple
Lorsque vous déposez un jeu de données dans l'entrepôt Zenodo, il vous est demandé de remplir un formulaire servant à décrire votre jeu de données. Vous créez ainsi un fichier de métadonnées propre à votre jeu de données. Un des premiers champs demandés concerne l'identifiant pérenne de vos données .
En résumé
Pour être FAIR, les métadonnées doivent contenir le PID du jeu de données décrit.
Comme les métadonnées se retrouvent souvent dans un fichier séparé du jeu de données, il vaut mieux mentionner dans le fichier de métadonnées le PID du jeu de données en question.
FINDABLE
Entrepôt de données
Déposer ses données dans un entrepôt
Qu'est-ce qu'un entrepôt de données ?
Pourquoi déposer dans un entrepôt ?
En résumé
Qu'est-ce qu'un entrepôt de données ?
Les entrepôts de données sont les endroits où vous pouvez déposer des données, en rechercher d'autres et y accéder, en vue d'une réutilisation. Autrement dit, ce sont des services Web permettant l'hébergement, la recherche et le téléchargement des données.
Pourquoi déposer dans un entrepôt ?
Pour trouver une information sur le Web, on utilise souvent un moteur de recherche qui indexe les sites Web et les affiche ensuite sur leurs pages de résultats. Vous pourriez donc publier vos données sur un site quelconque pour qu'elles soient retrouvables.
Mais une indexation plus fine et contrôlée est nécessaire en matière de recherche scientifique. Les entrepôts de données répondent à cet objectif. Ils proposent en outre d'autres services (PIDs, licences de réutilisation, stockage sécurisé et pérenne des données).
- Attribution de PIDs
- Citations facilitées
- Stockage sécurisé
- Attribution de licences
- Archivage à long terme
- Etc.
En résumé
Pour être FAIR, les données doivent être déposées dans des entrepôts.
Les entrepôts sont des services adaptés à la recherche de données scientifiques. Il en existe beaucoup, certains sont spécifiques à une discipline, d'autres sont généralistes, ou encore propre à une institution. Il existe des annuaires d'entrepôts pour en trouver un adapté à ses besoins. Tous les entrepôts ne proposent pas les mêmes services, mais ils restent la meilleure solution pour indexer et gérer des données scientifiques.
ACCESSIBLE
Protocole standard
Utiliser un protocole de communication standardisé
Qu'est-ce qu'un protocole de communication ?
Exemples de protocoles standards
En résumé
Qu'est-ce qu'un protocole de communication ?
Un protocole de communication est un ensemble de procédures que suivent les machines pour communiquer correctement entre elles . Il existe plusieurs protocoles selon le type de communication visée : afficher la page d'un site Web, consulter ses mails, échanger des fichiers, etc. Certains de ces protocoles, très largement utilisés, sont considérés comme des standards .
Exemples de protocoles standards
Le HTTP (HyperText Transfer Protocol) est un standard notamment utilisé pour consulter des sites Web . Il existe une variante sécurisée : le HTTPS.
HTTP
FTP
Le FTP (File Transfer Protocol) est un autre standard utilisé pour partager de fichiers . Il existe aussi une version sécurisée : le FTPS.
Le FTP et le HTTP s'appuient sur un mode de communication client-serveur détaillé ci-dessous.
Requête
Réponse
Serveur
Client
Ex. Filezilla
Ex. Filezilla
Serveur
Ex. Firefox
Client
Ex. Apache
Requête
Réponse
En résumé
Pour être FAIR, les données doivent pouvoir être récupérables via un protocole de communication standardisé.
Il existe plusieurs protocoles qui sont destinés à des types de communications particuliers. Le HTTP et le FTP sont des protocoles standards servant respectivement à distribuer des pages Web et à transférer des fichiers. L'entrepôt sur lequel vos données sont déposées devrait utiliser des protocoles standards tels que le HTTP et le FTP.
ACCESSIBLE
Protocole libre et ouvert
Utiliser un protocole de communication libre et ouvert
Pourquoi utiliser des protocoles libres et ouverts ?
En résumé
Pourquoi utiliser des protocoles libres et ouverts ?
Les protocoles de communication libres et ouverts sont librement utilisables et interopérables. Ils peuvent fonctionner avec plusieurs logiciels, contrairement aux protocoles propriétaires.Ils facilitent ainsi le libre accès aux données. Leur documentation technique étant accessible publiquement, les nouveaux outils qui verront le jour pourront s'appliquer avec ces protocoles.
De nombreux protocoles standards sont libres et ouverts. Ex : HTTP, FTP, SMTP (Simple Mail Transfer Protocol)...
Protocoles à éviter
Les protocoles propriétaires ou dont la documentation n'est pas accessible publiquement. Ex : Protocole Skype, Microsoft Exchange Server...
Protocoles à utiliser
En résumé
Pour être FAIR, les données doivent pouvoir être récupérables via un protocole de communication standardisé libre et ouvert.
Le recours à des protocoles de communication libres et ouverts garantit un plus large accès aux données de recherche et une compatibilité avec de futurs outils. Il convient donc de ne pas utiliser de protocoles de communication propriétaires pour se préserver de toute dépendance technologique propriétaire.
ACCESSIBLE
Authentification
Utiliser un protocole de communication permettant une authentification si nécessaire
Pourquoi une authentification ?
Comment s'y prendre ?
En résumé
Pourquoi une authentification ?
Le principe Accessible n'est pas synonyme de libre et ouvert
"As open as possible, as closed as necessary"
Bien que produites sur fonds publics, certaines données ne peuvent pas être accessibles publiquement pour des raisons légitimes. Ce sont par exemple :
- des données à caractère personnel (données permettant d'identifier une personne, directement ou indirectement) ;
- des données relevant de la sécurité nationale ;
- des données sujettes à un dépôt de brevet.
Si vos données doivent rester privées, spécifiez les conditions exactes dans lesquelles elles peuvent être accessibles : qui a le droit d'y accéder et comment.
Comment s'y prendre ?
Utiliser des protocoles sécurisés
Les protocoles de communication utilisés doivent pouvoir restreindre l'accès aux données par authentification et/ou autorisation.
Un site ayant un protocole sécurisé (comme HTTPS ou FTPS) peut utiliser un certificat pour identifier ses visiteurs . Ces protocoles sont notamment utilisés sur les sites de messagerie électronique ou sur les sites commerciaux effectuant des transactions financières. Le choix de l'entrepôt de données peut donc dépendre du protocole de communication qu'il utilise.
HTTPS
FTPS
En résumé
Pour être FAIR, les données sensibles doivent pouvoir être accessibles par authentification.
Les protocoles de communication HTTPS et FTPS peuvent demander un certificat d'identification aux personnes voulant accéder au site. L'entrepôt sur lequel les données sont déposées doit ainsi pouvoir identifier les visiteurs et donner des droits spécifiques pour donner accès ou non aux données sensibles.
ACCESSIBLE
Accès aux métadonnées
Préserver l'accès aux métadonnées
Pourquoi préserver l'accès aux métadonnées ?
En résumé
Pourquoi préserver l'accès aux métadonnées ?
Garder des informations sur les données si elles sont inaccessibles
Maintenir des jeux de données en ligne a un coût. Avec le temps, il y a des risques de dégradation. Dans ce cas, les jeux de données peuvent ne plus être disponibles. De même, des restrictions d'accès peuvent exister (voir "authentification"). Si les données disparaissent ou sont inaccessibles, les métadonnées continueront de fournir de précieuses informations pour que d'autres chercheurs puissent connaître l'existence des données, contacter les personnes ressources ou encore retrouver les articles associés aux données.
En résumé
Pour être FAIR, les métadonnées doivent rester accessibles même si les données ne le sont plus.
Avec le temps, les données peuvent disparaître. Les métadonnées peuvent être très utiles dans ce cas, car elles permettront d'avoir de précieuses informations sur le jeu de données disparu et de laisser la possibilité à d'autres chercheurs de reprendre et poursuivre les recherches associées. L'entrepôt a un rôle majeur dans ce cas, étant donné que c'est lui qui héberge les données et métadonnées associées.
INTEROPERABLE
Vocabulaire
Utiliser un lexique prédéfini pour indexer et retrouver les connaissances
Qu'est-ce qu'un vocabulaire contrôlé ?
À quoi ça sert ?
En résumé
Qu'est-ce qu'un vocabulaire contrôlé ?
Un vocabulaire contrôlé est une liste de termes prédéfinis servant à organiser des informations afin d'en faciliter la recherche et l'accès. Cette liste suit une structure bien définie afin de hiérarchiser le contenu.
Mammifères
Un vocabulaire contrôlé permet de réduire les ambiguïtés du langage naturel. Dans cet exemple fictif, le chat est appelé "chat" et non pas "matou".
Chats
Félidés
Animaux
Les vocabulaires sont très utiles pour décrire de façon formelle des données.
À quoi ça sert ?
Utiliser des termes prédéfinis permet aux machines d'avoir un langage commun et de se comprendre. Les vocabulaires contrôlés jouent donc un rôle dans l'interopérabilité , c'est à dire que les systèmes informatiques partagent un même format d'échange de données .
Afin que les données restent automatiquement accessibles et compréhensibles, leur description doit suivre un vocabulaire contrôlé et un modèle de représentation servant à le structurer.
En résumé
Pour être FAIR, les données doivent être décrites à l'aide d'un vocabulaire contrôlé permettant l'interopérabilité.
En décrivant un jeu de données selon un modèle de représentation et un vocabulaire contrôlé, vous fournirez des ressources compréhensibles tant par les humains que par les machines. L'échange de données pourra se faire automatiquement d'un système à l'autre.
INTEROPERABLE
Vocabulaire FAIR
Utiliser un vocabulaire qui respecte les principes FAIR.
Qu'est-ce qu'un vocabulaire FAIR ?
En résumé
Qu'est-ce qu'un vocabulaire FAIR ?
Il s'agit de vocabulaires contrôlés dont on peut retrouver la documentation grâce à un PID (identifiant pérenne et unique).
Exemple : Animal Diseases Ontology (ANDO)
Ce vocabulaire respecte les principes FAIR :
Accessible sur l'entrepôt Dataverse
A son propre identifiant (DOI)
Est décrit par des métadonnées
Est publié dans un format interopérable
https://data.inra.fr/dataset.xhtml?persistentId=doi:10.15454/1.44525654526207E12
En résumé
Pour être FAIR, les données doivent être décrites à l'aide d'un vocabulaire contrôlé respectant les principes FAIR.
Le vocabulaire utilisé doit être retrouvable facilement à l'aide d'un PID. Il doit être documenté (décrit par des métadonnées) et lisible par les machines.
INTEROPERABLE
Métadonnées liées
Contextualiser avec des liens vers d’autres données
Pourquoi faire des liens vers d'autres données ?
Comment faire ?
Exemple
En résumé
Pourquoi faire des liens vers d'autres données ?
Enrichir le contexte des données
Les principes FAIR s'appuient sur les technologies liées au Web de données . En ce sens, il est possible et même fortement recommandé de s'en servir afin de constituer un réseau global d'informations scientifiques .
En créant des liens significatifs entre les données, vous mettez en avant d'autres données en lien avec la recherche initiale. La recherche des données devient alors plus efficace et permet de découvrir de nouvelles données pertinentes.
Comment faire ?
Déposer dans un entrepôt adapté au Web des données
Certains entrepôts sont construits sur la technologie RDF (Ressource Description Framework). Il s'agit d'un modèle servant à déclarer des ressources sur le Web. Cette déclaration est assez simple, elle s'appuie sur 3 éléments :
- Le sujet ; la ressource référencée
- Le prédicat ; le lien de relation
- L'objet ; la ressource liée
Exemple de déclaration RDF
< Berlin >---< est la capitale de >---< Allemagne >
Cette structure en 3 parties, appelée triplet, constitue un modèle de représentation des données. Il existe d'autres modèles basés sur RDF, comme OWL (Web Ontology Language) ou SKOS (Simple Knowledge Organization System).
Exemple
L'entrepôt de données Nakala
Nakala est un entrepôt utilisant RDF pour référencer les données. Développé par la TGIR Huma-Num, Nakala utilise des technologies pour rendre interopérables les métadonnées et permettre une interconnexion avec d'autres entrepôts et un moissonnage par des services de recherche de données.
Exemple
Imaginons que l'on dépose une donnée dans Nakala. Voici à quoi correspond les triplets :
- Le sujet est la donnée déposée dans l'entrepôt ;
- Le prédicat correspond au schéma de métadonnées Dublin Core, imposant une trame de description (titre, auteur...) ;
- L'objet correspond aux différents champs remplis dans le schéma.
entrepôt de données RDF
schéma Dublin Core
éléments à remplir
prédicat
sujet
objet
VOIR PLUS
Exemple
En faisant des liens, les objets peuvent devenir des sujets.
Créateur
Contributeur
objet
sujet
prédicat
sujet
prédicat
objet
Dans l'exemple ci-dessus, le jeu de données A a pour créateur Monsieur X qui est aussi contributeur du jeu de données B. La découverte de ces informations est facilitée par les liens automatiques du modèle RDF.
En résumé
Pour être FAIR, les données doivent être liées entre elles.
L'objectif est de créer un réseau de données liées entre elles, afin d'enrichir la connaissance contextuelle des données. Pour cela, il faut déposer vos données dans des entrepôts utilisant les technologies du Web de données. Les machines pourront alors lire automatiquement les liens existant entre les données et optimiser les recherches d'informations des utilisateurs.
REUSABLE
Métadonnées avec attributs
Donner toutes les informations pouvant être utiles
Quelles informations peuvent être utiles ?
Comment faire ?
En résumé
Quelles informations peuvent être utiles ?
Quelle est la version du logiciel utilisé ?
Quel est le protocole expérimental ?
Comment ont été réglés les paramètres ?
Où s'est déroulée l'observation ?
Sur quelle période l'observation s'est déroulée ?
Qui a traité les données ?
Toutes les métadonnées sont pertinentes à priori
Partez dans l'optique que toute sorte d'information peut être utile, car chaque utilisateur aura potentiellement besoin d'un élément précis suivant son contexte.
Comment faire ?
En suivant les champs proposés par le schéma de métadonnées, donnez le plus d'informations possible sur le contexte dans lequel vos données ont été produites / collectées / générées. L'exemple ci-contre montre l'ajout d'une métadonnées à partir du schéma Dublin Core lors d'un dépôt sur Nakala. Les possibilités diffèrent selon le schéma utilisé. Vous pouvez toujours ajouter des informations complémentaires dans des champs de saisie libre, comme le champs "description". Il peut être bon aussi d'ajouter un fichier texte (communément appelé "Read me") pour donner ou développer des informations importantes qui pourraient manquer.
En résumé
Pour être FAIR, les données sont richement décrites avec une pluralité d'attributs précis et pertinents
Plus on connaît le contexte dans lequel des données ont été crées, plus on peut en tirer profit. Ce principe incite à offrir beaucoup d'informations contextuelles sur les données, même celles qui peuvent paraître inutiles, car on ne sait pas quels seront les besoins des futurs réutilisateurs.
REUSABLE
Licence
Attribuer une licence de réutilisation
Pourquoi attribuer une licence ?
Quelle licence attribuer ?
En résumé
Pourquoi attribuer une licence ?
En France, les données issues de recherche financée sur fonds publics doivent être ouvertement partagées et librement réutilisables , sauf exceptions légales (données sensibles par exemple).
Mais même si vos données peuvent être librement réutilisables, il est préférable d'attribuer une licence pour expliciter vos conditions . Par exemple, une licence CC-BY exigera au réutilisateur de reconnaître votre paternité.
Reconnaissance de la paternité
Quelle licence attribuer ?
Il existe des licences gratuites qui sont adaptées pour l'ouverture des données de recherche. Ci-dessous trois exemples avec les licences Creative Commons, Open Licence et Open Database Licence.
ODbL
L'Open Database Licence (ODbL) est une licence spécifique permettant d'exploiter publiquement des bases de données.
La Licence Etalab a été conçue par le Gouvernement français pour faciliter la mise en place de l'Open Data. Elle équivaut à la licence CC-BY.
Les licences CC permettent de définir plusieurs restrictions, comme l'interdiction d'usage commercial ou de modification.
En savoir plus
En savoir plus
En savoir plus
En résumé
Pour être FAIR, les données sont publiées avec une licence de réutilisation claire et accessible.
Attribuer une licence vous permet de définir explictement les droits des réutilisateurs concernant vos données : peuvent-ils modifier les données ? en faire un usage commercial ...? Le choix de la licence va donc dépendre des droits que vous pouvez accorder en fonction de la nature juridique des données. Elles peuvent par exemple être déjà protégées par le droit d'auteur ou faire l'objet d'exceptions à leur libre accès. Certaines licences sont adaptées pour l'Open Data comme les licences Creative Commons, l'Open Database Licence (pour les bases de données) ou encore la Licence Ouverte d'Etalab. Créée dans le cadre de la politique du Gouvernement français, cette dernière est à privilégier autant que possible.
REUSABLE
Provenance
Indiquer l'historique des données
Pourquoi indiquer la provenance des données ?
Comment faire ?
En résumé
Provenance
Indiquer l'historique des données
Pourquoi indiquer la provenance des données ?
Comment faire ?
En résumé
Pourquoi indiquer la provenance des données ?
Parmi les informations à fournir avec les données, celles concernant leur provenance est essentielle pour prouver leur crédibilité et leur fiabilité. Il sera plus facile d'accorder de la confiance à des résultats issus du jeu de données B que du jeu de données A.
Données B
- Auteurs - Laboratoire - Objectifs
- Auteurs- Laboratoire- Objectifs
- Méthode d'obtention
- Méthode d'obtention - Outil utilisé - Paramètres utilisés - Données associées - Degré d'incertitude
Données A
Les informations apportées doivent aider à déterminer la qualité des données, permettre de reproduire l'expérience et de réutiliser les données.
Comment faire ?
Pour saisir la provenance des données, on peut indiquer des détails sur les auteurs (pour savoir qui citer et comment), préciser si les données s'appuient sur des données déjà publiées, comment elles ont été générées, quels outils ont été utilisés, avec quel paramétrage... Ces informations devraient être indiquées dans les métadonnées pour être automatiquement interprétées par les machines. Si besoin, il est possible de fournir un fichier texte simple appelé "Read me", qui précise la procédure d'acquisition des données.
De nombreux exemples de jeux de données indiquant leur provenance sont disponibles dans des data papers (publications d'articles décrivant des jeux de données).
https://zookeys.pensoft.net/articles
En résumé
Pour être FAIR, les données doivent indiquer leur provenance
Pour que les données soient réutilisables, il est nécessaire d'indiquer des informations pour les contextualiser. Ces informations peuvent être demandées lors du dépôt des données dans un entrepôt, comme les auteurs, leur institution, la date de création des données, leur relation avec d'autres données déjà publiées, etc. Il peut parfois être nécessaire d'ajouter un fichier texte du type "Read me" pour donner des informations supplémentaires.
REUSABLE
Standards de la communauté
Utiliser des standards pour partager les données
Pourquoi utiliser un standard ?
En résumé
Pourquoi utiliser un standard ?
Il est bien plus aisé de réutiliser des données qui sont organisées de la même façon, ont les mêmes formats, sont décrites avec le même schéma... en somme, des données qui suivent un modèle commun pour leur partage . S'il en existe un, il convient de suivre le modèle de sa communauté scientifique afin de faciliter la réutilisation des données par ses pairs . S'il n'existe pas de standard disciplinaire, il faut trouver les moyens les plus adaptés pour partager ses données avec au minimum sa communauté. Par exemple, utilisez un format de fichier ouvert pour mettre vos données à disposition de vos pairs.
En résumé
Pour être FAIR, les données suivent les standards de la communauté
Les premiers réutilisateurs potentiels de vos données sont vos confrères. Il est probable qu'ils utilisent eux mêmes certains formats de fichiers spécifiques, suivent des schémas, des protocoles ou des vocabulaires communs. Il convient donc de suivre les standards de sa communauté pour partager ses données. En l'absence de standard, des choix seront à faire pour faciliter la réutilisation des données par sa communauté.