Want to create interactive content? It’s easy in Genially!

Les principes FAIR

Urfist Méditerranée

Created on August 27, 2019

Start designing with a free template

Discover more than 1500 professional designs like these:

Explore all templates

Les principes FAIR

Les chercheurs s’appuient sur les connaissances scientifiques antérieures, notamment sur les résultats publiés dans les articles scientifiques. La reproductibilité des résultats, ainsi que leur croisement, ne sont cependant envisageables qu’avec des données originelles et leurs conditions d’obtention. C’est pourquoi la science ouverte vise à faciliter l'accès aux publications scientifiques et aux données de la recherche. Cette facilitation s’accompagne d’un certain nombre de mesures pour rendre les données scientifiques facilement découvrables, accessibles, interopérables et réutilisables. Ce sont les principes FAIR : Findable, Accessible, Interoperable, Reusable.

Références

FINDABLE

Persistent IDentifier (PID)

Attribuer des identifiants uniques et pérennes aux données

Qu'est-ce qu'un PID ?

Exemple

À quoi ça sert ?

En résumé

Qu'est-ce qu'un PID ?

Un PID (Persistant IDentifier) est un mécanisme permettant d'identifier de façon stable et unique des ressources sur le Web.

À l'image d'un code barre, un PID se présente sous la forme d'une suite de caractères qui est générée spécifiquement pour une ressource. Ainsi, deux jeux de données ne peuvent avoir le même PID.

Exemple

Il existe plusieurs types de PID . Le plus connu pour identifier un jeu de données est le DOI (Digital Object Identifier). Mais il en existe d'autres (Handle, ARK...).Ci-dessous un DOI attribué à une ressource disponible sur l'entrepôt de données Zenodo. En cliquant dessus, vous tomberez sur la page descriptive de la ressource, depuis laquelle vous pouvez la télécharger.

À quoi ça sert ?

Pointer vers une donnée unique de façon stable

Un PID permet de créer un lien hypertexte unique et pérenne à un jeu de données spécifique. Le PID permettra toujours de retrouver le jeu de données même si l'adresse URL a été modifiée.

Vous ne devriez plus tomber sur une erreur 404 avec un PID.

PAGE INTROUVABLE

LA PAGE DEMANDÉE N'EXISTE PLUS

404

À quoi ça sert ?

Faciliter la citation

Jeu de données

Citation

L'identifiant pérenne peut être un élément d’une référence bibliographique. Ainsi, lorsqu'un jeu de données est réutilisé, il sera facilement retrouvé depuis la citation .

En résumé

Pour être FAIR, les données doivent être identifiables de façon unique et pérenne à l'aide d'un PID.

Il est plus facile de trouver un jeu de données sur le Web s'il possède un identifiant unique et pérenne qui permet l’ubiquité de la ressource. Les PIDs sont donc un élément important du principe Findable.

FINDABLE

Métadonnées

Décrire finement vos données à l'aide de métadonnées

Qu'est-ce qu'une métadonnée ?

À quoi ça sert ?

Soyez généreux dans votre description

En résumé

Qu'est-ce qu'une métadonnée ?

Métadonnées

Description

Titre
Auteur
Éditeur
Date de publication
Etc.

Donnée

Une métadonnée est un élément servant à décrire une ressource (donnée).Ci-dessus, quelques métadonnées que l'on peut attribuer à un livre.

À quoi ça sert ?

Les métadonnées servent à faciliter la recherche d'une donnée : lorsque vous tapez des mots clés dans une barre de recherche ou lorsque vous sélectionnez des filtres.

Soyez généreux dans votre description

Il vaut mieux en avoir trop que pas assez. Lorsque vous déposez un jeu de données, pensez à mettre autant de métadonnées que possible (à partir de référentiels, schémas de métadonnées). Cela facilitera la recherche du jeu de données ainsi que sa compréhension.

En résumé

Pour être FAIR, les données doivent être finement décrites à l'aide de métadonnées.

Les métadonnées permettent d'automatiser des tâches de tri et de hiérarchisation lors de la recherche de données. Elles permettent aussi au réutilisateur de mieux comprendre le contexte des données, les conditions dans lesquelles elles ont été créées ou collectées, leurs caractéristiques, etc. Plus vous donnerez d'informations sur vos données, plus elles seront compréhensibles et faciles à trouver.

FINDABLE

Métadonnées avec PID

Indiquer le PID dans les métadonnées

Pourquoi indiquer le PID dans les métadonnées ?

Exemple

En résumé

Pourquoi indiquer le PID dans les métadonnées ?

Jeu de données

PID

Métadonnées

PID

Lien explicite et formel

Les métadonnées qui décrivent un jeu de données sont souvent dans des fichiers séparés . Pour expliciter le lien qu'il y a entre eux, les métadonnées doivent intégrer l'identifiant pérenne et unique des données.

Exemple

Lorsque vous déposez un jeu de données dans l'entrepôt Zenodo, il vous est demandé de remplir un formulaire servant à décrire votre jeu de données. Vous créez ainsi un fichier de métadonnées propre à votre jeu de données. Un des premiers champs demandés concerne l'identifiant pérenne de vos données .

En résumé

Pour être FAIR, les métadonnées doivent contenir le PID du jeu de données décrit.

Comme les métadonnées se retrouvent souvent dans un fichier séparé du jeu de données, il vaut mieux mentionner dans le fichier de métadonnées le PID du jeu de données en question.

FINDABLE

Entrepôt de données

Déposer ses données dans un entrepôt

Qu'est-ce qu'un entrepôt de données ?

Pourquoi déposer dans un entrepôt ?

En résumé

Qu'est-ce qu'un entrepôt de données ?

Les entrepôts de données sont les endroits où vous pouvez déposer des données, en rechercher d'autres et y accéder, en vue d'une réutilisation. Autrement dit, ce sont des services Web permettant l'hébergement, la recherche et le téléchargement des données.

Pourquoi déposer dans un entrepôt ?

Pour trouver une information sur le Web, on utilise souvent un moteur de recherche qui indexe les sites Web et les affiche ensuite sur leurs pages de résultats. Vous pourriez donc publier vos données sur un site quelconque pour qu'elles soient retrouvables.

Mais une indexation plus fine et contrôlée est nécessaire en matière de recherche scientifique. Les entrepôts de données répondent à cet objectif. Ils proposent en outre d'autres services (PIDs, licences de réutilisation, stockage sécurisé et pérenne des données).

Attribution de PIDs
Citations facilitées
Stockage sécurisé
Attribution de licences
Archivage à long terme
Etc.

En résumé

Pour être FAIR, les données doivent être déposées dans des entrepôts.

Les entrepôts sont des services adaptés à la recherche de données scientifiques. Il en existe beaucoup, certains sont spécifiques à une discipline, d'autres sont généralistes, ou encore propre à une institution. Il existe des annuaires d'entrepôts pour en trouver un adapté à ses besoins. Tous les entrepôts ne proposent pas les mêmes services, mais ils restent la meilleure solution pour indexer et gérer des données scientifiques.

ACCESSIBLE

Protocole standard

Utiliser un protocole de communication standardisé

Qu'est-ce qu'un protocole de communication ?

Exemples de protocoles standards

En résumé

Qu'est-ce qu'un protocole de communication ?

Un protocole de communication est un ensemble de procédures que suivent les machines pour communiquer correctement entre elles . Il existe plusieurs protocoles selon le type de communication visée : afficher la page d'un site Web, consulter ses mails, échanger des fichiers, etc. Certains de ces protocoles, très largement utilisés, sont considérés comme des standards .

Exemples de protocoles standards

Le HTTP (HyperText Transfer Protocol) est un standard notamment utilisé pour consulter des sites Web . Il existe une variante sécurisée : le HTTPS.

HTTP

FTP

Le FTP (File Transfer Protocol) est un autre standard utilisé pour partager de fichiers . Il existe aussi une version sécurisée : le FTPS.

Le FTP et le HTTP s'appuient sur un mode de communication client-serveur détaillé ci-dessous.

Requête

Réponse

Serveur

Client

Ex. Filezilla

Serveur

Ex. Firefox

Client

Ex. Apache

Requête

Réponse

En résumé

Pour être FAIR, les données doivent pouvoir être récupérables via un protocole de communication standardisé.

Il existe plusieurs protocoles qui sont destinés à des types de communications particuliers. Le HTTP et le FTP sont des protocoles standards servant respectivement à distribuer des pages Web et à transférer des fichiers. L'entrepôt sur lequel vos données sont déposées devrait utiliser des protocoles standards tels que le HTTP et le FTP.

ACCESSIBLE

Protocole libre et ouvert

Utiliser un protocole de communication libre et ouvert

Pourquoi utiliser des protocoles libres et ouverts ?

En résumé

Pourquoi utiliser des protocoles libres et ouverts ?

Les protocoles de communication libres et ouverts sont librement utilisables et interopérables. Ils peuvent fonctionner avec plusieurs logiciels, contrairement aux protocoles propriétaires.Ils facilitent ainsi le libre accès aux données. Leur documentation technique étant accessible publiquement, les nouveaux outils qui verront le jour pourront s'appliquer avec ces protocoles.

De nombreux protocoles standards sont libres et ouverts. Ex : HTTP, FTP, SMTP (Simple Mail Transfer Protocol)...

Protocoles à éviter

Les protocoles propriétaires ou dont la documentation n'est pas accessible publiquement. Ex : Protocole Skype, Microsoft Exchange Server...

Protocoles à utiliser

En résumé

Pour être FAIR, les données doivent pouvoir être récupérables via un protocole de communication standardisé libre et ouvert.

Le recours à des protocoles de communication libres et ouverts garantit un plus large accès aux données de recherche et une compatibilité avec de futurs outils. Il convient donc de ne pas utiliser de protocoles de communication propriétaires pour se préserver de toute dépendance technologique propriétaire.

ACCESSIBLE

Authentification

Utiliser un protocole de communication permettant une authentification si nécessaire

Pourquoi une authentification ?

Comment s'y prendre ?

En résumé

Pourquoi une authentification ?

Le principe Accessible n'est pas synonyme de libre et ouvert

"As open as possible, as closed as necessary"

Bien que produites sur fonds publics, certaines données ne peuvent pas être accessibles publiquement pour des raisons légitimes. Ce sont par exemple :

des données à caractère personnel (données permettant d'identifier une personne, directement ou indirectement) ;
des données relevant de la sécurité nationale ;
des données sujettes à un dépôt de brevet.

Si vos données doivent rester privées, spécifiez les conditions exactes dans lesquelles elles peuvent être accessibles : qui a le droit d'y accéder et comment.

Comment s'y prendre ?

Utiliser des protocoles sécurisés

Les protocoles de communication utilisés doivent pouvoir restreindre l'accès aux données par authentification et/ou autorisation.

Un site ayant un protocole sécurisé (comme HTTPS ou FTPS) peut utiliser un certificat pour identifier ses visiteurs . Ces protocoles sont notamment utilisés sur les sites de messagerie électronique ou sur les sites commerciaux effectuant des transactions financières. Le choix de l'entrepôt de données peut donc dépendre du protocole de communication qu'il utilise.

HTTPS

FTPS

En résumé

Pour être FAIR, les données sensibles doivent pouvoir être accessibles par authentification.

Les protocoles de communication HTTPS et FTPS peuvent demander un certificat d'identification aux personnes voulant accéder au site. L'entrepôt sur lequel les données sont déposées doit ainsi pouvoir identifier les visiteurs et donner des droits spécifiques pour donner accès ou non aux données sensibles.

ACCESSIBLE

Accès aux métadonnées

Préserver l'accès aux métadonnées

Pourquoi préserver l'accès aux métadonnées ?

En résumé

Pourquoi préserver l'accès aux métadonnées ?

Garder des informations sur les données si elles sont inaccessibles

Maintenir des jeux de données en ligne a un coût. Avec le temps, il y a des risques de dégradation. Dans ce cas, les jeux de données peuvent ne plus être disponibles. De même, des restrictions d'accès peuvent exister (voir "authentification"). Si les données disparaissent ou sont inaccessibles, les métadonnées continueront de fournir de précieuses informations pour que d'autres chercheurs puissent connaître l'existence des données, contacter les personnes ressources ou encore retrouver les articles associés aux données.

En résumé

Pour être FAIR, les métadonnées doivent rester accessibles même si les données ne le sont plus.

Avec le temps, les données peuvent disparaître. Les métadonnées peuvent être très utiles dans ce cas, car elles permettront d'avoir de précieuses informations sur le jeu de données disparu et de laisser la possibilité à d'autres chercheurs de reprendre et poursuivre les recherches associées. L'entrepôt a un rôle majeur dans ce cas, étant donné que c'est lui qui héberge les données et métadonnées associées.

INTEROPERABLE

Vocabulaire

Utiliser un lexique prédéfini pour indexer et retrouver les connaissances

Qu'est-ce qu'un vocabulaire contrôlé ?

À quoi ça sert ?

En résumé

Qu'est-ce qu'un vocabulaire contrôlé ?

Un vocabulaire contrôlé est une liste de termes prédéfinis servant à organiser des informations afin d'en faciliter la recherche et l'accès. Cette liste suit une structure bien définie afin de hiérarchiser le contenu.

Mammifères

Un vocabulaire contrôlé permet de réduire les ambiguïtés du langage naturel. Dans cet exemple fictif, le chat est appelé "chat" et non pas "matou".

Chats

Félidés

Animaux

Les vocabulaires sont très utiles pour décrire de façon formelle des données.

À quoi ça sert ?

Utiliser des termes prédéfinis permet aux machines d'avoir un langage commun et de se comprendre. Les vocabulaires contrôlés jouent donc un rôle dans l'interopérabilité , c'est à dire que les systèmes informatiques partagent un même format d'échange de données .

Afin que les données restent automatiquement accessibles et compréhensibles, leur description doit suivre un vocabulaire contrôlé et un modèle de représentation servant à le structurer.

En résumé

Pour être FAIR, les données doivent être décrites à l'aide d'un vocabulaire contrôlé permettant l'interopérabilité.

En décrivant un jeu de données selon un modèle de représentation et un vocabulaire contrôlé, vous fournirez des ressources compréhensibles tant par les humains que par les machines. L'échange de données pourra se faire automatiquement d'un système à l'autre.

INTEROPERABLE

Vocabulaire FAIR

Utiliser un vocabulaire qui respecte les principes FAIR.

Qu'est-ce qu'un vocabulaire FAIR ?

En résumé

Qu'est-ce qu'un vocabulaire FAIR ?

Il s'agit de vocabulaires contrôlés dont on peut retrouver la documentation grâce à un PID (identifiant pérenne et unique).

Exemple : Animal Diseases Ontology (ANDO)

Ce vocabulaire respecte les principes FAIR :

Accessible sur l'entrepôt Dataverse

A son propre identifiant (DOI)

Est décrit par des métadonnées

Est publié dans un format interopérable

https://data.inra.fr/dataset.xhtml?persistentId=doi:10.15454/1.44525654526207E12

En résumé

Pour être FAIR, les données doivent être décrites à l'aide d'un vocabulaire contrôlé respectant les principes FAIR.

Le vocabulaire utilisé doit être retrouvable facilement à l'aide d'un PID. Il doit être documenté (décrit par des métadonnées) et lisible par les machines.

INTEROPERABLE

Métadonnées liées

Contextualiser avec des liens vers d’autres données

Pourquoi faire des liens vers d'autres données ?

Comment faire ?

Exemple

En résumé

Pourquoi faire des liens vers d'autres données ?

Enrichir le contexte des données

Les principes FAIR s'appuient sur les technologies liées au Web de données . En ce sens, il est possible et même fortement recommandé de s'en servir afin de constituer un réseau global d'informations scientifiques .

En créant des liens significatifs entre les données, vous mettez en avant d'autres données en lien avec la recherche initiale. La recherche des données devient alors plus efficace et permet de découvrir de nouvelles données pertinentes.

Comment faire ?

Déposer dans un entrepôt adapté au Web des données

Certains entrepôts sont construits sur la technologie RDF (Ressource Description Framework). Il s'agit d'un modèle servant à déclarer des ressources sur le Web. Cette déclaration est assez simple, elle s'appuie sur 3 éléments :

Le sujet ; la ressource référencée
Le prédicat ; le lien de relation
L'objet ; la ressource liée

Exemple de déclaration RDF

< Berlin >---< est la capitale de >---< Allemagne >

Cette structure en 3 parties, appelée triplet, constitue un modèle de représentation des données. Il existe d'autres modèles basés sur RDF, comme OWL (Web Ontology Language) ou SKOS (Simple Knowledge Organization System).

Exemple

L'entrepôt de données Nakala

Nakala est un entrepôt utilisant RDF pour référencer les données. Développé par la TGIR Huma-Num, Nakala utilise des technologies pour rendre interopérables les métadonnées et permettre une interconnexion avec d'autres entrepôts et un moissonnage par des services de recherche de données.

Exemple

Imaginons que l'on dépose une donnée dans Nakala. Voici à quoi correspond les triplets :

Le sujet est la donnée déposée dans l'entrepôt ;
Le prédicat correspond au schéma de métadonnées Dublin Core, imposant une trame de description (titre, auteur...) ;
L'objet correspond aux différents champs remplis dans le schéma.

entrepôt de données RDF

schéma Dublin Core

éléments à remplir

prédicat

sujet

objet

Exemple

En faisant des liens, les objets peuvent devenir des sujets.

Créateur

Contributeur

objet

sujet

prédicat

sujet

prédicat

objet

Dans l'exemple ci-dessus, le jeu de données A a pour créateur Monsieur X qui est aussi contributeur du jeu de données B. La découverte de ces informations est facilitée par les liens automatiques du modèle RDF.

En résumé

Pour être FAIR, les données doivent être liées entre elles.

L'objectif est de créer un réseau de données liées entre elles, afin d'enrichir la connaissance contextuelle des données. Pour cela, il faut déposer vos données dans des entrepôts utilisant les technologies du Web de données. Les machines pourront alors lire automatiquement les liens existant entre les données et optimiser les recherches d'informations des utilisateurs.

REUSABLE

Métadonnées avec attributs

Donner toutes les informations pouvant être utiles

Quelles informations peuvent être utiles ?

Comment faire ?

En résumé

Quelles informations peuvent être utiles ?

Quelle est la version du logiciel utilisé ?

Quel est le protocole expérimental ?

Comment ont été réglés les paramètres ?

Où s'est déroulée l'observation ?

Sur quelle période l'observation s'est déroulée ?

Qui a traité les données ?

Toutes les métadonnées sont pertinentes à priori

Partez dans l'optique que toute sorte d'information peut être utile, car chaque utilisateur aura potentiellement besoin d'un élément précis suivant son contexte.

Comment faire ?

En suivant les champs proposés par le schéma de métadonnées, donnez le plus d'informations possible sur le contexte dans lequel vos données ont été produites / collectées / générées. L'exemple ci-contre montre l'ajout d'une métadonnées à partir du schéma Dublin Core lors d'un dépôt sur Nakala. Les possibilités diffèrent selon le schéma utilisé. Vous pouvez toujours ajouter des informations complémentaires dans des champs de saisie libre, comme le champs "description". Il peut être bon aussi d'ajouter un fichier texte (communément appelé "Read me") pour donner ou développer des informations importantes qui pourraient manquer.

En résumé

Pour être FAIR, les données sont richement décrites avec une pluralité d'attributs précis et pertinents

Plus on connaît le contexte dans lequel des données ont été crées, plus on peut en tirer profit. Ce principe incite à offrir beaucoup d'informations contextuelles sur les données, même celles qui peuvent paraître inutiles, car on ne sait pas quels seront les besoins des futurs réutilisateurs.

REUSABLE

Licence

Attribuer une licence de réutilisation

Pourquoi attribuer une licence ?

Quelle licence attribuer ?

En résumé

Pourquoi attribuer une licence ?

En France, les données issues de recherche financée sur fonds publics doivent être ouvertement partagées et librement réutilisables , sauf exceptions légales (données sensibles par exemple).

Mais même si vos données peuvent être librement réutilisables, il est préférable d'attribuer une licence pour expliciter vos conditions . Par exemple, une licence CC-BY exigera au réutilisateur de reconnaître votre paternité.

Reconnaissance de la paternité

Quelle licence attribuer ?

Il existe des licences gratuites qui sont adaptées pour l'ouverture des données de recherche. Ci-dessous trois exemples avec les licences Creative Commons, Open Licence et Open Database Licence.

ODbL

L'Open Database Licence (ODbL) est une licence spécifique permettant d'exploiter publiquement des bases de données.

La Licence Etalab a été conçue par le Gouvernement français pour faciliter la mise en place de l'Open Data. Elle équivaut à la licence CC-BY.

Les licences CC permettent de définir plusieurs restrictions, comme l'interdiction d'usage commercial ou de modification.

En résumé

Pour être FAIR, les données sont publiées avec une licence de réutilisation claire et accessible.

Attribuer une licence vous permet de définir explictement les droits des réutilisateurs concernant vos données : peuvent-ils modifier les données ? en faire un usage commercial ...? Le choix de la licence va donc dépendre des droits que vous pouvez accorder en fonction de la nature juridique des données. Elles peuvent par exemple être déjà protégées par le droit d'auteur ou faire l'objet d'exceptions à leur libre accès. Certaines licences sont adaptées pour l'Open Data comme les licences Creative Commons, l'Open Database Licence (pour les bases de données) ou encore la Licence Ouverte d'Etalab. Créée dans le cadre de la politique du Gouvernement français, cette dernière est à privilégier autant que possible.

REUSABLE

Provenance

Indiquer l'historique des données

Pourquoi indiquer la provenance des données ?

Comment faire ?

En résumé

Provenance

Indiquer l'historique des données

Pourquoi indiquer la provenance des données ?

Comment faire ?

En résumé

Pourquoi indiquer la provenance des données ?

Parmi les informations à fournir avec les données, celles concernant leur provenance est essentielle pour prouver leur crédibilité et leur fiabilité. Il sera plus facile d'accorder de la confiance à des résultats issus du jeu de données B que du jeu de données A.

Données B

- Auteurs - Laboratoire - Objectifs

- Auteurs- Laboratoire- Objectifs

- Méthode d'obtention

- Méthode d'obtention - Outil utilisé - Paramètres utilisés - Données associées - Degré d'incertitude

Données A

Les informations apportées doivent aider à déterminer la qualité des données, permettre de reproduire l'expérience et de réutiliser les données.

Comment faire ?

Pour saisir la provenance des données, on peut indiquer des détails sur les auteurs (pour savoir qui citer et comment), préciser si les données s'appuient sur des données déjà publiées, comment elles ont été générées, quels outils ont été utilisés, avec quel paramétrage... Ces informations devraient être indiquées dans les métadonnées pour être automatiquement interprétées par les machines. Si besoin, il est possible de fournir un fichier texte simple appelé "Read me", qui précise la procédure d'acquisition des données.

De nombreux exemples de jeux de données indiquant leur provenance sont disponibles dans des data papers (publications d'articles décrivant des jeux de données).

https://zookeys.pensoft.net/articles

En résumé

Pour être FAIR, les données doivent indiquer leur provenance

Pour que les données soient réutilisables, il est nécessaire d'indiquer des informations pour les contextualiser. Ces informations peuvent être demandées lors du dépôt des données dans un entrepôt, comme les auteurs, leur institution, la date de création des données, leur relation avec d'autres données déjà publiées, etc. Il peut parfois être nécessaire d'ajouter un fichier texte du type "Read me" pour donner des informations supplémentaires.

REUSABLE

Standards de la communauté

Utiliser des standards pour partager les données

Pourquoi utiliser un standard ?

En résumé

Pourquoi utiliser un standard ?

Il est bien plus aisé de réutiliser des données qui sont organisées de la même façon, ont les mêmes formats, sont décrites avec le même schéma... en somme, des données qui suivent un modèle commun pour leur partage . S'il en existe un, il convient de suivre le modèle de sa communauté scientifique afin de faciliter la réutilisation des données par ses pairs . S'il n'existe pas de standard disciplinaire, il faut trouver les moyens les plus adaptés pour partager ses données avec au minimum sa communauté. Par exemple, utilisez un format de fichier ouvert pour mettre vos données à disposition de vos pairs.

En résumé

Pour être FAIR, les données suivent les standards de la communauté

Les premiers réutilisateurs potentiels de vos données sont vos confrères. Il est probable qu'ils utilisent eux mêmes certains formats de fichiers spécifiques, suivent des schémas, des protocoles ou des vocabulaires communs. Il convient donc de suivre les standards de sa communauté pour partager ses données. En l'absence de standard, des choix seront à faire pour faciliter la réutilisation des données par sa communauté.

Les principes FAIR

Start designing with a free template

Transcript