Want to create interactive content? It’s easy in Genially!

Get started free

Arbre de décision avec scripts R

lea.kervroedan

Created on December 3, 2019

Start designing with a free template

Discover more than 1500 professional designs like these:

HR Organizational Chart

SWOT PRO

Branching diagram

Fishbone Diagram

Puzzle Diagram

Gear Diagram

Square Timeline Diagram

Transcript

Anne-Maïmiti DulaurentLéa Kervroëdan

Arbre de décision statistique

Importer ses données - Excel + méthode infaillible

Statistiques univariées

Aller à la page

Statistiques multivariées

Aller à la page

Aller à la page

Anne-Maïmiti DulaurentLéa Kervroëdan

Import classique à partir d'un fichier Excel

Pour importer tes données sous R,

Un dossier "Stats" sur ton bureau tu créeras

Dans R studio, ta session tu configureras

Le fichier Excel avec les données du TD dans le dossier "Stats" tu mettras

Sur "Import Dataset", puis "From Excel" tu cliqueras

Les données, par rapport au tests statistiques voulus tu arrangeras

Les données, tu importeras

Anne-Maïmiti DulaurentLéa Kervroëdan

Méthode infaillible - import CSV

Pour importer tes données sous R,

Un dossier "Stats" sur ton bureau et des sous-dossiers "Data" et "TD" tu créeras

Dans le dossier "Data" les données sous CSV tu enregistreras

Le fichier Excel avec les données du TD dans le dossier "TD" tu mettras

Dans R, la fonction "setwd" tu utiliseras

Les données, par rapport au tests statistiques voulus tu arrangeras

Les données avec la fonction "read.csv" tu importeras

Anne-Maïmiti DulaurentLéa Kervroëdan

Statistiques univariées

Fiche 1 : statistique univariée pour 1 variable explicative qualitative (« facteur »)

Test de normalité de Shapiro-Wilk

Anne-Maïmiti DulaurentLéa Kervroëdan

p < 0.05

p > 0.05

-> Distribution non normale -> Famille de tests non paramétriques

-> Distribution normale -> Famille de tests paramétriques

2 Modalités

+ de 2 Modalités

+ de 2 Modalités

2 Modalités

Non apparié

Apparié

Apparié

Apparié

Non apparié

Non apparié

Apparié

Non apparié

Test T

Test T

Test de Wilcoxon

ANOVA de Friedman

Test de Mann-Whitney

ANOVA à mesures répétées

+ Test post-hoc Wilcoxon

+ Test post-hoc Tukey

ANOVA 1 facteur

Test de Kuskall-Wallis

+ Test post-hoc Tukey

+ Test post-hoc Mann-Whitney ou de Dunn

Fiche 2 : statistique univariée pour 1 variable explicative quantitative

Test de normalité de Shapiro-Wilk

Anne-Maïmiti DulaurentLéa Kervroëdan

p < 0.05

p > 0.05

-> Distribution non normale -> Famille de tests non paramétriques

-> Distribution normale -> Famille de tests paramétriques

Corrélation de Pearson

Corrélation de Spearman

p < 0.05 et Coeff corr > 0.6

p < 0.05 et Coeff corr > 0.6

Non apparié

Régression linéaire simple

GLM (Modèle linéaire généralisé)

Statistiques multivariées

Fiche 3 : statistique multivariée pour plusieurs variables explicatives qualitatives («facteurs»)

Anne-Maïmiti DulaurentLéa Kervroëdan

Effet sur une variable à expliquer quantitative

Test de normalité de Shapiro-Wilk

Effet de plusieurs (moins de 5) variables explicatives qualitatives

Effet d’1 variable explicative qualitative et 1 variable explicative quantitative

ANOVA Multifactorielle

PERMANOVA

ANCOVA

Si distribution normale

Si distribution non normale

méthodes explicatives avec p-value

Fiche 4 : statistique multivariée pour plusieurs variables explicatives quantitatives

Anne-Maïmiti DulaurentLéa Kervroëdan

Effet sur une variable à expliquer quantitative

Test de normalité de Shapiro-Wilk

p < 0.05

p > 0.05

Distribution normale

Distribution non normale

Régression multiple

GLM (Modèle linéaire généralisé)

méthodes explicatives avec p-value

Fiche 5 : statistique multivariée pour de nombreuses variables explicatives qualitatives ou quantitatives

Variables non corrélées de manière linéaire

Transformation de variables corrélées de manière linéaire en variables décorrélées

Classification automatique permettant de répartir des individus dans un certain nombre de classes

Cas particulier en écologie, adapté à la présence d’un gradient des variables biologiques. S’applique aux communautés vivantes.

Variables quantitatives

CAH Classification Ascendante Hiérarchique

ACP Analyse en Composantes Principales

DCA Detrended correspondence analysis

Tableau de contingence

AFC Analyse Factorielle des Correspondances

NMDS Non-metric Multi-Dimentional Scaling

Variables qualitatives

ACM Analyse des Correspondances multiples

Anne-Maïmiti DulaurentLéa Kervroëdan

méthodes explicatives sans p-value

t.test(Nom_jeu_donnees$Variable_a_expliquer ~ Nom_jeu_donnees$Variable_explicative, paired = FALSE) Attention, si "paired = FALSE" renvoit à un message d'erreur, il faut supprimer cette partie du script.

shapiro.test(Nom_jeu_donnees$Nom_variable)

shapiro.test(Nom_jeu_donnees$Nom_variable)

t.test(Nom_jeu_donnees$Variable_a_expliquer ~ Nom_jeu_donnees$Variable_explicative, paired = TRUE) Attention, si "paired = TRUE" renvoit à un message d'erreur, il faut supprimer cette partie du script.

wilcox.test(Variable_a_expliquer ~ Variable_explicative, paired = TRUE, data = Nom_jeu_donnees) Attention, si "paired = TRUE" renvoit à un message d'erreur, il faut supprimer cette partie du script.

Pour faire l'ANOVA : Nom_Objet <- aov(Nom_jeu_donnees$Variable_a_expliquer ~ Nom_jeu_donnees$Variable_explicative) Afficher les résultats de l'ANOVA : summary.aov(Nom_Objet) Tests post-hoc de Tukey : TukeyHSD(Nom_Objet) Aide à la lecture des tests : ANOVA : Une p-value <0.05 indique qu'il y a des différences significatives entre deux modalités ou plus. Tukey : une p-value <0.05 indique que les deux modalités testées sont significativement différentes. Pour l'attribution des lettres de significativité sur le graph, les deux modalités présentant une différence significative auront des lettres dfférentes.

Nom_Objet <- lm(Nom_jeu_donnees$Variable_a_expliquer ~ Nom_jeu_donnees$Variable_explicative) Pour afficher les résultats : summary(Nom_Objet)

shapiro.test(Nom_jeu_donnees$Nom_variable)