Want to create interactive content? It’s easy in Genially!
Software estadístico R
CIC UAT
Created on November 29, 2023
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Correct Concepts
View
Microcourse: Artificial Intelligence in Education
View
Puzzle Game
View
Scratch and Win
View
Microlearning: How to Study Better
View
Branching Scenarios Challenge Mobile
View
Branching Scenario Mission: Innovating for the Future
Transcript
Software Estadístico R
Unidad 1.
Introducción al R
Dirigido a docentes UAT
Dr. Juan Carlos de la Cruz Maldonado
Contenido de la Unidad 1
El lenguaje R
Operaciones esenciales en R
Tipos de datos
1.1
El lenguaje R
¿Qué es R?
Es un lenguaje de programación con un enfoque estadístico y por lo tanto de tratamiento de grandes volúmenes de datos.
Diferencias entre R y otros Software estadísticos
- No se puede cambiar el entorno
- Tienes que pagar
- El entorno está limitado
- Tiene que confiar en las funciones predefinidas en los programas
- Se pueden ejecutar las funciones que han escrito otros investigadores o escribir las propias (extensible)
- No pagas por ello (es gratis)
- Una vez experimentando lo suficiente, las capacidades de R son casi ilimitadas
¿Qué se puede hacer en R?
¿Qué es R?
- Su predecedor es S, un lenguaje desarrollado en los Laboratorio BELL
- R fue escrito por Ross Ihaka y Robert Gentleman en los 90s
- Es un software Open Source (se tiene acceso a los algoritmos y el código de implementación)
¿Qué es R?
- Es un lenguaje interpretado
- La mayoría de las funciones son escritas en el mismo R
- Es posible mediante interfaces escribir funciones en C
- Muchos investigadores crean sus propios métodos en R
- No es muy amigable y no hay soporte comercial
- La curva de aprendizaje
2. Instalar Rstudio https://posit.co/download/rstudio-desktop/
1. Instalar R https://cran.r-project.org/
Paneles
Script
Consola
Misc
1.2
Operaciones en R
Operaciones básicas en R
- Ejecutar una función
> citation()
Operaciones básicas en R
Una función es un bloque de código que se ejecuta cuando se le llama, puede recibir parámetros y puede o no devolver datos como resultado.
> citation()
> sd(datos$Edad)
parámetro
Operaciones básicas en R
- Obtener ayuda de una función
Operaciones básicas en R
Un paquete contiene una serie de funciones en R, que permiten extender el funcionamiento del lenguaje, un buen comienzo puede ser el Task View de R cran.
https://cran.r-project.org/web/views/
Instalar un paquete install.packages(“car”)
Cargar un paquete instalado library(car)
Operaciones básicas en R
- R contiene un conjunto de funciones que realizan operaciones matemáticas básicas.
Operaciones básicas en R
- Variables: Son zonas de memoria que almacenan objetos
Para asignar una variable se utiliza el operador <-
dato <- 5
Operaciones básicas en R
- Operadores
Operaciones básicas en R
- Operadores Aritméticos
Operaciones básicas en R
- Operadores Aritméticos
Operaciones básicas en R
La función class verifica el tipo de dato
1.2.4
Estructuras de datos
1.2.4. Vectores
Fuente: Wickham (2016)
Vectores
Los vectores son las estructuras de datos más simples en R. Es una colección de datos de un mismo tipo. Creamos vectores usando la función c()
Vectores
Podemos crear vectores de secuencias numéricas usando:
Vectores
Podemos crear una estructura de datos de tipo vector en memoria como sigue:
Vectores
Igualmente podemos aleatorizar la serie de números
Vectores
1.2.5 DataFrames
Es probablemente la estructura más utilizada en el análisis de datos. Posee una estructura de dos dimensiones rectangular, y tiene la capacidad de almacenar tipos de datos distintos.
Columnas
Renglones
Datos
DataFrames
Dentro de R, existen conjuntos de datos (dataset) que tiene la finalidad de apoyar en la ejecución de funciones dentro de R, en este caso utilizaremos el data set de cars
DataFrames
Para crear un data frame, se utiliza la función data.frame
DataFrames
Para crear un data frame, se utiliza la función data.frame
DataFrames
Para crear un data frame, se utiliza la función data.frame
Software Estadístico R
Unidad 2.
Transformación y Visualización de datos
Taller
Dirigido a docentes UAT
Dr. Juan Carlos de la Cruz Maldonado
Contenido de la Unidad 2
Visualización con ggplot
Manipulación con dplyr
2.1
Transformación
Resumen
- Instalar paquetes: install.packages
- Cargar un paquete en memoria: library
- Ayuda de función: ?
- Tipos de datos básicos: Numeric, Integer, Character, Logical, Factor
- Estructura de Datos: Vectores y DataFrames
- Librería de gráficos: ggplot
- Librería de transformación de datos: dplyr
2.1 Transformación
Paquetes dplyr (tidyverse)
En ocasiones se requiere crear nuevas variables o hacer transformaciones o resúmenes, cambiar nombres de variables o reordenar datos.
library(tidyverse)
cuando necesitemos ser precisos sobre de qué paquete proviene una función, usaremos la misma sintaxis que R
packagename::functionname()
Transformación
El paquete dplyr proporciona un lenguaje para manipulación de datos, para ello utiliza una serie de funciones (o verbos) para operar datos:
- select()
- filter()
- mutate()
- arrange()
- summarize()
La misión del Consejo Nacional de Población (CONAPO) es la planeación demográfica del país a fin de incluir a la población en los programas de desarrollo económico y social que se formulen dentro del sector gubernamental y vincular sus objetivos a las necesidades que plantean los fenómenos demográficos.
https://www.conapo.gob.mx/work/models/CONAPO/Resource/1755/1/images/IAM_05Anexo.pdf
https://shorturl.at/aCDU2
Transformación – Importar datos
Como primer paso se elige el directorio de trabajo, se recomienda seleccionar el directorio donde se encuentra el archivo a imprimir.
Transformación – Importar datos
Posteriormente, nos ubicamos en el apartado de Environment y hacemos clic en Import DataSet
Transformación – Importar datos
En este caso nuestra fuente de datos es un archivo de Excel, seleccionamos el archivo y hacemos clic en abrir.
Transformación – Importar datos
Si el archivo es correcto, carga los datos y tenemos varias posibilidades de configuración: elegir tipos de datos, nombre del dataset, seleccionar la hoja de Excel donde están los datos, elegir si la primera fila contiene los nombres de las variables, etc.
Transformación – Importar datos
Si todo es correcto, se crea en memoria una variable de tipo dataframe.
Verifica si el dataframe es correcto
Transformación – Importar datos
Usa names para obtener una lista de los nombres de las variables; Usa head para mirar las primeras filas de los datos; Usa tail para mirar las últimas filas de los datos. Usa summary para obtener un resumen estadístico. Usa class para obtener el tipo de clase de variable Usa nrow para obtener el número de renglones Usa ncol para obtener el número de columnas
2.2
Filtros
2.2 Filtros
Para conjuntos de datos con muchas variables es recomendable seleccionar solo las variables de interés.
datos <- select(Conapo2015, AÑO, GM, IM, ENT, MUN)
Filtros
Para conjuntos de datos con muchas variables es recomendable seleccionar solo las variables de interés.
datos<-select(Conapo2015, AÑO, GM, IndiceMarginacion=IM, ENT, MUN)
Filtros
datos<-select(Conapo2015, ENT:VP) datos<-select(Conapo2015, 5:9)
datos<-select(Conapo2015, starts_with("CVE")) select(Conapo2015, contains("ENT"))
Filtros
Selecciona el subconjunto de filas que satisfacen una o más condiciones.
filter(Conapo2015, AÑO==2015)
filter(Conapo2015, AÑO==2015 & ENT=='Tamaulipas') %>% select(MUN, POB_TOT, GM)
filter(Conapo2015, AÑO==2015 & ENT=='Tamaulipas') %>% select(MUN, POB_TOT, GM, IM)
2.2.2
Agrupamiento
Agrupamiento
Agrupa por la variable
unique(Conapo2015$ENT)
filter(Conapo2015, AÑO==2015 &ENT!='Nacional') %>% group_by(GM) %>% count()
2.1
Visualización
2.1.1 Paquete ggplot
ggplot2
“El gráfico simple ha traído más información a la mente del analista de datos que cualquier otra cosa” - John Tukey
R tiene varios paquetes para hacer gráficas, pero ggplot2 es el de mayor versatilidad y elegancia. ggplot2 implementa la gramática de graficas.
Hadley Wickham (2010): A Layered Grammar of Graphics, Journal of Computational and Graphical Statistics, 19:1, 3-28
2.1.2 Gráficas básicas
filter(Conapo2015, AÑO==2015 &ENT=='Tamaulipas') %>% count(GM) %>% ggplot(aes(x=GM, y=n, fill=GM))+ geom_col()
2.1.3 La gramática de la gráfica
La gramática de gráficos permite describir de manera más concisa los componentes de un gráfico. Esto permite ir más allá del nombre del gráfico (por ejemplo “diagrama de dispersión”) y obtener información más profunda sobre la estructura del mismo. La idea principal es construir un gráfico mediante múltiples capas de datos.
Una buena gramática es solo el primer paso para crear una buena oración
2.1.3 La gramática de la gráfica
grafico <- g+theme_minimal()+ theme(plot.title=element_text(hjust=0.5)) ggsave("grafico.png", grafico, width = 5, height = 5)
Software Estadístico R
Unidad 3.
Tratamiento de datos
Dirigido a docentes UAT
Dr. Juan Carlos de la Cruz Maldonado
Contenido de la Unidad 3
Carga de datos
Descriptivos
3.2
Análisis descriptivo
2.1.3 La gramática de la gráfica
La gramática de gráficos permite describir de manera más concisa los componentes de un gráfico. Esto permite ir más allá del nombre del gráfico (por ejemplo “diagrama de dispersión”) y obtener información más profunda sobre la estructura del mismo. La idea principal es construir un gráfico mediante múltiples capas de datos.
Una buena gramática es solo el primer paso para crear una buena oración
3.2 Análisis descriptivo
¿Tendrá relación la cantidad de habitantes de un municipio con su índice de marginación?
3.2 Análisis descriptivo
Resumen de una fuente de datos summary(Conapo2015)
Contacto
Dirección del Centro Institucional de Capacitación UAT (CIC-UAT)
Correo Institucional: cursoscic-uat@uat.edu.mx
Teléfono: (834) 834 318 18 00 ext. 2634, 2640 y 2644