Alta Resolución

Estadísticas en R

Cuando instalas R algunas base de datos o data frame vienen también preinstalados, este es el caso del paquete «dataset» el cual utilizaremos en esta lección para practicar cómo obtener algunos estadísticos descriptivos. Para utilizarlo debes utilizar el siguiente comando:

library(dataset) #Con este comando, le pedimos a R que abra todas las bases de datos que se encuentran alojadas en este paquete.

En el paquete dataset existen múltiples base de datos, para esta lección nos interesará utilizar el data frame «cars», podemos saber un poco más del mismo si damos utilizamos el comando help:

help(cars) #En la ventana de packages nos muestra información sobre está base de datos.

La base de datos cars sólo almacena 2 base de datos, la primer variable speed muesta la velocidad (millas por hora) alcanzada por 50 automóviles en 1920; mientras que la segunda variable dist registró la distancia que recorrida por cada automóvil antes de frenar por completo (medida en pies).

Si deseas conocer estos valores en especifico puedes pedirle un «print» a R, para que te muestre el comportamiento de cada uno de los 50 automóviles, sólo utiliza el siguiente comando:

print(cars) #Muestra la relación entre speed y dist para cada uno de los 50 automóviles.

Anuncios

Uso de estadística descriptivas

En estadística descriptiva existen tres tipos de estadísticos que podemos calcular. El primero son medidas centrales como: media, mediana, moda. El segundo tipo corresponde a dispersión: rango, varianza, desviación estándar. Mientras que en el tercer tipo son de posición: cuartiles, déciles, entre otros.

En este sentido, el comando «summary» nos será muy útil, ya que nos muestra los principales estadísticos centrales y de posición.

summary(cars)

speed dist
Min. : 4.0 Min. : 2.00
1st Qu.:12.0 1st Qu.: 26.00
Median :15.0 Median : 36.00
Mean :15.4 Mean : 42.98
3rd Qu.:19.0 3rd Qu.: 56.00
Max. :25.0 Max. :120.00

En este sentido, sólo restaría obtener los estadísticos de dispersión, siendo la varianza y la covarianza las más fáciles de calcular en R, para el data frame de cars el comando sería:

var(cars) #En este caso, nos indica la matriz de varianza-covarianza entre las variables speed y dist.

speed dist
speed 27.95918 109.9469
dist 109.94694 664.0608

En las siguientes lecciones se exploraremos más estadísticos, sobretodo los relacionados con el análisis multivariado.

Te invito a que continúes aprendiendo y practicando más sobre R en la siguiente lección, el link aparece en la parte inferior de esta página.

Escrito por Adrián de la Cruz

*Si consideras este contenido de utilidad, ayúdanos a seguir generando más y mejor contenido gratuito con una aportación que consideres suficiente.

Una única vez
Mensualmente

Haz una donación única

Haz una donación mensual

Elige una cantidad

MX$50,00
MX$100,00
MX$250,00
MX$20,00
MX$50,00
MX$100,00

Se agradece tu contribución.

DonarDonar mensualmente

Siguiente lección >>> Creación de objetos

Conoce todos nuestros Cursos gratis

Esta información fue relevante para tí

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: