Subido por Alberto Rivera Ramos

A1 ARR

Anuncio
Universidad del Valle de México
Actividad 1
Proyecto integrador etapa 1
(Estadística descriptiva)
Alumno
Alberto Rivera Ramos
Materia
Herramientas estadísticas para análisis de datos
Maestro
Patricia Rayón Villela
06 de noviembre 2019
Instalación de paquete IIPSUR.
Estructura de los datos
¿Qué es el Data frame?
El primer camino a seguir en el análisis de los datos es diseñar una estructura de datos que contenga los datos de
análisis. Los datos pueden ser cargados en una estructura de datos manualmente o importados desde una fuente
externa. en el caso de trabajar con R tenemos básicamente diferentes de estructura de datos:

Vector.
Matriz.
Array.
Data.
Frame.
Lista.
Los vectores, matrices y arrays se conforman por números y tienen una, dos o varias dimensiones. Data frame
es una tabla bidimensional, estos contienen datos de diferentes tipos por lo que son heterogéneos, son las más
usadas para realizar análisis de datos además podemos decir que es algo más general que una matriz, por lo que
en la data frame el tipo de los datos guardados en una columna puede cambiar el tipo de los datos almacenados a
otros.
En términos generales, los renglones en una data frame representan individuos, casos, u observaciones, mientras
que las columnas representan variables, atributos o rasgos. Por ejemplo, si uno midiera la altura, el peso y el color
del cabello de cada una de las 11 personas en un estudio de investigación, la información podría representarse
con un rectángulo formación. Habría 11 filas. Cada fila tendría la altura de la persona en la primera columna y
color de cabello en la segunda columna.
Los objetos correspondientes en R se denominan marcos de datos y se pueden construir con la función data frame.
Cada fila es una observación, y cada columna es una variable.
Diagrama de caja o bigote. (boxplot).
Es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles.
De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, pudiendo
también representar los valores atípicos de estos.
Para la interpretación de este tipo de gráfico, primero obtenemos la media de cada intervalo, y luego la mediana
de la tabla de frecuencias en general. Con estos datos utilizamos la fórmula de la media de cada intervalo elevado
a la mediana. Los datos obtenidos en esta fórmula son la interpretación.
Utilidades.

Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el
centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos también llamados outliers.

Pertenece a las herramientas de las estadísticas descriptivas. Permite ver como es la dispersión de los puntos
con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.

Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al
detectar que el 50% de la población está en los límites de la caja.
Cuantiles
Los cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria.
Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como
intervalos que comprenden la misma proporción de valores. Los más usados son:
Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0,25; 0,50 y 0,75);
Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0,20; 0,40; 0,60 y 0,80);
Los deciles, que dividen a la distribución en diez partes;
Los percentiles, que dividen a la distribución en cien partes.
En el cálculo de cuantiles con distribuciones de variable continua (por ejemplo, con datos agrupados) puede
conseguirse fácilmente que las partes en que se divide la distribución sean exactamente iguales. Sin embargo, en
las distribuciones de variable discreta (como el caso de datos aislados) debemos conformarnos
con que estas partes sean aproximadamente iguales. Por desgracia, no hay consenso sobre cómo
realizar esta aproximación, existiendo en la literatura científica nueve métodos diferentes, que
conducen a resultados diferentes. Por ello, al calcular cualquier cuantil de datos no agrupados por
medio de calculadora, software o manualmente, es básico el saber e indicar el método utilizado.
Funciones.
Sirven para realizar el análisis de los datos almacenados en una hoja de cálculo, permitiendo, por
ejemplo, obtener el número de entrada de datos o valor promedio del mismo. La estadística es
una disciplina matemática que estudia las formas de recuperación, resumir y sacar conclusiones
de los datos, Las funciones estadísticas permiten realizar el análisis estadístico de información ya
que se requieren de fórmulas para obtener la media, varianza mediana, desviación estándar y otras
las principales funciones estadísticas comúnmente utilizadas son:
Promedio, contar, frecuencia, máxima, mediana, min y moda.
Primero que nada, creamos un directorio llamado setwd esto para trabajar sobre ese directorio, en seguida vamos
a guardar una base de datos llamada usedcars.csv en el directorio creado anteriormente dicha base de datos nos
servirá para analizar los diferentes tipos de comandos que existen dentro del programa Rstudio.
En seguida abrimos el programa Rstudio.
R es un programa es un lenguaje orientado a objetos esto significa que las variables, datos, funciones,
resultados, etc. Se guardan en la memoria activa del computador en forma de objetos con un nombre
especifico, el usuario puede modificar o manipular estos objetos con operadores (aritméticos, lógicos
y comparativos y funciones que a su vez son objetos, este fue diseñado para hacer análisis
estadísticos, gráficas y es un software libre, este programa ha ganado popularidad ya que la curva de
aprendizaje es relativamente sencilla comparada con otros lenguajes, esta permite hacer proyectos
muy rápidos con muy buenos resultados.
En seguida analizaremos diferentes tipos de comandos para tener un análisis más profundo en los
diferentes tipos de datos.
1.- Existen varias funciones de lectura de datos en R según el formato del archivo. Cuando tenemos
un fichero en Excel, es aconsejable guardarlo previamente en formato CSV y posteriormente lo leemos
desde R con la función read.csv especificando la localización especifica del archivo que queremos
leer, nombre especifico del archivo junto con la extensión del mismo. Como se muestra a continuación.
2.- La función str es una función que sirve para dar la estructura de la data frame este nos arroja
información acerca de los tipos de datos que se encuentran en el archivo que estamos analizando, es
decir nos dice el tipo de dato de cada variable de nuestro archivo si estos son de tipo entero, carácter,
numérico o si es un factor, así como las primeras ocurrencias del mismo es decir los primeros datos
de cada una de las variables del archivo.
3 y 4.- funciones como dim y funciones para visualizar los primeros 5 datos en nuestro archivo
La función dim. Es muy simple ejecutarla, simplente basta con ingresar la función y en seguida poner
dentro de paréntesis el archivo que queremos analizar.
Ahí momentos en los cuales es preciso analizar un margen especifico de datos en un determinado
archivo por ende es de gran utilidad funciones como nombre de nuestro archivo, así como dentro de
corchetes el campo especifico que queremos visualizar como se muestra a continuación:
Usedcars [1:5]
6.- Las funciones head y tail estas exploran en la base de datos los primeros y los últimos registros
como se muestra a continuación.
7.- summary es una función que sirve para hacer un resumen de la base de datos la cual estamos
analizando en donde podemos encontrar diferentes datos estadísticos para variables numéricas, así
como para factores nos arroja conteos como:

Máximos - Mínimos - Media - Mediana - quantil.
8.- Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0,25;
0,50 y 0,75).
Los valores de la función cuantil son empleados más frecuentemente en estadística que los valores
de la función de distribución. Se utiliza frecuentemente en especial los intervalos de dispersión,
entendiendo esto como que deben contener una proporción grande de los datos.
9.- Función de caja y bigote (boxplot).
Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos
de datos numéricos a través de sus cuartiles. Las líneas que se extienden paralelas a las cajas se
conocen como «bigotes», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior.
Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y bigotes son una excelente
forma de examinar rápidamente uno o más conjuntos de datos gráficamente. Aunque parezcan
primitivos en comparación con un Histograma o un Gráfico de Densidad, tienen la ventaja de ocupar
menos espacio, lo cual es útil cuando se comparan distribuciones entre muchos grupos o conjuntos
de datos.
10.- Tabla de frecuencias de las variables nominales.
Con la función prop.table (frec.col) desplegamos la tabla de datos por proporciones
Referencias bibliográficas.
https://cran.r-project.org/doc/contrib/rdebuts_es.pdf
https://es.wikipedia.org/wiki/Diagrama_de_caja
https://www.engineeringbigdata.com/datasets/
Kerns, G. (2010). Introduction to Probability and Statistics Using R (5nd ed.) [Archivo PDF]. Recuperado de
https://cran.r-project.org/web/packages/IPSUR/vignettes/IPSUR.pdf
Descargar