TALLER 1: TECNICAS DE APRENDIZAJE ESTADISTICO LUIS FERNANDO CANDELA ARISTIZABAL JOHN JAMES CULMA CADAVID JUAN DAVID GOMEZ GIRALDO ORLANDO MONTOYA BENITEZ UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLIN FACULTAD DE MINAS INGENIERIA DE SISTEMAS E INFORMATICA MEDELLIN 2012 TALLER 1 Técnicas de Aprendizaje Estadístico 01-2110 1. Reglas de integridad: Identificación: Este valor debe ser único para cada estudiante (no hay duplicados) y no se permite nulos. El dominio de ésta está restringido a valores enteros que están relacionados a un tipo de identificación sin importar su clase, como tarjeta de identidad, cédula o pasaporte. Edad: No se permiten nulos. Debe ser un número entero entre 0 y 110. Tipo de bachiller: No se permiten nulos. Para encontrarse matriculado en la universidad cada estudiante tuvo que haber cursado y aprobado algún tipo de bachillerato. Las únicas opciones validas son: Bachillerato público o privado. Estrato socioeconómico: No se permiten nulos. Cada estudiante pertenece a uno y solo un estrato socioeconómico de acuerdo a la ubicación de su residencia. La escala está restringida entre los valores enteros del intervalo [1-6]. Máximo nivel educativo de uno de los padres: No se permiten nulos. Solo existen ciertos niveles de educación, de los cuales se debe seleccionar uno, el cual representa el máximo nivel de uno de los padres. Si existen estudiantes sin padres o que ninguno de ellos haya realizado algún nivel educativo, debe permitir especificar “No responde”. PAPA: No se permiten nulos. Debe ser un número con tan sólo un decimal, calculado del promedio de materias vistas hasta el momento y debe hallarse entre 0 y 5. Avance en créditos: No se permiten nulos. Número entero que representa el total de créditos aprobados hasta el momento. Área preferida: No se permiten nulos. Se debe permitir seleccionar, a consideración del gusto de cada estudiante, el área preferida correspondiente a Ingeniería de Sistemas. De no tener preferencias deberá permitir especificarlo o de no hallar su preferencia deberá permitir seleccionar “Otra”. Horas a la semana para estudio extraclase: No se permiten nulos. Es el aproximado en horas (enteras) que dedica cada estudiante para estudio extraclase. Opción de grado: No se permiten nulos. Como este es un requisito para la obtención del título, cada estudiante deberá elegir una opción de grado de las ofrecidas por la universidad; aunque, debido al poco avance de algunos estudiantes, posiblemente aun no tengan claro que opción de grado elegir. Trabajo en grupo: No se permiten nulos. Es responder si o no a la pregunta de si le gusta trabajar en grupo. Problema más grave del país: No se permiten nulos. Dentro de los problemas más vistos en nuestro país seleccionar cual es el más grave de todos. Si a consideración del estudiante no se encuentra el que él considera, deberá permitir seleccionar “Otro”. Solución al problema: Es una propuesta de la posible solución al problema anteriormente seleccionado. Gustos en los momentos de ocio: No se permiten nulos. Permitir elegir cuál o cuáles, dentro de los gustos más comunes, son los que prefiere cada estudiante. De no hallar ninguno de su predilección permitir seleccionar “Ninguno de los anteriores”. Deporte favorito: No se permiten nulos. Permitir seleccionar el tipo de deporte que desea cada estudiante, ya sea en grupo, individual o si no le gusta ningún tipo de deporte. Juegos de mesa preferidos: No se permiten nulos. Permitir elegir dentro de los juegos de mesa más comunes cuál es el preferido por cada estudiante. Si no le gusta permitir seleccionar. Como desea trabajar: No se permiten nulos. Dentro de las posibilidades de trabajo, permitir seleccionar cual desearía llevar a cabo. Si es otra permitir especificar o seleccionar. Tipo de transporte: Cada persona emplea por lo menos un tipo de transporte para llegar a la universidad o una combinación de algunos de ellos, el cual debe permitir ser seleccionado. De no encontrar el utilizado por dicha persona (patines, patineta) permitir seleccionar “Otro”. Tiempo en llegar a la universidad: No se permiten nulos. Todas las personas demoran al menos 1 minuto para llegar a la universidad, no importa la cercanía que tenga su residencia con esta. Debe ser estimado en horas o en fracción de estas. Satisfacción con la formación en la Universidad: Permitir seleccionar dentro de la escala del 1 al 5, el grado de satisfacción con la formación de cada estudiante (solo valores enteros). 2. Su detección es importante pues pueden determinar o influenciar fuertemente los resultados de un análisis estadístico clásico, pues muchas de las técnicas habitualmente usadas son muy sensibles a la presencia de datos atípicos. El efecto de los valores atípicos puede tener consecuencias perversas sobre todas las etapas del análisis univariante: los valores atípicos pueden provocar la identificación de modelos incorrectos. La etapa de estimación de los parámetros también presentará perturbaciones originadas por los valores atípicos así como la etapa de verificación del modelo a través del efecto nocivo que representan los atípicos. La etapa de predicción presenta también deficiencias cuando la serie contiene valores atípicos no tratados. La principal conclusión es que los efectos de los valores atípicos pueden ser tan nefastos que su tratamiento se puede considerar como imprescindible. Prueba de Grubbs: Este método fue planteado por Frank E. Grubbs desde el año 1969 [Grubbs, 1969] y también es conocido como el método ESD (Extreme Studentized Deviate). La prueba de Grubbs se utiliza para detectar valores atípicos en un conjunto de datos univariante y se basa en el supuesto de normalidad. Es decir, primero debe verificarse que sus datos pueden aproximarse razonablemente a una distribución normal antes de aplicar la prueba. Es especialmente fácil de seguir y sirve para detectar un valor atípico a la vez. Para aplicar la prueba es importante tener claros los conceptos de valor crítico y nivel de significancia. El procedimiento de la prueba de Grubbs es el siguiente [Taylor y Cihon, 2004]: Paso 1: Ordenar los datos ascendentemente X1 < X2 < X3 < ........Xn Paso 2: Decidir si 1 X o n X es un valor sospechoso. Paso 3: Calcular el promedio X y la desviación estándar S del conjunto de datos. Paso 4: Se calcula T si se considera sospechoso el primer valor o el último valor. Paso 5: Escoger el nivel de confianza para la prueba y calcular T y compararlo con el valor correspondiente de acuerdo con una tabla de valores críticos. La tabla está disponible en [Taylor y Cihon, 2004]. Si el valor de T es mayor que el valor crítico, se dice que el dato es un valor extremo. Iglewicz y Hoaglin, presentan el siguiente ejemplo sobre la prueba de Grubbs: La prueba de Grubbs utiliza una estadística de prueba, T, que es la diferencia absoluta entre el valor atípico, X O, y el promedio de la muestra (X) dividida por la desviación estándar de la muestra, s. Para el ejemplo anterior, el promedio de la muestra es = 4.86 y la desviación estándar de la muestra es = 1.48. La estadística calculada de la prueba es: Para un n = 7 y un riesgo del 5%, el valor tabulado es 1.938 y el TCalculado = 1.99 excede este valor crítico, indicando que el valor 7.8 es un valor atípico. Prueba de Dixon: La prueba de Dixon permite determinar si un valor sospechoso de un conjunto de datos es un outlier. El método define la relación entre la diferencia del mínimo/máximo valor y su vecino más cercano y la diferencia entre el máximo y el mínimo valor aplicado. Los datos deben provenir de una distribución normal. Si se sospecha que una población lognormal subyace en la muestra, la prueba puede ser aplicada al logaritmo de los datos. Antes de realizar el procedimiento es importante definir las hipótesis (si el valor sospechoso se encuentra al inicio o al final del conjunto de datos) y determinar la distribución de la que provienen los datos (normal o lognormal). Se debe seguir los siguientes pasos: Paso 1: Ordenar los valores de la muestra en forma ascendente, siendo X1 el valor más pequeño y Xn el mayor valor: X1 < X2 < X3 < ........Xn Paso 2: Calcular el valor de Dixon dependiendo del tamaño de la muestra según la tabla. Donde las relaciones son las indicadas en la tabla Relaciones Prueba de Dixon Prueba de Dixon de acuerdo con el tamaño del conjunto De datos Buscar el valor crítico de r de acuerdo con el nivel de significancia en la tabla para valores críticos para la prueba de Dixon. Si el valor de r calculado es mayor que el valor crítico de la tabla se concluye que es un valor atípico. En el caso de la prueba de Dixon con más de un valor extremo sospechoso, el valor más extremo tiende a ser enmascarado por la presencia de otros valores. El enmascaramiento ocurre cuando dos o más valores atípicos tienen valores similares. En un conjunto de datos, si los valores más pequeños o más grandes son casi iguales, una prueba de outlier para el valor más extremo de los dos no es estadísticamente significativa. Esto es especialmente cierto en el caso de los tamaños de las muestras de menos de diez, cuando el numerador de la relación es la diferencia entre los dos valores más extremos. Por ejemplo, tomemos los datos 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3 Ordenando los datos: Este valor se compara con un valor crítico de una tabla, y el valor se declara valor atípico si supera ese valor crítico. Si Dcalculado>Dtabulado se rechaza el dato El valor tabulado depende del tamaño de la muestra, n, y de un nivel de confianza elegido, que es el riesgo de rechazar una observación válida. La tabla por lo general utiliza niveles de baja confianza tal como 1% o 5%. Para un n = 7 y un riesgo del 5%, el valor en la tabla es 0.507. El índice de Dixon 0.532 excede este valor crítico, indicando que el valor 7.8 es un valor atípico. El tamaño de la muestra es 7, y la relación utilizada es el espacio entre el valor atípico (7.8) y su vecino más próximo (5.3) dividido por el espacio entre los valores más grandes y más pequeños en el grupo. Por lo tanto, el índice de Dixon es: (7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532 La prueba de Dixon se usa en un número pequeño de observaciones (menor a 26) y detecta elementos que se encuentren sesgados o que son extremos. Prueba de Tukey: El diagrama conocido como diagrama de cajas y bigotes (Box and Whiskers Plot o simplemente BoxPlot) es un gráfico representativo de las distribuciones de un conjunto de datos creado por Tukey en 1977, en cuya construcción se usan cinco medidas descriptivas de los mismos: mediana, primer cuartil (Q1), tercer cuartil (Q3), valor máximo y valor mínimo. Está compuesto por un rectángulo o caja la cual se construye con ayuda del primer y tercer cuartil y representa el 50% de los datos que particularmente están ubicados en la zona central de la distribución, la mediana es la línea que atraviesa la caja, y dos brazos o bigotes son las líneas que se extienden desde la caja hasta los valores más altos y más bajos. En algunos casos, dentro de la caja suele trazarse una cruz para representar el promedio de los datos. En la figura se presenta un diagrama de cajas y bigotes. Diagrama de Cajas y bigotes: Esta presentación visual asocia las cinco medidas que suelen trabajarse de forma individual y puede ser graficada de manera vertical u horizontal. Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los datos de estudio. Además, permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos, esto es, sirve para detectar los valores atípicos. Por su facilidad de construcción e interpretación, permite también comparar a la vez varios grupos de datos sin perder información ni saturarse de ella. Usando los mismos cálculos necesarios para construir el diagrama de cajas y bigotes, puede hacerse detección automática de los valores atípicos presentes en un conjunto de datos. El método es el siguiente: se encuentra la mediana de todos los datos, luego se halla tanto la mediana de los valores iguales o inferiores a la mediana como de los superiores. Este será un valor de datos o será la mitad de entre dos valores de datos dependiendo de si la cantidad de los datos es par o impar [CQU, 1997]. Con un conjunto de datos impar, se incluye la mediana en cada una de las dos mitades del conjunto de datos y luego se encuentra el medio de cada mitad. Esto da como resultado el primer y tercer cuartil. Si el conjunto de datos tiene un número par de valores, los datos se dividen en dos mitades, y se encuentra el medio de cada mitad. Análisis de Valores Atípicos de Mahalanobis: El Análisis de Valores atípicos de Mahalanobis (Mahalanobis Outlier Analysis –MOA), es un método basado en una distancia, llamada distancia de Mahalanobis (DM). Esta distancia es calculada con base en la varianza de cada punto. Ésta describe la distancia entre cada punto de datos y el centro de masa. Cuando un punto se encuentra en el centro de masa, la distancia de Mahalanobis es cero y cuando un punto de datos se encuentra distante del centro de masa, la distancia es mayor a cero. Por lo tanto, los puntos de datos que se encuentran lejos del centro de masa se consideran valores atípicos. La DM es un enfoque multivariante y es calculado para cada observación en el conjunto de datos. Entonces a cada observación se le da un peso como inverso de la distancia de Mahalanobis. Las observaciones con valores extremos obtienen menores pesos. Finalmente una regresión ponderada se ejecuta para minimizar el efecto de los valores extremos. La DM es diferente de la distancia euclidiana por lo siguiente: Está basada en correlaciones entre variables por lo cual pueden ser identificados y analizados diferentes patrones. Es invariante a la escala, es decir, no depende de la escala de las mediciones. Toma en cuenta las correlaciones del conjunto de datos. La DM se calcula de la siguiente forma: Según Maesschalck la DM toma en cuenta la correlación en los datos, dado que ésta es calculada usando la inversa de la matriz de covarianza del conjunto de datos de interés. Sin embargo, el cálculo de la matriz de covarianza puede causar problemas. Cuando los datos investigados son medidos sobre un gran número de variables, ellos pueden contener información redundante o correlacionada. Esto conduce a una matriz de covarianza que no puede ser invertida. Una segunda limitación para el cálculo de la matriz de covarianza es que el número de objetos en el conjunto de datos tiene que ser más grande que el número de variables, requiriéndose en muchos casos reducción de características. Adicionalmente, el uso de la distancia clásica de Mahalanobis para la detección de atípicos ha sido criticado por estar afectado por el efecto enmascaramiento. Para la detección de atípicos multivariantes Rousseeuuw y Van Zomeren proponen el uso de un test de discordancia usando lo que denominan “distancia robusta”. Se trata de las distancias de Mahalanobis de todos los puntos respecto al estimador robusto MCD (Minimum Covariance Determinant). El método MCD consiste, para un número determinado de datos en la muestra, en buscar la matriz de covarianza con mínimo determinante para diferentes muestras de dicho tamaño. La idea subyacente es que el determinante de la matriz de covarianzas está inversamente relacionado con la intensidad de las correlaciones. Al estar la distancia referida al estimador robusto de medias y covarianzas, no está afectada por el efecto. Detección de Valores Atípicos mediante Regresión Simple: El análisis de regresión es una importante herramienta estadística que se aplica en la mayoría de las ciencias. De muchas posibles técnicas de regresión, el método de mínimos cuadrados (LS) ha sido generalmente la más adoptada por tradición y facilidad de cálculo. Este método a través de unos cálculos, aproxima un conjunto de datos a un modelo, el cual puede ser lineal, cuadrado, exponencial, entre otros. Es decir, es una técnica de optimización, que intenta encontrar una función que se aproxime lo mejor posible a los datos. La diferencia entre el valor observado y el valor obtenido del modelo de regresión se denominan residuos o suma de cuadrados y el objetivo es tratar de minimizar este valor y así obtener el mejor ajuste. La figura ilustra el método de mínimos cuadrados. Regresión por Mínimos cuadrados: En la regresión lineal o simple se parte de un modelo lineal, donde existe una relación de la variable x también llamada variable independiente hacia la variable y denominada variable dependiente. La ecuación que relaciona estas dos variables es: Donde a es el valor de la ordenada donde la línea de regresión se interseca con el eje y , b es el coeficiente de la pendiente de la línea recta y e es el error que se comete al ajustar los datos donde se supone que tiene valor esperado cero y desviación estándar común. Es deseable que los valores de ‘ y ’ ajustados al modelo, sean lo más parecidos posible a los valores observados. Una medida de lo parecido que son, es el coeficiente de correlación R2 la cual se define como el cuadrado del coeficiente de correlación entre los valores de ‘y ’ observados y los valores de ‘ y ’ ajustados. El rango de R2 es entre 0 y 1, el valor entre más se acerque a 1 quiere decir que tiene un mejor ajuste. Los valores de a y b se determinan mediante las fórmulas: Un modelo de regresión permite detectar valores atípicos al considerar a los datos alejados del modelo como tales. Esto es, los casos que no siguen el modelo como el resto de los datos pueden representar datos erróneos, o pueden indicar un pobre ajuste de la línea de regresión. • • • • La ASTM E178, Práctica para manejar observaciones de valores atípicos, contiene muchos procedimientos estadísticos para realizar pruebas de valores atípicos. En esta norma se proveen otros criterios para valores atípicos únicos, así como pruebas para valores atípicos múltiples, y la norma también da pautas para la elección de la prueba. Una referencia más amplia para la prueba de valores atípicos es el libro Valores atípicos en datos estadísticos, publicado por Wiley. Otra referencia útil y más práctica es el Volumen 16 de la Sociedad Estadounidense de Calidad (ASQ) "Referencias básicas para el control de calidad, técnicas estadísticas" Cómo detectar y manejar valores atípicos", ASQC Quality Press. En la práctica E178 de ASTM se indican otras referencias. REFERENCIAS BIBLIOGRAFICAS - TUKEY, J. W. (1977). Exploratory Data Analysis. Addisson Wesley. - BIEHLER. R. (l988.a). Educational perspectives on exploratory data analysis. Sixth International Congress on Matheinatical Education. JULLIEN, M. Y NIN. G. (1989). L’ E.D.A. au secours de I’OG.D. ou quelques remarques concernant l’enseignement de la Statistique dans les colleges. Petit X, 19: 29-41. - CHAMBERS, J. M., CLEVELAND, W. S., KLEINER, B y TUKEY, P. A. (1983). Graphical methods for data analysis. Duxbury Press. - HARTWING, F. y DEARING, B. F. (1979). Exploratory data analysis. Sage University Press. Para considerar a una observación como atípica existen diferentes criterios: Se consideran atípicas aquellas observaciones que están, en valores absolutos, a más de 2 desviaciones tipo de la media (Z>2 o Z<-2) pero la aplicación de este criterio depende del tamaño de la muestra. En el gráfico de caja, como ya hemos visto, se visualizan los valores atípicos. Para encontrar los valores atípicos de cada conjunto de datos se empleará el siguiente código realizado en R: #Inicio del programa tam=length(z) #z representa el vector con los valores. media=mean(z) #Media aritmética desvstd=sd(z) #Desviación estándar i=1 valoresAtipicos=c(1:tam) for (j in 1:tam){ if(z[j]>((2*desvstd)+media)){ valoresAtipicos[i]=z[j] i=i+1 } } #Fin del programa Media=16; Desviación estándar=17.26144. z=c(18,24,20,8,15,20,6,12,12,8,20,20,32,26,8,20,20,25,6,18,14,15,12,20,15,15,14,0,20,15,4,24,6,4, 16,14,18,4,4,2,4,120,5,4,6,6,16,33) Media=3.64375; Desviación estándar=0.2673003 z=c(3.7,3.4,4,3.5,3.9,3.8,3.5,3.5,3.4,3.0,3.6,3.7,3.4,3.7,3.5,3.8,3.9,4.2,3.5,3,3.5,3.3,3.5,3.3,3.8,3.6,3 .8,3.9,3.9,3.5,4.1,3.6,3.6,3.6,3.4,3.6,3.6,3.9,3.9,4.2,3.9,3.6,3.7,3.7,3.4,3.4,3.5,4.1) Media=100.0563; Desviación estándar=37.54155 z=c(71,115,118,95,152,129,92,119,114,56,72,170,51,77,75,80,58,113,22,100,98,98,135,87,120, 105,137,129,134,89,120,64,146,71,73,132,102,0.85,0.85,128,122,120,89,112,94,94,154,169) Media=22.33333; Desviación estándar=2.234482 z=c(20,25,20,28,21,22,21,23,23,20,21,24,20,21,20,20,21,21,24,22,24,23,26,22,22,22,22,22,22,26, 21,20,21,26,23,24,24,20,20,20,20,24,22,22,23,23,30,21) Media=1.4904; Desviación estándar=3.882349 z=c(0.5,0.5,0.3,0.5,0.5,1,1,1,1,20,1,0.15,0.25,0.2,0.16,0.5,1,1,0.15,1.5,1.5,0.1,1.5,1.2,0.75) 3. Utilizando la herramienta Google Refine, se toman los datos no vacíos de la columna: Solución propuesta para resolver ese problema más grave y se crea un nuevo proyecto con estos datos. Luego se aplica Text facet en la columna de datos Este comando nos permite mostrar cuantas veces se repite una palabra escrita igualmente, es decir con este comando ya podemos tener una idea de cuáles son las palabras o conceptos más repetidos. En este ejemplo se paso de tener 44 opciones o conceptos a tener 37 opciones: Una ventaja es que los resultados se muestran ordenados en forma alfabética y por lo tanto se hace más fácil ver los grupos de palabras que se pueden seguir agrupando: De los resultados anteriores se observa que el concepto que más se repite es la palabra educación, por lo tanto esta palabra será un primer grupo significativo, debido a que está escrita de varias formas entonces se aprovecha el filtro que tiene la herramienta para que busque todas las palabras que incluyen las letras consecutivas: “duca” y así se agrupan todos los conceptos que tengan que ver con educación en un solo grupo al cual llamaremos “educación”: La opción: Text filter permite hacer el filtro por la cadena de caracteres: “duca” Para darle el nuevo nombre a este grupo se utiliza la opción: Cluster Opción que abre la siguiente pantalla donde se le da el nuevo nombre al grupo. El grupo: “golpe de estado” como tiene 3 opciones queda como grupo significativo. Al dar la opción: “Cluster” nuevamente, se muestra las posibles palabras que pueden ser agrupadas, permitiendo crear entonces los grupos: “Inversión” y “Honestidad” El grupo “Justicia” como tiene 2 opciones queda como grupo significativo. Se hace nuevamente un filtro por la cadena de caracteres: “val” y haciendo el Cluster para los siguientes dos resultados: se crea el grupo “Valores Humanos”. Nota: Para las siguientes opciones que quedan sin grupo significativo, como son palabras diferentes entre sí, no se pueden formar grupos significativos asociando las palabras. Solo se podrían incluir en los otros grupos significativos siempre y cuando el significado de la palabra sea acorde con el significado de la palabra que representa al grupo significativo. 4. Mediante el siguiente código realizado en R, se categoriza el PAPA en tres categorías. z=c(3.7,3.4,4,3.5,3.9,3.8,3.5,3.5,3.4,3.0,3.6,3.7,3.4,3.7,3.5,3.8,3.9,4.2,3.5,3,3.5,3.3,3.5,3.3,3.8,3.6,3 .8,3.9,3.9,3.5,4.1,3.6,3.6,3.6,3.4,3.6,3.6,3.9,3.9,4.2,3.9,3.6,3.7,3.7,3.4,3.4,3.5,4.1) tam=length(z) prom= c(1:tam) for(j in 1:tam){ if(z[j]<3.5){ prom[j]="Bajo" } else{ if(z[j]>=3.5 & z[j]<=3.825){ prom[j]="Medio" } else{ prom[j]="Alto" } } } Se ubican los estudiantes que tengan promedios menores a 3.5 en la categoría de “bajo” debido a que este corresponde al primer cuartil, es decir el 25% se ubican en dicha categoría. En la categoría de “Medio” se hallan los estudiantes que tengan promedio entre 3.5 y 3.825, este último valor corresponde al tercer cuartil. Así en esta categoría se ubicara el 50% de los promedios. Y los que tengan un promedio por encima de 3.825 se categorizarán en “alto”. 5. Tres de las características que consideramos importantes en el grupo son: Promedio Aritmético Ponderado Acumulado PAPA, Edad y Horas a la semana para el estudio extraclase debido a que con estas se puede llegar a hacer un análisis de la relación existente ellas, como por ejemplo un análisis de regresión, enfocándolas a mirar si ellas influyen entre otras en la deserción que se presenta en la carrera de Ing. de sistemas. Promedio Aritmético Ponderado Acumulado PAPA Estadísticas descriptivas: Mínimo 1º Cuartil Mediana Media 3º Cuartil Máximo 3.000 3.600 3.644 3.825 4.200 3.500 Desviación estándar 0.07144947 Aquí se puede notar que el mínimo valor para el PAPA es de 3.00, debido a que un requisito para ser estudiante de Ingeniería de Sistemas en la Universidad Nacional es tener un promedio por encima de 3.00. No se dan valores atípicos, y el 50% de los datos se encuentran en un rango entre 3.5 y 3.8 un promedio aceptable dentro de la universidad. No existen valores atípicos dentro del PAPA de los estudiantes y el valor que divide en dos partes iguales los datos es 3.6, una nota muy común en la carrera, como se puede ver en el promedio aritmético. La gráfica muestra cierta simetría en la curva de las barras lo cual hace pensar que los datos presentan una distribución normal. Edad edad=c(20,25,20,28,21,22,21,23,23,20,21,24,20,21,20,20,21,21,24,22,24,23,26, 22,22,22,22,22,22,26,21,20,21,26,23,24,24,20,20,20,20,24,22,22,23,23,30,21) Estadísticas descriptivas Mínimo 1º Cuartil Mediana Media 3º Cuartil Máximo 20.00 21.00 22.00 22.33 23.25 30.00 Desviación estándar 2.234482 Edad (extraemos valores atípicos) edad2=c(20,25,20,21,22,21,23,23,20,21,24,20,21,20,20,21,21,24,22,24,23,26, 22,22,22,22,22,22,26,21,20,21,26,23,24,24,20,20,20,20,24,22,22,23,23,21) Estadísticas descriptivas Mínimo 1º Cuartil Mediana Media 3º Cuartil Máximo 20.00 21.00 22.00 22.04 23.00 26.00 Desviación estándar 1.763286 Si comparamos las estadísticas descriptivas de los datos con valores atípicos y los datos sin valores atípicos, podemos notar que estas se ven altamente influenciadas por valores muy altos (por ejemplo la media o la desviación estándar), como en este caso, o por valores muy bajos; en comparación a los demás datos. La media es un estadístico robusto debido a que con o sin valores atípicos sigue siendo la misma. Caso contrario con la media que se ve influenciada por este tipo de datos pocos comunes y de valores muy altos. En ambas graficas se presenta asimetría así sea quitando los valores atípicos, la curva que se crea al suavizar la grafica no corresponde a una distribución normal, existe una alta frecuencia en valores menores. Horas a la semana para el estudio extraclase horas=c(18,24,20,8,15,20,6,12,12,8,20,20,32,26,8,20,20,25,6,18,14,15,12,20, 15,15,14,20,20,15,4,24,6,4,16,14,18,4,4,2,4,120,5,4,6,6,16,33) Estadísticas descriptivas Mínimo 1º Cuartil Mediana Media 3º Cuartil Máximo 2.00 6.00 15.00 16.42 20.00 120.00 Horas a la semana para el estudio extraclase (extraemos valores atípicos) horas2=c(18,24,20,8,15,20,6,12,12,8,20,20,32,26,8,20,20,25,6,18,14,15,12,20, 15,15,14,20,20,15,4,24,6,4,16,14,18,4,4,2,4,5,4,6,6,16,33) Estadísticas descriptivas Mínimo 1º Cuartil Mediana Media 3º Cuartil Máximo 2.00 6.00 15.00 14.21 20.00 33.00 Desviación estándar 17.10771 Desviación estándar 7.79893 La presencia de valores atípicos tan altos hacen que tanto la media y la desviación estándar disten mucho la una de la otra. La distribución de los cuartiles y de la mediana no se ven influenciadas por valores atípicos. Caso contrario con otros estadísticos como la media. Con la presencia de un valor atípico tan alto se nota como si existiese una brecha o una ausencia de datos en la información y no permite evidenciar tan claramente como nos lo muestra el grafico de la derecha la distribución de los datos en un margen mucho menor, y por lo tanto más detallado.