taller 1: tecnicas de aprendizaje estadistico luis

Anuncio
TALLER 1: TECNICAS DE APRENDIZAJE ESTADISTICO
LUIS FERNANDO CANDELA ARISTIZABAL
JOHN JAMES CULMA CADAVID
JUAN DAVID GOMEZ GIRALDO
ORLANDO MONTOYA BENITEZ
UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLIN
FACULTAD DE MINAS
INGENIERIA DE SISTEMAS E INFORMATICA
MEDELLIN
2012
TALLER 1
Técnicas de Aprendizaje Estadístico 01-2110
1. Reglas de integridad:
Identificación: Este valor debe ser único para cada estudiante (no hay duplicados) y no se permite
nulos. El dominio de ésta está restringido a valores enteros que están relacionados a un tipo de
identificación sin importar su clase, como tarjeta de identidad, cédula o pasaporte.
Edad: No se permiten nulos. Debe ser un número entero entre 0 y 110.
Tipo de bachiller: No se permiten nulos. Para encontrarse matriculado en la universidad cada
estudiante tuvo que haber cursado y aprobado algún tipo de bachillerato. Las únicas opciones
validas son: Bachillerato público o privado.
Estrato socioeconómico: No se permiten nulos. Cada estudiante pertenece a uno y solo un estrato
socioeconómico de acuerdo a la ubicación de su residencia. La escala está restringida entre los
valores enteros del intervalo [1-6].
Máximo nivel educativo de uno de los padres: No se permiten nulos. Solo existen ciertos niveles
de educación, de los cuales se debe seleccionar uno, el cual representa el máximo nivel de uno de
los padres. Si existen estudiantes sin padres o que ninguno de ellos haya realizado algún nivel
educativo, debe permitir especificar “No responde”.
PAPA: No se permiten nulos. Debe ser un número con tan sólo un decimal, calculado del promedio
de materias vistas hasta el momento y debe hallarse entre 0 y 5.
Avance en créditos: No se permiten nulos. Número entero que representa el total de créditos
aprobados hasta el momento.
Área preferida: No se permiten nulos. Se debe permitir seleccionar, a consideración del gusto de
cada estudiante, el área preferida correspondiente a Ingeniería de Sistemas. De no tener
preferencias deberá permitir especificarlo o de no hallar su preferencia deberá permitir
seleccionar “Otra”.
Horas a la semana para estudio extraclase: No se permiten nulos. Es el aproximado en horas
(enteras) que dedica cada estudiante para estudio extraclase.
Opción de grado: No se permiten nulos. Como este es un requisito para la obtención del título,
cada estudiante deberá elegir una opción de grado de las ofrecidas por la universidad; aunque,
debido al poco avance de algunos estudiantes, posiblemente aun no tengan claro que opción de
grado elegir.
Trabajo en grupo: No se permiten nulos. Es responder si o no a la pregunta de si le gusta trabajar
en grupo.
Problema más grave del país: No se permiten nulos. Dentro de los problemas más vistos en
nuestro país seleccionar cual es el más grave de todos. Si a consideración del estudiante no se
encuentra el que él considera, deberá permitir seleccionar “Otro”.
Solución al problema: Es una propuesta de la posible solución al problema anteriormente
seleccionado.
Gustos en los momentos de ocio: No se permiten nulos. Permitir elegir cuál o cuáles, dentro de los
gustos más comunes, son los que prefiere cada estudiante. De no hallar ninguno de su
predilección permitir seleccionar “Ninguno de los anteriores”.
Deporte favorito: No se permiten nulos. Permitir seleccionar el tipo de deporte que desea cada
estudiante, ya sea en grupo, individual o si no le gusta ningún tipo de deporte.
Juegos de mesa preferidos: No se permiten nulos. Permitir elegir dentro de los juegos de mesa
más comunes cuál es el preferido por cada estudiante. Si no le gusta permitir seleccionar.
Como desea trabajar: No se permiten nulos. Dentro de las posibilidades de trabajo, permitir
seleccionar cual desearía llevar a cabo. Si es otra permitir especificar o seleccionar.
Tipo de transporte: Cada persona emplea por lo menos un tipo de transporte para llegar a la
universidad o una combinación de algunos de ellos, el cual debe permitir ser seleccionado. De no
encontrar el utilizado por dicha persona (patines, patineta) permitir seleccionar “Otro”.
Tiempo en llegar a la universidad: No se permiten nulos. Todas las personas demoran al menos 1
minuto para llegar a la universidad, no importa la cercanía que tenga su residencia con esta. Debe
ser estimado en horas o en fracción de estas.
Satisfacción con la formación en la Universidad: Permitir seleccionar dentro de la escala del 1 al 5,
el grado de satisfacción con la formación de cada estudiante (solo valores enteros).
2. Su detección es importante pues pueden determinar o influenciar fuertemente los resultados
de un análisis estadístico clásico, pues muchas de las técnicas habitualmente usadas son muy
sensibles a la presencia de datos atípicos.
El efecto de los valores atípicos puede tener consecuencias perversas sobre todas las etapas del
análisis univariante: los valores atípicos pueden provocar la identificación de modelos incorrectos.
La etapa de estimación de los parámetros también presentará perturbaciones originadas por los
valores atípicos así como la etapa de verificación del modelo a través del efecto nocivo que
representan los atípicos. La etapa de predicción presenta también deficiencias cuando la serie
contiene valores atípicos no tratados. La principal conclusión es que los efectos de los valores
atípicos pueden ser tan nefastos que su tratamiento se puede considerar como imprescindible.
Prueba de Grubbs: Este método fue planteado por Frank E. Grubbs desde el año 1969 [Grubbs,
1969] y también es conocido como el método ESD (Extreme Studentized Deviate). La prueba de
Grubbs se utiliza para detectar valores atípicos en un conjunto de datos univariante y se basa en el
supuesto de normalidad. Es decir, primero debe verificarse que sus datos pueden aproximarse
razonablemente a una distribución normal antes de aplicar la prueba. Es especialmente fácil de
seguir y sirve para detectar un valor atípico a la vez.
Para aplicar la prueba es importante tener claros los conceptos de valor crítico y nivel de
significancia.
El procedimiento de la prueba de Grubbs es el siguiente [Taylor y Cihon, 2004]:
Paso 1: Ordenar los datos ascendentemente X1 < X2 < X3 < ........Xn
Paso 2: Decidir si 1 X o n X es un valor sospechoso.
Paso 3: Calcular el promedio X y la desviación estándar S del conjunto de datos.
Paso 4: Se calcula T si se considera sospechoso el primer valor o el último valor.
Paso 5: Escoger el nivel de confianza para la prueba y calcular T y compararlo con el valor
correspondiente de acuerdo con una tabla de valores críticos. La tabla está disponible en [Taylor y
Cihon, 2004]. Si el valor de T es mayor que el valor crítico, se dice que el dato es un valor extremo.
Iglewicz y Hoaglin, presentan el siguiente ejemplo sobre la prueba de Grubbs: La prueba de Grubbs
utiliza una estadística de prueba, T, que es la diferencia absoluta entre el valor atípico, X O, y el
promedio de la muestra (X) dividida por la desviación estándar de la muestra, s.
Para el ejemplo anterior, el promedio de la muestra es = 4.86 y la desviación estándar de la
muestra es = 1.48. La estadística calculada de la prueba es:
Para un n = 7 y un riesgo del 5%, el valor tabulado es 1.938 y el TCalculado = 1.99 excede este valor
crítico, indicando que el valor 7.8 es un valor atípico.
Prueba de Dixon: La prueba de Dixon permite determinar si un valor sospechoso de un conjunto
de datos es un outlier. El método define la relación entre la diferencia del mínimo/máximo valor y
su vecino más cercano y la diferencia entre el máximo y el mínimo valor aplicado.
Los datos deben provenir de una distribución normal. Si se sospecha que una población lognormal
subyace en la muestra, la prueba puede ser aplicada al logaritmo de los datos. Antes de realizar el
procedimiento es importante definir las hipótesis (si el valor sospechoso se encuentra al inicio o al
final del conjunto de datos) y determinar la distribución de la que provienen los datos (normal o
lognormal). Se debe seguir los siguientes pasos:
Paso 1: Ordenar los valores de la muestra en forma ascendente, siendo X1 el valor más pequeño y
Xn el mayor valor: X1 < X2 < X3 < ........Xn
Paso 2: Calcular el valor de Dixon dependiendo del tamaño de la muestra según la tabla.
Donde las relaciones son las indicadas en la tabla
Relaciones Prueba de Dixon
Prueba de Dixon de acuerdo con el tamaño
del conjunto De datos
Buscar el valor crítico de r de acuerdo con el nivel de significancia en la tabla para valores críticos
para la prueba de Dixon.
Si el valor de r calculado es mayor que el valor crítico de la tabla se concluye que es un valor
atípico.
En el caso de la prueba de Dixon con más de un valor extremo sospechoso, el valor más extremo
tiende a ser enmascarado por la presencia de otros valores.
El enmascaramiento ocurre cuando dos o más valores atípicos tienen valores similares. En un
conjunto de datos, si los valores más pequeños o más grandes son casi iguales, una prueba de
outlier para el valor más extremo de los dos no es estadísticamente significativa. Esto es
especialmente cierto en el caso de los tamaños de las muestras de menos de diez, cuando el
numerador de la relación es la diferencia entre los dos valores más extremos.
Por ejemplo, tomemos los datos 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3
Ordenando los datos: Este valor se compara con un valor crítico de una tabla, y el valor se declara
valor atípico si supera ese valor crítico.
Si Dcalculado>Dtabulado se rechaza el dato
El valor tabulado depende del tamaño de la muestra, n, y de un nivel de confianza elegido, que es
el riesgo de rechazar una observación válida. La tabla por lo general utiliza niveles de baja
confianza tal como 1% o 5%.
Para un n = 7 y un riesgo del 5%, el valor en la tabla es 0.507. El índice de Dixon 0.532 excede este
valor crítico, indicando que el valor 7.8 es un valor atípico.
El tamaño de la muestra es 7, y la relación utilizada es el espacio entre el valor atípico (7.8) y su
vecino más próximo (5.3) dividido por el espacio entre los valores más grandes y más pequeños
en el grupo.
Por lo tanto, el índice de Dixon es:
(7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532
La prueba de Dixon se usa en un número pequeño de observaciones (menor a 26) y detecta
elementos que se encuentren sesgados o que son extremos.
Prueba de Tukey: El diagrama conocido como diagrama de cajas y bigotes (Box and Whiskers Plot
o simplemente BoxPlot) es un gráfico representativo de las distribuciones de un conjunto de datos
creado por Tukey en 1977, en cuya construcción se usan cinco medidas descriptivas de los
mismos: mediana, primer cuartil (Q1), tercer cuartil (Q3), valor máximo y valor mínimo. Está
compuesto por un rectángulo o caja la cual se construye con ayuda del primer y tercer cuartil y
representa el 50% de los datos que particularmente están ubicados en la zona central de la
distribución, la mediana es la línea que atraviesa la caja, y dos brazos o bigotes son las líneas que
se extienden desde la caja hasta los valores más altos y más bajos. En algunos casos, dentro de la
caja suele trazarse una cruz para representar el promedio de los datos.
En la figura se presenta un diagrama de cajas y bigotes.
Diagrama de Cajas y bigotes:
Esta presentación visual asocia las cinco medidas que suelen trabajarse de forma individual y
puede ser graficada de manera vertical u horizontal.
Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los
datos de estudio. Además, permite identificar con claridad y de forma individual, observaciones
que se alejan de manera poco usual del resto de los datos, esto es, sirve para detectar los valores
atípicos. Por su facilidad de construcción e interpretación, permite también comparar a la vez
varios grupos de datos sin perder información ni saturarse de ella.
Usando los mismos cálculos necesarios para construir el diagrama de cajas y bigotes, puede
hacerse detección automática de los valores atípicos presentes en un conjunto de datos. El
método es el siguiente: se encuentra la mediana de todos los datos, luego se halla tanto la
mediana de los valores iguales o inferiores a la mediana como de los superiores. Este será un valor
de datos o será la mitad de entre dos valores de datos dependiendo de si la cantidad de los datos
es par o impar [CQU, 1997]. Con un conjunto de datos impar, se incluye la mediana en cada una de
las dos mitades del conjunto de datos y luego se encuentra el medio de cada mitad. Esto da como
resultado el primer y tercer cuartil. Si el conjunto de datos tiene un número par de valores, los
datos se dividen en dos mitades, y se encuentra el medio de cada mitad.
Análisis de Valores Atípicos de Mahalanobis: El Análisis de Valores atípicos de Mahalanobis
(Mahalanobis Outlier Analysis –MOA), es un método basado en una distancia, llamada distancia de
Mahalanobis (DM). Esta distancia es calculada con base en la varianza de cada punto. Ésta
describe la distancia entre cada punto de datos y el centro de masa. Cuando un punto se
encuentra en el centro de masa, la distancia de Mahalanobis es cero y cuando un punto de datos
se encuentra distante del centro de masa, la distancia es mayor a cero. Por lo tanto, los puntos de
datos que se encuentran lejos del centro de masa se consideran valores atípicos.
La DM es un enfoque multivariante y es calculado para cada observación en el conjunto de datos.
Entonces a cada observación se le da un peso como inverso de la distancia de Mahalanobis. Las
observaciones con valores extremos obtienen menores pesos. Finalmente una regresión
ponderada se ejecuta para minimizar el efecto de los valores extremos.
La DM es diferente de la distancia euclidiana por lo siguiente:
Está basada en correlaciones entre variables por lo cual pueden ser identificados y analizados
diferentes patrones.
Es invariante a la escala, es decir, no depende de la escala de las mediciones.
Toma en cuenta las correlaciones del conjunto de datos.
La DM se calcula de la siguiente forma:
Según Maesschalck la DM toma en cuenta la correlación en los datos, dado que ésta es calculada
usando la inversa de la matriz de covarianza del conjunto de datos de interés. Sin embargo, el
cálculo de la matriz de covarianza puede causar problemas. Cuando los datos investigados son
medidos sobre un gran número de variables, ellos pueden contener información redundante o
correlacionada. Esto conduce a una matriz de covarianza que no puede ser invertida. Una segunda
limitación para el cálculo de la matriz de covarianza es que el número de objetos en el conjunto de
datos tiene que ser más grande que el número de variables, requiriéndose en muchos casos
reducción de características.
Adicionalmente, el uso de la distancia clásica de Mahalanobis para la detección de atípicos ha sido
criticado por estar afectado por el efecto enmascaramiento.
Para la detección de atípicos multivariantes Rousseeuuw y Van Zomeren proponen el uso de un
test de discordancia usando lo que denominan
“distancia robusta”. Se trata de las distancias de Mahalanobis de todos los puntos respecto al
estimador robusto
MCD (Minimum Covariance Determinant). El método MCD consiste, para un número determinado
de datos en la muestra, en buscar la matriz de covarianza con mínimo determinante para
diferentes muestras de dicho tamaño. La idea subyacente es que el determinante de la matriz de
covarianzas está inversamente relacionado con la intensidad de las correlaciones. Al estar la
distancia referida al estimador robusto de medias y covarianzas, no está afectada por el efecto.
Detección de Valores Atípicos mediante Regresión Simple: El análisis de regresión es una
importante herramienta estadística que se aplica en la mayoría de las ciencias. De muchas posibles
técnicas de regresión, el método de mínimos cuadrados (LS) ha sido generalmente la más
adoptada por tradición y facilidad de cálculo. Este método a través de unos cálculos, aproxima un
conjunto de datos a un modelo, el cual puede ser lineal, cuadrado, exponencial, entre otros. Es
decir, es una técnica de optimización, que intenta encontrar una función que se aproxime lo mejor
posible a los datos. La diferencia entre el valor observado y el valor obtenido del modelo de
regresión se denominan residuos o suma de cuadrados y el objetivo es tratar de minimizar este
valor y así obtener el mejor ajuste. La figura ilustra el método de mínimos cuadrados.
Regresión por Mínimos cuadrados:
En la regresión lineal o simple se parte de un modelo lineal, donde existe una relación de la
variable x también llamada variable independiente hacia la variable y denominada variable
dependiente. La ecuación que relaciona estas dos variables es:
Donde a es el valor de la ordenada donde la línea de regresión se interseca con el eje y , b es el
coeficiente de la pendiente de la línea recta y e es el error que se comete al ajustar los datos
donde se supone que tiene valor esperado cero y desviación estándar común. Es deseable que los
valores de ‘ y ’ ajustados al modelo, sean lo más parecidos posible a los valores observados.
Una medida de lo parecido que son, es el coeficiente de correlación R2 la cual se define como el
cuadrado del coeficiente de correlación entre los valores de ‘y ’ observados y los valores de ‘ y ’
ajustados. El rango de R2 es entre 0 y 1, el valor entre más se acerque a 1 quiere decir que tiene un
mejor ajuste.
Los valores de a y b se determinan mediante las fórmulas:
Un modelo de regresión permite detectar valores atípicos al considerar a los datos alejados del
modelo como tales. Esto es, los casos que no siguen el modelo como el resto de los datos pueden
representar datos erróneos, o pueden indicar un pobre ajuste de la línea de regresión.
•
•
•
•
La ASTM E178, Práctica para manejar observaciones de valores atípicos, contiene muchos
procedimientos estadísticos para realizar pruebas de valores atípicos. En esta norma se
proveen otros criterios para valores atípicos únicos, así como pruebas para valores atípicos
múltiples, y la norma también da pautas para la elección de la prueba.
Una referencia más amplia para la prueba de valores atípicos es el libro Valores atípicos en
datos estadísticos, publicado por Wiley. Otra referencia útil y más práctica es el Volumen
16 de la Sociedad Estadounidense de Calidad (ASQ) "Referencias básicas para el control de
calidad, técnicas estadísticas"
Cómo detectar y manejar valores atípicos", ASQC Quality Press.
En la práctica E178 de ASTM se indican otras referencias.
REFERENCIAS BIBLIOGRAFICAS
- TUKEY, J. W. (1977). Exploratory Data Analysis. Addisson Wesley.
- BIEHLER. R. (l988.a). Educational perspectives on exploratory data analysis. Sixth
International Congress on Matheinatical Education.
JULLIEN, M. Y NIN. G. (1989). L’ E.D.A. au secours de I’OG.D. ou quelques remarques
concernant l’enseignement de la Statistique dans les colleges. Petit X, 19: 29-41.
- CHAMBERS, J. M., CLEVELAND, W. S., KLEINER, B y TUKEY, P. A. (1983). Graphical methods
for data analysis. Duxbury Press.
- HARTWING, F. y DEARING, B. F. (1979). Exploratory data analysis. Sage University Press.
Para considerar a una observación como atípica existen diferentes criterios: Se consideran atípicas
aquellas observaciones que están, en valores absolutos, a más de 2 desviaciones tipo de la media
(Z>2 o Z<-2) pero la aplicación de este criterio depende del tamaño de la muestra. En el gráfico de
caja, como ya hemos visto, se visualizan los valores atípicos. Para encontrar los valores atípicos de
cada conjunto de datos se empleará el siguiente código realizado en R:
#Inicio del programa
tam=length(z)
#z representa el vector con los valores.
media=mean(z)
#Media aritmética
desvstd=sd(z)
#Desviación estándar
i=1
valoresAtipicos=c(1:tam)
for (j in 1:tam){
if(z[j]>((2*desvstd)+media)){
valoresAtipicos[i]=z[j]
i=i+1
}
}
#Fin del programa
Media=16; Desviación estándar=17.26144.
z=c(18,24,20,8,15,20,6,12,12,8,20,20,32,26,8,20,20,25,6,18,14,15,12,20,15,15,14,0,20,15,4,24,6,4,
16,14,18,4,4,2,4,120,5,4,6,6,16,33)
Media=3.64375; Desviación estándar=0.2673003
z=c(3.7,3.4,4,3.5,3.9,3.8,3.5,3.5,3.4,3.0,3.6,3.7,3.4,3.7,3.5,3.8,3.9,4.2,3.5,3,3.5,3.3,3.5,3.3,3.8,3.6,3
.8,3.9,3.9,3.5,4.1,3.6,3.6,3.6,3.4,3.6,3.6,3.9,3.9,4.2,3.9,3.6,3.7,3.7,3.4,3.4,3.5,4.1)
Media=100.0563; Desviación estándar=37.54155
z=c(71,115,118,95,152,129,92,119,114,56,72,170,51,77,75,80,58,113,22,100,98,98,135,87,120,
105,137,129,134,89,120,64,146,71,73,132,102,0.85,0.85,128,122,120,89,112,94,94,154,169)
Media=22.33333; Desviación estándar=2.234482
z=c(20,25,20,28,21,22,21,23,23,20,21,24,20,21,20,20,21,21,24,22,24,23,26,22,22,22,22,22,22,26,
21,20,21,26,23,24,24,20,20,20,20,24,22,22,23,23,30,21)
Media=1.4904; Desviación estándar=3.882349
z=c(0.5,0.5,0.3,0.5,0.5,1,1,1,1,20,1,0.15,0.25,0.2,0.16,0.5,1,1,0.15,1.5,1.5,0.1,1.5,1.2,0.75)
3. Utilizando la herramienta Google Refine, se toman los datos no vacíos de la columna: Solución
propuesta para resolver ese problema más grave y se crea un nuevo proyecto con estos datos.

Luego se aplica Text facet en la columna de datos
Este comando nos permite mostrar cuantas veces se repite una palabra escrita igualmente, es
decir con este comando ya podemos tener una idea de cuáles son las palabras o conceptos más
repetidos. En este ejemplo se paso de tener 44 opciones o conceptos a tener 37 opciones:
Una ventaja es que los resultados se muestran ordenados en forma alfabética y por lo tanto se
hace más fácil ver los grupos de palabras que se pueden seguir agrupando:
De los resultados anteriores se observa que el concepto que más se repite es la palabra educación,
por lo tanto esta palabra será un primer grupo significativo, debido a que está escrita de varias
formas entonces se aprovecha el filtro que tiene la herramienta para que busque todas las
palabras que incluyen las letras consecutivas: “duca” y así se agrupan todos los conceptos que
tengan que ver con educación en un solo grupo al cual llamaremos “educación”:
La opción: Text filter permite hacer el filtro por la cadena de caracteres: “duca”

Para darle el nuevo nombre a este grupo se utiliza la opción: Cluster
Opción que abre la siguiente pantalla donde se le da el nuevo nombre al grupo.
 El grupo: “golpe de estado” como tiene 3 opciones queda como grupo significativo.
Al dar la opción: “Cluster” nuevamente, se muestra las posibles palabras que pueden ser
agrupadas, permitiendo crear entonces los grupos: “Inversión” y “Honestidad”


El grupo “Justicia” como tiene 2 opciones queda como grupo significativo.
Se hace nuevamente un filtro por la cadena de caracteres: “val” y haciendo el Cluster para
los siguientes dos resultados: se crea el grupo “Valores Humanos”.
Nota: Para las siguientes opciones que quedan sin grupo significativo, como son palabras
diferentes entre sí, no se pueden formar grupos significativos asociando las palabras. Solo se
podrían incluir en los otros grupos significativos siempre y cuando el significado de la palabra sea
acorde con el significado de la palabra que representa al grupo significativo.
4. Mediante el siguiente código realizado en R, se categoriza el PAPA en tres categorías.
z=c(3.7,3.4,4,3.5,3.9,3.8,3.5,3.5,3.4,3.0,3.6,3.7,3.4,3.7,3.5,3.8,3.9,4.2,3.5,3,3.5,3.3,3.5,3.3,3.8,3.6,3
.8,3.9,3.9,3.5,4.1,3.6,3.6,3.6,3.4,3.6,3.6,3.9,3.9,4.2,3.9,3.6,3.7,3.7,3.4,3.4,3.5,4.1)
tam=length(z)
prom= c(1:tam)
for(j in 1:tam){
if(z[j]<3.5){
prom[j]="Bajo"
}
else{
if(z[j]>=3.5 & z[j]<=3.825){
prom[j]="Medio"
}
else{
prom[j]="Alto"
}
}
}
Se ubican los estudiantes que tengan promedios menores a 3.5 en la categoría de “bajo” debido a
que este corresponde al primer cuartil, es decir el 25% se ubican en dicha categoría. En la
categoría de “Medio” se hallan los estudiantes que tengan promedio entre 3.5 y 3.825, este último
valor corresponde al tercer cuartil. Así en esta categoría se ubicara el 50% de los promedios. Y los
que tengan un promedio por encima de 3.825 se categorizarán en “alto”.
5. Tres de las características que consideramos importantes en el grupo son: Promedio Aritmético
Ponderado Acumulado PAPA, Edad y Horas a la semana para el estudio extraclase debido a que
con estas se puede llegar a hacer un análisis de la relación existente ellas, como por ejemplo un
análisis de regresión, enfocándolas a mirar si ellas influyen entre otras en la deserción que se
presenta en la carrera de Ing. de sistemas.
Promedio Aritmético Ponderado Acumulado PAPA
Estadísticas descriptivas:
Mínimo
1º Cuartil
Mediana
Media
3º Cuartil
Máximo
3.000
3.600
3.644
3.825
4.200
3.500
Desviación
estándar
0.07144947
Aquí se puede notar que el mínimo valor para el PAPA es de 3.00, debido a que un requisito para
ser estudiante de Ingeniería de Sistemas en la Universidad Nacional es tener un promedio por
encima de 3.00. No se dan valores atípicos, y el 50% de los datos se encuentran en un rango entre
3.5 y 3.8 un promedio aceptable dentro de la universidad.
No existen valores atípicos dentro del PAPA
de los estudiantes y el valor que divide en
dos partes iguales los datos es 3.6, una nota
muy común en la carrera, como se puede ver
en el promedio aritmético.
La gráfica muestra cierta simetría en la curva
de las barras lo cual hace pensar que los
datos presentan una distribución normal.
Edad
edad=c(20,25,20,28,21,22,21,23,23,20,21,24,20,21,20,20,21,21,24,22,24,23,26,
22,22,22,22,22,22,26,21,20,21,26,23,24,24,20,20,20,20,24,22,22,23,23,30,21)
Estadísticas descriptivas
Mínimo
1º Cuartil
Mediana
Media
3º Cuartil
Máximo
20.00
21.00
22.00
22.33
23.25
30.00
Desviación
estándar
2.234482
Edad (extraemos valores atípicos)
edad2=c(20,25,20,21,22,21,23,23,20,21,24,20,21,20,20,21,21,24,22,24,23,26,
22,22,22,22,22,22,26,21,20,21,26,23,24,24,20,20,20,20,24,22,22,23,23,21)
Estadísticas descriptivas
Mínimo
1º Cuartil
Mediana
Media
3º Cuartil
Máximo
20.00
21.00
22.00
22.04
23.00
26.00
Desviación
estándar
1.763286
Si comparamos las estadísticas descriptivas de los datos con valores atípicos y los datos sin valores
atípicos, podemos notar que estas se ven altamente influenciadas por valores muy altos (por
ejemplo la media o la desviación estándar), como en este caso, o por valores muy bajos; en
comparación a los demás datos.
La media es un estadístico robusto debido a
que con o sin valores atípicos sigue siendo la
misma. Caso contrario con la media que se
ve influenciada por este tipo de datos pocos
comunes y de valores muy altos.
En ambas graficas se presenta asimetría así
sea quitando los valores atípicos, la curva
que se crea al suavizar la grafica no
corresponde a una distribución normal,
existe una alta frecuencia en valores
menores.
Horas a la semana para el estudio extraclase
horas=c(18,24,20,8,15,20,6,12,12,8,20,20,32,26,8,20,20,25,6,18,14,15,12,20,
15,15,14,20,20,15,4,24,6,4,16,14,18,4,4,2,4,120,5,4,6,6,16,33)
Estadísticas descriptivas
Mínimo
1º Cuartil
Mediana
Media
3º Cuartil
Máximo
2.00
6.00
15.00
16.42
20.00
120.00
Horas a la semana para el estudio extraclase (extraemos valores atípicos)
horas2=c(18,24,20,8,15,20,6,12,12,8,20,20,32,26,8,20,20,25,6,18,14,15,12,20,
15,15,14,20,20,15,4,24,6,4,16,14,18,4,4,2,4,5,4,6,6,16,33)
Estadísticas descriptivas
Mínimo
1º Cuartil
Mediana
Media
3º Cuartil
Máximo
2.00
6.00
15.00
14.21
20.00
33.00
Desviación
estándar
17.10771
Desviación
estándar
7.79893
La presencia de valores atípicos tan altos hacen que tanto la media y la desviación estándar disten
mucho la una de la otra.
La distribución de los cuartiles y de la
mediana no se ven influenciadas por valores
atípicos. Caso contrario con otros
estadísticos como la media.
Con la presencia de un valor atípico tan alto
se nota como si existiese una brecha o una
ausencia de datos en la información y no
permite evidenciar tan claramente como nos
lo muestra el grafico de la derecha la
distribución de los datos en un margen
mucho menor, y por lo tanto más detallado.
Descargar