ANÁLISIS PREVIO DE DATOS: VALORES PERDIDOS Y SUPUESTOS ÁREA DE ESTADÍSTICA DEPARTAMENTO DE CIENCIAS EXACTAS – ESPE Asignatura: ESTADÍSTICA APLICADA AL MERCADO Docente: Vanessa Mena 1 Contenido Título Análisis previo de datos Duración 8 horas Información general Análisis previo de datos Objetivo Analizar y tratar valores perdidos 2 Encuestas por muestreo Determinación de tamaño de muestra Muestreo Aleatorio Simple Tamaños de Muestra Poblaciones finitas Medias 𝑆2 𝑁 − 𝑛 ) 𝑒 = 𝐾 ∝⁄2 ∗ √ ( 𝑛 𝑁 𝑒 2 = 𝐾∝2⁄ ∗ 2 𝑒2 = 𝑆2 𝑁 − 𝑛 ( ) 𝑛 𝑁 (𝐾∝2⁄ 𝑆 2 𝑁) − (𝐾∝2⁄ 𝑆 2 𝑛) 2 2 𝑁𝑛 𝑒 2 𝑁𝑛 + (𝐾∝2⁄ 𝑆 2 𝑛) = 𝐾∝2⁄ 𝑆 2 𝑁 2 𝑛= 2 𝐾∝2⁄ 𝑆 2 𝑁 2 𝑒 2 𝑁 + (𝐾∝2⁄ ∗ 𝑆 2 ) 2 𝑛= 𝐾∝2⁄ 𝜎 2 𝑁 2 𝑒 2 (𝑁 − 1) + (𝐾∝2⁄ ∗ 𝜎 2 ) 2 Proporciones 𝑝𝑞 𝑁 − 𝑛 ) 𝑒 = 𝐾∝⁄2 √ ( 𝑛 𝑁 𝑝𝑞 𝑁 − 1 ) 𝑒 2 = 𝐾∝2⁄ ( ) ( 2 𝑛 𝑁 𝑒2 = (𝐾∝2⁄ 𝑝𝑞𝑁) − (𝐾∝2⁄ 𝑝𝑞𝑛) 2 2 𝑁𝑛 𝑒 2 𝑁𝑛 + 𝐾∝2⁄ 𝑝𝑞𝑛 = 𝐾∝2⁄ 𝑝𝑞𝑁 2 𝑛= 2 𝐾∝2⁄ ∗ 𝑝𝑞𝑁 2 𝑁𝑒 2 + 𝐾∝2⁄ 𝑝𝑞 2 3 𝑛= 𝐾∝2⁄ ∗ 𝜋(1 − 𝜋)𝑁 2 𝑒 2 (𝑁 − 1) + 𝐾∝2⁄ 𝜋(1 − 𝜋) 2 Totales 𝑒 = 𝐾∝⁄2 ∗ √𝑁 2 𝑆2 𝑁 − 𝑛 ( ) 𝑛 𝑁 𝑒 2 = 𝐾∝2⁄ ∗ 𝑁 2 𝑆2 𝑁 − 𝑛 ( ) 𝑛 𝑁 2 𝑒2 = (𝐾∝2⁄ 𝑁 3 𝑆 2 ) − (𝐾∝2⁄ 𝑁 2 𝑆 2 𝑛) 2 2 𝑁𝑛 𝑒 2 𝑁𝑛 = (𝐾∝2⁄ 𝑁 3 𝑆 2) − (𝐾∝2⁄ 𝑁 2 𝑆 2𝑛) 2 𝑒 2 𝑁𝑛 + 2 (𝐾∝2⁄ 𝑁 2 𝑆2 𝑛) 2 = (𝐾∝2⁄ 𝑁 3 𝑆2 ) 2 𝑛 ( 𝑁𝑒 2 + (𝐾∝2⁄ 𝑁 2 𝑆2 )) = (𝐾∝2⁄ 𝑁 3𝑆 2 ) 2 𝑛= 2 (𝐾∝2⁄ 𝑁 3 𝑆2 ) 2 𝑁𝑒 2 + (𝐾∝2⁄ 𝑁 2 𝑆 2 ) 2 𝑛= (𝐾∝2⁄ 𝑁 2 𝑆2 ) 2 𝑒 2 + (𝐾∝2⁄ 𝑁𝑆 2 ) 2 Tamaños de Muestra (para poblaciones infinitas) Medias 𝑆2 𝑒 = 𝐾∝⁄2 ∗ √ 𝑛 𝑒 2 = 𝐾∝2⁄ ∗ 2 𝑛= Proporciones 𝑆2 𝑛 𝐾∝2⁄ ∗ 𝑆 2 2 𝑒2 𝑝𝑞 𝑒 = 𝐾 ∝⁄2 ∗ √ 𝑛 𝑒 2 = 𝐾∝2⁄ ∗ 2 𝑛= 𝑝𝑞 𝑛 𝐾∝2⁄ ∗ 𝑝𝑞 2 𝑒2 4 Totales 𝑒 = 𝐾∝⁄2 ∗ √ 𝑁 2 𝑒 2 = 𝐾∝2⁄ ∗ 2 𝑛= 𝑆2 𝑛 𝑁 2𝑆 2 𝑛 𝐾∝2⁄ ∗ 𝑁 2 ∗ 𝑆 2 2 𝑒2 Análisis previo de los datos Introducción: Antes de aplicar alguna técnica multivariante, es importante verificar la fiabilidad de los datos: - Existencia de los valores perdidos. - Observaciones anómalas, también llamadas outliers, casos atípicos. Valores Perdidos: Cuando en una BDD no existe algún valor para alguna variable (no existe información) se trata de valores perdidos - Los valores perdidos se deben a que los entrevistados en una encuesta se niegan a contestar. El entrevistado no recoge una respuesta en la casilla adecuada. El patrón de los valores perdidos es más importante que su cuantía, si su distribución es aleatoria en la matriz de datos no puede causar mucho daña al análisis (VPCA= valores perdidos completamente aleatorios) Condiciones de los VPCA: Para establecer si los valores perdidos guardan o no un patrón se basa en la lógica de la investigación, si existe un patrón los casos con valores perdidos deberán tener un comportamiento distinto respecto a otras variables que en los casos sin valores perdidos De no existir variables cuya media sea distinta en los casos con y sin valore perdidos habrá que asumir la aleatoriedad (medias iguales). La condición de los VPCA es que deben ser independientes del resto de valores observados del resto de variables Diagnóstico de aleatoriedad Primer procedimiento: Analizar si existen patrones en otras variables relacionadas, comparando los subgrupos entre valores perdidos y valores observados (comparación de medias de mu estras independientes) 5 Segundo procedimiento: Analizar si existe correlación entre los valores perdidos de la variable analizadas y los valores perdidos de otras variables (prueba de correlaciones dicotomizadasCorrelación de Pearson) Tratamiento de los valores perdidos: Solamente si los datos son VPCA - Eliminación de los casos: se eliminan los casos de los valores perdidos, la desventaja es que se trabaja con una muestra más reducida. Una alternativa es la eliminación de casos siguiendo el método por parejas, se eliminan los casos únicamente cuando tiene valores perdidos en las variables que se están analizando. - Imputación de un valor estimado: La imputación es sustituir el valor perdido por la media de la variable - Un método alternativo de la imputación es el de regresión, la variable cuyos valores perdidos se quiere estimar actúa como variable dependiente y el reto como independiente Observaciones anómalas casos atípicos o outliers Casos en los que una dos o múltiples variables toman valores extremos que lo hacen diferentes del comportamiento del resto. Las consecuencias de no identificarlos son: Distorsión de resultados, afectan las condiciones de aplicabilidad de las técni cas. Causas: - Errores en los datos. - Errores en la recogida e introducción de los datos. - Errores intencionados en la contestación. - Errores en el muestreo. - Casos atípicos legítimos. Detección de casos atípicos: - Detección Univariante: para establecer si un valor Xi es atípico solo es necesario determinar el umbral que de superar y que normalmente se expresa en número de desviaciones típicas, dado que son valores estandarizados la media es 0 y la desviación 1. - Lo normal es considerar K=2,5 para muestras pequeñas menos de 80 casos. K=3 o k=4 para muestras mayores - Segundo procedimiento: Test de Grubbs - Detección Bivariante: a una variable se la tiene que definir como dependiente y realizar una inspección con la relación con cada independiente (graficar SPSS). 6 - Detección Multivariante: este procedimiento contempla simultáneamente a todas las variables, el procedimiento consiste en determinar cuánto dista cada caso del centroide de los datos, es decir del vector de medias de las variables implicadas. D 2= diag{ [X - 𝑋̅]S-1][X – 𝑋̅]´} Distancia de Mahalanobis Donde S= 1 𝑛−1 (X - 𝑋̅)´(X – 𝑋̅) Para determinar si alguno de los datos es atípicos se asume que D 2 se distribuye según X2 con m grados de libertad. Ho = el caso i no es un caso atípico, Hi = el caso i es un caso atípico. Si D > Dc RHo, si D < Dc Aho La siguiente gráfica de caja muestra valores atípicos en algunas variables Gráfico de cajas de edad (izquierda), peso (derecha) en dos patologías SUPUESTOS BÁSICOS DEL ANALISIS MULTIVARIANTE Normalidad: En algunas técnicas se requiere comprobar si los datos siguen una distribución normal de manera multivariante. Si la distribución no es multivariante normal, hay que indagra que variables están causando el problema y hay que utilizar contrastes univariantes. Analisis univariante: Se puede utilizar las pruebas de asimetría (A=0) y de curtosis (C=3), gráficos Q-Q (si n>20), o pruebas como Kolmogorov-Smirnov (muestras grandes) o Shapiro Wilks (muestras pequeñas) Análisis multivariante: Se puede realizar un gráfico chi-cuadrado o utilizar la distancia de Mahalanobis. 7 Si los datos no son normales, se recomienda transformar las variables (usando logaritmos, o funciones exponenciales, raíz cuadrada, etc.) Homocedasticidad: En el caso de datos agrupados, la homocedasticidad implica que la varianza es la misma para cada uno de los grupos formados (Ejm: ANOVA). Para estos casos, se utiliza la prueba de Levene. En el caso de datos no agrupados, la homocedasticidad implica que los datos se distribuyen de manera constante para todos los valores de otra variable continua (Ejm. Regresión lineal). Este caso se analizará en detalle más adelante Linealidad En algunas técnicas se requiere que la relación entre las variables sea lineal (debido a que se basan en la correlación lineal de Pearson (R), que solo mide relaciones lineales). Para verificar esta condición, se realizan gráficos de dispersión bivariante entre todas las variables y se analiza la linealidad en dichos gráficos y sus respectivos valores R. Independencia de las observaciones Dos observaciones son independientes cuando los valores que toman las variables en un caso no se ven afectadas por los valores de otro caso. Si las observaciones no son independientes, el nivel de significación debe disminuir 10 veces, por ejemplo, en lugar del 5% se trabaja al 0,5% para rechazar una hipótesis. REFERENCIAS BIBLIOGRAFICAS • • • Uriel, E.; Aldaz, J.; “Análisis Multivariante aplicado” (2005), 1ra edición, Editorial Thomson. Peña, D. “Análisis de datos multivariantes” (2002), 1ra edición, Editorial Mc Graw Hill. https://cran.r-project.org/ Ejercicio propuesto : De una base de datos pública, analice los valores perdidos y atípicos e impute los datos con cualquier método que incluye el software SPSS, defina las dimensiones de la matriz, previamente segmente la base según el alcance que usted quiera estudiar https://www.ecuadorencifras.gob.ec/estadisticas/ 8 9