Tema: Análisis de valores faltantes con SPSS 1.- Introducción Hemos de comenzar advirtiendo que el Procedimiento “Valores perdidos” no se incluye en el sistema Base de SPSS, por lo que solo estará disponible si se ha adquirido dicha opción adicional. El procedimiento Análisis de valores perdidos se crea a partir de la rutina AM de BMDP, con la ventaja para el usuario de proporcionar cuadros de diálogo para ejecutar las distintas opciones de la rutina (en BMDP hay que escribir un fichero .INP de con los comandos necesarios, similar al modo Script de SPSS). Como sabemos, el análisis de valores perdidos ayuda a resolver varios problemas ocasionados por los datos incompletos, si bien habrá que tener especial cuidado con los casos con valores perdidos que son sistemáticamente diferentes de los casos completos, ya que en esta situación, como se comentó en el capítulo dedicado a Imputación, impide una interpretación clara de los resultados. En lo que sigue, supondremos que se tienen los supuestos necesarios para realizar con garantías los procesos de imputación, y justamente en muchos casos la utilidad que vamos a describir nos proporcionará los instrumentos para evaluar dichos supuestos. La utilidad realiza tres funciones principales: • • • Describe el patrón de los datos perdidos: la ubicación de los valores perdidos, cómo de extensos son, si los pares de variables tienden a tener valores perdidos en casos diferentes, si los valores de los datos son extremos y si los valores están perdidos de forma aleatoria. Estima medias, desviación típica, covarianzas y correlaciones utilizando un método por lista, por parejas, de regresión, o bien EM (expectationmaximization, esperanza-maximización). El método por parejas muestra, además, recuentos de los casos completos por parejas. Rellena (imputa) los valores perdidos con valores estimados utilizando el método EM o los de regresión. La primera función es un paso preliminar de la segunda y la tercera. Normalmente será necesario usar el programa dos veces: primero para ver el modelo y el alcance de los datos faltantes y determinar si estos aparecen de modo aleatorio; segundo, para calcular covarianzas, correlaciones y/o estimar los valores faltantes. Los datos faltantes pueden ser descritos y estimados en conjunto o por grupos, para esto usaremos la utilidad de segmentación del menú Datos. La segunda función se refiere al método de estimación de valores faltantes: • Por lista. Muestra las medias, la matriz de correlación y la matriz de covarianza, omitiendo los casos en los que alguna variable considerada tiene algún valor perdido (eliminación por lista). • • • Por parejas. Muestra, para cada par de variables cuantitativas, el número de valores no perdidos así como la correlación, covarianza, varianza y media del par. Cada cálculo se efectúa empleando todos los valores para los que ambas variables tienen valores no perdidos. EM. Muestra la matriz de covarianza, la matriz de correlaciones y las medias obtenidas mediante el algoritmo EM. El método EM ("expectationmaximization") estima los valores perdidos mediante un proceso iterativo. Cada iteración tiene un paso E para calcular los valores esperados de los parámetros y un paso M para calcular las estimaciones máximo verosímiles. Regresión. Muestra la matriz de covarianza, la matriz de correlaciones y las medias obtenidas a partir de las estimaciones de valores perdidos derivadas de un algoritmo de regresión. Adicionalmente el programa calcula estadísticos univariantes, las medias estimadas y otras pruebas que describiremos posteriormente. Accedemos a la utilidad pulsando Analizar-Análisis de valores perdidos: 1.1.- Consideraciones sobre los datos Antes de describir otras opciones del programa hemos de hacer algunas consideraciones sobre: • • Datos. Los datos pueden ser categóricos o cuantitativos. Para cada variable, los valores perdidos que no están codificados como valores perdidos del sistema deben definirse como valores perdidos definidos por el usuario. Por ejemplo, si un elemento del cuestionario tiene la respuesta “No sabe” codificada como 5 y desea tratarla como valor perdido, el elemento debería tener el 5 codificado como valor perdido definido por el usuario. Supuestos. La estimación por lista y por parejas depende del supuesto de que el patrón de valores perdidos no depende de los valores de los datos (esta • condición se conoce como perdidos completamente al azar o MCAR). El incumplimiento de este supuesto (por ejemplo que los datos estén perdidos al azar o MAR) puede inducir a estimaciones sesgadas.. Este supuesto permite ajustar las estimaciones utilizando la información disponible. Uso de procedimientos relacionados. A veces es más iteresante utilizar otros procedimientso de imputación, si se conocen ciertas características sobre los datos. En este sentido SPSS dispone de muchos procedimientos que permiten utilizar la estimación por lista o por parejas mediante, por ejemplo, Regresión Igualmente con la opción Tendencias de SPSS se pueden reemplazar los valores perdidos en las series temporales. 2.- Descripción del procedimiento Accediendo al menú descrito anteriormente, aparece el cuadro de diálogo: en el que habremos de seleccionar al menos una variable cuantitativa. Como vemos, se tiene la posibilidad de: • • • • Seleccionar variables categóricas (numéricas o de cadena) y establecer un límite para el número de categorías (Máximo). Pulsar en Patrones o en Descriptivos para obtener descripciones de los valores perdidos. Seleccionar un método para la estimación de los estadísticos y de los propios valores perdidos. Si selecciona EM o Regresión, pulse en Variables para especificar el subconjunto que se va a utilizar para la estimación. 2.1.- Análisis de valores perdidos: Patrones Si pulsamos en “Patrones” (habiendo seleccionado al menos una variable cuantitativa), disponemos de las siguientes opciones: • Mostrar. Ofrece tres tipos de tablas de patrones que contienen los casos o los números de caso frente a las variables. En lugar de valores o recuentos, las casillas de la tabla contienen símbolos que indican el tipo de valor. Para Casos tabulados, se utiliza una X para indicar los valores perdidos. Para Todos los casos y Casos con valores perdidos, los símbolos que se muestran son: o + Valor extremadamente alto. o - Valor extremadamente bajo. o S Valor perdido por el sistema. o A Primer tipo de valor perdido definido por el usuario. o B Segundo tipo de valor perdido definido por el usuario. o C Tercer tipo de valor perdido definido por el usuario. • Casos tabulados. Se tabula la frecuencia de cada patrón de valores perdidos. Los recuentos y las variables se clasifican según la similaridad de los patrones. Omitir patrones con menos del n % de los casos. Elimina los patrones poco frecuentes. o Casos con valores perdidos. Los patrones por caso y variable de los valores perdidos y extremos se muestran sólo para los casos que posean valores perdidos. Tanto los casos como las variables se ordenan según la similaridad de los patrones. • Todos los casos. Para cada caso, se muestra el patrón de valores perdidos y extremos. Los casos se listan en el orden en que aparecen en el archivo de datos, a menos que se especifique una variable de ordenación. Variables. Puede especificar variables para etiquetar y clasificar la presentación de los patrones. Patrones perdidos para. Muestra una lista de todas las variables cuantitativas y categóricas del cuadro de diálogo Análisis de valores perdidos. Información adicional acerca de. Ofrece una lista de los valores para cada caso. Para los patrones tabulados, esta opción lista además la media de las variables cuantitativas o, para las variables categóricas, el número de casos que tienen el patrón en cada categoría. Ordenar por. Los casos se listan según el orden ascendente o descendente de los valores de la variable especificada. Esta opción está disponible sólo si se selecciona Todos los casos. o • • • • 2.2.- Análisis de valores perdidos: Descriptivos Si en el cuadro de diálogo general del procedimiento, pulsamos Descriptivos, accedemos a un nuevo cuadro de diálogo en el que tenemos las siguientes opciones: • • Estadísticos univariantes. Para cada variable, muestra el número de valores no perdidos, la media, la desviación típica y el número y porcentaje de valores perdidos. Presenta asimismo los recuentos y los porcentajes de los valores perdidos y los recuentos de los valores extremadamente altos y bajos (las medias, la desviación típica y los recuentos de los valores extremos no se indican para las variables categóricas). Para cada variable, SPSS crea una variable indicadora para los perdidos, que indica si el valor de la variable está presente o está perdido. Estadísticos con variable indicadora. Para cada variable, SPSS crea una variable indicadora para los perdidos, que indica si el valor de la variable está presente o está perdido. Las variables indicadoras no se muestran, pero se utilizan para crear el porcentaje de discordancia, las pruebas t y las tablas de frecuencia. Para reducir el tamaño de la tabla puede omitir los estadísticos que se calculen sólo para un pequeño número de casos. • • • Porcentaje de discordancia. Para cada par de variables muestra el porcentaje de casos en los que una variable tiene un valor perdido y la otra variable tiene un valor no perdido. Cada elemento diagonal de la tabla contiene el porcentaje de valores perdidos para una sola variable. Pruebas t con los grupos formados por las variables indicadoras. Se comparan las medias de los dos grupos para cada variable cuantitativa, utilizando el estadístico t de Student. Los grupos se determinan en función de si la variable indicadora está codificada como presente o como perdida. Se muestra el estadístico t, los grados de libertad, los recuentos de valores perdidos y no perdidos y las medias de los dos grupos. También se puede mostrar todas las probabilidades bilaterales asociadas a los estadísticos t, si bien su interpretación puede ser problemática. Tablas de contingencia de variables categóricas e indicadoras. Para cada variable categórica se muestra una tabla. Para cada categoría, la tabla muestra la frecuencia y el porcentaje de los valores no perdidos para las demás variables. También se muestran los porcentajes de cada tipo de valor perdido. 2.3.- Análisis de valores perdidos: Regresión La regresión estima los valores perdidos utilizando la regresión lineal múltiple. Se muestran las medias, la matriz de covarianza y la matriz de correlaciones de las variables pronosticadas. En el cuadro de diálogo aparece una utilidad relativa a la “Corrección de la estimación”. Ésta se refiere a que el método de regresión puede añadir un componente aleatorio a las estimaciones de regresión que, como comentamos en el capítulo dedicado a imputación, mejoran la estimación y eliminan sesgos en la varianza global del conjunto de datos. Para ello, podemos seleccionar residuos, variantes normales, variantes t de Student o sin corrección. • • • Residuos. Los términos de error se eligen al azar de entre los residuos observados en los casos completos, para añadirlos a las estimaciones de regresión. Variantes normales. Los términos de error se escogen al azar de una distribución con valor esperado 0 y desviación típica igual a la raíz cuadrada del término error cuadrático medio de la regresión. Variantes t de Student. Los términos de error se escogen al azar de una distribución t(n) y se escalan según la raíz del error cuadrático medio (RMSE). Por otra parte podemos establecer un “Número máximo de predictores”. utilizados en el proceso de estimación. Finalmente “Guardar datos completados”, grabará un archivo de datos de SPSS, reemplazando los valores perdidos por los valores estimados mediante el método de regresión. 2.4.- Análisis de valores perdidos: EM El procedimiento EM estima las medias, la matriz de covarianza y la correlación de las variables cuantitativas con valores perdidos, utilizando el proceso iterativo del mismo nombre. Se pueden realizar varios supuestos para la distribución de los datos: Normal, Normal mixta y t de Student. Para un supuesto de distribución normal mixta, podemos especificar la proporción y la razón entre las desviaciones típicas. Para la distribución t de Student, deberemos especificar los grados de libertad. Además podemos establecer el “Número máximo de iteraciones”, de tal modo que el procedimiento se detendrá cuando alcance dicho número de iteraciones, incluso si no han convergido las estimaciones. Por último podemos “Guardar datos completados”, de tal modo que SPSS. escribe un archivo de datos, reemplazando los valores perdidos por los valores estimados mediante el método EM. Otras utilidades adicionales están disponibles, como en otros procedimientos, mediante el lenguaje de comandos.