Análisis de valores perdidos

Anuncio
Tema: Análisis de valores faltantes con
SPSS
1.- Introducción
Hemos de comenzar advirtiendo que el Procedimiento “Valores perdidos” no se incluye
en el sistema Base de SPSS, por lo que solo estará disponible si se ha adquirido dicha
opción adicional. El procedimiento Análisis de valores perdidos se crea a partir de la
rutina AM de BMDP, con la ventaja para el usuario de proporcionar cuadros de diálogo
para ejecutar las distintas opciones de la rutina (en BMDP hay que escribir un fichero
.INP de con los comandos necesarios, similar al modo Script de SPSS).
Como sabemos, el análisis de valores perdidos ayuda a resolver varios problemas
ocasionados por los datos incompletos, si bien habrá que tener especial cuidado con los
casos con valores perdidos que son sistemáticamente diferentes de los casos completos,
ya que en esta situación, como se comentó en el capítulo dedicado a Imputación, impide
una interpretación clara de los resultados.
En lo que sigue, supondremos que se tienen los supuestos necesarios para realizar con
garantías los procesos de imputación, y justamente en muchos casos la utilidad que
vamos a describir nos proporcionará los instrumentos para evaluar dichos supuestos.
La utilidad realiza tres funciones principales:
•
•
•
Describe el patrón de los datos perdidos: la ubicación de los valores perdidos,
cómo de extensos son, si los pares de variables tienden a tener valores perdidos
en casos diferentes, si los valores de los datos son extremos y si los valores están
perdidos de forma aleatoria.
Estima medias, desviación típica, covarianzas y correlaciones utilizando un
método por lista, por parejas, de regresión, o bien EM (expectationmaximization, esperanza-maximización). El método por parejas muestra,
además, recuentos de los casos completos por parejas.
Rellena (imputa) los valores perdidos con valores estimados utilizando el
método EM o los de regresión.
La primera función es un paso preliminar de la segunda y la tercera. Normalmente será
necesario usar el programa dos veces: primero para ver el modelo y el alcance de los
datos faltantes y determinar si estos aparecen de modo aleatorio; segundo, para calcular
covarianzas, correlaciones y/o estimar los valores faltantes. Los datos faltantes pueden
ser descritos y estimados en conjunto o por grupos, para esto usaremos la utilidad de
segmentación del menú Datos.
La segunda función se refiere al método de estimación de valores faltantes:
•
Por lista. Muestra las medias, la matriz de correlación y la matriz de covarianza,
omitiendo los casos en los que alguna variable considerada tiene algún valor
perdido (eliminación por lista).
•
•
•
Por parejas. Muestra, para cada par de variables cuantitativas, el número de
valores no perdidos así como la correlación, covarianza, varianza y media del
par. Cada cálculo se efectúa empleando todos los valores para los que ambas
variables tienen valores no perdidos.
EM. Muestra la matriz de covarianza, la matriz de correlaciones y las medias
obtenidas mediante el algoritmo EM. El método EM ("expectationmaximization") estima los valores perdidos mediante un proceso iterativo. Cada
iteración tiene un paso E para calcular los valores esperados de los parámetros y
un paso M para calcular las estimaciones máximo verosímiles.
Regresión. Muestra la matriz de covarianza, la matriz de correlaciones y las
medias obtenidas a partir de las estimaciones de valores perdidos derivadas de
un algoritmo de regresión.
Adicionalmente el programa calcula estadísticos univariantes, las medias estimadas y
otras pruebas que describiremos posteriormente. Accedemos a la utilidad pulsando
Analizar-Análisis de valores perdidos:
1.1.- Consideraciones sobre los datos
Antes de describir otras opciones del programa hemos de hacer algunas consideraciones
sobre:
•
•
Datos. Los datos pueden ser categóricos o cuantitativos. Para cada variable, los
valores perdidos que no están codificados como valores perdidos del sistema
deben definirse como valores perdidos definidos por el usuario. Por ejemplo, si
un elemento del cuestionario tiene la respuesta “No sabe” codificada como 5 y
desea tratarla como valor perdido, el elemento debería tener el 5 codificado
como valor perdido definido por el usuario.
Supuestos. La estimación por lista y por parejas depende del supuesto de que el
patrón de valores perdidos no depende de los valores de los datos (esta
•
condición se conoce como perdidos completamente al azar o MCAR). El
incumplimiento de este supuesto (por ejemplo que los datos estén perdidos al
azar o MAR) puede inducir a estimaciones sesgadas.. Este supuesto permite
ajustar las estimaciones utilizando la información disponible.
Uso de procedimientos relacionados. A veces es más iteresante utilizar otros
procedimientso de imputación, si se conocen ciertas características sobre los
datos. En este sentido SPSS dispone de muchos procedimientos que permiten
utilizar la estimación por lista o por parejas mediante, por ejemplo, Regresión
Igualmente con la opción Tendencias de SPSS se pueden reemplazar los valores
perdidos en las series temporales.
2.- Descripción del procedimiento
Accediendo al menú descrito anteriormente, aparece el cuadro de diálogo:
en el que habremos de seleccionar al menos una variable cuantitativa. Como vemos, se
tiene la posibilidad de:
•
•
•
•
Seleccionar variables categóricas (numéricas o de cadena) y establecer un límite
para el número de categorías (Máximo).
Pulsar en Patrones o en Descriptivos para obtener descripciones de los valores
perdidos.
Seleccionar un método para la estimación de los estadísticos y de los propios
valores perdidos.
Si selecciona EM o Regresión, pulse en Variables para especificar el
subconjunto que se va a utilizar para la estimación.
2.1.- Análisis de valores perdidos: Patrones
Si pulsamos en “Patrones” (habiendo seleccionado al menos una variable cuantitativa),
disponemos de las siguientes opciones:
•
Mostrar. Ofrece tres tipos de tablas de patrones que contienen los casos o los
números de caso frente a las variables. En lugar de valores o recuentos, las
casillas de la tabla contienen símbolos que indican el tipo de valor. Para Casos
tabulados, se utiliza una X para indicar los valores perdidos. Para Todos los
casos y Casos con valores perdidos, los símbolos que se muestran son:
o + Valor extremadamente alto.
o - Valor extremadamente bajo.
o S Valor perdido por el sistema.
o A Primer tipo de valor perdido definido por el usuario.
o B Segundo tipo de valor perdido definido por el usuario.
o C Tercer tipo de valor perdido definido por el usuario.
•
Casos tabulados. Se tabula la frecuencia de cada patrón de valores perdidos.
Los recuentos y las variables se clasifican según la similaridad de los patrones.
Omitir patrones con menos del n % de los casos. Elimina los patrones poco
frecuentes.
o Casos con valores perdidos. Los patrones por caso y variable de los
valores perdidos y extremos se muestran sólo para los casos que posean
valores perdidos. Tanto los casos como las variables se ordenan según la
similaridad de los patrones.
•
Todos los casos. Para cada caso, se muestra el patrón de valores perdidos
y extremos. Los casos se listan en el orden en que aparecen en el archivo
de datos, a menos que se especifique una variable de ordenación.
Variables. Puede especificar variables para etiquetar y clasificar la presentación
de los patrones.
Patrones perdidos para. Muestra una lista de todas las variables cuantitativas y
categóricas del cuadro de diálogo Análisis de valores perdidos.
Información adicional acerca de. Ofrece una lista de los valores para cada
caso. Para los patrones tabulados, esta opción lista además la media de las
variables cuantitativas o, para las variables categóricas, el número de casos que
tienen el patrón en cada categoría.
Ordenar por. Los casos se listan según el orden ascendente o descendente de
los valores de la variable especificada. Esta opción está disponible sólo si se
selecciona Todos los casos.
o
•
•
•
•
2.2.- Análisis de valores perdidos: Descriptivos
Si en el cuadro de diálogo general del procedimiento, pulsamos Descriptivos,
accedemos a un nuevo cuadro de diálogo
en el que tenemos las siguientes opciones:
•
•
Estadísticos univariantes. Para cada variable, muestra el número de valores no
perdidos, la media, la desviación típica y el número y porcentaje de valores
perdidos. Presenta asimismo los recuentos y los porcentajes de los valores
perdidos y los recuentos de los valores extremadamente altos y bajos (las
medias, la desviación típica y los recuentos de los valores extremos no se
indican para las variables categóricas). Para cada variable, SPSS crea una
variable indicadora para los perdidos, que indica si el valor de la variable está
presente o está perdido.
Estadísticos con variable indicadora. Para cada variable, SPSS crea una
variable indicadora para los perdidos, que indica si el valor de la variable está
presente o está perdido. Las variables indicadoras no se muestran, pero se
utilizan para crear el porcentaje de discordancia, las pruebas t y las tablas de
frecuencia. Para reducir el tamaño de la tabla puede omitir los estadísticos que se
calculen sólo para un pequeño número de casos.
•
•
•
Porcentaje de discordancia. Para cada par de variables muestra el porcentaje
de casos en los que una variable tiene un valor perdido y la otra variable tiene un
valor no perdido. Cada elemento diagonal de la tabla contiene el porcentaje de
valores perdidos para una sola variable.
Pruebas t con los grupos formados por las variables indicadoras. Se
comparan las medias de los dos grupos para cada variable cuantitativa,
utilizando el estadístico t de Student. Los grupos se determinan en función de si
la variable indicadora está codificada como presente o como perdida. Se muestra
el estadístico t, los grados de libertad, los recuentos de valores perdidos y no
perdidos y las medias de los dos grupos. También se puede mostrar todas las
probabilidades bilaterales asociadas a los estadísticos t, si bien su interpretación
puede ser problemática.
Tablas de contingencia de variables categóricas e indicadoras. Para cada
variable categórica se muestra una tabla. Para cada categoría, la tabla muestra la
frecuencia y el porcentaje de los valores no perdidos para las demás variables.
También se muestran los porcentajes de cada tipo de valor perdido.
2.3.- Análisis de valores perdidos: Regresión
La regresión estima los valores perdidos utilizando la regresión lineal múltiple. Se
muestran las medias, la matriz de covarianza y la matriz de correlaciones de las
variables pronosticadas.
En el cuadro de diálogo aparece una utilidad relativa a la “Corrección de la estimación”.
Ésta se refiere a que el método de regresión puede añadir un componente aleatorio a las
estimaciones de regresión que, como comentamos en el capítulo dedicado a imputación,
mejoran la estimación y eliminan sesgos en la varianza global del conjunto de datos.
Para ello, podemos seleccionar residuos, variantes normales, variantes t de Student o sin
corrección.
•
•
•
Residuos. Los términos de error se eligen al azar de entre los residuos
observados en los casos completos, para añadirlos a las estimaciones de
regresión.
Variantes normales. Los términos de error se escogen al azar de una distribución
con valor esperado 0 y desviación típica igual a la raíz cuadrada del término
error cuadrático medio de la regresión.
Variantes t de Student. Los términos de error se escogen al azar de una
distribución t(n) y se escalan según la raíz del error cuadrático medio (RMSE).
Por otra parte podemos establecer un “Número máximo de predictores”. utilizados en el
proceso de estimación. Finalmente “Guardar datos completados”, grabará un archivo de
datos de SPSS, reemplazando los valores perdidos por los valores estimados mediante el
método de regresión.
2.4.- Análisis de valores perdidos: EM
El procedimiento EM estima las medias, la matriz de covarianza y la correlación de las
variables cuantitativas con valores perdidos, utilizando el proceso iterativo del mismo
nombre.
Se pueden realizar varios supuestos para la distribución de los datos: Normal, Normal
mixta y t de Student. Para un supuesto de distribución normal mixta, podemos
especificar la proporción y la razón entre las desviaciones típicas. Para la distribución t
de Student, deberemos especificar los grados de libertad.
Además podemos establecer el “Número máximo de iteraciones”, de tal modo que el
procedimiento se detendrá cuando alcance dicho número de iteraciones, incluso si no
han convergido las estimaciones. Por último podemos “Guardar datos completados”, de
tal modo que SPSS. escribe un archivo de datos, reemplazando los valores perdidos por
los valores estimados mediante el método EM.
Otras utilidades adicionales están disponibles, como en otros procedimientos, mediante
el lenguaje de comandos.
Descargar