Breve guión para las prácticas con SPSS 1 Introducción al SPSS El programa SPSS está organizado en dos bloques: el editor de datos y el visor de resultados. En la barra de menú (arriba de la pantalla) aparecen diversas opciones, de las cuales algunas ( Archivo , Edición , Ver , Ventana y Ayuda ) son comunes a muchos programas basados en Windows, y otras son especı́ficas del SPSS. Datos Permite definir y manejar variables. Transformar Permite realizar operaciones con los datos, generar números aleatorios, etc. Analizar Contiene el menú de las operaciones netamente estadı́sticas que se pueden realizar con los datos. En particular, aquı́ se encuentran los procedimientos de análisis que nosotros usaremos. Gráficos Permite generar diversas representaciones gráficas de los datos (diagramas de dispersión, de caja y bigotes, etc.). 1.1 El editor de datos El editor de datos tiene dos vistas diferentes: vista de datos y vista de variables. La primera tiene una estructura similar a la de una hoja de cálculo (Excel), y se usa para introducir los datos que se quieren analizar. El SPSS maneja los datos en términos de variables, cada una de las cuales corresponde a una columna de la pantalla. Esto quiere decir que si queremos introducir unos datos, cada variable debe ir en una columna: la variable respuesta, cada uno de los factores, o cada una de las variables regresoras, deben ocupar una columna del visor de datos. Al introducir los datos en el visor de datos, podemos pensar en que estamos rellenando una “encuesta”: cada lı́nea horizontal de la cuadrı́cula será un “encuestado” (caso), al que le corresponde un valor de cada una de las variables que intervienen en el problema (columnas). Hay que tener en cuenta a la hora de introducir los datos que el SPSS entiende los decimales con comas. Esto depende de la configuración regional de Windows (para usar el punto decimal hay que cambiarlo ahı́, no se puede cambiar desde el SPSS). En cuanto al visor de variables, nos permite guardar información adicional sobre las variables que manejamos. En Nombre podemos escribir para cada variable un nombre descriptivo de lo que es, en Tipo especificar si son numéricas o de cadena, definir cuántas posiciones totales y decimales le reservamos a los datos en cada casilla (Anchura y Decimales), escribir un comentario explicativo de la variable en Etiqueta, y poner nombres a los valores en Valores. En realidad la información contenida aquı́ no interviene en el análisis. Es interesante conservar una explicación de las variables, y fijar unos nombres para los valores, para que sea más sencillo entender el análisis una vez que el SPSS genere tablas, diagramas, etc. Para guardar los datos, ir a Archivo ,→ Guardar o Guardar Como y seleccionar un nombre de archivo. 1 También se pueden importar datos de otros formatos (Excel, ASCII, Lotus, DBase, etc.). Para ello, ir a Archivo ,→ Abrir ,→ Datos y seguir con cuidado las instrucciones del Asistente para la importación de texto. 1.2 El visor de resultados El visor de resultados es donde se muestran las tablas y gráficos generados por SPSS. Presenta dos paneles: en el izquierdo aparece un listado de los titulares del contenido (que podemos mostrar u ocultar a nuestro gusto), y en el derecho las tablas, gráficos y resultados de texto. Desde el visor de resultados se puede modificar las propiedades (dimensiones, presentación, colores, etc.) de las tablas y los gráficos que se generan. Para ello, basta pulsar el botón derecho del ratón sobre la tabla o el gráfico a modificar, seleccionando Objeto tabla pivote u Objeto gráfico, y luego Abrir y aparecerán el Editor de Tablas o Editor de Gráficos, que nos permiten cambiar diversas opciones. También se puede exportar los resultados y los gráficos del SPSS a otras aplicaciones. 2 2.1 Análisis descriptivo: gráficos, estadı́sticos descriptivos Generar gráficos Una vez que uno tiene los datos introducidos en el visor de datos, se pueden generar diversas representaciones gráficas de los mismos. Entre otras, podemos tener Diagramas de caja y bigotes: seleccionar Gráficos ,→ Diagramas de caja y luego Simple (si solo queremos representar los diagramas de caja de una variable) o Agrupado (cuando queremos construir los diagramas para más de una variable). En el cuadro de diálogo que aparece, pasar a Variable (o eje Y) la variable que queramos representar y al Eje de categorı́as (o eje X) el factor (o variable) según la cual queramos que divida en poblaciones la variable a representar (de este modo, obtenemos un diagrama con una “caja” para cada nivel del factor). Diagramas de dispersión, de sectores, de barras, histogramas, etc.: todos se generan del mismo modo, solicitando Gráficos ,→ Dispersión , por ejemplo, y luego Simple (si solo queremos una variable frente a otra, el resto de las opciones se refieren a dibujar varios diagramas de dispersión juntos de una u otra manera), y en el cuadro de diálogo que sale, elegir la variable del eje X y la del eje Y. Cabe destacar que de esta forma no podemos generar histogramas por nivel del factor. Para suplir esto, podemos usar el procedimiento Analizar ,→ Estadı́sticos Descriptivos ,→ Explorar . En el cuadro de diálogo que aparece, definimos la variable respuesta y los factores según cuyos niveles hará el análisis. En Estadı́sticos, podemos definir qué 2 estadı́sticos descriptivos nos va a mostrar, y en Gráficos, podemos solicitar los Diagramas de caja (con niveles de factores juntos), los Diagramas de Tallo y Hojas y los Histogramas (que aparecerán por niveles del factor), y los Gráficos con prueba de normalidad (gráficos Q-Q normales, etc.). A menudo, en los cuadros de Opciones se nos preguntará qué queremos hacer con los casos o valores perdidos o casillas no rellenas del visor de datos. En general, dejaremos la opción que viene por defecto en el SPSS. 3 Análisis de la varianza con un factor El procedimiento para realizar el Análisis de la Varianza con un factor se encuentra en Analizar ,→ Comparar medias ,→ ANOVA de un factor En el cuadro de diálogo que aparece, llevar a la casilla Dependientes la variable respuesta a estudiar, y a la casilla Factor, la variable que contenga los niveles del factor. Veamos qué seleccionar en cada uno de los cuadros de los que dispone SPSS. Contrastes : con esta opción el SPSS nos permite hacer contrastes a priori, que no vamos a manejar. Se deja en blanco y Continuar. Post hoc : las pruebas Post hoc son lo mismo que los contrastes múltiples a posteriori (para detectar dónde se encuentran las diferencias entre medias). Se nos permite elegir diversos métodos de control del error (elegimos Bonferroni, que es el que manejamos en clase, asumiendo igualdad de varianzas) y el nivel de significación (total) para los contrastes. Opciones : resultan de utilidad los Descriptivos (si antes no hemos realizado el procedimiento Explorar, ya que nos proporciona estimaciones de las medias por nivel) y la Prueba de homogeneidad de varianza (o prueba de Levene: según el p-valor que nos proporcione el contraste aceptaremos o rechazaremos la hipótesis nula de que las varianzas en todos los niveles del factor coinciden). En Valores perdidos debe aparecer con la opción por defecto, como comentábamos antes. 4 Análisis de la varianza con varios factores El procedimiento para realizar el Análisis de la Varianza con varios factores se encuentra en Analizar ,→ Modelo lineal general ,→ Univariante En el cuadro de diálogo que aparece, llevar a la casilla Dependiente la variable respuesta a estudiar, y a la casilla Factores fijos, las variables que contengan los factores que queramos incluir en el análisis. La casilla Factores aleatorios corresponde a factores con diseño aleatorio (en el que no se fijan los niveles de antemano; nosotros tenemos fundamentalmente datos referidos a diseño con factores fijos, no diseños aleatorios). En Covariables y Ponderación MCP no ponemos nada, porque 3 corresponden a análisis de covarianza y con factores pesados, respectivamente, que no manejaremos. Veamos qué seleccionar en cada uno de los cuadros de los que dispone SPSS. Modelo : es donde podemos especificar qué tipo de estudio de los datos queremos. Por defecto, el estudio se hace según un modelo Factorial completo, es decir, se incluyen todos los factores y todas las posibles interacciones entre ellos. Si no queremos este tipo de modelo, podemos marcar Personalizado, y pasar al lado de la derecha los factores (marcando cada factor y pasándolo a la derecha con la flecha, por separado) y las interacciones que queremos estudiar. Para especificar una interacción, debemos marcar los factores involucrados (dos, tres, o los que sean) y pasarlos juntos a la derecha (aparecerán con un asterisco entre ellos). En el cuadro debajo de la flecha debe aparecer Interacción, en Suma de cuadrados Tipo III, y marcado el cuadro Incluir intersección en el modelo. Contrastes : con esta opción el SPSS nos permite hacer contrastes a priori, que no vamos a manejar. Se deja en blanco y Continuar. Gráficos : este cuadro nos permite generar gráficos de perfil, en los que se representan las medias de la variable dependiente dividida según los niveles de uno de los factores frente a los distintos de niveles de otro (cada punto del gráfico que aparece es la media en el correspondiente cruce de niveles). En el Eje horizontal debemos poner el que queremos que tenga este último papel, y en Lı́neas distintas el otro. Estos gráficos son útiles para detectar interacción entre factores. Post hoc : las pruebas Post hoc son lo mismo que los contrastes múltiples a posteriori para la diferencia de los efectos αi , βj , etc.. Elegimos para qué factores queremos que aparezcan los intervalos de confianza (pasándolos a la derecha) y Bonferroni como método de control del error. SPSS no permite hacer pruebas post hoc para los efectos de las interacciones (αβ)ij , etc.. Guardar : permite almacenar diversas variables generadas por SPSS. Este procedimiento resultará de mayor utilidad y más fácil explicación cuando se aplique a modelos de regresión. Opciones : resulta de interés el cálculo de las Medias marginales, GLOBAL y para cada uno de los factores (en cada nivel, nos dará la media correspondiente). Si marcamos Comparar los efectos principales y en el cuadro inferior seleccionamos Bonferoni, obtenemos los intervalos múltiples que en las pruebas post hoc para los factores. También son de utilidad los Descriptivos (si antes no hemos realizado el procedimiento Explorar, ya que nos proporciona lod estadı́sticos por cruce de niveles y por nivel), la Prueba de homogeneidad de varianza (o prueba de Levene: según el p-valor que nos proporcione el contraste aceptaremos o rechazaremos la hipótesis nula de que las varianzas en todos los cruces de niveles del factor coincide; es útil cuando tenemos replicación del experimento) y los Gráficos de dispersión por nivel (también para datos con replicación). Por último, podemos elegir el nivel de significación total que se usará en todos los intervalos de confianza. 4 5 Análisis de regresión lineal (simple y múltiple) El procedimiento para realizar el análisis de regresión lineal se encuentra en Analizar ,→ Regresión ,→ Lineal En el cuadro de diálogo que aparece, llevar a la casilla Dependiente la variable respuesta a estudiar, y a la casilla Independientes, las variables regresoras que queramos incluir en el análisis. La casilla Método corresponde a elegir de qué manera vamos incorporando las variables al análisis, y la dejamos en Introducir. El resto de las casillas las dejamos vacı́as. Veamos qué seleccionar en cada uno de los cuadros de los que dispone SPSS. MCP>> : no ponemos nada, porque corresponde a un análisis en el que el efecto de cada variable recibe un peso distinto; no manejaremos este tipo de análisis. Estadı́sticos : aparecen diversos subcuadros: • Coeficientes de regresión: Estimaciones nos proporcional las estimaciones de los coeficientes del hiperplano de regresión, con su error tı́pico, coeficientes tipificados, el valor del estadı́stico t asociado a cada coeficiente y el p-valor del test bilateral asociado a dicho estadı́stico. Intervalos de confianza nos da los intervalos de confianza para los coeficientes del hiperplano de regresión. Matriz de covarianzas nos da una matriz de varianzas-covarianzas entre los coeficientes de regresión. • Ajuste de modelo: da una lista de variables introducidas, el coeficiente de correlación de Pearson r para cada una de ellas, r2 , r2 corregida, error tı́pico de la estimación y tabla ANOVA del análisis de la varianza. • Cambio en R2 : cuando hay varias variables regresoras, da el ajuste del modelo cuando se van eliminando variables. • Descriptivos: proporciona el número de casos válidos, la media y la desviación tı́pica insesgada para cada variable en el análisis. También muestra una matriz con las correlaciones entre variables. • Correlaciones parcial y semiparcial: estudia las correlaciones entre variables según diversas técnicas. • Diagnósticos de colinealidad: muestra los autovalores de la matriz de productos cruzados, no centrada y escalada. Sirve para detectar relación lineal entre variables regresoras. • Residuos: si marcamos Durbin-Watson, se nos proporcionará el valor del estadı́stico de Durbin-Watson, que es una prueba sobre la independencia de los residuos. Se suele aceptar que no hay razón para suponer que los residuos no son independientes (es decir, que falle la hipótesis de independencia), si el estadı́stico da un valor entre 1.5 y 2.5. Diagnósticos por caso nos da un listado de todos los residuos que se alejan de 0 (el valor esperado para los mismos) más 5 del número de desviaciones tı́picas que le especifiquemos. Además, aparece una tabla resumen con los estadı́sticos descriptivos de los residuos. Gráficos : este cuadro nos permite generar gráficos de dispersión de residuos frente a valores pronosticados o frente a la variable dependiente. DEPENDENT es la variable dependiente, ZPRED son los pronósticos tipificados, ZRESID son los residuos tipificados, DRESID son los residuos eliminados o corregidos (calculados haciendo el análisis de regresión sin esa observación; útiles para detectar atı́picos influyentes), ADJPRED son los pronósticos corregidos, SRESID son los residuos estudentizados y SDRESID son los residuos corregidos. También podemos generar histogramas de residuos y gráficos de probabilidad normal, para comprobar la normalidad de los datos. La opción Generar todos los gráficos parciales da una serie de gráficos en los que, para cada variable regresora Xi , se representan los residuos de la variable dependiente en un análisis de regresión sin esa variable regresora frente a los residuos de la regresión en la que la variable dependiente es Xi , y las independientes el resto de las variables regresoras (sirven para comprobar linealidad: aı́slan la relación entre variable dependiente y regresora). Guardar : salvamos como nuevas variables los residuos, valores pronosticados, estimaciones de efecto palanca (distancias de Cook y Mahalanobis), etc. como variables (crea nuevas columnas en el visor de datos). En particular, Intervalos de pronóstico nos proporciona los extremos inferiores (lmci# y lici#) y superiores (umci# y uici#) para los intervalos de confianza para el pronóstico medio y el pronóstico individual (respectivamente). Nos da las bandas de confianza. Opciones : dejamos todas las opciones por defecto, ya que se refieren al método de incorporación de variables al análisis de regresión (sirve para detectar qué variables influyen de manera significativa en el ajuste del modelo). 6