1 Introducción al SPSS

Anuncio
Breve guión para las prácticas con SPSS
1
Introducción al SPSS
El programa SPSS está organizado en dos bloques: el editor de datos y el visor de
resultados. En la barra de menú (arriba de la pantalla) aparecen diversas opciones,
de las cuales algunas ( Archivo , Edición , Ver , Ventana y Ayuda ) son comunes
a muchos programas basados en Windows, y otras son especı́ficas del SPSS.
Datos Permite definir y manejar variables.
Transformar Permite realizar operaciones con los datos, generar números aleatorios,
etc.
Analizar Contiene el menú de las operaciones netamente estadı́sticas que se pueden
realizar con los datos. En particular, aquı́ se encuentran los procedimientos de análisis
que nosotros usaremos.
Gráficos Permite generar diversas representaciones gráficas de los datos (diagramas
de dispersión, de caja y bigotes, etc.).
1.1
El editor de datos
El editor de datos tiene dos vistas diferentes: vista de datos y vista de variables. La
primera tiene una estructura similar a la de una hoja de cálculo (Excel), y se usa para
introducir los datos que se quieren analizar. El SPSS maneja los datos en términos
de variables, cada una de las cuales corresponde a una columna de la pantalla. Esto
quiere decir que si queremos introducir unos datos, cada variable debe ir en una
columna: la variable respuesta, cada uno de los factores, o cada una de las variables
regresoras, deben ocupar una columna del visor de datos. Al introducir los datos en
el visor de datos, podemos pensar en que estamos rellenando una “encuesta”: cada
lı́nea horizontal de la cuadrı́cula será un “encuestado” (caso), al que le corresponde
un valor de cada una de las variables que intervienen en el problema (columnas).
Hay que tener en cuenta a la hora de introducir los datos que el SPSS entiende los
decimales con comas. Esto depende de la configuración regional de Windows (para
usar el punto decimal hay que cambiarlo ahı́, no se puede cambiar desde el SPSS).
En cuanto al visor de variables, nos permite guardar información adicional sobre
las variables que manejamos. En Nombre podemos escribir para cada variable un
nombre descriptivo de lo que es, en Tipo especificar si son numéricas o de cadena,
definir cuántas posiciones totales y decimales le reservamos a los datos en cada casilla
(Anchura y Decimales), escribir un comentario explicativo de la variable en Etiqueta,
y poner nombres a los valores en Valores. En realidad la información contenida aquı́
no interviene en el análisis. Es interesante conservar una explicación de las variables,
y fijar unos nombres para los valores, para que sea más sencillo entender el análisis
una vez que el SPSS genere tablas, diagramas, etc.
Para guardar los datos, ir a Archivo ,→ Guardar o Guardar Como y seleccionar
un nombre de archivo.
1
También se pueden importar datos de otros formatos (Excel, ASCII, Lotus, DBase,
etc.). Para ello, ir a Archivo ,→ Abrir ,→ Datos y seguir con cuidado las instrucciones del Asistente para la importación de texto.
1.2
El visor de resultados
El visor de resultados es donde se muestran las tablas y gráficos generados por SPSS.
Presenta dos paneles: en el izquierdo aparece un listado de los titulares del contenido
(que podemos mostrar u ocultar a nuestro gusto), y en el derecho las tablas, gráficos
y resultados de texto. Desde el visor de resultados se puede modificar las propiedades
(dimensiones, presentación, colores, etc.) de las tablas y los gráficos que se generan.
Para ello, basta pulsar el botón derecho del ratón sobre la tabla o el gráfico a modificar,
seleccionando Objeto tabla pivote u Objeto gráfico, y luego Abrir y aparecerán
el Editor de Tablas o Editor de Gráficos, que nos permiten cambiar diversas
opciones. También se puede exportar los resultados y los gráficos del SPSS a otras
aplicaciones.
2
2.1
Análisis descriptivo: gráficos, estadı́sticos descriptivos
Generar gráficos
Una vez que uno tiene los datos introducidos en el visor de datos, se pueden generar
diversas representaciones gráficas de los mismos. Entre otras, podemos tener
Diagramas de caja y bigotes: seleccionar Gráficos ,→ Diagramas de caja y luego
Simple (si solo queremos representar los diagramas de caja de una variable) o Agrupado
(cuando queremos construir los diagramas para más de una variable). En el cuadro de
diálogo que aparece, pasar a Variable (o eje Y) la variable que queramos representar
y al Eje de categorı́as (o eje X) el factor (o variable) según la cual queramos que
divida en poblaciones la variable a representar (de este modo, obtenemos un diagrama
con una “caja” para cada nivel del factor).
Diagramas de dispersión, de sectores, de barras, histogramas, etc.: todos se generan del
mismo modo, solicitando Gráficos ,→ Dispersión , por ejemplo, y luego Simple
(si solo queremos una variable frente a otra, el resto de las opciones se refieren a
dibujar varios diagramas de dispersión juntos de una u otra manera), y en el cuadro
de diálogo que sale, elegir la variable del eje X y la del eje Y. Cabe destacar que de
esta forma no podemos generar histogramas por nivel del factor.
Para suplir esto, podemos usar el procedimiento
Analizar ,→ Estadı́sticos Descriptivos ,→ Explorar .
En el cuadro de diálogo que aparece, definimos la variable respuesta y los factores según cuyos niveles hará el análisis. En Estadı́sticos, podemos definir qué
2
estadı́sticos descriptivos nos va a mostrar, y en Gráficos, podemos solicitar los Diagramas de caja (con niveles de factores juntos), los Diagramas de Tallo y Hojas y
los Histogramas (que aparecerán por niveles del factor), y los Gráficos con prueba de
normalidad (gráficos Q-Q normales, etc.).
A menudo, en los cuadros de Opciones se nos preguntará qué queremos hacer
con los casos o valores perdidos o casillas no rellenas del visor de datos. En general,
dejaremos la opción que viene por defecto en el SPSS.
3
Análisis de la varianza con un factor
El procedimiento para realizar el Análisis de la Varianza con un factor se encuentra
en
Analizar ,→ Comparar medias ,→ ANOVA de un factor
En el cuadro de diálogo que aparece, llevar a la casilla Dependientes la variable
respuesta a estudiar, y a la casilla Factor, la variable que contenga los niveles del
factor. Veamos qué seleccionar en cada uno de los cuadros de los que dispone SPSS.
Contrastes : con esta opción el SPSS nos permite hacer contrastes a priori, que no
vamos a manejar. Se deja en blanco y Continuar.
Post hoc : las pruebas Post hoc son lo mismo que los contrastes múltiples a posteriori
(para detectar dónde se encuentran las diferencias entre medias). Se nos permite elegir
diversos métodos de control del error (elegimos Bonferroni, que es el que manejamos
en clase, asumiendo igualdad de varianzas) y el nivel de significación (total) para los
contrastes.
Opciones : resultan de utilidad los Descriptivos (si antes no hemos realizado el
procedimiento Explorar, ya que nos proporciona estimaciones de las medias por nivel)
y la Prueba de homogeneidad de varianza (o prueba de Levene: según el p-valor
que nos proporcione el contraste aceptaremos o rechazaremos la hipótesis nula de que
las varianzas en todos los niveles del factor coinciden). En Valores perdidos debe
aparecer con la opción por defecto, como comentábamos antes.
4
Análisis de la varianza con varios factores
El procedimiento para realizar el Análisis de la Varianza con varios factores se encuentra en
Analizar ,→ Modelo lineal general ,→ Univariante
En el cuadro de diálogo que aparece, llevar a la casilla Dependiente la variable
respuesta a estudiar, y a la casilla Factores fijos, las variables que contengan los
factores que queramos incluir en el análisis. La casilla Factores aleatorios corresponde a factores con diseño aleatorio (en el que no se fijan los niveles de antemano;
nosotros tenemos fundamentalmente datos referidos a diseño con factores fijos, no
diseños aleatorios). En Covariables y Ponderación MCP no ponemos nada, porque
3
corresponden a análisis de covarianza y con factores pesados, respectivamente, que no
manejaremos. Veamos qué seleccionar en cada uno de los cuadros de los que dispone
SPSS.
Modelo : es donde podemos especificar qué tipo de estudio de los datos queremos. Por
defecto, el estudio se hace según un modelo Factorial completo, es decir, se incluyen
todos los factores y todas las posibles interacciones entre ellos. Si no queremos este
tipo de modelo, podemos marcar Personalizado, y pasar al lado de la derecha los
factores (marcando cada factor y pasándolo a la derecha con la flecha, por separado)
y las interacciones que queremos estudiar. Para especificar una interacción, debemos
marcar los factores involucrados (dos, tres, o los que sean) y pasarlos juntos a la
derecha (aparecerán con un asterisco entre ellos). En el cuadro debajo de la flecha
debe aparecer Interacción, en Suma de cuadrados Tipo III, y marcado el cuadro
Incluir intersección en el modelo.
Contrastes : con esta opción el SPSS nos permite hacer contrastes a priori, que no
vamos a manejar. Se deja en blanco y Continuar.
Gráficos : este cuadro nos permite generar gráficos de perfil, en los que se representan
las medias de la variable dependiente dividida según los niveles de uno de los factores
frente a los distintos de niveles de otro (cada punto del gráfico que aparece es la media
en el correspondiente cruce de niveles). En el Eje horizontal debemos poner el que
queremos que tenga este último papel, y en Lı́neas distintas el otro. Estos gráficos
son útiles para detectar interacción entre factores.
Post hoc : las pruebas Post hoc son lo mismo que los contrastes múltiples a posteriori
para la diferencia de los efectos αi , βj , etc.. Elegimos para qué factores queremos que
aparezcan los intervalos de confianza (pasándolos a la derecha) y Bonferroni como
método de control del error. SPSS no permite hacer pruebas post hoc para los efectos
de las interacciones (αβ)ij , etc..
Guardar : permite almacenar diversas variables generadas por SPSS. Este procedimiento resultará de mayor utilidad y más fácil explicación cuando se aplique a modelos de regresión.
Opciones : resulta de interés el cálculo de las Medias marginales, GLOBAL y para
cada uno de los factores (en cada nivel, nos dará la media correspondiente). Si marcamos Comparar los efectos principales y en el cuadro inferior seleccionamos
Bonferoni, obtenemos los intervalos múltiples que en las pruebas post hoc para los
factores. También son de utilidad los Descriptivos (si antes no hemos realizado el
procedimiento Explorar, ya que nos proporciona lod estadı́sticos por cruce de niveles
y por nivel), la Prueba de homogeneidad de varianza (o prueba de Levene: según
el p-valor que nos proporcione el contraste aceptaremos o rechazaremos la hipótesis
nula de que las varianzas en todos los cruces de niveles del factor coincide; es útil
cuando tenemos replicación del experimento) y los Gráficos de dispersión por
nivel (también para datos con replicación). Por último, podemos elegir el nivel de
significación total que se usará en todos los intervalos de confianza.
4
5
Análisis de regresión lineal (simple y múltiple)
El procedimiento para realizar el análisis de regresión lineal se encuentra en
Analizar ,→ Regresión ,→ Lineal
En el cuadro de diálogo que aparece, llevar a la casilla Dependiente la variable
respuesta a estudiar, y a la casilla Independientes, las variables regresoras que queramos incluir en el análisis. La casilla Método corresponde a elegir de qué manera
vamos incorporando las variables al análisis, y la dejamos en Introducir. El resto de
las casillas las dejamos vacı́as. Veamos qué seleccionar en cada uno de los cuadros de
los que dispone SPSS.
MCP>> : no ponemos nada, porque corresponde a un análisis en el que el efecto de
cada variable recibe un peso distinto; no manejaremos este tipo de análisis.
Estadı́sticos : aparecen diversos subcuadros:
• Coeficientes de regresión: Estimaciones nos proporcional las estimaciones
de los coeficientes del hiperplano de regresión, con su error tı́pico, coeficientes
tipificados, el valor del estadı́stico t asociado a cada coeficiente y el p-valor
del test bilateral asociado a dicho estadı́stico. Intervalos de confianza nos
da los intervalos de confianza para los coeficientes del hiperplano de regresión.
Matriz de covarianzas nos da una matriz de varianzas-covarianzas entre los
coeficientes de regresión.
• Ajuste de modelo: da una lista de variables introducidas, el coeficiente de
correlación de Pearson r para cada una de ellas, r2 , r2 corregida, error tı́pico de
la estimación y tabla ANOVA del análisis de la varianza.
• Cambio en R2 : cuando hay varias variables regresoras, da el ajuste del modelo
cuando se van eliminando variables.
• Descriptivos: proporciona el número de casos válidos, la media y la desviación
tı́pica insesgada para cada variable en el análisis. También muestra una matriz
con las correlaciones entre variables.
• Correlaciones parcial y semiparcial: estudia las correlaciones entre variables según diversas técnicas.
• Diagnósticos de colinealidad: muestra los autovalores de la matriz de productos cruzados, no centrada y escalada. Sirve para detectar relación lineal entre
variables regresoras.
• Residuos: si marcamos Durbin-Watson, se nos proporcionará el valor del estadı́stico de Durbin-Watson, que es una prueba sobre la independencia de los
residuos. Se suele aceptar que no hay razón para suponer que los residuos no
son independientes (es decir, que falle la hipótesis de independencia), si el estadı́stico da un valor entre 1.5 y 2.5. Diagnósticos por caso nos da un listado
de todos los residuos que se alejan de 0 (el valor esperado para los mismos) más
5
del número de desviaciones tı́picas que le especifiquemos. Además, aparece una
tabla resumen con los estadı́sticos descriptivos de los residuos.
Gráficos : este cuadro nos permite generar gráficos de dispersión de residuos frente a
valores pronosticados o frente a la variable dependiente. DEPENDENT es la variable dependiente, ZPRED son los pronósticos tipificados, ZRESID son los residuos tipificados,
DRESID son los residuos eliminados o corregidos (calculados haciendo el análisis de
regresión sin esa observación; útiles para detectar atı́picos influyentes), ADJPRED son
los pronósticos corregidos, SRESID son los residuos estudentizados y SDRESID son los
residuos corregidos. También podemos generar histogramas de residuos y gráficos de
probabilidad normal, para comprobar la normalidad de los datos. La opción Generar
todos los gráficos parciales da una serie de gráficos en los que, para cada variable regresora Xi , se representan los residuos de la variable dependiente en un análisis
de regresión sin esa variable regresora frente a los residuos de la regresión en la que
la variable dependiente es Xi , y las independientes el resto de las variables regresoras (sirven para comprobar linealidad: aı́slan la relación entre variable dependiente y
regresora).
Guardar : salvamos como nuevas variables los residuos, valores pronosticados, estimaciones de efecto palanca (distancias de Cook y Mahalanobis), etc. como variables (crea
nuevas columnas en el visor de datos). En particular, Intervalos de pronóstico
nos proporciona los extremos inferiores (lmci# y lici#) y superiores (umci# y uici#)
para los intervalos de confianza para el pronóstico medio y el pronóstico individual
(respectivamente). Nos da las bandas de confianza.
Opciones : dejamos todas las opciones por defecto, ya que se refieren al método de
incorporación de variables al análisis de regresión (sirve para detectar qué variables
influyen de manera significativa en el ajuste del modelo).
6
Descargar