CIENCIAS B IOLÓGICAS 5º CURSO MODELOS LINEALES EN BIOLOGÍA Práctica nº 2 Análisis de datos con SPSS Modelos Lineales en Biología En esta práctica nos iniciaremos en el uso del programa estadístico SPSS para realizar análisis descriptivo. Como ya se ha visto el modo de abrir ficheros de SPSS, utilizaremos ahora un fichero con formato texto para ver cómo se abre con SPSS. 1.- Para importar el fichero de datos Desde la Web http://windows.uco.es, seleccionaremos en el menú SECCIONES (en la parte izquierda de la pantalla), el menú Prácticas, la última de cuyas opciones es Modelos Lineales, donde encontraremos, tanto este texto como el fichero DATOS.TXT que será el que manejaremos hoy. Descargaremos ambos ficheros. 2.- Primeros pasos con SPSS. En primer lugar accedemos al programa SPSS desde la opción Programas del menú InicioProgramas_Estadística-SPSS 8.0 for windows Del cuadro de diálogo de entrada pulsamos cancelar, pues no deseamos abrir un fichero previo creado con SPSS y el botón cerrar del fichero de resultados que se muestra. Barra de título Barra de menús Barra de herramientas Tabla de datos Figura 1: Area de trabajo de SPSS Aparecerá el área de trabajo de SPSS, cuyo aspecto es como el de la Figura 1. Seleccionamos en el menú FILE la opción OPEN, elegimos el lugar donde hayamos guardado el fichero DATOS.TXT. Si no se ve ese fichero, hay que desplegar la barra ARCHIVOS DE TIPO... y seleccionar ALL FILES o TAB SEPARATED FILES. Entonces elegimos el fichero deseado. Como el fichero es de texto, indicamos que se trata de fichero delimitado con tabuladores y que la primera fila contiene el nombre de las columnas. Práctica 2, página, 1 Modelos Lineales en Biología Figura 2: Menú Open, seleccionando el tipo de fichero que se abrirá y cuadro de verificación para que lea los nombres de las variables de la primera línea del fichero Otra importante comprobación: Compruebe si todas las columnas son del tipo correspondiente, para ello basta situarse sobre el nombre de la variable y pulsar sobre el botón derecho del ratón, seleccionar Define Variable y ver si es de tipo Nominal, Ordinal o Escala. Si mostrase columnas numéricas como de tipo Nominal, deberá modificar su tipo declarándolas de tipo Comma o Dot, según sea el separador que elijamos par los miles (el separador de decimales será un punto par los del primer tipo y una coma para los del segundo tipo) 3.- Estadística descriptiva básica: Si ya tenemos los datos en pantalla, podemos empezar a analizarlos a través del menú STATISTICS-Sumarize-Descriptives, ver la figura 3 Figura 3: Desplegando el menú Statistics-Sumarize-Descriptives, y selección de la variables a estudiar Se puede seleccionar el tipo de resultados que se mostrarán desde la opción Options del cuadro de diálogo Descriptives Práctica 2, página, 2 Modelos Lineales en Biología Dependiendo de las opciones seleccionadas, se mostrarán diferentes resultados como: Media (Mean) Mediana (Median) Si hay alguna duda, se puede pulsar el botón Help, y aparece la información en una ventana contigua. Figura 4: Opciones del menú Descriptives y ventana de ayuda Los resultados se muestran en una nueva ventana, llamada OUTPUT VIEWER, figura 5: Figura 6: Ventana de resultados Output Viewer Práctica 2, página, 3 Modelos Lineales en Biología La ventana de resultados está dividida en dos partes, la de la izquierda es el esquema de lo que incluye dicha ventana y la parte de la derecha es la que muestra los resultados del análisis realizado. Para volver a la tabla de datos, basta con pulsar el botón Go to data de la barra de herramientas. 4.- Análisis gráfico: desde el menú GRAPH podemos representar una o más columnas mediante el correspondiente gráfico. Las distintas opciones se muestran en la figura 7. Para crear un gráfico se selecciona uno de los posibles, si hay alguna duda sobre qué es cada uno de ellos, pulse sobre la opción Gallery para ver un ejemplo de cada uno de los distintos gráficos que se pueden crear. 5.- Creación de tablas de frecuencias. Se puede crear tablas de frecuencias desde la opción Frequencies del menú Statistics-Sumarize. Del cuadro de diálogo Frequencies (figura 8) se eligen las variables cuyas tablas de frecuencias se desean construir. En los botones de este recuadro se pueden seleccionar una lista de medidas de centralización y dispersión para las variables (botón Statistics) y gráficos a realizar sobre cada variable (Charts) . Figura 7: Galeria de gráficos Figura 8: Cuadro de diálogo Frequencies El botón Format permite organizar los resultados según se desee. Los resultados se muestran en la ventana de salida Output Viewer 6.- Análisis de subgrupos. Una variable categórica se puede usar para estudiar las características de la submuestra constituida por el conjunto de observaciones que tienen el mismo valor para cada categoría de dicha variable. Para hacer esto se puede proceder de dos modos: Uno de ellos consiste en filtrar los datos, seleccionando solamente aquellos que se desee, para ello se entra en el menú Data-Select cases y se construye el criterio de selección (If), figura 9. Los casos que cumplan la condición serán eliminados o “tachados”, en el primer caso no podrán volverse a usar mientras que en el segundo caso sí, pero no son considerados en los cálculos. Una vez filtrados los casos que se deseen, los cálculos estadísticos se realizan solamente sobre los casos “no tachados”. Si lo que se desea es determinar las características de todos los grupos y ver el resultado conjuntamente, se entra en el menú Statistics-Sumarize-Case sumaries y del cuadro de diálogo que se muestra en la figura 10 se selecciona la variable que se desea estudiar y la variable que definirá los grupos (Grouping variable), también se puede elegir los parámetros que se calcularán (botón Statistics) y los títulos que se pondrán a los resultados (Botón Options) Práctica 2, página, 4 Modelos Lineales en Biología Figura 9: Menú Data Select cases y definición de los criterios de selección Figura 11: Definiendo los grupos para el resumen Práctica 2, página, 5 Modelos Lineales en Biología 7.- Tablas de Contingencia. Una tabla de contingencia es una tabla de frecuencias para valores de dos variables, aunque pueden ser tabuladas pares de variables de cualquier tipo, son más utilizadas en el análisis de variables categóricas (o categorizadas). Las frecuencias se disponen en una tabla de doble entrada con los valores de una variable dispuestas en filas y las de la otra por columnas (categorías, para variables cualitativas). Los totales de filas y los de columnas se denominan marginales de filas y columnas respectivamente. Para crear una tabla de contingencia hay que entrar en el cuadro de diálogo del comando Statistics Sumarize-Crosstabs de la figura 11 y seleccionar cuál será la variable fila y la variable columna. Se puede crear una tabla de contingencia por cada una de las categorías de una tercera variable que es la que se elige como Layer. El botón Statistics permite definir los estadísticos que se calcularán. El botón Cells permite configurar la información que se mostrará para cada celda: frecuencias observadas, esperadas, porcentajes, etc, y el botón Format permite definir el orden en que se mostrarán las filas y las columnas . Figura 11 Definiendo las filas y columnas de una tabla de contingencia 8.- Análisis exploratorio de datos. Este análisis de datos consiste en una serie de técnicas que permiten “ver” la máxima información que reside en todos ellos, para ello se utilizan sobre todo métodos gráficos. Para elegir las variables que se explorarán se usa el cuadro de diálogo de la figura 12. Si se desea dividir los casos en grupos se elegirá una o más variables Factor, de este modo se pueden comparar los grupos definidos por esta variable. Los resultados incluyen diagramas de tallo y hojas y box plots para la variable Dependiente dividiendola en tantos grupos como valores distintos tenga la variable Factor. Figura 12: Cuadro de diálogo de análisis esploratorio Práctica 2, página, 6 Modelos Lineales en Biología Cuestiones a contestar sobre esta práctica Sobre el epígrafe 3: Estadística descriptiva básica: Comente los resultados obtenidos de ejecutar el comando Statistics dependiendo del tipo de dato de la columna correspondiente. Defina los siguientes conceptos Segundo cuartil Cuasivarianza (Variance) Error estándar de la media (Standard Error of Mean) ¿Cómo calcularía la varianza y desviación típica de los datos? ¿Por qué no aparecen estos resultados para la variable Color?. Defina las opciones de configuración del comando Statistics-Sumarize-Descriptives: Mean Median Sum Standard Deviation Range Minimum Maximum S.E. mean Kurtosis Skewness Del comando Frequencies, botón Statistics: Quartiles Percentiles Del comando Frequencies, botón Charts: Bar Chat Pie Chat Histogram Del comando Explore, botón Statistics: Outliers Confidence Interval for mean Del comando Explore, botón Plots Boxplot Steam and Leaf Histogram Del comando Crosstabs, botón Statistics: Chi-square Contingency coefficient Phi and Cramer’s V Correlation Recuerde las definiciones de todos los conceptos anteriores y escriba su fórmula. (Puede solicitar AYUDA al propio programa) 4.- Análisis gráfico: Cree diagramas de barras e histogramas para las variables del ejemplo. Recuerde los principales tipos de gráficos: Boxplot o diagrama de caja y bigote Diagrama de barras Histograma Polígono de frecuencias Diagrama de media-desviación Comente las principales diferencias entre unos y otros e indique los tipos de variables a los que les son aplicables. A la vista de los gráficos creados, comente la forma y simetría de las distribuciones de los datos proporcionados. Nota: El número de clases del histograma se calcula y se aplica de modo automático. Aunque para las tablas de frecuencias, el número de clases se puede definir en el cuadro de diálogo correspondiente al botón Statistics de la opción Frecuencies. Práctica 2, página, 7 Modelos Lineales en Biología 5.- Creación de tablas de frecuencia Construya tablas de frecuencias para las variables utilizadas en el ejemplo actual. Transcriba las tablas de frecuencias absolutas y acumuladas para cada una de las variables Utilice los resultados de la tabla de frecuencias de la variable nº de ramas para trazar el diagrama de barras correspondiente a la frecuencia relativa y relativa acumulada. Salve los resultados en disco, con el nombre GRAFICO1, en una carpeta cuyo nombre sea la fecha de hoy. 6.- Análisis de subgrupos. Utilice la variable AFECTACIÓN para definir subgrupos. Transcriba y compare las medias, varianzas, desviaciones típicas y coeficientes de variación de cada una de las variables numéricas consideradas entre los distintos grupos definidos. Utilice la opción de filtrado para calcular la media del diámetro de plantas con 3 o más ramas y compárela con la obtenida para plantas con menos de 3 ramas. Describa un procedimiento que permita calcular el diámetro medio correspondiente a plantas con tres ramas o más separando por grupos según el grado de afectación. Transcriba los resultados que obtenga. 7.- Tablas de Contingencia. Utilice los datos proporcionados para construir una tabla de contingencia de las variable Afectación y Nº de ramas, tomando las categorías de la variable Afectación y definiendo seis categorías para la variable Nº de ramas. Transcriba los resultados obtenidos Localice las tablas que incluyen marginales por filas y por columnas y transcríbalas aquí. Práctica 2, página, 8