Universidad de Alcalá Departamento de Ecología MÉTODOS DE ANÁLISIS DE DATOS EN ECOLOGÍA Prácticas de Ecología Licenciaturas de Biología y Ciencias Ambientales Curso 2004-2005 1 1. INTRODUCCIÓN 4 1.1. Distribuciones de datos 4 1.2. Pruebas de contraste de hipótesis 6 2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS: TEST DE LA χ 2 7 2.1. Requisitos e hipótesis de trabajo 7 2.2. Procedimiento de cálculo 7 2.3. Contraste de hipótesis 9 2.4. Caso práctico 9 3. TESTS DE COMPARACIÓN DE DOS MEDIAS 10 3.1. Selección del test 10 3.2. Test paramétrico: t de Student 3.2.1. Requisitos 3.2.2. Hipótesis 3.2.3. Procedimiento de cálculo 3.2.4. Caso Práctico 10 10 11 11 11 3.3. Test no paramétrico: U de Mann-Whitney 3.3.1. Requis itos 3.3.2. Hipótesis 3.3.3. Procedimiento de cálculo 3.3.4. Caso práctico 12 12 12 12 13 4. TESTS DE COMPARACIÓN DE MÁS DE DOS MEDIAS 13 4.1. Selección del test 14 4.2. Test paramétrico: Análisis de la Varianza (ANOVA) 4.2.1. Requisitos 4.2.2. Hipótesis 4.2.3. Procedimiento de cálculo 4.2.4. Caso Práctico 14 14 14 14 15 4.3. Test no paramétrico: Kruskal-Wallis 4.3.1. Requisitos 4.3.2. Hipótesis 4.3.3. Procedimiento de cálculo 4.3.4. Caso práctico: 16 16 16 16 17 2 5. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: ÍNDICES DE CORRELACIÓN 18 5.1. Rangos de variación de los coeficientes 18 5.2. Hipótesis 18 5.3. Selección del test 19 5.4. Correlación paramétrica: r de Pearson 5.4.1. Procedimiento de cálculo 5.4.2. Caso práctico 19 19 19 5.5. Correlación no paramétrica: r de Spearman 5.5.1. Procedimiento de cálculo 5.5.2. Caso práctico 20 20 20 6. TABLAS ESTADÍSTICAS 22 6.1. Tabla de valores críticos del estadístico χ2 22 6.2. Tabla de valores críticos del estadístico t de Student 23 6.3. Tabla de valores críticos de l estadístico U de Mann Whitney 24 6.4. Tabla de valores críticos del estadístico F de Snedecor 28 6.5. Tabla de valores críticos de l estadístico H de Kruskal-Wallis 29 6.6. Tabla de valores críticos del coeficiente de correlación de Pearson (r) 30 6.7. Tabla de valores críticos del coeficiente de correlación de Spearman (r s) 31 3 1. INTRODUCCIÓN La estadística es una disciplina que proporciona a la Ecología las herramientas necesarias para el análisis de los datos. Dado que no podemos hacer estudios en toda la población (no es posible contar todos los ácaros que hay en un suelo, ni es posible medir el área foliar de todas las hojas de los árboles de un bosque, ni medir la longitud del cuerpo de todas las carpas que tiene un lago), la estadística nos permite cuantificar la probabilidad de cometer error al extrapolar los resultados obtenidos de una serie de muestras al conjunto de la población. Por tanto, la estadística permite cuantificar el error que cometemos al aceptar nuestros resultados obtenidos a partir de muestras (“encuestas”) de una población generalmente muy extensa. Hay dos tipos de estadística, la estadística descriptiva, que reúne un conjunto de técnicas que facilitan la organización, resumen y comunicación de datos; y la estadística inferencial, que permite hacer pruebas de contraste de hipótesis. 1.1. Distribuciones de datos Cuando tenemos una colección de datos como resultado de un trabajo científico que hemos realizado, es importante conocer el tipo de distribución que siguen esos datos para poder decidir posteriormente qué herramientas estadísticas son más adecuadas para el análisis de los mismos. Frecuencia Los histogramas de frecuencias son una herramienta de representación de datos que nos permiten observar cómo se distribuyen los mismos. Están formados por rectángulos adyacentes que tienen por base cada uno de los intervalos de la variable medida y por altura las frecuencias absolutas (nº de veces que aparecen datos dentro de ese intervalo). La superficie de cada rectángulo es proporcional a la frecuencia de cada una de las clases y el área total lo será al número de individuos en la muestra. El número de intervalos a utilizar (k) se puede calcular según la regla de Sturges (1926): K = 1 + 3.322 * log (n), donde n es el tamaño de muestra. 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 3,3* 3,4* 3,5* 3,6* 3,7* 3,8* 3,9* 4,0* 4,1* 4,2* 4,3* 4,4* 4,5* Longitud del ala (cm) Figura 1: Representación gráfica de la distribución de frecuencias de la variable longitud del ala en una población de aves Asimismo, para conocer mejor cómo se distribuyen unos datos es importante conocer cuál es valor central de los mismos así como el grado de dispersión de los datos alrededor de ese valor central. Para ello existen una serie de parámetros que informan acerca de estas características de las distribuciones de datos. 4 Medidas de tendencia central: indican alrededor de qué valores se agrupan los datos observados. Distinguimos: 1. Media aritmética: es el centro de gravedad de la serie de datos y se calcula como ∑xi/n. µ- media de la población x- media de la muestra. 2. Mediana: es el punto medio de una serie ordenada de datos 3. Moda: es el valor más frecuente de la serie de datos. Figura 2. Representación de la media (mean), mediana y moda en cuatro distribuciones. Medidas de dispersión: indican si los valores de la variable están muy dispersos o se concentran alrededor de la medida de centralización. Son: - Rango. Diferencia entre el valor máximo y el mínimo observado. Rango: xmax-xmin - Varianza. Expresa la dispersión de valores entorno a la media σ - varianza de la población 2 2 s -varianza de la muestra σ 2 2 s ( xi − x )2 ∑ = n ( xi − x) 2 ∑ = n −1 - Desviación estándar. Es la raíz cuadrada de la varianza σ - desviación estándar de la población s - desviación estándar de la muestra De entre todas las distribuciones posibles que puedan seguir unos datos, la distribución normal es la más interesante desde el punto de vista estadístico, pues reúne unas propiedades que han hecho posible que a partir de ella se desarrollaran numerosos métodos de análisis de datos. En ella, los valores cercanos a la media son los más abundantes y a medida que nos alejamos de la media, los datos presentan una frecuencia cada vez menor. Por este motivo, el histograma de frecuencias adopta una forma de campana de Gauss: 5 La distribución normal posee una serie de características: - Corresponde a variables cuantitativas continuas. - Se caracteriza por dos medidas: media y desviación típica. - Es unimodal. - Es simétrica alrededor de la media. Por tanto, media, mediana y moda coinciden. - Tiene forma acampanada, sin un pico excesivo. - El área bajo la curva = 1. El 50% de las observaciones se encuentran por debajo de la media y el 50% por encima. El 68% de las observaciones se encuentran dentro del intervalo x ± s El 95% de las observaciones se encuentran dentro del intervalo x ± 1,96 s El 99% de las observaciones se encuentra dentro del intervalo x ± 2,57 s. 1.2. Pruebas de contraste de hipótesis Debido a esta propiedad de poder conocer la probabilidad de que un valor determinado forme parte de la distribución normal, se han desarrollado numerosos tests estadísticos que permiten realizar pruebas de contraste de hipótesis a partir de la distribución normal, son las pruebas paramétricas. Sin embargo, no siempre los datos que obtenemos en un trabajo científico se ajustan a la distribución normal, por lo que para hacer pruebas de contraste de hipótesis necesitaremos recurrir a la estadística no paramétrica. La aplicación del método científico no nos permite demostrar la veracidad de una hipótesis sino su falsedad, es decir, que las hipótesis ecológicas (Hecol) que proponemos se dan por válidas siempre y cuando no se demuestre que son falsas. En las pruebas de contraste de hipótesis, las diferentes pruebas estadísticas utilizan la llamada hipótesis nula (H0 ) para verificar la validez de las hipótesis ecológicas. La hipótesis nula siempre presupone que la distribución de los datos es al azar, es decir, que no existen diferencias entre los grupos o asociación entre las variables debidas a factores ecológicos. Dicho de otra forma, la H0 es la negación de la hipótesis ecológica. Por tanto, cuando realizamos cualquier test estadístico de contraste de hipótesis, nuestro objetivo será rechazar la H0 , lo que nos permite seguir dando por válida la hipótesis ecológica. El grado de significación estadística (p) es el parámetro que cuantifica el error que se estamos cometiendo al aceptar nuestros resultados. Concretamente, lo que indica es la probabilidad de que rechacemos la H0 siendo cierta. Cuanto más pequeño sea el valor de ‘p’ menor será la probabilidad de que H0 sea cierta, y por tanto mayor es la probabilidad de que Hecol sea la correcta. Para tomar una decisión respecto a cuál sea la hipótesis ‘verdadera’, el investigador fija el nivel máximo de error que se permite al aceptar Hecol (a). En general, se ha fijado por convenio el umbral de p=0.05 como válido, es decir, nos permitimos un error máximo del 5% en nuestra afirmación de la hipótesis ecológica. En cualquier caso, conviene señalar que lo más importante es dar a conocer el error de nuestros resultados. En función del número de variables implicadas en un análisis estadístico, distinguimos tres tipos de métodos de análisis de datos: Métodos monovariantes: Se han registrado los valores de una sola variable, o de dos variables pero al menos una de ellas es cualitativa Métodos bivariantes: Se han registrado los valores de dos variables cuantitativas Métodos multivariantes: Se han registrado los valores de tres o más variables En el siguiente cuadro se muestran de forma resumida las diferentes pruebas estadísticas que la estadística paramétrica y la no paramétrica proporcionan a los 6 investigadores para realizar las pruebas de contraste de hipótesis necesarias en los trabajos científicos: Variable 1 Variable 2 Cualitativa Cualitativa Cuantitativa Cualitativa Métodos paramétricos t de Student t de Student para datos pareados Análisis de la Varianza Cuantitativa Cuantitativa Coeficiente de Correlación de Pearson Métodos no paramétricos Test de la χ2 (tablas de contingencia) U de Mann-Whitney Prueba de los rangos de Wilcoxon Prueba de Kruskal-Wallis Coeficiente de Correlación de Spearman 2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS: TEST DE LA χ 2 El test de la χ2 se utiliza para analizar la asociación entre dos variables cualitativas (por ejemplo, la presencia de una especie con el tipo de suelo, o la presencia de individuos en estado de flor con una época del año, etc...). Lo que hace el test es comparar la distribución de frecuencias observadas de la asociación entre las variables con la distribución de frecuencias esperadas en caso de que no existiera asociación (es decir, si las dos variables cualitativas no están asociadas sino que se distribuyen al azar). Para analizar la asociación entre las variables cualitativas multiestado se utilizan las tablas de contingencia. A nivel general, este test sirve para comparar frecuencias, por lo que puede utilizarse para verificar si una colección de datos se distribuye de acuerdo a algún tipo de distribución específica. 2.1. Requisitos e hipótesis de trabajo La aplicación de este test requiere que las muestras estén tomadas al azar y que las frecuencias esperadas sean superiores a 5. Como se trata de un test que relaciona variables cualitativas, no hay ningún requisito acerca de la distribución de las variables. Las hipótesis de trabajo serán del tipo: Hecol: Existe relación entre las variables H0 : Las dos variables son independientes (no hay asociación entre ellas) 2.2. Procedimiento de cálculo Supongamos, por ejemplo, que queremos saber si existe asociación entre la presencia de la especie A (un invertebrado acuático) y el tramo del río (alto, medio y bajo) para el caso del río Henares. Para ello hemos hecho un muestreo a lo largo del río y en cada tramo hemos registrado la presencia (+) o ausencia (-) de la especie en 15 muestras de agua tomadas al azar. Los resultados obtenidos son: 7 Tramo Alto Tramo Medio Tramo Bajo + - - + - + + - - - + - + - - + - - + - - + - - + + - + - - - - - + - - + - - + - - + - - A partir de estos datos construiríamos una tabla de contingencia con los datos observados en campo de la siguiente manera: Tramo del río Especie A Alto Medio Bajo + 13 2 1 - 2 13 14 2 A continuación se calcula el estadístico χ cal siguiendo la siguiente fórmula: o = frecuencias observadas en el inventario e = frecuencia esperada de una celda, suponiendo que no hubiese asociación χ 2 (α ,gl .) =∑ (o − e) e 2 e= ct * f t N ct = total de la columna donde está la celda f t = total de la fila donde está la celda N = nº total de casos gl. (grados de libertad) = (nº columnas-1)*(nº filas-1) 2 En nuestro ejemplo, el cálculo del estadístico χ cal se haría de esta forma: 8 * Tramo del río Especie A Alto Medio Bajo Total + 13 (5.3) 2 (5.3) 1 (5.3) 16 - 2 (9.7) 13 (9.7) 14 (9.7) 29 15 15 15 45 Total * Entre paréntesis aparecen las frecuencias esperadas calculadas Caso especial: En las tablas de contingencia de 2x2, como la de la figura: Variable 1 Variable 2 A B Total filas + (a) (b) (a+b) + (c) (d) (c+d) Total columnas (a+c) (b+d) (a+b+c+d) 2 el estadístico χ cal se puede calcular también de esta forma : Si N ≥ 30 χ 2 cal Si N < 30 (Corrección de Yates) (a * d − b * c ) 2 * N = ( a + b) * ( c + d ) * ( a + c) * (b + d ) 2 χ cal = N * (| a * d − b * c | − N / 2) 2 (a + b) * (c + d ) * ( a + c ) * (b + d ) 2.3. Contraste de hipótesis 2 2 Se compara el valor obtenido de χ cal con el valor χ crit correspondiente al número de grados de libertad apropiados y al valor de α previamente seleccionado (normalmente, α=0.05 ó 0.01): 2 Si χ c2a l ≥ χ crit , se rechaza la H0 (hay asociación entre las variables) 2 2 Si χ cal < χ crit , se acepta la H0 (no hay asociación entre las variables) 2.4. Caso práctico Continuamos con el ejemplo que hemos empezado antes, en el que queremos estudiar si existe asociación entre la presencia de la especie A y el tramo del río Henares donde esta especie vive. Recordemos que, en nuestro caso: Hecol: Existe relación entre la presencia de la especie A y el tramo del río H0 : La presencia de la especie A es independiente del tramo del río A partir de la tabla de contingencia elaborada en el apartado 2.2, calculamos el estadístico 2 χ cal de la siguiente forma: (13 − 5, 3) 2 χ cal = 5.3 2 + (2 − 5,3) 2 (1 − 5, 3) 2 (2 − 9, 7) 2 (13 − 9,7 ) 2 (14 − 9,7) 2 5.3 + 5 .3 + 9. 7 + 9 .7 + 9.7 = 23 .8 9 ?2 crít (2 g.l., a=0.05) = 5.99è ?2 cal > ?2 preferentemente en los tramos altos del río. crít èSe rechaza H0 ; por tanto, concluimos que la especie A aparece 3. TESTS DE COMPARACIÓN DE DOS MEDIAS Sirven para comparar las medidas de tendencia central (media o mediana) de dos grupos de datos distintos, para determinar si las diferencias entre dichas medidas se deben al azar del muestreo o a diferencias reales entre los grupos que se están comparando. Relacionan una variable cualitativa de dos casos (variable independiente) con otra cuantitativa (variable dependiente). Los dos estados de la variable cualitativa son los que designan los grupos. Si quisiéramos estudiar, por ejemplo, si existen diferencias en el potencial hídrico de las encinas entre el día y la noche, y hubiéramos tomado muestras de potencial hídrico en encinas de día y otras muestras en encinas por la noche, para analizar los datos utilizaríamos un test de este tipo. En ese caso, la variable cualitativa es la hora del día, que es la variable independiente que define los dos grupos de datos; y el potencial hídrico sería la variable dependiente y cuantitativa. 3.1. Selección del test Para seleccionar el test apropiado para analizar nuestros datos, una vez realizado el muestreo se construye un diagrama de frecuencias (o se realiza un test estadístico si se dispone de software apropiado) para comprobar la normalidad de la variable cuantitativa en cada uno de los dos grupos. Asimismo, se realiza el test de la F de Snedecor* para comprobar la homogeneidad de las varianzas entre los dos grupos. * Prueba de comprobación de varianzas iguales: F de Snedecor 2 Se calculan las varianzas de cada una de las dos muestras: s1 y Se calcula el estadístico Fcal a partir de la siguiente fórmula: Fcal = s 22 2 s mayor 2 s menor grados libertad: n 1 -1, n 2 -1 (n 1 tamaño de la muestra de varianza mayor) Ho : varianzas iguales. Si Fcal ≥Fcrít (La Fcrít se busca en las tablas, ver sección dedicada al ANOVA ), se rechaza la Ho , es decir, se concluye que las varianzas no son iguales. Si la variable cuantitativa sigue la distribución normal en todos los casos y las varianzas no son significativamente distintas, se utilizará el test paramétrico: t de Student En cualquier otro caso se realizará el test no paramétrico: U de Mann-Whitney 3.2. Test paramétrico: t de Student Se utiliza para detectar la existencia de diferencias significativas entre las medias de una determinada variable cuantitativa en dos grupos de datos. 3.2.1. Requisitos • Datos distribuidos según una distribución normal en cada grupo • Las varianzas de las dos muestras han de ser iguales • Muestras independientes y tomadas al azar 10 3.2.2. Hipótesis a) HIPÓTESIS DE DOS COLAS: La hipótesis ecológica establece que existen diferencias entre las medias de los dos grupos considerados, sin presuponer cuál de las dos medias es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medias. Hecol: µ1 ? µ2 H0 : µ1 = µ2 b) HIPÓTESIS DE UNA COLA: La hipótesis ecológica establece que existen diferencias entre las medias de los grupos considerados, presuponiendo que una de las dos medias es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medias, o que las diferencias van en sentido contrario a como han sido expresadas en la hipótesis ecológica. Hecol: µ1 > µ2 ⇒ H0 : µ1 ≤ µ2 Hecol: µ1 < µ2 ⇒ H0 : µ1 ≥ µ2 3.2.3. Procedimiento de cálculo Se calcula el estadístico t cal a partir de la siguiente fórmula: tcal = x1 − x 2 1 1 Sc + n1 n 2 donde: Sc = n1 s12 + n2 s 22 n1 + n 2 − 2 n1 y n2 = tamaños de las muestras 1 y 2 respectivamente x 1 y x 2 = medias de las muestras 1 y 2 respectivamente s12 y s 22 = varianzas de las muestras 1 y 2 respectivamente A continuación se mide la significación del estadístico t cal , comparando ese valor con el valor de un estadístico t crit que se obtiene mirando las tablas correspondientes. Para identificar el t crit que nos corresponde hemos de fijarnos en el número de colas que tiene nuestra hipótesis (una cola: one-tailed; dos colas: two-tailed), en el nivel de significación (a) con el que pretendemos rechazar la hipótesis nula (normalmente a = 0.05 ó 0.01); y en los grados de libertad del test (n1 + n2 - 2). - Si t cal≥ t crit (a=0.05 o inferior) ⇒ se rechaza H0 y se acepta Hecol (las medias son diferentes) - Si t cal< t crit (a=0.05) ⇒ se acepta H0 y se rechaza Hecol (las medias son iguales) 3.2.4. Caso Práctico Queremos saber si la humedad del suelo en un determinado lugar varía en función de la cubierta vegetal del mismo (tomillar o suelo desnudo), pues suponemos que la cubierta vegetal contribuye a aumentar la humedad del suelo por disminución de la evaporación. Para ello se ha realizado un muestreo en el que se ha medido la humedad de suelo (en % del volumen) en seis muestras distribuidas al azar bajo tomillares y en 8 muestras también distribuidas al azar en la misma zona, pero en condiciones de suelo desnudo. Variables: - Cobertura de suelo (cualitativa, independiente) - Humedad del suelo (cuantitativa, dependiente) Hipótesis ecológica: Hecol: la humedad de suelo es mayor bajo el tomillar: µtomillar >µsuelo desnudo Se trata, por tanto, de un test de una cola. 11 Hipótesis nula: H0 : µtomillar ≤ µsuelo desnudo Tras el muestreo se obtienen los siguientes datos: Cobertura Humedad de suelo (%) n Media s2 tomillar suelo desnudo 73.0 74.2 75.0 75.3 75.5 75.8 71.0 71.5 72.0 72.4 73.5 74.0 74.3 75.2 6 8 74.8 72.9 1.04 2.20 • Cálculo del estadístico tcal : tcal = 74.8 − 72.9 = 2. 36 1 1 1.42 + 6 8 • Comprobación de la significación del estadístico tcal : tcal = 2.36 > t crít (a=0.05, 12 gl, una cola) = 1.782 Por tanto, se rechaza la H0 , y se acepta la Hecol, es decir, se concluye que existen diferencias significativas en la humedad del suelo en función de la cobertura vegetal, siendo mayor en condiciones de cubierta vegetal de tomillar que en condiciones de suelo desnudo. 3.3. Test no paramétrico: U de Mann-Whitney Compara las diferencias entre dos medianas, por lo que se basa en rangos en lugar de en los parámetros de la muestra (media, varianza). Se emplea cuando los datos no siguen la distribución normal, en lugar del test de la t de Student (paramétrico). 3.3.1. Requisitos • Variable cuantitativa que no cumple los requisitos de normalidad y/o homogeneidad de varianzas, o variable semicuantitativa. • Muestras independientes y al azar. 3.3.2. Hipótesis a) HIPÓTESIS DE DOS COLAS: La hipótesis ecológica establece que existen diferencias entre las medianas (M) de los dos grupos considerados, sin presuponer cuál de las dos medianas es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medianas. Hecol: M1 ? M 2 H0 : M1 = M2 b) HIPÓTESIS DE UNA COLA: La hipótesis ecológica establece que existen diferencias entre las medianas de los grupos considerados, presuponiendo que una de las dos medianas es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medianas, o que las diferencias son en sentido contrario a lo expresado en la hipótesis ecológica. Hecol: Μ 1 > M2 ⇒ H0 : Μ 1 ≤ M2 Hecol: Μ 1 < M2 ⇒ H0 : Μ 1 ≥ M2 3.3.3. Procedimiento de cálculo • Asignación de rangos a cada dato. Para ello se ordenan todos los datos (juntando los dos grupos) en orden creciente. El rango de cada dato será el número de orden que le 12 corresponde a cada dato. Cuando se repita el mismo valor numérico, el rango que se asigna a esos datos es la media aritmética de los rangos que les corresponderían en función del número de orden que ocupan. • Se suman los rangos de cada uno de los inventarios (grupos) y se calcula la suma de los rangos de los datos de cada uno de los grupos (R1 y R2 ) • Se calculan los estadísticos U1 y U2 a partir de las siguientes fórmulas: U 1 = n1 ⋅ n 2 + n 2 (n 2 + 1) − R2 2 U 2 = n1 ⋅ n2 + n1 ( n1 + 1) − R1 2 • Se obtiene el estadístico Ucal escogiendo el valor más grande entre U1 y U2 . • Se comprueba la significación estadística del estadístico Ucal comparando este valor con el valor de un estadístico Ucrít obtenido a partir de las tablas correspondientes. Si Ucal ≥ Ucrít (a=0.05 o inferior) ⇒ se rechaza H0 y se acepta Hecol (las medianas son diferentes) Si Ucal < Ucrít (a=0.05) ⇒ se acepta H0 y se rechaza Hecol (las medianas son iguales) 3.3.4. Caso práctico Se quiere estudiar si el número de especies de ácaros edáficos se ve influido por un incendio de baja intensidad. Para ello se simuló un incendio de baja intensidad en una parcela de un territorio homogéneo, y se tomaron 6 muestras al azar de la zona incendiada y 7 muestras también al azar de la zona no incendiada, contándose el número de especies de ácaros edáficos en cada muestra. Variable dependiente: número de especies de ácaros edáficos (cuantitativa) Variable independiente: ocurrencia de un incendio (cualitativa) H0 = La mediana del número de especies de ácaros edáficos es igual en la parcela quemada que en la no quemada: M quemada = M no quemada Hecol= La mediana del número de especies de ácaros edáficos varía dependiendo de que se haya producido un incendio: Mquemada ? M no quemada . Por tanto, de acuerdo con nuestra hipótesis ecológica, vamos a hacer un test de dos colas. Los datos obtenidos en el muestreo son los siguientes: Parcela quemada no quemada Número de especies de ácaros edáficos 6 9 12 12 15 16 10 13 16 16 17 19 20 n 6 7 - Asignación de rangos a cada dato: dato * rango 6 9 10 12 12 13 1 2 3 4’5 4’5 6 15 7 16 9 16 16 17 19 20 9 9 11 12 13 * en negrita los valores correspondientes al inventario de la parcela quemada - Se suman los rangos de cada grupo: R1 =28 R2 =63 - Cálculo del estadístico Ucal : U1 =6x7+[(7x8)/2]-63=7 U2 =6x7+[(6x7)/2]-28=35 è Ucal - Comprobación de la significación del estadístico Ucal : Ucal = 35 < Ucít (a=0.05) = 36 è No se rechaza la H0 , concluimos que el número de especies de ácaros edáficos no se ve influido significativamente por la ocurrencia de un incendio de baja intensidad. 4. TESTS DE COMPARACIÓN DE MÁS DE DOS MEDIAS Sirven para comparar las medidas de tendencia central (media o mediana) de más de dos grupos de datos distintos, para determinar si las diferencias entre dichas medidas se deben al azar del muestreo o a diferencias reales entre los grupos que se están comparando. 13 Relacionan una variable cualitativa de más de dos casos (variable independiente) con otra cuantitativa (variable dependiente). Los estados de la variable cualitativa designan dichos grupos. Un ejemplo de problema científico en el que utilizaríamos este tipo de tests sería determinar si existen diferencias significativas en la densidad de escarabajos (variable dependiente, cuantitativa) que encontramos en un determinado lugar en las cuatro estaciones del año (variable independiente, cualitativa, define los grupos). 4.1. Selección del test La selección del test apropiado para analizar nuestros datos se hace a través del siguiente procedimiento: Una vez que se ha hecho el muestreo y se ha medido la variable cuantitativa en cada uno de los grupos de la población, se construye un diagrama de frecuencias (o se realiza un test estadístico si se dispone de software apropiado) para comprobar la normalidad de la variable cuantitativa en cada uno de los grupos. Asimismo, se realiza el test de la F de Snedecor para comprobar la homogeneidad de las varianzas entre los distintos grupos. Si la variable cuantitativa sigue la distribución normal en todos los casos y las varianzas no son significativamente distintas, se utilizará el test paramétrico: ANOVA En cualquier otro caso se realizará el test no paramétrico: Kruskal-Wallis 4.2. Test paramétrico: Análisis de la Varianza (ANOVA) Se utiliza para detectar la existencia de diferencias significativas entre las medias de una determinada variable cuantitativa en tres o más grupos de datos. 4.2.1. Requisitos • Datos distribuidos según una distribución normal • Las varianzas de las distintas muestras han de ser iguales • Muestras independientes y tomadas al azar 4.2.2. Hipótesis La hipótesis ecológica establece que existen diferencias entre las medias de los grupos considerados, es decir, que al menos dos de las medias serán distintas. La hipótesis nula establece que no existen diferencias entre dichas medias. Hecol: No todas las medias son iguales H0 : µ1 = µ2 = ... = µk 4.2.3. Procedimiento de cálculo La valoración de las diferencias entre las medias de los distintos grupos se basa en la descomposición de la variabilidad total del conjunto de datos en dos términos: variabilidad debida a las diferencias entre los grupos (variabilidad entre grupos), y variabilidad debida al azar del muestreo (variabilidad dentro de grupos). Variabilidadtotal = Variabilidadentre grupos + Variabilidaddentro grupos La variabilidad entre datos se puede estimar con la varianza (s2 ), y con Suma de Cuadrados (SS), que es el cociente entre la varianza y los grados de libertad (g-l.). Por tanto: SStotal = SSentre grupos + SSdentro grupos 14 Las diferentes sumas de cuadrados se obtienen a partir de las siguientes fórmulas: SS total = ∑ x 2 2 ( x )2 ( x )2 ( xk ) (∑ x ) ∑ 1 ∑ 2 ∑ − SS entre grupos = + + ... + n2 nk N n1 N = número total de datos n1 , n 2 ,..., n k = número de datos en cada grupo (∑ x ) − 2 2 N k = número de grupos k = n ú m e r o d e g r u p o s N = n úú m m e or o t o t at ol t a l d e d e d a t od sa t o s n 1 n , 1 n , n 2 , .2 . ., ,. . n. , n k k = n= ú m en r ú o m e r o d e d e d a t od sa t o s e n e n c a d ca a d a g r u pg or u p x = cada uno de los datos de cada grupo El cálculo de la suma de cuadrados dentro de grupos es más laboriosa y por ello la obtenemos despejando de la ecuación: SSdentro grupos = SStotal – SSentre grupos - Cálculo de los grados de libertad de las sumas de cuadrados: g .l. SS total = N − 1 g .l. SS entre gupos = k − 1 g .l. SS dentrogrupos = N − k - Conversión de las sumas de cuadrados (SS) en varianzas: 2 sentre grupos = SS entre grupos g.l .entre grupos = SS entre grupos 2 s dentro grupos = k −1 SS dentro grupos g .l. dentro grupos = SS dentro grupos N −k - Cálculo del estadístico F: F= 2 s entre grupos 2 s dentro grupos Si en la población de la que proceden las muestras no hay diferencias reales entre los grupos definidos por la variable cualitativa, la varianza entre grupos será similar a la varianza dentro de grupos (por tanto el cociente entre ambas estará cerca de 1). En el caso de que existan diferencias reales entre los grupos (lo que presupone la hipótesis ecológica) la varianza entre grupos será mayor que la varianza dentro de los grupos (el cociente entre ambas será mayor de 1). El estadístico que nos dice si las desviaciones respecto a ese valor de 1 son significativas es F. El contraste de hipótesis se realiza comparando el valor de la Fcal con el valor Fcrít obtenido a partir de la tabla para el valor de α previamente establecido (normalmente α=0.05 o inferior). La búsqueda de dicha Fcrít requiere del número de grados de libertad del numerador y del denominador. La forma habitual de notación que se usa en las tablas lleva el valor de α entre paréntesis, y los grados de libertad del numerador y del denominador a continuación, en orden consecutivo y separados por comas. Por ejemplo, Fcrít (0.05) 3, 22. significa el valor del estadístico F de las tablas para un α=0.05, con 3 grados de libertad en el numerador y 22 en el denominador. - Si Fcal ≥ Fcrít ⇒ se rechaza H0 y se acepta Hecol (alguna de las medias es diferente) - Si Fcal < Fcrít ⇒ se acepta H0 y se rechaza Hecol (las medias son iguales) 4.2.4. Caso Práctico Se quiere saber si el tipo de cobertura de suelo (suelo desnudo, piedras, hojarasca y pastizal) influye sobre la densidad de hormigueros. Para ello se ha realizado un muestreo en el que se ha medido el número de hormigueros en diez muestras distribuidas al azar dentro de cada una de las zonas con diferente cobertura. 15 - Variables: cobertura de suelo (cualitativa, independiente) y densidad de hormigueros (cuantitativa, dependiente) - Hecol: Alguna de las medias es diferente (la cobertura de suelo influye sobre la densidad de hormigueros) - H0 : µsuelo desnudo = µpiedras =µhojarasca = µpastizal Tras el muestreo se obtienen los siguientes datos: Cobertura suelo desnudo piedras hojarasca pastizal Total 78 78 79 77 Densidad de hormigueros 88 87 88 83 82 81 80 80 78 83 81 78 81 81 82 76 73 79 75 77 78 80 78 83 69 75 70 74 83 80 75 76 89 76 84 75 n 10 10 10 10 40 Media 83.6 79.4 78.6 75.4 Σx 836 794 786 754 3170 (Σ x)2 698896 630436 617796 568516 Σ x2 70036 63100 61878 57006 252020 • Cálculo de la suma de cuadrados total: SST = 252020 - (3170)2 /40 = 797.5 • Cálculo de la variabilidad entre grupos (SSentre grupos): SSentre = 698896/10 + 630436/10 + 617796/10 + 568516/10 - 31702 /40 = 341.9 • Cálculo de la variabilidad dentro de los grupos (SSdentro grupos): SST = SSentre + SSdentro ⇒ SSdentro = SStotal - SSentre = 797.5 – 341.9 = 455.6 • Determinar los grados de libertad de cada una de las suma de cuadrados estimadas: SST = N - 1 = 40 - 1 = 39 SSentre grupos = k - 1 = 4 - 1 = 3 SSdentro grupos = N - k = 40 - 4 = 36 • Estimación de las varianzas dividiendo las SS por los grados de libertad: s 2 entre grupos = 341.9/3 = 113.97 s 2 dentro grupos = 455.6/36 12.66 • Cálculo del estadístico Fcal y comparación con el estadístico Fcrít: Fcal = s 2 entre grupos /s 2 dentro grupos =113.97/12.66 = 9.002 Fcrít (0.05) 3, 36 < 2.92 Fcal > Fcrít ⇒ Rechazamos Ho La abundancia de hormigueros no es la misma en todas las zonas con distinta cobertura de suelo 4.3. Test no paramétrico: Kruskal-Wallis Se basa en rangos en lugar de los parámetros de la muestra (media, varianza). Se emplea cuando los datos no siguen la distribución normal y/o tienen varianzas distintas, en sustitución del ANOVA paramétrico. Cuando el número de grupos es 2 es idéntico a la U de Mann-Whitney. 4.3.1. Requisitos • Variable cuantitativa que no cumple los requisitos de normalidad y/o homogeneidad de varianzas, o variable semicuantitativa. • Muestras independientes y al azar. 4.3.2. Hipótesis La hipótesis ecológica establece que existen diferencias entre las medianas (Μ) de los grupos considerados, es decir, que al menos dos de las medianas serán distintas. La hipótesis nula establece que no existen diferencias entre dichas medianas. Hecol: Las medianas no son todas iguales H0 : Μ 1 = Μ 2 = ... = Μ k 4.3.3. Procedimiento de cálculo - Asignación de rangos: se realiza exactamente igual que para la U de Mann-Whitney. 16 - Cálculo del estadístico H: H= k 12 Ri2 ∑ − 3( N + 1) N ( N + 1) i=1 ni k = número de grupos N = número total de datos ni = número de datos en el grupo i Cuando existen rangos ligados (dos o más números con el mismo rango) se aplica un factor de corrección, siendo Hc el estadístico que se utiliza en lugar de H, calculado según la siguiente expresión: m H Hc = C C =1− ∑ (t i =1 3 i − ti ) N3 − N t i = número de rangos ligados en cada grupo m = número de grupos de rangos ligados El valor crítico del estadístico calculado (H o Hc) se consulta en la tabla de la χ2 si N≥15, o si k > 5, para (k-1) grados de libertad. Si N<15 y k<5 se consulta en la tabla específica para H. - Si Hcal ≥ Hcrít (χ2 crít ) ⇒ se rechaza H0 y se acepta Hecol (alguna de las medianas es diferente) - Si Hcal < Hcrít (χ2 crít ) ⇒ se acepta H0 y se rechaza Hecol (las medianas son iguales) 4.3.4. Caso práctico: Se quiere estudiar si el pH de cuatro charcas situadas sobre sustratos diferentes es distinto. Para ello se obtuvieron 8 muestras de agua procedentes de cada una de las charcas, midiéndose el pH en cada una de ellas. Los datos de pH se ordenaron de forma ascendente para cada charca. (Una muestra de agua de la charca nº 3 se perdió, de forma que n3 =7; pero el test no requiere igualdad en el número de datos de cada grupo). Los rangos se muestran entre paréntesis. Variable dependiente: pH (cuantitativa) Variable independiente: tipo de sustrato sobre el que cada charca (cualitativa) H0 = el pH es el mismo en las cuatro charcas Hecol= el pH no es el mismo en las cuatro charcas Charca 1 7.68 (1) 7.69 (2) 7.70 (3.5*) 7.70 (3.5*) 7.72 (8) 7.73 (10*) 7.73 (10*) 7.76 (17) Charca 2 7.71 (6*) 7.73 (10*) 7.74 (13.5*) 7.74 (13.5*) 7.78 (20*) 7.78 (20*) 7.80 (23.5*) 7.81 (26*) Charca 3 7.74 (13.5*) 7.75 (16) 7.77 (18) 7.78 (20*) 7.80 (23.5*) 7.81 (26*) 7.84 (28) Charca 4 7.71 (6*) 7.71 (6*) 7.74 (13.5*) 7.79 (22) 7.81 (26*) 7.85 (29) 7.87 (30) 7.91 (31) n 1 =8 R1 =55 n 2 =8 R2 =132.5 n 3 =7 R3 =145 n 4 =8 R4 =163.5 * Rangos ligados 17 N = 8 + 8 + 7 + 8 = 31 H= 12 N ( N + 1) k ∑ i =1 2 Ri 12 55 2 132 .5 2 145 2 163 .5 2 − 3( N + 1) = + + + − 3(32) = 11 .876 ni 31(32 ) 8 8 7 8 Número de grupos de rangos ligados = m = 7 m ∑(t 3 i i =1 m C =1− Hc = − t i ) = (23 − 2) + (33 − 3) + (33 − 3) + (43 − 4) + (33 − 3) + (23 − 2) + (33 − 3) = 168 ∑ (t 3 i − ti ) i =1 N3 −N =1− 168 168 =1− = 0.9944 29760 313 − 31 H 11. 876 = = 11 .943 C 09944 2 H c cal > χ crít ν = k −1 = 3 ⇒ χ 02.05, 3 = 7.815 Se rechaza H0 El pH no es el mismo en todas las charcas 5. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: ÍNDICES DE CORRELACIÓN El coeficiente de correlación cuantifica el grado de asociación entre dos variables cuantitativas. ρ es el coeficiente de correlación real que existe entre dos variables en el conjunto de la población. r y rs son los coeficientes medidos sobre la muestra. 5.1. Rangos de variación de los coeficientes Los coeficientes de correlación varían entre –1 y 1 del siguiente modo: a) 1≥ ρ > 0 : correlación positiva. b) −1 ≤ ρ < 0 : correlación negativa. c) ρ ≈ 0 : no hay correlación, los valores de x e y varían de forma independiente. Cuanto más cerca esté el coeficiente de 1 ó –1, más fuerte es la correlación 5.2. Hipótesis a) HIPÓTESIS DE DOS COLAS Existe correlación entre las variables x e y, ya sea positiva o negativa. La hipótesis nula dice que no existe correlación entre las variables. Hec: ρ ≠ 0 (ρ < 0 ó ρ > 0) 18 H0 : ρ = 0 b) HIPÓTESIS DE UNA COLA Existe correlación positiva o negativa entre las variables x e y. La hipótesis nula dice que no hay correlación o que ésta es del signo contrario al esperado en la hipótesis ecológica. Hecol: ρ > 0 ⇒ H0 : ρ ≤ 0 Hecol: ρ < 0 ⇒ H0 : ρ ≥ 0 5.3. Selección del test Para seleccionar el tipo de correlación con el que analizaremos nuestros datos (paramétrica o no paramétrica), seguiremos los siguientes pasos: una vez que se haya realizado el muestreo y hayamos medido las variables x e y en la muestra, representaremos los pares de datos en un diagrama x-y. A continuación comprobaremos la normalidad de las variables (construyendo el diagrama de frecuencias o utilizando un software apropiado). Si las dos variables cuantitativas siguen una distribución normal, utilizaremos la correlación de Pearson (paramétrica). Si alguna de las dos variables cuantitativas no sigue una distribución normal, utilizaremos la correlación de Spearman (no paramétrica). 5.4. Correlación paramétrica: r de Pearson 5.4.1. Procedimiento de cálculo El cálculo del índice de correlación de Pearson se hace a partir de la siguiente fórmula: i =n r= i =n i =n n ∑ xi yi − ∑ xi × ∑ yi i =1 i =1 i =1 2 n=i n=i n =i n x 2 − x × n y 2 i i i n=1 n=1 n=1 ∑ ∑ ∑ n =i − ∑ yi n=1 n- nº de pares de muestras 2 x i- valores de la variable x yi- valores de la variable y A continuación, se comprueba la significación del índice de correlación calculado comparándolo con el valor de un estadístico rcrit obtenido a partir de la tabla correspondiente, para una a = 0.05 o inferior y las colas que establezca la hipótesis. Si rcal ≥ rcrit (a=0.05 o inferior) à Se rechaza la hipótesis nula. à Existe correlación. 5.4.2. Caso práctico Un ornitólogo está interesado en conocer la longitud del pico de una población de aves que estudia. Sin embargo esa medida resulta más costosa de tomar que el peso corporal. Por ello quiere saber si ambas variables se correlacionan para estimar la primera a partir de la segunda. - Variables: x- longitud del pico; y –peso corporal. Ambas son cuantitativas y normales. - Hipótesis de dos colas: Hecol: ρ ≠ 0 (ρ < 0 ó ρ > 0) H0 : ρ = 0 Tras tomar una muestra de 10 individuos se obtienen los siguientes datos: 19 Obs. 1 2 3 4 5 6 7 8 9 10 SUMA Longitud del pico (mm) 33.5 38.0 32.0 37.5 31.5 33.0 31.0 36.5 34.0 35.0 342 Peso corporal (g) x2 y2 xy 51 59 49 54 50 55 48 53 52 57 528 1122 14444 1024 1406 992 1089 961 1332 1156 1225 11752 2601 3481 2401 2916 2500 3025 2304 2809 2704 2349 27990 1708 2242 1568 2025 1575 1815 1488 1935 1768 1995 18119 n = 10; r = 0.779, rcal = 0.779 > r crit (0.01) n=10 = 0.765. Se rechaza H0 y se acepta Hecol Por tanto, se puede concluir que existe una correlación positiva entre el peso corporal y la longitud del pico de esa población de aves. Esto significa que los cambios en peso corporal de esas aves son un fiel reflejo de los cambios en la longitud del pico. 5.5. Correlación no paramétrica: r de Spearman 5.5.1. Procedimiento de cálculo Para calcular la r de Spearman hay que realizar los siguientes pasos: - Ordenar los pares de datos en función del valor de x y asignar rangos a x. - Repetir la ordenación en función de y y asignar rangos a y. - Calcular el coeficiente: i =n rs = 1 − 6∑ d i2 i =1 3 n −n n = nº de pares de datos di = diferencia de rangos en las variables del par i Para comprobar la significación estadística del índice de correlación se consulta en la tabla correspondiente el valor crítico de rs para n pares de datos, para p=0.05 o inferior y para el número de colas acorde con la hipótesis. Si rs cal ≥ rs crít, se rechaza H0 . 5.5.2. Caso práctico Se sospecha que la abundancia de la especie de gramínea Poa bulbosa en los pastizales mediterráneos depende en gran medida de la humedad que hay en el suelo. Para comprobar la hipótesis se realiza un muestreo con una cuadrícula de 20 cm de lado, que se dispone 12 veces al azar sobre la comunidad de pasto. En cada cuadrícula se mide la cobertura de la especie y la humedad del suelo mediante un TDR. Variables: Cobertura de la especie y humedad del suelo. Ambas son cuantitativas, y no siguen una distribución normal. Hipótesis de una cola: existirá una correlación positiva entre la cobertura de Poa y la humedad. Hec: ρ > 0 è H0 : ρ ≤ 0 Tras realizar el muestreo se obtienen los siguientes datos: 20 Obs. 1 2 3 4 5 6 7 8 9 10 11 12 rs = 1 − Cobertura 82 98 87 40 116 113 111 83 85 126 106 117 6 × 52 12 3 − 12 Humedad 42 46 39 37 65 88 86 56 62 92 54 81 Rango cob. 2 6 5 1 10 9 8 3 4 12 7 11 Rango hum. 3 4 2 1 8 11 10 6 7 12 5 9 d -1 2 3 0 2 -2 -2 -3 -3 0 2 2 Suma d2 1 4 9 0 4 4 4 9 9 0 4 4 52 = 0.82 > rs crit (0.05) = 0.503 --> Se rechaza H0 , hay correlación positiva entre la cobertura de Poa bulbosa y la humedad del suelo. Es importante destacar que este muestreo no es una demostración de una relación causa-efecto entre las variables, es decir, que con este muestreo no podemos concluir que la mayor humedad de suelo es la causa de la mayor abundancia de Poa bulbosa. Para determinar relaciones de causa-efecto se necesita realizar experimentos controlados y otros tests estadísticos que verifiquen ese tipo de relación. 21 6. TABLAS ESTADÍSTICAS 6.1. Tabla de valores críticos del estadístico χ2 22 6.2. Tabla de valores críticos del estadístico t de Student One tailed: hipótesis de una cola Two tailed: hipótesis de dos colas 23 6.3. Tabla de valores críticos del estadístico U de Mann Whitney α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 19 20 20 21 21 22 22 23 23 24 24 25 25 26 26 27 27 28 28 29 29 30 30 31 31 32 32 33 33 34 34 35 35 36 36 37 37 38 38 39 38 39 40 39 40 2 2 3 4 5 10 6 12 7 14 8 15 16 9 17 18 10 19 20 11 21 22 12 22 23 13 24 26 25 14 25 28 27 24 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 2 15 27 30 29 16 29 32 31 17 31 34 32 18 32 36 34 19 34 37 36 38 20 36 39 38 40 21 37 41 39 42 22 39 43 41 44 23 41 45 43 46 24 42 47 45 48 25 44 49 47 50 26 46 51 48 52 27 47 52 50 53 28 49 54 52 55 29 51 56 54 57 30 53 58 55 59 31 54 60 57 61 32 56 62 59 63 33 58 64 61 65 34 59 65 63 67 35 61 67 64 69 36 63 69 66 71 37 64 71 68 73 38 66 73 70 75 39 68 75 71 76 40 69 77 73 78 3 3 9 4 12 5 14 15 6 16 17 7 19 21 20 8 21 24 22 9 23 26 25 27 10 26 29 27 30 11 28 32 30 33 12 31 34 32 35 13 33 37 35 38 14 35 40 37 41 15 38 42 40 43 16 40 45 42 46 17 42 47 45 49 18 45 50 47 52 19 47 53 50 54 20 49 55 52 57 21 52 58 55 60 22 54 60 57 62 23 56 63 60 65 24 59 66 62 68 25 61 68 65 70 26 63 71 67 73 27 66 74 70 76 28 68 76 72 79 29 70 79 74 81 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 3 30 73 81 77 84 31 75 84 79 87 32 77 87 82 89 33 80 89 84 92 34 82 92 87 95 35 84 94 89 97 36 87 97 92 100 37 89 100 94 103 38 91 102 97 105 39 94 105 99 108 40 96 107 102 111 4 4 15 16 5 18 20 19 6 21 23 22 24 7 24 27 25 28 8 27 30 28 31 9 30 33 32 35 10 33 37 35 38 11 36 40 38 42 12 39 43 41 45 13 42 47 44 49 14 45 50 47 52 15 48 53 50 55 16 50 57 53 59 17 53 60 57 62 18 56 63 60 66 19 59 67 63 69 20 62 70 66 72 21 65 73 69 76 22 68 77 72 79 23 71 80 75 83 24 74 83 79 86 25 77 87 82 90 26 80 90 85 93 27 83 93 88 96 28 86 96 91 100 29 89 100 94 103 30 92 103 97 107 31 95 106 100 110 32 98 110 104 114 33 101 113 107 117 34 104 116 110 120 35 107 120 113 124 36 110 123 116 127 37 113 126 119 131 38 116 130 122 134 39 118 133 125 137 40 121 136 129 141 5 5 21 24 23 25 6 25 28 27 29 7 29 32 30 34 8 32 36 34 38 9 36 40 38 42 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 5 10 39 44 42 46 11 43 48 46 50 12 47 52 49 54 13 50 56 53 58 14 54 60 57 63 15 57 64 61 67 16 61 68 65 71 17 65 72 68 75 18 68 76 72 79 19 72 80 76 83 20 75 84 80 87 21 79 88 83 91 22 82 92 87 96 23 86 96 91 100 24 91 100 95 104 25 93 104 98 108 26 97 108 102 112 27 100 112 106 119 28 104 116 110 120 29 107 120 113 124 30 111 124 117 128 31 115 128 121 133 32 118 132 125 137 33 122 136 128 141 34 125 140 132 145 35 129 144 136 149 36 132 148 140 153 37 136 152 144 157 38 140 156 147 161 39 143 160 151 165 40 147 164 155 169 6 6 29 33 31 34 7 34 38 36 39 8 38 42 40 44 9 42 47 44 49 10 46 52 49 54 11 50 57 53 59 12 55 61 58 63 13 59 66 62 68 14 63 71 67 73 15 67 75 71 78 16 71 80 75 83 17 76 84 80 87 18 80 89 84 92 19 84 94 89 97 20 88 98 93 102 21 92 103 97 107 22 96 108 102 111 23 101 112 106 116 24 105 117 111 121 25 109 121 115 126 26 113 126 119 131 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 6 27 117 131 124 135 28 122 135 128 140 29 126 140 132 145 30 130 145 137 150 31 134 149 141 154 32 138 154 146 159 33 142 158 150 164 34 147 163 154 169 35 151 168 159 173 36 155 172 163 178 37 159 177 167 183 38 163 182 172 188 39 167 186 176 193 40 172 191 181 197 7 7 38 43 41 45 8 43 49 46 50 9 48 54 51 56 10 53 59 56 61 11 58 65 61 67 12 63 70 66 72 13 67 75 71 78 14 72 81 76 83 15 77 86 81 89 16 82 91 86 94 17 86 96 91 100 18 91 102 96 105 19 96 107 101 111 20 101 112 106 116 21 106 117 111 122 22 110 123 116 127 23 115 128 121 132 24 120 133 126 138 25 125 139 131 143 26 129 144 136 149 27 134 149 141 154 28 139 154 146 160 29 144 160 151 165 30 149 165 156 170 31 153 170 161 176 32 158 175 166 181 33 163 181 171 187 34 168 186 176 192 35 172 191 181 198 36 177 196 186 203 37 182 202 191 208 38 187 207 196 214 39 191 121 201 219 40 196 217 206 225 8 8 49 55 51 57 9 54 61 57 63 10 60 67 63 69 11 65 73 69 75 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 8 12 70 79 74 81 13 76 84 80 87 14 81 90 86 94 15 87 96 91 100 16 92 102 97 106 17 97 108 102 112 18 103 114 108 118 19 108 120 114 124 20 113 126 119 130 21 119 132 125 136 22 124 138 131 142 23 130 144 136 149 24 135 150 142 155 25 140 155 147 161 26 146 161 153 167 27 151 167 159 173 28 156 173 164 179 29 162 179 170 185 30 167 185 175 191 31 172 191 181 197 32 178 197 187 203 33 183 203 192 209 34 188 208 198 215 35 194 214 203 221 36 199 220 209 228 37 205 226 215 234 38 210 232 220 240 39 215 238 226 246 40 221 244 231 252 9 9 60 67 64 70 10 66 74 70 77 11 72 81 76 83 12 78 87 82 90 13 84 94 89 97 14 90 100 95 104 15 96 107 101 111 16 102 113 107 117 17 108 120 114 124 18 114 126 120 131 19 120 133 126 138 20 126 140 132 144 21 132 146 139 151 22 138 153 145 158 23 144 159 151 164 24 150 166 157 171 25 156 172 163 178 26 162 179 170 185 27 168 185 176 191 28 174 192 182 198 29 179 198 188 205 30 185 205 194 212 31 191 211 201 218 25 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 9 32 197 218 207 225 33 203 224 213 232 34 209 231 219 238 35 215 237 226 245 36 221 244 232 252 37 227 250 238 258 38 233 257 244 265 39 239 263 250 272 40 245 270 257 279 10 10 73 81 77 84 11 79 88 84 92 12 86 96 91 99 13 93 103 97 106 14 99 110 104 114 15 106 117 111 121 16 112 124 118 129 17 119 132 125 136 18 125 139 132 143 19 132 146 138 151 20 138 153 145 158 21 145 160 152 166 22 152 167 159 173 23 158 175 166 180 24 165 182 173 188 25 171 189 179 195 26 178 196 186 202 27 184 203 193 210 28 191 210 200 217 29 197 217 207 224 30 204 224 213 232 31 210 232 220 239 32 217 239 227 246 33 223 246 234 254 34 230 253 241 261 35 236 260 247 268 36 243 267 254 276 37 249 274 261 283 38 256 281 268 290 39 262 289 275 298 40 269 296 284 305 11 11 87 96 91 100 12 94 104 99 108 13 101 112 106 116 14 108 120 114 124 15 115 128 121 132 16 122 135 129 140 17 130 143 136 148 18 137 151 143 156 19 144 159 151 164 20 151 167 158 172 21 158 174 166 180 22 168 182 173 188 26 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 11 23 172 190 180 196 24 179 198 188 204 25 186 205 195 212 26 194 213 203 220 27 201 221 210 228 28 208 229 218 236 29 215 236 225 244 30 222 244 232 252 31 229 252 240 260 32 236 260 247 268 33 243 267 255 276 34 250 275 262 284 35 257 283 269 292 36 265 290 277 300 37 272 298 284 308 38 279 306 291 316 39 286 314 299 323 40 293 321 306 331 12 12 102 113 107 117 13 109 121 115 125 14 117 130 123 134 15 125 138 131 143 16 132 146 139 151 17 140 155 147 160 18 148 163 155 169 19 156 172 163 177 20 163 180 171 186 21 171 188 179 194 22 179 197 187 203 23 186 205 195 212 24 194 213 203 220 25 202 222 211 229 26 209 230 219 238 27 217 239 227 246 28 225 247 235 255 29 232 255 243 263 30 240 264 251 272 31 248 272 259 280 32 256 280 267 289 33 263 289 275 298 34 271 297 283 306 35 279 305 291 315 36 286 314 299 323 37 294 322 307 332 38 302 330 315 340 39 309 339 323 349 40 317 347 331 358 13 13 118 130 124 135 14 126 139 132 144 15 134 148 141 153 16 143 157 149 163 17 151 166 158 172 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 13 18 159 175 167 181 19 167 184 175 190 20 176 193 184 200 21 184 202 193 209 22 192 211 201 218 23 201 220 210 227 24 209 229 218 237 25 217 238 227 246 26 225 247 236 255 27 234 256 244 264 28 242 265 253 273 29 250 274 261 283 30 258 283 270 292 31 267 292 278 301 32 275 301 287 310 33 283 310 296 319 34 291 319 304 329 35 299 328 312 338 36 308 337 321 347 37 316 346 330 356 38 324 355 338 365 39 332 363 347 374 40 341 372 355 384 14 14 135 149 141 154 15 144 159 151 164 16 153 168 160 174 17 161 178 169 184 18 170 187 178 194 19 179 197 188 203 20 188 207 197 213 21 197 216 206 223 22 206 226 215 233 23 215 235 224 243 24 223 245 234 253 25 232 255 243 263 26 241 264 252 272 27 250 274 261 282 28 259 283 270 292 29 268 293 279 302 30 276 302 289 312 31 285 312 298 321 32 294 321 307 331 33 303 331 316 341 34 312 341 325 351 35 320 350 334 361 36 329 360 343 370 37 338 369 353 380 38 347 379 362 390 39 356 388 371 400 40 364 398 380 410 15 15 153 169 161 174 16 163 179 170 185 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 15 17 172 189 180 195 18 182 200 190 206 19 191 210 200 216 20 200 220 210 227 21 210 230 219 237 22 219 240 229 248 23 229 251 239 258 24 238 261 249 269 25 247 271 258 279 26 257 281 268 290 27 266 291 278 300 28 276 301 288 311 29 285 312 297 321 30 294 322 307 331 31 304 332 317 342 32 313 342 327 352 33 323 352 336 363 34 332 362 346 373 35 341 372 356 383 36 351 382 366 394 37 360 393 375 404 38 369 403 385 415 39 379 413 395 425 40 388 423 404 435 16 16 173 190 181 196 17 183 201 191 207 18 193 212 202 218 19 203 222 212 230 20 213 233 222 241 21 223 244 233 252 22 233 255 243 263 23 243 266 253 274 24 253 276 264 285 25 263 287 274 296 26 273 298 284 307 27 283 309 295 318 28 292 319 305 329 29 302 330 315 340 30 312 341 326 351 31 322 352 336 362 32 332 362 346 373 33 342 373 357 384 34 352 384 367 395 35 362 395 377 406 36 372 405 388 417 37 382 416 398 428 38 392 427 408 439 39 402 437 418 450 40 412 448 429 461 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 17 17 193 212 202 219 18 204 224 213 231 19 214 235 224 242 20 225 247 235 254 21 236 258 246 266 22 246 269 257 278 23 257 281 268 289 24 267 292 279 301 25 278 303 290 313 26 288 315 301 324 27 299 326 312 336 28 309 337 322 348 29 320 349 333 359 30 330 360 344 371 31 341 371 355 382 32 351 383 366 394 33 362 394 377 406 34 372 405 388 417 35 383 417 399 429 36 393 428 410 440 37 404 439 420 452 38 414 451 431 464 39 425 462 442 475 40 435 473 453 487 18 18 215 236 225 243 19 226 248 236 255 20 237 260 248 268 21 248 272 259 280 22 260 284 271 292 23 271 296 282 305 24 282 308 294 317 25 293 320 305 329 26 304 332 317 341 27 315 344 328 354 28 326 355 340 366 29 337 367 351 378 30 348 379 363 390 31 359 391 374 403 32 370 403 386 415 33 382 415 397 427 34 393 427 409 439 35 404 439 420 451 36 415 451 432 464 37 426 463 443 476 38 437 475 454 488 39 448 486 466 500 40 459 498 477 512 α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 19 19 238 260 248 268 20 250 273 261 281 21 261 286 273 294 22 273 298 285 307 23 285 311 297 320 24 296 323 309 333 25 308 336 321 346 26 320 348 333 359 27 331 361 345 371 28 343 373 357 384 29 355 386 369 397 30 366 398 381 410 31 378 411 393 423 32 390 423 405 436 33 401 436 417 448 34 413 448 429 461 35 424 461 441 474 36 436 473 453 487 37 448 486 465 500 38 459 498 477 512 39 471 511 489 525 40 482 523 502 538 20 20 262 286 273 295 21 274 299 286 308 22 276 313 299 322 23 299 326 311 335 24 311 339 234 349 25 323 352 337 362 26 335 365 349 376 27 348 378 362 389 28 360 391 374 403 29 372 404 387 416 30 384 418 400 430 31 396 431 412 443 32 409 444 425 456 33 421 457 438 470 34 433 470 450 483 35 445 483 463 497 36 457 496 475 510 37 469 509 488 523 38 482 522 501 537 39 535 513 550 40 548 526 563 27 6.4. Tabla de valores críticos del estadístico F de Snedecor ?1 : grados de libertad del numerador ?2 : grados de libertad del denominador a = 0.05 a = 0.01 28 6.5. Tabla de valores críticos del estadístico H de Kruskal-Wallis n1 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 8 2 2 2 3 3 3 3 3 3 3 3 3 3 n2 2 2 2 3 3 3 2 2 3 3 3 4 4 4 4 2 2 3 3 3 4 4 4 4 5 5 5 5 5 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 7 8 2 2 2 1 2 2 2 3 3 3 3 3 3 n3 2 1 2 1 2 3 1 2 1 2 3 1 2 3 4 1 2 1 2 3 1 2 3 4 1 2 3 4 5 1 1 2 1 2 3 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 7 8 1 2 2 1 1 2 2 1 2 2 3 3 3 n4 n5 α=0.05 α=0.01 4.714 5.143 5.361 5.600 5.333 5.208 5.444 5.791 4.967 5.455 5.598 5.692 5.000 5.160 4.960 5.251 5.648 4.985 5.273 5.656 5.657 5.127 5.338 5.705 5.666 5.780 4.822 5.345 4.855 5.348 5.615 4.947 5.340 5.610 5.681 4.990 5.338 5.602 5.661 5.729 4.945 5.410 5.625 5.724 5.765 5.801 5.819 5.805 1 1 2 1 1 1 2 1 1 2 1 2 3 5.679 6.167 5.833 5.333 6.333 6.244 6.527 6.600 6.727 7.000 6.444 6.745 6.667 7.036 7.144 7.654 6.533 6.909 7.079 6.955 7.205 7.445 7.760 7.309 7.338 7.578 7.823 8.000 6.982 6.970 7.410 7.106 7.340 7.500 7.795 7.182 7.376 7.590 7.936 8.028 7.121 7.467 7.725 8.000 8.124 8.222 8.378 8.465 4 4 n1 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 2 n2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 1 2 2 2 2 1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 1 1 n3 2 2 1 2 2 3 3 3 1 2 2 3 3 3 4 4 4 4 1 1 2 2 2 1 1 2 2 2 1 2 2 2 3 3 3 3 3 3 1 1 n4 1 2 1 1 2 1 2 3 1 1 2 1 2 3 1 2 3 4 1 1 1 2 2 1 1 1 2 2 1 1 2 2 1 2 2 3 3 3 n5 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 2 1 2 3 5.833 α=0.05 6.133 6.545 6.178 6.309 6.621 6.545 6.795 6.984 5.945 6.386 6.731 6.635 6.874 7.038 6.725 6.957 7.142 7.235 α=0.01 7.000 7.391 7.067 7.455 7.871 7.758 8.333 8.659 7.909 7.886 8.346 8.231 8.621 8.876 8.588 8.871 9.075 9.287 6.750 7.133 7.418 7.533 8.291 6.583 6.800 7.309 7.682 7.111 7.200 7.591 7.910 7.576 7.759 8.044 8.000 8.200 8.333 7.600 8.127 8.682 8.073 8.576 9.115 8.424 9.051 9.505 9.451 9.876 10.200 6.667 7.133 7.200 7.636 7.400 8.105 8.538 29 6.6. Tabla de valores críticos del coeficiente de correlación de Pearson (r) Una cola n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 100 α =0.05 0.988 0.900 0.805 0.729 0.669 0.622 0.582 0.549 0.521 0.497 0.476 0.458 0.441 0.426 0.412 0.400 0.389 0.378 0.369 0.360 0.352 0.344 0.337 0.330 0.323 0.317 0.312 0.306 0.296 0.287 0.279 0.271 0.264 0.257 0.251 0.246 0.240 0.235 0.231 0.226 0.222 0.218 0.214 0.211 0.207 0.204 0.201 0.198 0.195 0.193 0.190 0.188 0.185 0.183 0.181 0.179 0.177 0.174 0.173 0.171 0.169 0.167 0.165 α =0.01 1.000 0.980 0.934 0.882 0.833 0.789 0.750 0.715 0.685 0.658 0.634 0.612 0.592 0.574 0.558 0.542 0.529 0.515 0.503 0.492 0.482 0.472 0.462 0.453 0.445 0.437 0.430 0.423 0.409 0.397 0.386 0.376 0.367 0.358 0.350 0.342 0.335 0.328 0.322 0.316 0.310 0.305 0.300 0.295 0.290 0.286 0.282 0.278 0.274 0.270 0.266 0.263 0.260 0.257 0.253 0.251 0.248 0.245 0.242 0.240 0.237 0.235 0.232 Dos colas α =0.05 0.997 0.950 0.878 0.811 0.755 0.707 0.666 0.632 0.602 0.576 0.553 0.532 0.514 0.497 0.482 0.468 0.456 0.444 0.433 0.423 0.413 0.404 0.396 0.388 0.381 0.374 0.367 0.361 0.349 0.339 0.329 0.320 0.312 0.304 0.297 0.291 0.285 0.279 0.273 0.268 0.263 0.259 0.254 0.250 0.246 0.242 0.239 0.235 0.232 0.229 0.226 0.223 0.220 0.217 0.215 0.212 0.210 0.207 0.205 0.203 0.201 0.199 0.197 α =0.01 1.000 0.990 0.959 0.917 0.875 0.834 0.798 0.765 0.735 0.708 0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537 0.526 0.515 0.505 0.496 0.487 0.479 0.471 0.463 0.449 0.436 0.424 0.413 0.403 0.393 0.384 0.376 0.368 0.361 0.354 0.348 0.341 0.336 0.330 0.325 0.320 0.315 0.310 0.306 0.302 0.298 0.294 0.290 0.286 0.283 0.280 0.276 0.273 0.270 0.267 0.264 0.262 0.259 0.257 30 6.7. Tabla de valores críticos del coeficiente de correlación de Spearman (rs) a (1): hipótesis de una cola a (2): hipótesis de dos colas 31