276 "CONTRASTES DE HIPÓTESIS" 4.4 Parte básica 277 4.4.1 Introducción a los contrastes de hipótesis La Inferencia Estadística consta de dos partes: Estimación y Contrastes de Hipótesis. La primera se ha estudiado en la unidad anterior y estaba destinada a tratar de determinar el valor de un parámetro poblacional, a partir de lo observado en la muestra. La técnica de Contraste de Hipótesis es preciso para establecer procedimientos para aceptar o rechazar hipótesis estadísticas emitidas acerca de un parámetro, u otra característica de la población. La única forma de saber con certeza absoluta que una hipótesis estadística es verdadera, es examinar toda la población. Pero esto, en la mayoría de los casos resulta, imposible (por falta de medios económicos, imposibilidades técnicas, etc.). Por lo tanto, la decisión debe adoptarse a partir de los resultados de una muestra de la población (supuesta representativa), que nos inducirá a tomar la decisión sobre la verdad o falsedad de la hipótesis. Pero es difícil ésta decisión, porque aunque sepamos exactamente el valor del parámetro de la población, en las muestras es muy difícil que se verifique ese valor exacto, por lo que debemos decidir unos límites de valores del parámetro en la muestra, que nos puedan llevar a la decisión de aceptar el valor del parámetro poblacional. Por ejemplo, si una población es normal N(150, 30), en todas las muestras de tamaño 36, aproximadamente en un 2% de ellas, la media muestral superará las 160 unidades, y en otro 2% aproximadamente será inferior a las 140 unidades. El problema, es pues, decidir a partir de qué valores de la media muestral podemos aceptar que la media poblacional es de 150 unidades, y todo ello siempre con un margen de error. 278 4.4.2 Conceptos básicos 4.4.2.1 Hipótesis nula e Hipótesis alternativa A la hipótesis que se desea contrastar la denominaremos Hipótesis nula, y la denotaremos por Ho. Esta hipótesis nula es la que se somete a comprobación, y es la que se acepta o rechaza, como la conclusión final de un contraste. Puede surgir de diversos modos (Por discusiones teóricas, ó como modelo teórico, ó por la experiencia, ó por intuición, etc.). Esta hipótesis nula lleva consigo una hipótesis alternativa, denotada por Ha o H 1. La hipótesis alternativa será la que se acepta si se rechaza Ho y viceversa En el ejemplo del párrafo anterior, si tratamos de determinar la media poblacional (supuesta desconocida), la hipótesis nula podría ser: Ho: Media poblacional = 150. En éste caso, la hipótesis alternativa tendría la siguiente expresión: Ha: Media poblacional ≠ 150. 4.4.2.2 Estadígrafo de contraste El contraste de hipótesis, es pues, un mecanismo mediante el cual se rechaza la hipótesis nula cuando existan diferencias significativas entre los valores muestrales y los valores teóricos, y se acepte en caso contrario. Estas variables se medirán mediante una variable denominada estadígrafo de contraste, o estadístico de contraste, que sigue una distribución determinada conocida, y que para cada muestra tomará un valor particular. 279 En el ejemplo anterior, el estadístico de contraste puede ser la media muestral, pero según hemos visto en unidades anteriores, conocemos que la variable x!µ Z= " con n > 30 n sigue una distribución normal N(0,1), por lo que puede utilizarse ésta variable como un estadístico de contraste, ya que se conoce su distribución. 4.4.2.3 Región crítica y región de aceptación Denominaremos región crítica, al conjunto de valores del estadístico de contraste que nos lleva a rechazar la hipótesis nula. La región crítica es el conjunto de valores del estadístico de contraste que nos induce a rechazar la hipótesis nula En el ejemplo anterior, si tomamos la media muestral como estadístico de contraste, la región crítica serían los valores de la media muestral superiores a 159.8, o inferiores a 140.2. Pero si tomamos el estadístico Z, la región crítica serían los valores de Z cuyo valor absoluto sea mayor que 1.96. Llamaremos región de aceptación, al conjunto de los valores del estadístico que nos llevan a aceptar la hipótesis nula. La región de aceptación es el conjunto de los valores del estadístico que nos induce a aceptar la hipótesis nula. 4.4.2.4 Error tipo I y Error tipo II Obviamente la conclusión tras un contraste de hipótesis puede ser cierta o no, ya que no sabemos con certeza cuál es la situación verdadera. Esto nos puede llevar a las situaciones reflejadas en el siguiente cuadro: 280 Decisión Hipótesis cierta Ho H1 Aceptar Ho Rechazar Ho Correcta Error tipo I Error tipo II Correcta O bien reflejadas en la siguiente forma: . Si la hipótesis nula es cierta y se acepta, la decisión es correcta. . Si la hipótesis nula es cierta y se rechaza ésta, se comete un error; a este error le denominaremos error de tipo I. . Si la hipótesis alternativa es cierta y se acepta la hipótesis nula, se comete un error; a éste error le denominaremos error de tipo II. . Si la hipótesis alternativa es falsa y se rechaza la hipótesis nula, la decisión es correcta. 4.4.2.5 Nivel contraste de significación y potencia del Nivel de significación del contraste es la probabilidad de cometer un error del tipo I, es decir, de rechazar la hipótesis nula siendo cierta, acostumbra a denotar por α y se α = P(cometer error tipo I) = P(rechazar Ho siendo cierta) La interpretación estadística del error tipo I es la siguiente: Si el experimento se repitiera un gran número de veces, sobre una población con media de 150 unidades, en el 100(1 - a)% de los casos, ese experimento llevaría a la conclusión verdadera de que µ = 150, y en el 100 a% de las veces conduciría a la decisión falsa de que µ ≠ 150. 281 La probabilidad de cometer error del tipo II se denota por β β = P(cometer error tipo II) = P(aceptar Ho siendo falsa) Su complementario hasta uno es lo que se llama potencia del contraste La potencia del contraste, es la probabilidad de rechazar la hipótesis nula siendo ésta falsa., es decir, aceptar la hipótesis alternativa siendo cierta. La interpretación estadística del error tipo II es la siguiente: Si el experimento se repitiera un gran número de veces, sobre una población con media de 150 unidades, en el 100β% de los casos, ese experimento llevaría a la conclusión falsa de que µ = 150, y en el 100 (1 - β)% de las veces conduciría a la decisión verdadera de que µ ≠ 150. Estas probabilidades se pueden conocer: Si en el ejemplo de una población normal N(µ, 30) tomamos una muestra de 36 elementos, y contrastamos Ho (µ=150) contra la hipótesis alternativa Ha (µ=165), y consideramos como región de aceptación el intervalo (140, 160), entonces la probabilidad de cometer error tipo I, es la probabilidad de que la media muestral pertenezca a la región crítica; es decir, sea mayor que 160, o menor que 140 unidades, y la hipótesis nula sea cierta. Así α = P(cometer error tipo I) = P( x ≥ 160/N(150,30))+P( x ≤ 140/N(150,30))= =P(Z ≥ 2) + P(Z ≤ -2) = 0.0228 + 0.0228 = 0.0456 lo que nos da cierta información sobre la posibilidad de acertar en nuestra decisión, aunque no sepamos el verdadero valor del parámetro poblacional. Análogamente se puede calcular la probabilidad de cometer error tipo II, es decir, de que la media muestral pertenezca al intervalo (140, 160) y sea cierta la hipótesis alternativa: β = P(cometer error tipo II) = P(140 ≤ x ≤ 160/N(165,30))= P(-5 ≤ Z ≤ -1) = P(Z ≤ -1) - P(Z ≤ -5) = 0.1687 - 0.00001 = 0.168699. 282 4.4.2.6 Tipo de contraste Según que la región crítica contenga una o dos regiones, diremos que el contraste es unilateral, o bilateral. Estos son los conceptos iniciales que deben tenerse en cuenta en un contraste de hipótesis. 4.4.2.7 Pasos en un contraste de hipótesis Veamos ahora los pasos que son convenientes seguir para realizar el contraste de hipótesis: 1º Determinar, claramente, la hipótesis nula Ho y la hipótesis alternativa Ha. 2º Elegir el nivel de significación. 3º Seleccionar un estadístico cuya distribución muestral sea conocida en el caso de que la hipótesis nula sea cierta. 4º Determinar la región crítica. 5º Calcular el valor del estadístico de contraste para la muestra elegida. 6º Sacar las conclusiones estadísticas del contraste (aceptar o rechazar Ho). 7º Sacar las conclusiones no estadísticas (biológicas, médicas, económicas, etc.) a que nos llevan los resultados estadísticos. 283 4.4.3 Contraste para la media de una población normal 4.4.3.1 Contraste para la media de una población normal, con varianza poblacional conocida Supongamos que queremos contrastar la hipótesis de que la media µ de una población normal, toma un valor específico µo , cuando la varianza σ2 de la población es conocida. En éste caso, la hipótesis nula será, en general: Ho (µ = µo ) Mientras que la hipótesis alternativa puede tener diversas expresiones: Ha (µ = µ1 ) , o bien, Ha (µ < µo ), Ha (µ > µo ), o bien Ha (µ ≠ µo ). Estadígrafo de contraste: El contraste se efectuará tomando muestras aleatorias de tamaño n. Conocemos que la distribución de la media muestral sigue una distribución normal N(µ, σ/√n). Entonces, si x es la media de una muestra de tamaño n, entonces la variable x!µ Z= " o n seguirá, cuando la hipótesis nula sea cierta una distribución normal estándar N(0,1). Se puede utilizar así pues ésta variable como estadístico de contraste en éste caso. Nivel de significación: El nivel de significación será α, que, generalmente tomará los valores 0.1, 0.05 ó 0.01. Región crítica: Si la hipótesis nula fuese cierta y µ = µo , cabe esperar que la media muestral x se distribuya en torno al valor µo, es decir, x - µo tendrá un valor elevado para que existan evidencias de que la hipótesis nula sea falsa, es decir, la variable Z tomará un valor absoluto grande; así pues, la región crítica estará formada por los valores de Z elevados, tanto positivos como negativos. Para especificar cuando se consideran 284 elevados, teniendo en cuenta la distribución de Z, serán aquellos que sean mayores, en valor absoluto, que zα/2, en el contraste bilateral, o que zα en el contraste unilateral. Si la hipótesis nula fuese Ho (µ ≥ µo ), entonces dejarían de pertenecer a la región crítica los valores positivos grandes, y el contraste es, en éste caso, unilateral. (Ver figuras 4.2 y 4.3). 1-! nivel de significación !/2 !/2 -z!/2 Región crítica 0 z!/2 Región de Aceptación Región crítica Figura 4.10: Regiones crítica y de aceptación en un contraste bilateral cuando la distribución es normal estándar. 1- ! 0 Región de Aceptación nivel de significación ! z! Región crítica Figura 4.11: Regiones crítica y de aceptación en un contraste unilateral cuando la distribución es normal estándar. 285 4.4.3.2 Contraste para la media de una población normal, con varianza poblacional desconocida MUESTRAS GRANDES Estadígrafo de contraste: En el mismo caso que en el párrafo anterior, y con las mismas hipótesis, si el tamaño de la muestra es suficientemente grande (n > 30), aunque sea desconocida la varianza poblacional, se consiguen buenos resultados utilizando como estimador de la varianza poblacional la cuasi-varianza muestral y, por lo tanto, se puede tomar como estadístico de contraste el mismo que se tomó cuando la varianza poblacional era conocida; es decir Z= x ! µo s n es una variable que sigue una distribución normal estándar N(0,1), por lo que el razonamiento es idéntico al caso anterior. MUESTRAS PEQUEÑAS Estadígrafo de contraste: Si el tamaño de la muestra es pequeño (n < 30), sabemos de unidades anteriores que la variable t= x ! µo s n !1 difiere sensiblemente de una distribución normal, aproximándose bastante mejor por una distribución t de Student, con n-1 grados de libertad, por lo que ésta variable t puede utilizarse con un estadístico de contraste. Región crítica: La región crítica, en éste caso, estará determinada por los valores de la variable t que sean excesivamente grandes en valor absoluto, si el contraste es bilateral, y para especificar el nivel de cuando pueden considerarse grandes, teniendo en cuenta la 286 distribución de la variable t, que sigue una distribución t con n-1 grados de libertad, serán aquellos valores mayores que tα/2,n-1 en el contraste bilateral, o que tα,n-1 en el contraste unilateral. Las regiones críticas serán pues, análogamente al caso de la varianza poblacional conocida, los siguientes (ver figuras 4.4 y 4.5): nivel de confianza !/2 -t !/2 Región crítica !/2 1"! 0 Región de Aceptación nivel de significación t !/2 Región crítica Figura 4.12: Regiones crítica y de aceptación en el contraste bilateral cuando la variable se distribuye según una t de Student. Figura 4.13: Regiones crítica y de aceptación en el contraste unilateral cuando la variable se distribuye según una t de Student. 287 4.4.4 Contraste de hipótesis para la igualdad de medias de dos poblaciones normales En este apartado consideraremos dos poblaciones con distribuciones normales con medias µ1 y µ2 y varianzas !12 y ! 22 respectivamente, de las cuales extraemos muestras aleatorias independientes de tamaños n1 y n2 respectivamente. El objetivo de éste apartado será determinar si las dos poblaciones pueden considerarse con la misma media poblacional, es decir, la hipótesis nula será Ho (µ1 = µ2 ), mientras que la hipótesis alternativa puede tener diversas expresiones: Ha (µ1 < µ2 ), o bien, Ha (µ1 > µ2 ), o bien Ha (µ1 ≠ µ2 ). Estas hipótesis son equivalentes a las siguientes: la hipótesis nula será Ho (µ1 - µ2 = 0), mientras que la hipótesis alternativa tendrá éstas expresiones: Ha (µ1 - µ2 < 0), o bien, Ha (µ1 - µ2 > 0), o bien Ha (µ1 - µ2 ≠ 0). 4.4.4.1 Contraste de hipótesis para la igualdad de medias de dos poblaciones normales con varianzas poblacionales conocidas. Estadígrafo de contraste: Conocemos del tema relacionado con las distribuciones normales, que la diferencia de dos distribuciones normales se distribuye también normalmente con media la diferencia de las medias, y varianza la suma de las varianzas, por lo que la variable # "12 " 22 & + x1 ! x2 será una variable que se distribuye normalmente N% µ1 ! µ2 , ( , por n1 n2 ' $ lo que en el caso particular de conocer las varianzas poblacionales, podemos utilizar como estadístico de contraste la variable Z= x1 ! x2 "12 " 22 + n1 n 2 288 que, en el caso de que la hipótesis nula sea cierta (µ1 = µ2 ), se distribuye como una distribución normal estándar N(0,1), y, por lo tanto, puede utilizarse como estadístico de contraste, dado que conocemos su distribución. Región crítica: La región crítica estará formada por los valores de Z elevados, tanto positivos como negativos. Para especificar cuando se consideran elevados, teniendo en cuenta la distribución de Z, serán aquellos que sean mayores, en valor absoluto, que Zα/2, en el contraste bilateral, o que zα en el contraste unilateral. 4.4.4.2 Contraste de hipótesis para la igualdad de medias de dos poblaciones normales con varianzas poblacionales desconocidas pero iguales MUESTRAS GRANDES Estadígrafo de contraste: Supongamos ahora que las varianzas son desconocidas pero iguales (σ1 = σ2 = σ). Si las muestras tienen tamaño grande, aunque no se conozca la varianza poblacional, se trabaja como si se conociese utilizando en lugar de la varianza poblacional, su estimador la cuasivarianza muestral, por lo que la distribución de la diferencia de " 1 1 %' medias muestrales es ahora , N$ µ1 ! µ2 , sˆ + n1 n2 & # siendo ˆs = (n1 ! 1)ˆs12 + (n2 ! 1)sˆ22 , por lo que la variable tipificada es una normal n1 + n2 ! 2 estándar Z= ( x1 ! x2 ) ! (µ1 ! µ2 ) 1 1 Sˆ + n1 n2 Entonces, si ha hipótesis nula es cierta, (µ1 =µ2 ), la variable Z= ( x1 ! x2 ) Sˆ 1 1 + n1 n 2 289 se distribuye como una distribución normal estándar, por lo que se puede utilizar como un estadístico de contraste. Región crítica: La región crítica se determina igual que en el párrafo anterior, es decir, para los valores de Z mayores, en valor absoluto, que zα/2 (contraste bilateral), o que zα (contraste unilateral). MUESTRAS PEQUEÑAS Estadígrafo de contraste Pero, si las muestras son pequeñas (n1 + n2 < 30), entonces la variable siguiente t= con Sˆ = (x1 ! x2 ) ! (µ1 ! µ 2 ) 1 1 Sˆ + n1 n2 (n1 ! 1)Sˆ 12 + (n2 ! 1)Sˆ 22 , sigue una distribución t de Student con n1+n2-2 n1 + n2 ! 2 grados de libertad. Si la hipótesis nula es cierta, el estadígrafo de contraste que utilizaremos es t= (x1 ! x2 ) 1 1 Sˆ + n1 n 2 porque se distribuye como una t de Student con n1+n2-2. Región crítica: La región crítica viene determinada por los valores de esta variable t, que son mayores en valor absoluto que tα/2 en el contraste bilateral, o bien los valores de t, que son mayores en valor absoluto que tα en el contraste unilateral. 290 4.4.5 Contraste binomiales para distribuciones Estudiaremos sólo contrastes en los que sea posible aproximaciones de la binomial mediante la normal, por lo que estudiaremos sólo los casos de muestras grandes, de tamaño > 30. 4.4.5.1 Contraste para el parámetro p de una distribución Binomial Partimos de una población que se ajuste al modelo binomial B(n, p), siendo p la ! probabilidad de "éxito"; denotaremos por p a la proporción muestral de casos favorables y por po el valor hipotético con el que queremos contrastar el valor del parámetro p. Hipótesis de partida En éste caso, la hipótesis nula será: Ho : p = p o y la hipótesis alternativa puede ser: Ha : p ≠ po en el contraste bilateral, o bien Ha : p > po , en el contraste unilateral (también Ha : p < po). Estadígrafo de contraste: Como conocemos que la distribución binomial B(n, p) se aproxima mediante una variable normal N(np, npq ), entonces, se verifica que la variable pˆ ! p o Z= pˆ (1 ! pˆ ) n se distribuye como una distribución normal estándar N(0,1). 291 Región crítica: La región crítica, ahora, será la determinada por los valores de la variable Z que son mayores en valor absoluto que zα/2 , en el contraste bilateral, o bien, mayores que zα , en el contraste unilateral. 4.4.5.2 Contraste para la igualdad de los parámetros de dos distribuciones binomiales Partimos, en éste caso, de dos distribuciones binomiales B(n1, p1) y B(n2, p2) respectivamente. En las muestras los parámetros muestrales serán pˆ 1 y ˆp2 respectivamente. Hipótesis de partida: La hipótesis nula será: Ho : p 1 = p 2 mientras que la hipótesis alternativa puede ser : Ha : p 1 ≠ p 2 Estadígrafo de contraste: Ahora, teniendo en cuenta las propiedades de las distribuciones normales, por las que se aproximan las binomiales, se verifica que la variable Z= ! ! p1 ! p2 ! ! ! ! p1(1 ! p1) p2 (1 ! p 2 ) + n1 n2 se distribuye, cuando la hipótesis nula es cierta, como una distribución normal estándar N(0,1) Región crítica: 292 La región crítica será análoga a todas aquéllas en el que el estadístico de contraste sigue una distribución normal. 293 "CONTRASTES DE HIPÓTESIS" 4.5 Ampliación 294 4.5.1 Introducción y motivación Antes de comenzar con el desarrollo del tema se supone que el lector conoce los conceptos fundamentales de muestreo, los principales estimadores de los parámetros de distribuciones normales y sus correspondientes distribuciones muestrales, y los conceptos básicos asociados a los contrastes de hipótesis como son el riesgo tipo I, tipo II, potencia del contraste, etc.... Aunque muchos de los conceptos han sido ya explicados en la parte básica, se repiten aquí encuadrados en el problema general de la investigación aplicada añadiendo una posible guía para la explicación de los mismos en contextos aplicados a las ciencias experimentales. Comenzaremos ilustrando las ideas generales sobre el contraste más simple, el de la media de una población Normal, para ir extendiendo progresivamente las ideas a dos poblaciones, a la comparación de proporciones y a las poblaciones no normales. Analizaremos la problemática de realizar un número elevado de contrastes sobre el mismo conjunto de datos, y extenderemos las ideas fundamentales al diseño de experimentos con varios grupos experimentales. 4.5.2 Contraste para la media de una población Normal 4.5.2.1 Planteamiento general Consideremos un caso muy simple mediante un ejemplo concreto. Supongamos que pertenecemos al consejo regulador de la denominación de origen de los vinos de Ribera de Duero. Sabemos que los vinos jóvenes de años anteriores tienen un grado alcohólico medio de 12.5 grados, tal y como aparece en la etiqueta. Para el año actual, el consejo regulador, de acuerdo con todos sus miembros, ha decidido cambiar algunos de los pasos del proceso de fabricación. El primer problema que se plantea es: ¿Se ha modificado el grado alcohólico al modificar el proceso de fabricación?. 295 La definición del problema a estudiar nos permite determinar la población que queremos estudiar, los vinos jóvenes de ribera de Duero en el año actual; la variable que queremos medir, el grado alcohólico de los mismos, y la hipótesis de trabajo inicial ¿Se ha modificado el grado alcohólico?. El paso siguiente consiste en suponer un modelo de comportamiento teórico para la población (a priori). Suponemos que la variable que estamos midiendo en la población a estudiar sigue una distribución Normal. La suposición de normalidad la haremos de acuerdo con el conocimiento previo que tengamos sobre la población objeto de estudio tratando de que las características de la distribución reflejen en la mayor medida posible las de la población, se trata simplemente de buscar un modelo probabilístico que aproxime la variable a estudiar. En el caso que nos ocupa, parece razonable suponer, a priori, que el grado alcohólico se concentra de forma simétrica alrededor de un valor medio. Si consideráramos, por ejemplo, los salarios de una empresa la hipótesis de normalidad no es plausible puesto que cabe esperar que la distribución de los mismos sea marcadamente asimétrica debido a los altos salarios de un grupo reducido de ejecutivos. Formularemos ahora la hipótesis de trabajo en términos de los parámetros del modelo (media y/o desviación típica en el caso de la Normal). La hipótesis principal la denominamos hipótesis nula (H0). H0 = µ = µ0 = 12.5 La hipótesis nula suele ser la de igualdad del parámetro a un único valor concreto µo procedente de la hipótesis de trabajo. Junto con la hipótesis nula planteamos la que denominamos hipótesis alternativa (Ha o H1) que será aceptada cuando se rechace la nula y viceversa. Por el momento tomaremos la más sencilla, la hipótesis e que la media es diferente de 12 que resultará en un contraste bilateral. Ha = µ ! µ 0 = 12.5 Trataremos de diseñar un procedimiento para decidir entre ambas hipótesis a partir de la información contenida en una muestra de tamaño n, por ejemplo 14 observaciones. 296 Supongamos que la muestra ha sido seleccionada al azar de la población y que se han obtenido los resultados siguientes. RIBERA DE DUERO 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0 Tabla 4.1: Grado alcohólico de 14 vinos de la denominación de Ribera de Duero. La primera cuestión que hemos de tener en cuenta es que la decisión por una hipótesis concreta ha de tomarse con un cierto riesgo de equivocarse al no disponer de la información de todos los individuos de la población. Trabajaremos con la media muestral como estimador de la media poblacional desconocida. En el ejemplo la media muestral es de 12,529, que como ya sabemos no coincide con la media poblacional. Trataremos de decidir entre las dos hipótesis a partir del valor de la media muestral pero, si la media muestral no coincide con la media poblacional, ¿será la diferencia entre el valor observado y el teórico lo suficientemente grande como para rechazar la hipótesis nula? o ¿la diferencia observada es lo suficientemente pequeña como para ser debida simplemente al azar o al desconocimiento de la población?. Daremos respuesta a ambas preguntas utilizando los conceptos sobre distribuciones aprendidos en temas anteriores. 4.5.2.2 Varianza (desviación típica conocida) 2 2 Supondremos, por el momento, que la varianza de la población es ! = 0.5 conocida. Sabemos que la media muestral para distintas muestras sigue una distribución ! ) , luego, cuando la hipótesis nula es cierta Normal N(µ, n x ! N(µ0 , " ) n En la práctica, este resultado tiene implicaciones importantes. Veámoslo con un dibujo (figura 4.7). 297 x ! N( µ 0 , " ) n µ0 x Figura 4.14: Distribución de la media muestral. El dibujo muestra cómo, aunque los valores de la media muestral no coinciden con la media poblacional, se concentran en torno a ella y por tanto es muy probable que sean cercanos aunque, con el modelo supuesto puede tomar cualquier valor. Obsérvese también que cuanto mayor es el tamaño muestral más se concentran los valores de la media muestral en torno a la media poblacional. Intuitivamente, aceptaremos la hipótesis nula cuando la media muestral sea próxima a µ 0 y la rechazaremos (aceptando la alternativa) cuando la media muestral sea muy diferente de µ 0 , es decir, utilizamos la media muestral como estadístico, o estadígrafo, de contraste. Nos queda por determinar cual es el criterio para decidir si la media muestral está próxima o no al valor teórico propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos el riesgo tipo Y en α (por ejemplo en 0.05 o el 5%) Nos plantearemos el contraste como un juicio en el que la media muestral es inocente (procede de una población con media µ 0 ) y no la declararemos culpable (no procede de una población con media µ 0 ) hasta que no se demuestre claramente lo contrario. Sobre la distribución de la media seleccionamos dos puntos µ 0 ! a y µ 0 + a , simétricos alrededor de µ 0 de forma que si la hipótesis nula cierta en el (1-α)100% (por ejemplo el 95%) de las muestras la media muestral esté entre esos dos valores (figura 4.8). P(µ0 ! a " x " µ0 + a) = 1 ! # 298 Figura 4.15: Procedimiento de contraste a partir de la media muestral Aceptaremos la hipótesis nula si la media muestral está dentro del intervalo seleccionado y la rechazaremos en caso contrario. Es claro que si la media está fuera del intervalo seleccionado hay una clara evidencia de que la hipótesis no es cierta ya que toma los valores correspondientes solo en el 5% de los casos en los que la hipótesis nula es cierta. Por supuesto, estamos asumiendo un riesgo del 5% de equivocarnos y rechazar indebidamente. Como ya es conocido, al conjunto de valores que nos llevan a aceptar la hipótesis nula lo denominamos Región de Aceptación, y al conjunto de valores que nos llevan a rechazarla Región Crítica. En este caso la región crítica se ha dividido en las dos colas de la distribución por lo que se dice que el contraste es bilateral o de dos colas. En la práctica no se trabaja directamente con la media muestral y su distribución asociada sino con la distribución Normal estándar. Teniendo en cuenta las propiedades de la Normal podemos escribir x !µ P(µ0 ! a " x " µ0 + a) = P(!z# /2 " $ 0 " z #/ 2 ) = 1 ! # n de forma que el procedimiento descrito se convierte ahora en el que se muestra en la x!µ figura 4.9. El estadígrafo de contraste es ahora " 0 y mide la discrepancia entre el n valor observado de la media l valor teórico de la misma, en la escala de la desviación 299 típica. No es lo mismo una diferencia de una unidad en una escala de centímetros que en una escala de kilómetros. Figura 4.16: Procedimiento de contraste a partir de la media muestral estandarizada. La interpretación intuitiva del nuevo procedimiento sigue siendo clara, rechazaremos la hipótesis nula solamente cuando la discrepancia entre la media observada y la teórica ( x ! µ 0 ) sea grande, en relación a la variabilidad intrínseca ! medida por . La magnitud de la diferencia necesaria para rechazar se determina a n través del riesgo de tipo 1 mediante la distribución Normal estándar. A los valores de zα/2 se les suele denominar valores críticos ya que determinan la frontera entre la región crítica y la región de aceptación. El cuadro 4.2 muestra el procedimiento completo con los pasos que se siguen habitualmente en la construcción de cualquier contraste. 300 Hipótesis H0 :µ = µ 0 Ha :µ ! µ 0 Nivel de significación: α x !µ Estadígrafo de contraste: Z = " 0 n Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1) Región de aceptación: {Z / Z ! z "/ 2 } Región critica: {Z / Z > z !/ 2 } Cuadro 4.2: Contraste para la media de una población Normal con varianza conocida. Una vez que hemos determinado la forma general del contraste pasamos a aplicarlo a los datos del problema inicial que nos ocupa (ver cuadro 4.3). Hipótesis: H0 :µ = 12.5 Ha :µ ! 12.5 Nivel de significación: 5% y 1%. x !µ 12.529 ! 12.5 = 0.217 Estadígrafo de contraste: Z = " 0 = 0.5 n 14 Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57 Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación, por tanto aceptamos la hipótesis nula. Conclusión no estadística: La modificación en el proceso de fabricación no ha modificado significativamente el grado alcohólico. Cuadro 4.3: Aplicación del contraste para la media de una población Normal con varianza conocida al problema de la modificación en el grado alcohólico del vino de Ribera de Duero Una vez que hemos tomado la decisión final, no sabemos si es correcta o no, simplemente esperamos que sea del 95% de las muestras en las que aceptamos la hipótesis correctamente. Si aceptamos la hipótesis nula no quiere decir que sea cierta y el grado medio sea exactamente de 12.5 grados (probablemente no lo es), sería más correcto interpretar que, con la información de la que disponemos no hemos encontrado evidencia suficiente de que la media sea distinta de 12.5. Evidentemente, los valores muestrales son compatibles con muchos otros posibles valores teóricos. Si aumentamos el tamaño de muestra indefinidamente, la variabilidad de la media 301 sería cada vez menor y conseguiríamos que la pequeña diferencia observada sea lo suficientemente grande como para considerarla significativa. Es por esto por lo que en Estadística decimos que es tan malo tener un tamaño de muestra demasiado alto como tenerlo demasiado bajo ya que en el primer caso cualquier pequeña diferencia es considerada como significativa mientras que en el segundo no se declara significación incluso en el caso en el que la diferencia sea elevada. 4.5.2.3 La potencia de un contraste En todo el proceso descrito hasta el momento solamente se ha utilizado el riesgo de tipo I en el desarrollo del contraste. Sabemos que esta asociado con el riesgo de tipo II de forma que cuando uno aumenta, el otro disminuye. Tampoco hemos hecho ninguna afirmación acerca de un concepto importante como es el de potencia del contraste (probabilidad de rechazar la hipótesis nula cuando es falsa). No es posible calcular la potencia del contraste porque para ello necesitaríamos un único valor en la hipótesis alternativa (revísese el ejemplo de los cirróticos utilizado como aplicación de la distribución Normal), aunque si podemos realizar el cálculo para distintos valores en la alternativa (función de potencia) y analizar lo que ocurre. Veámoslo con un ejemplo. Cual sería la potencia del contraste obtenido para detectar que la media no es 12.5 si en realidad la media fuera 13 (y suponiendo un nivel de significación del 5%). En términos de la media muestral el procedimiento de contraste consiste en aceptar la hipótesis nula si la media muestral está entre 12.238 y 12.762. La probabilidad de cometer un error de tipo 2 (aceptar indebidamente) si la media real fuera de 13 se podría calcular como P(12.382 ! X ! 12.762) en una Normal de media 0.5 13 y desviación típica . Esta probabilidad es 0.037 de forma que la potencia es 1 14 0.037 = 0.963. La situación esquematizada aparece en la figura 4.10. 302 Figura 4.17: Cálculo de la potencia del contraste para una alternativa predeterminada. En la figura 4.11 se muestra la función de potencia para distintos valores posibles de la hipótesis alternativa. Figura 4.18: Función de potencia para distintos valores de la alternativa. El gráfico muestra como la potencia es mayor cuando los valores de la alternativa se alejan del valor para la hipótesis nula. En la práctica este hecho tiene una implicación obvia: es más fácil detectar diferencias o efectos experimentales de gran magnitud. Aunque no es posible un control directo de la potencia, a la vista de la figura 4.10 303 es claro que la potencia puede modificarse modificando el nivel de significación o el tamaño muestral ya que la forma de las curvas depende de éste. Cuanto mayor sea el tamaño muestral más concentrada es la curva Normal y, por tanto, mayor es la potencia para el mismo nivel de significación. En la práctica suele hacerse un estudio de potencia para los contrastes no significativos, calculando cual sería el tamaño muestral necesario para que la diferencia observada en los datos sea significativa. Si este tamaño es muy grande es difícil declarar la significación por lo que consideraremos que estamos haciendo lo correcto, si el tamaño muestral necesario es pequeño, sería conveniente revisar el experimento. El cálculo es muy simple cuando se trabaja con distribuciones normales. La x ! µ0 > z #/ 2 de forma que, para que la diferencia hipótesis nula se rechaza cuando " n sea significativa el valor de n será z2 "2 n > !/ 2 x # µ0 para el ejemplo del grado alcohólico, n> 1141,97, es decir, para que la diferencia observada fuera significativa tendríamos que haber recogido más de 1142 observaciones lo que da una idea de que la diferencia observada es muy pequeña y, por tanto es muy probable que la hipótesis nula sea cierta. 4.5.2.4 El p-valor del contraste Una forma habitual de medir la significación en los contrastes de hipótesis es el denominado p-valor del contraste. Su utilización en la investigación aplicada es debida a que es la forma de presentación de los resultados de un contraste usada por la mayor parte de los programas de ordenador. Se puede definir el p-valor de un contraste como la probabilidad de obtener un valor muestral más extremo que el obtenido en nuestro caso particular (cuando H0 es cierta). Si el p-valor es muy pequeño rechazaremos la hipótesis nula ya que el valor experimental es muy extremo, mientras que si el p-valor es grande aceptaremos la hipótesis nula ya que el valor es compatible con la misma. 304 De forma general, el p-valor para el contraste actual se puede calcular como # x !µ & P% Z > " 0 ( en una distribución Normal estándar. $ n ' Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) = 0.8285, es decir el p-valor puede considerarse grande. En la práctica se suele adoptar el criterio de aceptar la hipótesis cuando el p-valor es mayor que el nivel de significación fijado en el procedimiento de contraste. Figura 4.19: El p-valor de un contraste bilateral. 4.5.2.5 Los contrastes unilaterales En algunas situaciones concretas no estamos interesados en todos los posibles valores de la hipótesis alternativa propuesta en un contraste bilateral. Supongamos, por ejemplo, que en el caso práctico anterior sospechamos a priori que la modificación en el procedimiento de fabricación produce un incremento en el contenido alcohólico. En este caso sería conveniente modificar la hipótesis alternativa para que sea de la forma Ha :µ > µ 0 . El procedimiento de contraste es muy similar al anterior y se muestra en el cuadro 4.4. 305 Hipótesis H0 :µ = µ 0 Ha :µ > µ 0 Nivel de significación: α x !µ Estadígrafo de contraste: Z = " 0 n Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1) Región de aceptación: {Z / Z ! z "/ 2 } Región critica: {Z / Z > z !/ 2 } Cuadro 4.4: Contraste unilateral superior para la media de una población Normal con varianza conocida. El contraste así obtenido se denomina contraste unilateral superior ya que solo estamos interesados en las desviaciones positivas. La diferencia fundamental con el contraste bilateral es que se produce un incremento en la potencia para detectar diferencias positivas de la hipótesis nula y un decremento drástico para detectar las negativas. El p-valor sigue teniendo la misma interpretación aunque ahora se calcula como # x !µ & P% Z > " 0 ( . $ n ' Figura 4.20: El p-valor de un contraste unilateral superior. De la misma manera que se ha construido el contraste unilateral superior es posible construir el contraste unilateral inferior (ver cuadro 4.5) si estamos interesados 306 exclusivamente en detectar diferencias negativas con respecto a la hipótesis nula. La construcción del contraste es completamente análoga con la correspondiente modificación de la hipótesis alternativa. El contraste unilateral inferior incrementa la potencia para detectar diferencias negativas aunque no tiene potencia para detectar las positivas. Hipótesis H0 :µ = µ 0 Ha :µ < µ 0 Nivel de significación: α x !µ Estadígrafo de contraste: Z = " 0 n Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1) Región de aceptación: {Z / Z ! z "/ 2 } Región critica: {Z / Z < z !/ 2 } # x ! µ0 & p-valor: P% Z > ( " $ n ' Cuadro 4.5: Contraste unilateral inferior para la media de una población Normal con varianza conocida. Figura 4.21: El p-valor de un contraste unilateral inferior. La decisión por el tipo de contraste debe hacerse a priori, antes de tomar los datos. Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la modificación en el proceso de fabricación, aumenta el grado alcohólico. El procedimiento de contraste para los datos de la tabla 1 se muestra en el cuadro 4.6. 307 Hipótesis: H0 :µ = 12.5 Ha :µ > µ 0 Nivel de significación: 5% y 1%. x !µ 12.529 ! 12.5 = 0.217 Estadígrafo de contraste: Z = " 0 = 0.5 n 14 Valores críticos : para el 5% z0.025= 1,65 para el 1% z0.005= 2,33 p-valor: 0.4129 Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación, por tanto aceptamos la hipótesis nula. Conclusión no estadística: La modificación en el proceso de fabricación no ha aumentado significativamente el grado alcohólico. Cuadro 4.6: Aplicación del contraste para la media de una población Normal con varianza conocida al problema de la modificación en el grado alcohólico del vino de Ribera de Duero La función de potencia para distintos valores de la alternativa aparece en la figura 4.15. Obsérvese como el contraste no tiene ninguna potencia para detectar valores a la izquierda de la hipótesis nula. Figura 4.22: Función de potencia para un contraste unilateral superior. 308 4.5.2.6 Varianza desconocida En la mayor parte de las aplicaciones prácticas la varianza de la distribución es también desconocida y ha de ser estimada a partir de los datos. El problema es que ya no es posible seguir utilizando la distribución Normal para el procedimiento de contraste ya que es necesario eliminar el parámetro σ del estadígrafo de contraste. De acuerdo con la teoría, además de la distribución muestral de la media sabemos (n ! 1)Sˆ 2 que sigue una distribución ji-cuadrado con n-1 grados de libertad. Si 2 " suponemos que media y varianza son independientes* , es posible combinar las correspondientes distribuciones muestrales para obtener una distribución t de Student y eliminar el parámetro σ. Utilizando la definición de distribución t de Student con n-1 grados de libertad como el cociente entre una Normal estándar y la raíz cuadrada de una ji-cuadrado con n1 grados de libertad dividida por sus grados de libertad, y ambas independientes, obtenemos que la variable aleatoria t= x ! µ0 " x !µ n = ˆ 0 S (n ! 1)Sˆ 2 n "2 (n ! 1) sigue una distribución t de Student con n-1 grados de libertad. El procedimiento de contraste en este caso es análogo al anterior pero sustituyendo la distribución Normal por la distribución t. El cuadro 4.7 muestra el procedimiento de contraste completo. * La demostración completa no se realiza aquí. 309 Hipótesis H0 :µ = µ 0 Ha :µ ! µ 0 Nivel de significación: α x ! µ0 Estadígrafo de contraste: t = Sˆ n Distribución del estadígrafo cuando la hipótesis nula es cierta: tn-1 Región de aceptación: {t / t ! t n "1,# } Región critica: {t / t > t n !1," } * Cuadro 4.7: Contraste para la media de una población Normal con varianza desconocida. En la práctica, la sustitución de la distribución Normal por la distribución t de Student implica un aumento de la dispersión por lo que es más difícil detectar diferencias. La situación se muestra el la figura 4.16 en la que se comparan la distribución Normal estándar (en línea discontinua) y la distribución t (en línea continua). x "µ t = ˆ 0 # t n"1 s n 1"! !/2 !/2 -t ! 0 t! Figura 4.23: Diferencia entra la distribución Normal y la distribución t de Student. Es posible construir contrastes unilaterales de la misma manera que en el caso de varianza conocida. El cuadro 4.8 muestra el contraste unilateral superior, el contraste unilateral inferior se deja como ejercicio al lector. * tn-1,α es el valor crítico de la t de Student tal que P(-tn-1,α ≤ tn-1 ≤ tn-1,α ) = 1-α. Se ha denotado con el subíndice α porque es el que se utiliza para buscar el valor correspondiente en la tabla. 310 Hipótesis H0 :µ = µ 0 Ha :µ > µ 0 Nivel de significación: α x ! µ0 Estadígrafo de contraste: t = Sˆ n Distribución del estadígrafo cuando la hipótesis nula es cierta: tn-1 Región de aceptación: {t / t ! t n "1,2# }* Región critica: {t / t > t n !1,2" } Cuadro 4.8: Contraste para la media de una población Normal con varianza desconocida. Para el ejemplo del grado alcohólico de los vinos de la denominación de origen de Ribera de Duero los resultados del contraste bilateral se muestran en el cuadro 4.9 Hipótesis: H0 :µ = 12.5 Ha :µ ! 12.5 Nivel de significación: 5% y 1%. x ! µ0 12.529 ! 12.5 = 0.338 = 0.316 Estadígrafo de contraste: Z = Sˆ 14 n Valores críticos : para el 5% t0.05= 1,96 para el 1% t0.01= 2,57 p-valor : 0,7571 Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación, por tanto aceptamos la hipótesis nula. Conclusión no estadística: La modificación en el proceso de fabricación no ha modificado significativamente el grado alcohólico. Cuadro 4.9: Aplicación del contraste para la media de una población Normal con varianza conocida al problema de la modificación en el grado alcohólico del vino de Ribera de Duero Todos los conceptos explicados para el contraste de la media de una población Normal con varianza conocida siguen siendo válidos aquí. * tn-1,2α es el valor crítico de la t de Student tal que P( tn-1 > tn-1,2α ) = α. Se ha denotado con el subíndice 2α porque es el que se utiliza para buscar el valor correspondiente en la tabla. 311 4.5.2.7 Contrastes para muestras grandes Cuando las muestras de las que se dispone son muestras grandes (aproximadamente mayores de 30 observaciones) es posible utilizar directamente la distribución Normal ya que es muy similar a la t de Student. Además el teorema central del límite permite relajar la hipótesis de normalidad ya que la normalidad de la distribución muestral de medias está garantizada, bajo ciertas condiciones de regularidad, aunque la población original no sea Normal. Hay que tener en cuenta que se trata sólo de una aproximación y, cuanto mayor es el tamaño de la muestra mejor es la aproximación Normal obtenida. El procedimiento de contraste para muestras grandes se muestra en el cuadro 4.10. Mostramos solamente el contraste bilateral ya que los unilaterales se construyen exactamente de la misma manera que en los casos anteriores. Hipótesis: H0 :µ = µ 0 Ha :µ ! µ 0 Nivel de significación: α x ! µ0 Estadígrafo de contraste: Z = Sˆ n Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0, 1) Región de aceptación: {Z / Z ! z "/ 2 } Región critica: {Z / Z > z !/ 2 } Cuadro 4.10: Contraste para la media de una población Normal con varianza desconocida cuando la muestra es grande. 312 4.5.3 Contraste para la diferencia de medias de dos poblaciones normales con datos independientes 4.5.3.1 Planteamiento general En la investigación aplicada la situación más habitual es aquella en la que se quieren comparar dos poblaciones a las que se les ha aplicado, por ejemplo, dos tratamientos diferentes. Pongámonos en el mismo supuesto que en el ejemplo que sirvió para ilustrar el contraste para una población, y supongamos que lo que deseamos es conocer si los vinos de nuestra denominación de origen tienen el mismo contenido alcohólico que los de otra denominación de origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciación en los mismos ya que, debido a la proximidad geográfica de ambas regiones, es posible que haya fraudes y se intercambien vinos de ambas dependiendo del mercado de los mismos. La hipótesis de trabajo inicial es entonces ¿Existen diferencias en el grado alcohólico de ambas denominaciones?. Procediendo de la misma manera que en el caso de una población, suponemos una distribución de probabilidad para la población que es la distribución Normal. En la primera población (Ribera de Duero) el grado alcohólico sigue una distribución Normal N(µ1, σ1); en la segunda población (Toro) el grado alcohólico sigue un Modelo Normal N(µ2, σ2). Formulamos a continuación las hipótesis de trabajo en términos de los parámetros de los modelos. Las hipótesis nula y alternativa son ahora H0 :µ1 = µ2 Ha :µ1 " µ 2 (µ1 ! µ 2 = 0) (µ1 ! µ2 " 0) para el contraste bilateral. Vemos como el contraste de que las medias son iguales es equivalente al contraste de que la diferencia de medias vale 0. Supongamos que los datos obtenidos son los siguientes para muestras aleatorias 313 de tamaño n1 = 14 y n2 = 6. Ribera de Duero 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0 Toro 13,0 14,0 13,2 13,4 13,2 13,9 Tabla 4.2: Grado alcohólico de 20 vinos de las denominaciones de origen de Ribera y Toro. Se supone que las muestras se han obtenido de forma independiente en ambas denominaciones. La estadística descriptiva básica para ambos grupos aparece en la tabla 4.3. Tabla 4.3: Descriptiva básica del grado alcohólico. Una primera aproximación a las diferencias entre los dos grupos sería la construcción de gráficos comparativos que muestren la estructura de los mismos, por ejemplo, un Box-Plot con los grupos separados. (Ver figura 4.17). Una simple inspección visual del gráfico nos muestra que hay una clara diferencia entre los grados de ambas denominaciones, a pesar de que la diferencia muestral es muy evidente necesitamos un procedimiento más formal para establecer si las diferencias observadas pueden ser consideradas estadísticamente significativas. Construiremos el procedimiento de contraste en varios supuestos comenzando desde el más sencillo hasta los más complejos. 314 Figura 4.24: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro. 4.5.3.2 Varianzas conocidas Supongamos, para simplificar que las desviaciones típicas son conocidas, por ejemplo σ1 = 0.5 y σ2 = 0.6 para las denominaciones de Ribera de Duero y Toro respectivamente. Desarrollaremos el procedimiento general para después aplicarlo a los datos de los que disponemos. Conocemos la distribución de la media muestral en ambas poblaciones. x1 ! N(µ1, "1 ) n1 x2 ! N(µ2 , "2 ) n2 y ambas distribuciones son independientes. El estimador de la diferencia de medias poblacionales será la diferencia de medias muestrales y, como la diferencia de normales independientes es también una distribución Normal, tenemos que x1 ! x2 " N(µ1 ! µ2 , #21 # 22 + ) n1 n2 315 Estandarizando se obtiene que Z= (x1 ! x2 ) ! (µ1 ! µ 2 ) "21 " 22 + n1 n2 # N(0,1) Cuando la hipótesis nula es cierta µ1 ! µ2 = 0 y se tiene que Z= (x1 ! x2 ) "12 " 22 + n1 n 2 # N(0,1) luego Z será el estadígrafo de contraste que utilizaremos. El procedimiento de contraste completo se muestra el cuadro 4.11. Solo se incluye el contraste bilateral ya que la construcción de los correspondientes unilaterales es la misma que en los casos previos y se deja como ejercicio al lector. Hipótesis: H0 :µ1 = µ2 Ha :µ1 " µ 2 (µ1 ! µ 2 = 0) (µ1 ! µ2 " 0) Nivel de significación: α (x1 ! x2 ) Estadígrafo de contraste: Z = "12 " 22 + n1 n 2 Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0, 1) Región de aceptación: {Z / Z ! z "/ 2 } Región critica: {Z / Z > z !/ 2 } Cuadro 4.11: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida. Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del cuadro 4.12. 316 Hipótesis: H0 :µ1 = µ2 Ha :µ1 " µ 2 (µ1 ! µ 2 = 0) (µ1 ! µ2 " 0) Nivel de significación: α= 0.05 (5%) ó 0.01 (1%) (12.529 ! 13.450) Estadígrafo de contraste: Z = = !10.829 0.25 0.36 + 14 6 Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57 Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, por tanto rechazamos la hipótesis nula. Conclusión no estadística: La modificación en el proceso de fabricación ha aumentado significativamente el grado alcohólico. Cuadro 4.12: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida. 4.5.3.3 Varianzas desconocidas pero iguales Supongamos ahora que las varianzas son desconocidas pero iguales (σ1 = σ2 = σ). La distribución de la diferencia de medias muestrales es ahora Z= (x1 ! x2 ) ! (µ1 ! µ 2 ) # N(0,1) 1 1 " + n1 n 2 Tenemos que eliminar el parámetro σ, para lo cual utilizaremos las distribuciones muestrales asociadas a las cuasi-varianzas muestrales (n1 ! 1)Sˆ12 # $ 2n1 !1 2 " y (n 2 ! 1)Sˆ 22 # $ 2n 2 !1 2 " La suma de dos ji-cuadrado es también una ji-cuadrado, sumando las dos anteriores (n1 ! 1)Sˆ12 (n 2 ! 1)Sˆ 22 (n1 ! 1)Sˆ 12 + (n 2 ! 1)Sˆ 22 + = # $ 2n1 +n 2 !2 2 2 2 " " " 317 Suponiendo que ambas distribuciones son independientes* , podemos combinarlas para obtener una distribución t de Student. La variable aleatoria t= con Sˆ = (x1 ! x 2 ) ! (µ1 ! µ2 ) 1 1 " + n1 n 2 (n1 ! 1)Sˆ 12 + (n2 ! 1)Sˆ 22 "2 = n1 + n2 ! 2 (x1 ! x2 ) ! (µ1 ! µ 2 ) 1 1 Sˆ + n1 n2 (n1 ! 1)Sˆ12 + (n 2 ! 1)Sˆ 22 sigue una t de Student con n1 + n2 - 2 grados de n1 + n 2 ! 2 libertad. Si la hipótesis nula es cierta, el estadígrafo de contraste que utilizaremos es t= (x1 ! x2 ) = t n1 +n 2 !2 ˆS 1 + 1 n1 n 2 Es posible considerar un estadígrafo de contraste alternativo si se utilizan las varianzas muestrales en lugar de las cuasi-varianzas. Para ello basta tener en cuenta que las distribuciones muestrales asociadas a las varianzas son n1 S12 2 2 " # n1 $1 ! y n2 S22 2 2 " # n 2 $1 ! El nuevo estadígrafo de contraste es de la forma t= con S = (x1 ! x2 ) = t n1 +n 2 !2 1 1 S + n1 n 2 n1 Sˆ 12 + n2 Sˆ 22 . Los dos estadísticos toman exactamente el mismo valor por lo n1 + n2 ! 2 que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasivarianzas porque son estimadores insesgados de la varianza poblacional. * La demostración puede encontrarse en cualquier libro de Estadística Matemática. No se ha incluido aquí porqwue supera los propósitos de este trabajo. 318 En ambos casos lo que se ha hecho es estimar la varianza común de ambas poblaciones mediante una media ponderada de las varianzas estimadas en cada población, y se ha cambiado la distribución Normal por la t de Student con el correspondiente aumento en la dispersión que hace que sea más difícil encontrar diferencias. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el cálculo del estadígrafo de contraste. La comprobación de la igualdad de varianzas se hará posteriormente aunque sea un paso previo a la decisión del tipo de contraste. Las cuestiones relacionadas con la potencia del contraste se interpretan de la misma manera que en todos los casos anteriores. Cuanto mayor sea la diferencia que queremos detectar mayor será la potencia para detectarla. Cuanto más pequeño sea el efecto que queremos detectar mayor será el tamaño de muestra necesario para hacerlo. Si aumentamos indefinidamente el tamaño muestral conseguiremos que la diferencia muestral sea siempre estadísticamente significativa por pequeña que sea. El contraste completo se muestra en el cuadro 4.13. H0 :µ1 = µ2 (µ1 ! µ 2 = 0) Ha :µ1 " µ 2 (µ1 ! µ2 " 0) Nivel de significación: α (x1 ! x2 ) (x1 ! x 2 ) ó t= Estadígrafo de contraste: t = 1 1 1 1 Sˆ + S + n1 n 2 n1 n 2 Hipótesis: (n1 ! 1)Sˆ12 + (n 2 ! 1)Sˆ 22 n1 Sˆ 12 + n2 Sˆ 22 ó S= n1 + n 2 ! 2 n1 + n2 ! 2 Distribución del estadígrafo cuando la hipótesis nula es cierta: t de Student t n1 +n 2 !2 con Sˆ = { Región de aceptación: t / t ! t n1 +n 2 "2,# { Región critica: t / t > t n1 +n 2 !2," } } Cuadro 4.13: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales. El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los siguientes resultados (ver cuadro 4.14). 319 H0 :µ1 = µ2 (µ1 ! µ 2 = 0) Ha :µ1 " µ 2 (µ1 ! µ2 " 0) Nivel de significación: α= 0.05 (5%) ó 0.01 (1%) (12.529 ! 13.450) Estadígrafo de contraste: t = = !5.256 1 1 0.359 + 14 6 Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878 Hipótesis: Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, por tanto rechazamos la hipótesis nula. Conclusión no estadística: El grado alcohólico es significativamente diferente en Ribera de Duero y Toro. Cuadro 4.14: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales, aplicado a los datos sobre el grado alcohólico. 4.5.3.4 Varianzas desconocidas y distintas Supongamos ahora que las varianzas son desconocidas y distintas (σ1 ≠ σ2) de forma que ya no es posible eliminar el parámetro en el cálculo de la t de Student. Se han propuesto diversas aproximaciones para la aproximación de la distribución del estadígrafo de contraste. Describiremos aquí la aproximación de Welch (ver cuadro 4.15). La demostración completa está fuera de los propósitos de este trabajo. H0 :µ1 = µ2 (µ1 ! µ 2 = 0) Ha :µ1 " µ 2 (µ1 ! µ2 " 0) Nivel de significación: α Sˆ 12 Sˆ 22 Estadígrafo de contraste: t = (x1 ! x2 ) + n1 n2 Distribución del estadígrafo cuando la hipótesis nula es cierta: t de Student tf donde f es el entero más próximo a ! Sˆ12 Sˆ 22 $ 2 # + & " n1 n 2 % f= 2 2 '2 ! Sˆ12 $ ! Sˆ 22 $ # & # & " n1 % " n2 % + n1 + 1 n 2 + 1 Hipótesis: Región de aceptación: {t / t ! t f," } Región critica: {t / t > t f,! } Cuadro 4.15: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y distintas. 320 4.5.3.5 Contrastes de comparación de medias para muestras grandes Como ya se comentó para el caso de una única población, el teorema central del límite permite asignar distribuciones normales a las medias muestrales aunque la distribución en la población no sea Normal. Si disponemos de una muestra de tamaño grande y estimamos la varianza poblacional a través de la cuasi-varianza muestral, podemos construir un contraste aproximado de comparación de medias utilizando la distribución Normal (ver cuadro 4.16). H0 :µ1 = µ2 (µ1 ! µ 2 = 0) Ha :µ1 " µ 2 (µ1 ! µ2 " 0) Nivel de significación: α Sˆ 12 Sˆ 22 Estadígrafo de contraste: t = (x1 ! x2 ) + n1 n2 Hipótesis: Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1) Región de aceptación: {Z / Z ! z "/ 2 } Región critica: {Z / Z > z !/ 2 } Cuadro 4.16: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y tamaños muestrales grandes. Obsérvese que estamos suponiendo implícitamente que la cuasi-varianza muestral es un buen estimador de la varianza poblacional, próximo al verdadero valor. 4.5.3.6 Obtención de datos para la comparación de medias. Dos son los tipos de datos de los que es posible disponer para la comparación de las medias - Datos procedentes de estudios observacionales. - Datos procedentes de estudios experimentales. En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra aleatoria garantiza la representatividad . A este tipo de datos corresponde el ejemplo que hemos utilizado como guía para la explicación. 321 Los datos experimentales se corresponden con experimentos planificados en los que se asignan dos tratamientos distintos a un grupo de individuos. En este tipo de diseños es necesario que todas las características que no intervienen en el diseño y puedan modificar la respuesta, estén controlados y sean similares en los dos grupos a comparar. Por ejemplo, si se desea hacer un ensayo clínico en el que se dispone de un grupo de pacientes de forma que a un subconjunto se le aplicará el tratamiento a comparar y el resto será utilizado como control sobre el que se utilizará un placebo (substancia no activa) con la misma apariencia que el tratamiento, los pacientes de ambos grupos han de ser similares en composición con respecto a características como la edad peso u otros factores que pudieran alterar la respuesta y que no intervienen directamente en el diseño. Se tratará de evitar sesgos de forma que los efectos puedan ser asignados a los tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el que se dispone de dos camadas distintas, no sería correcto asignar un tratamiento diferente a cada una de las camadas ya que sería imposible separar los efectos del tratamiento y de la camada. En Estadística decimos que los tratamientos están confundidos. La forma de asignar tratamientos a individuos para que no existan errores sistemáticos es hacerlo al azar, por ejemplo, sorteando cual es el tratamiento que se aplica a cada individuo. A este procedimiento se le denomina aleatorización, y juega un papel fundamental en el diseño de experimentos planificados. Hay que hacer notar que al azar no significa "de cualquier manera" o "cualquiera de los tratamientos", para conseguir una verdadera aleatorización es necesario utilizar la probabilidad. En los experimentos diseñados es muy importante realizar estudios previos sobre el tamaño de muestra necesario para detectar un determinado efecto. Este problema está fuera del alcance de un curso introductorio aunque las ideas básicas fueron expuestas cuando se trató con los intervalos de confianza. Este tipo de experimentos se comenzó en Agricultura para extenderse después a otras aplicaciones como la Industria o la Medicina. Actualmente los ensayos clínicos controlados, basados fundamentalmente en conceptos de Estadística, forman una parte importante de la investigación médica. Todo el mundo ha oído alguna vez en las noticias los resultados de ensayos clínicos controlados antes de lanzar al mercado un nuevo medicamento. 322 4.5.3.7 Contraste para datos apareados. En el caso de datos independientes en el punto anterior, se dispone de dos conjuntos distintos de individuos para cada una de las situaciones experimentales que se quiere compara. Una forma de controlar la variabilidad debida a los propios sujetos consiste en aplicar todos los tratamientos en estudio a todos los individuos de la muestra en dos ocasiones diferentes. A este tipo de datos lo denominaremos datos apareados, relacionados, o ligados y consisten en dos medidas tomadas sobre el mismo conjunto d individuos en dos ocasiones diferentes. Para ilustrar los procedimientos utilizaremos datos tomados de MARTÍN ANDRÉS y LUNA CASTILLO (1990). Supongamos que deseamos saber si la presión sistólica de personas alcohólicas se modifica cuando dejan el hábito de beber, para ello se toma una muestra de 10 personas que ingresan en el hospital para tratar su alcoholismo y se toma una medida de la presión sistólica antes y después de dos meses de haber dejado de beber. El experimento fue diseñado de esta manera ya que aunque se espera una reducción en la presión sanguínea, esta depende del valor inicial en cada individuo. Los resultados obtenidos para la presión sistólica medida en milímetros de mercurio fueron los siguientes (tabla 4.4): Individuo 1 2 3 4 5 6 7 8 9 10 Antes 140 165 160 160 175 190 170 175 155 160 Después 145 150 150 160 170 175 160 165 145 170 Reducción -5 15 10 0 5 15 10 10 10 -10 Tabla 4.4: datos utilizados en el ejemplo de contraste para datos apareados Como las variables están relacionadas, todos los cálculos que realizamos en el caso de datos independientes ya no son válidos. Para evitar este problema nos centraremos en una sola variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva variable D que suponemos que tiene una distribución Normal de media µd desviación típica σd . La hipótesis de interés es ahora que, en promedio, el tratamiento aplicado a los individuos es 0, es decir, µd = 0. El contraste es ahora exactamente igual que el descrito para la media de una población Normal (ahora la población de las diferencias. 323 Describimos a continuación el contraste para muestras pequeñas y varianza desconocida para datos apareados. Llamaremos d , a la media muestral de las diferencias y Sˆ d a la cuasi desviación típica. El contraste se muestra en el cuadro 4.17. Hipótesis: H0 :µ d = 0 Ha :µd ! 0 Nivel de significación: α Estadígrafo de contraste: t = ˆ Sd d n Distribución del estadígrafo cuando h0 es cierta: tn-1 Región de aceptación: {t / t ! t n "1,# } Región critica: {t / t > t n !1," } Cuadro 4.17: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados. El resto de los contrastes se construye de la misma manera que en el caso de una sola población. El cuadro 4.18 muestra ejemplo. Hipótesis: H0 :µ d = 0 Ha :µd ! 0 Nivel de significación: 5% y 1% 6 = 2.250 Estadígrafo de contraste: t = 8.433 10 Distribución del estadígrafo cuando h0 es cierta: t9 Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250 p-valor : 0,0510 Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación, por tanto aceptamos la hipótesis nula. Conclusión no estadística: Con los datos de los que disponemos no existe una evidencia significativa de que exista una diferencia entre la presión sistólica antes y después de haber dejado de beber. Cuadro 4.18: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al ejemplo de la reducción de la tensión arterial en alcohólicos. 324 4.5.3.8 Árbol de decisiones para la comparación de medias de dos poblaciones normales. La figura siguiente muestra de forma esquemática el proceso de decisión por el tipo de contraste a utilizar en poblaciones normales. 325 4.5.3.9 Contraste para la comparación de la tendencia central cuando las poblaciones no son normales En muchas situaciones prácticas es difícil aceptar la hipótesis previa de que los datos son normales al disponerse, por ejemplo, de distribuciones muy asimétricas. En estos casos los contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones, debido a que la dispersión es muy grande o debido a que la medida de tendencia central utilizada (la media) no es la correcta porque está afectada por los valores extremos. Los contrastes paramétricos descritos antes son especialmente sensibles a valores extremos de la variable. Para solucionar el problema se utiliza la mediana en lugar de la media construyéndose los que se denominan contrastes no paramétricos al no referirse ya a parámetros de una distribución concreta. Me1 x1 x2 Me2 En la figura se muestra como para distribuciones asimétricas es mucho más intuitiva la comparación de las medianas que la comparación de las medias, ya que estas están afectadas por los valores muy extremos de la distribución. La situación del esquema es muy típica, por ejemplo, en problamas médicos en los que la mayoría de los controles (curva de la izquierda) presentan valores normales de la variable, y solamente algunos de ellos presentan valores elevados, en el grupo de los pacientes enfremos, la mayoría presenta valores elevados y solamente alguno presenta valores normales. El problema es particularmente crítico cuando el tamaño de muestra es pequeño pero, incluso cuando el tamaño de muestra es grande y se utiliza erróneamente el contraste paramétrico 326 correspondiente, se subestima el tamaño del efecto a pesar de que la distribución normal esté correctamente utilizada aplicando el Teorema Central del límite. La práctica habitual, especialmente en el ámbito médico, de aplicar contrastes no paramétricos cuando la muestra es pequeña y paramétricos cuando es grande es claramente errónea y puede llevar a no encontrar efectos experimentales que aparecen claramente definidos en los datos. Para la comparación de medianas de dos poblaciones con datos independientes el contraste más utilizado es el conocido como U de Mann-Withney, está basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste básicamente en calcular todas las ordenaciones posibles con muestras de los mismos tamaños en el caso de que las medianas fueran iguales, para comprobar el percentil en el que se encuentra nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estén mezclados y las sumas de rangos de orden sean similares en amos grupos. El resto del razonamiento es similar al de cualquier contraste, si el valor muestral obtenido es muy probable aceptamos la hipótesis nula y si no la rechazamos. Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hipótesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes. Comparación de medianas de dos poblaciones con datos independientes: el contraste U de Mann-Withney Está basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste básicamente en calcular la distribución muestral a partir de todas las ordenaciones posibles con muestras de los mismos tamaños en el caso de que las medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estén mezclados y las sumas de rangos de orden sean similares en ambos grupos. 327 HIPOTESIS: H 0 : Me1 = Me 2 H a : Me1 " Me 2 (Me 1 ! Me 2 = 0) (Me 1 ! Me 2 " 0) ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2) n (n + 1) U = min(U 1 , U 2 ) U i = n 1n 2 + i i ! Ri 2 n n U! 1 2 2 n 1 n 2 (n 1 + n 2 + 1) 12 Para muestras grandes: Z = DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribución empírica o N(0,1) para muestras grandes. REG. DE ACEP.: inf {U / U!;n ,n sup 1 2 REGION CRITICA: " U " U !;n ,n 1 2 } {Z / 2 1 2 Z ! z " /2 } {U / U ![U inf";n ,n ; Usup ";n ,n ]} {Z / 1 Z > z ! /2 } Comparación de medianas de dos poblaciones con datos apareados: el test de Wilcoxon Contrasta la hipótesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes. HIPOTESIS: H 0 : Me d = 0 H a : Me d ! 0 ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones positivas y negativas.(T+ y T-) T = min(T+ , T! ) 328 Para muestras grandes: Z = n(n + 1) 4 n(n + 1)(2n + 1) 24 T! DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribución empírica o N(0,1) para muestras grandes. sup inf " T " T!;n } {T / T!;n sup inf REGION CRITICA: {T / T ![T";n ; T";n ]} REG. DE ACEP.: {Z / Z ! z " /2 } {Z / Z > z ! /2 } 4.5.3.10 Comparación de varias poblaciones. Introducción al problema de las comparaciones múltiples. En muchas situaciones experimentales se dispone de r >2 poblaciones a comparar. La primera aproximación al problema es la comparación de todas la parejas de medias, sin embargo, la propia construcción del procedimiento de contraste hace que la probabilidad de error no se mantenga al realizar todas las comparaciones por parejas. Supongamos que disponemos de r poblaciones y queremos contrastar la hipótesis de que todas las medias son iguales H0 :µ1 = … = µ i =… = µr i, j La hipótesis es cierta si y solo si las hipótesis por parejas H0 :µ i = µ j para todas ! r $ r(r & 1) las k = # = combinaciones posibles de i y de j. " 2% 2 Si contrastamos la hipótesis por separado a un nivel de significación α, tenemos P(Aceptar H i,0 j / Hi,0 j Si las comparaciones fueran independientes cierta ) = 1 ! " 329 P(Aceptar H0 / H0 cierta ) = P( ! Aceptar i!j Hi,0 j / H0 cierta ) = cierta ) = (1# $ )k " P(Aceptar Hi,0 j / Hi,j 0 i!j es decir, la probabilidad de cometer un error tipo I es P(Re chazar = 1 ! P(Aceptar H0 / H0 / H0 H0 cierta ) = cierta ) = 1 ! (1 ! ") k # " Por ejemplo, para tres poblaciones en las que se realizan comparaciones 3 individuales al 5%, hay una probabilidad de 1 ! 0.95 = 1! 0.8574 = 0.1426 de rechazar la hipótesis nula indebidamente. Con 5 poblaciones la probabilidad sería 1 ! 0.9510 = 1! 0.5987 = 0.4013 . Con 10 poblaciones 1 ! 0. 95 45 = 1 ! 0. 0994 = 0. 9006 , es decir, con 10 poblaciones, aunque todas las medias fueran iguales tendríamos una probabilidad del 90% de encontrar diferencias en alguna de las parejas. Este problema es importante no solo en la comparación de medias por parejas sino también cuando se quieren realizar muchas comparaciones sobre el mismo conjunto de datos. Supongamos, por ejemplo, que un investigador desea demostrar que es capaz de encontrar diferencias entre personas convictas por algún tipo de delito y personas que no. A tal fin realiza 100 medidas biométricas como el perímetro torácico, el perímetro craneal, etc.... que compara en los dos grupos. En cada comparación tiene una probabilidad del 5% de rechazar indebidamente, sin embargo (si las medidas fueran independientes) tendría una probabilidad del 99,41% de encontrar diferencias en alguna de las variables. El número esperado de contrastes significativos sería de 5. El problema de mantener el nivel de significación global en la comparación de las medias de varios grupos se soluciona mediante la técnica denominada Análisis de la varianza seguido de las comparaciones por parejas en las que se hace algún tipo de corrección en el nivel de significación individual. 330 4.5.3.11 Validación de las hipótesis de partida. A lo largo de los distintos puntos de la descripción de los contrastes básicos hemos ido haciendo una serie de suposiciones que no hemos verificado como son las hipótesis de normalidad o de igualdad de varianzas (homocedasticidad) de las poblaciones. La validación de estos supuestos se ha dejado para el final aunque debe realizarse previamente a la aplicación de los procedimientos de contraste. Existen muchos métodos que permiten la validación de la hipótesis de normalidad, desde los más formales consistentes en nuevos contrastes cuya hipótesis nula es la hipótesis de que los datos proceden de una distribución Normal, hasta simples procedimientos descriptivos como el histograma o el Box-Plot que nos permiten decidir si la distribución es aproximadamente simétrica o Normal y si la dispersión de los grupos en estudio es aproximadamente la misma. Los procedimientos de contraste de comparación de medias suelen ser robustos con respecto a la hipótesis de normalidad aunque muy sensibles a la presencia de outliers (datos anormalmente grandes o pequeños). En las representaciones Box-plot de los grupos a comparar buscaremos la simetría de lo grupos y, sobre todo, la presencia de observaciones extrañas en los extremos de la distribución. La figura 4.19 muestra el gráfico con los Box-Plots correspondientes al ejemplo de las denominaciones de origen, que hemos analizado previamente Figura 4.26: Box plot para la comparación del grado alcohólico de las 331 denominaciones de Ribera y Toro. El gráfico muestra como no hay observaciones muy extremas, las dos distribuciones tienen aproximadamente la misma dispersión y la correspondiente a la denominación de origen de Toro parece más asimétrica. La asimetría podría ser debida simplemente a que el tamaño muestral es muy pequeño en este grupo. En líneas generales parece que las hipótesis se verifican y es posible aplicar el contraste par la igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales. Para contrastar más formalmente que las varianzas son iguales se puede construir un contraste muy simple teniendo en cuenta la distribución del cociente de varianzas basado en el cociente de las distribuciones ji-cuadrado asociadas. El cociente (n1 ! 1) "12 (n1 ! 1) F == (n 2 ! 1)Sˆ 22 " 22 (n2 ! 1) Sˆ 21 " 22 = ˆ2 2 S2 "1 sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad. Si la hipótesis nula H0 :!12 = !22 es cierta, el cociente de cuasi-varianzas Sˆ 2 muestrales F = 12 sigue una distribución F de Snedecor con n1-1 y n2-1 grados de Sˆ 2 libertad. 332 El contraste completo aparece en el cuadro 4.19. Hipótesis: H0 :!12 = !22 Ha :!12 " ! 22 Nivel de significación: α Sˆ 2 Estadígrafo de contraste: F = 12 Sˆ 2 Distribución del estadígrafo cuando h0 es cierta: F n1 !1, n 2 !1 { } Región de aceptación: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ] { } Región critica: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ] * Cuadro 4.19: Contraste de comparación de las varianzas de dos poblaciones normales. Para el ejemplo de la comparación del grado alcohólico en las dos denominaciones de origen consideradas el contraste de comparación de varianzas se muestra en el cuadro 4.20. Hipótesis: H0 :!12 = !22 Ha :!12 " ! 22 Nivel de significación: α = 5% y 1% Sˆ12 Estadígrafo de contraste: F = 2 = 0.686 Sˆ 2 Distribución del estadígrafo cuando h0 es cierta: F n1 !1, n 2 !1 p-valor : 0.6261 Conclusión : Se acepta la hipótesis nula. Cuadro 4.20: Contraste de comparación de las varianzas de dos poblaciones normales aplicado a la comparación de la variabilidad del grado alcohólico. Como se acepta la hipótesis de igualdad de varianzas, la comparación de medias ha de hacerse en el supuesto de que las varianzas son iguales. El valor F n !1,n !1, 1!" /2 es el valor crítico que deja a la derecha un área de 1 ! " / 2 . En la 1 2 práctica puede calcularse como F n !1,n !1, 1!" /2 = 1 F n !1, n !1, " / 2 1 2 2 1 * 333 5 Quinta Unidad Didáctica "TABLAS DE CONTINGENCIA" 5.1 Parte básica 334 5.1.1 Introducción La existencia de distintas pruebas estadísticas es consecuencia, en parte, de las distintas escalas de medida que se utilizan para tratar las variables objeto de una determinada investigación. Los investigadores de distintos campos utilizan de modo habitual variables medidas en escala nominal y pasan buena parte de su tiempo clasificando y contando individuos. Así por ejemplo cualquier individuo puede ser clasificado en categorías (varón, mujer; enfermo, sano; ausencia, presencia; soltero, casado, viudo, separado). El resultado de tales clasificaciones da lugar a lo que en la terminología estadística se le conoce como tablas de contingencia o tablas de frecuencias. Tablas de contingencia son tablas de variables aleatorias cualitativas cuyos datos están recogidos en forma de tablas de frecuencias. El objetivo de este capítulo es: El estudio de diversas cuestiones en relación a variables aleatorias cualitativas cuyos datos estén recogidos en forma de tablas de frecuencias: Tablas de contingencia. En esencia se pueden a abordar varios tipos de problemas: 1) Test de bondad de ajuste a distribuciones: Para comprobar si nuestros datos muestrales se ajustan a un determinado modelo teórico. (Ejemplo: ¿Sigue la estatura media de los españoles una ley normal?) 2) Test de homogeneidad de varias muestras cualitativas: Contraste para probar si varias muestras de un carácter cualitativo proceden de igual población. (Ejemplo: ¿Es la proporción de parados en España la misma que en el resto de los países Europeos?) 335 3) Test de asociación: Para comprobar si dos o mas características cualitativas están relacionadas entre sí. (Ejemplo: ¿Está la intención de voto, a un determinado partido político, relacionada con el sexo?). En el desarrollo del capítulo nos vamos a centrar en este último tipo de contrastes. 5.1.2 Nociones generales útiles para su resolución El denominador común a estos objetivos es que su tratamiento estadístico está basado en la misma distribución teórica: la distribución Ji- cuadrado. El test ji-cuadrado es el estadístico más apropiado para variables categóricas. Antes de comenzar al desarrollo de los contrastes señalados hemos de sentar unas ideas que nos permitirán abordar el estudio con mayor facilidad de comprensión. En toda tabla de contingencia (sea cual sea el objetivo perseguido) podemos distinguir varios elementos comunes: Frecuencias observadas: número de individuos de nuestra muestra que pertenece a una de las categorías en las que hemos dividido a nuestra variable aleatoria (Oi). Frecuencias esperadas: Número de individuos en nuestra muestra que cabría esperar en cada categoría si alguna hipótesis nula de partida fuera cierta (Ei). EJEMPLO 5.1: Supongamos una muestra de 100 individuos de una población en los que estamos estudiando el estado civil. Esta variable aleatoria puede tener cuatro categorías: soltero, casado, viudo y divorciado. Supongamos que el número de individuos en 336 nuestro estudio ha sido: 50 casados, 30 solteros, 15 viudos y 5 divorciados, estos números representan nuestras frecuencias observadas. Solución: Nuestra hipótesis de partida (H0) podría ser que las cuatro categorías están igualmente representadas. En este caso cabría esperar que nuestra muestra constara de 25 individuos en cada casilla, que se corresponden con nuestras frecuencias esperadas. frecuencia Observada Solteros Casados Viudos Divorciados 30 50 15 5 25 25 25 25 frecuencia Esperada Está claro que si nuestra H0 fuera cierta las frecuencias observadas y las esperadas discreparían poco y, serían muy diferentes en caso contrario. Se nos plantea entonces un problema: ¿Cómo medir las discrepancias?. La forma más simple de medir divergencias entre ambas magnitudes sería efectuar la diferencia entre ambas (foi -fei ), en todas y cada una de las casillas de la tabla y, obtener, de este modo, una magnitud que: si es grande nos hará pensar en rechazar la hipótesis de partida, y si es pequeña en aceptarla. En realidad el estadístico con el que vamos a trabajar se basa en esta idea, si bien tiene algunas correcciones (no trabaja con diferencias sino con diferencias al cuadrado, para evitar problemas de signos, y trabaja con discrepancias normalizadas, obteniéndolas en valores relativos). Estadígrafo de contraste: !2 = # i (fo i " fe i )2 fei foi= Frecuencia observada para la i-ésima categoría fei= Frecuencia esperada para la i-ésima categoría 337 El siguiente problema que se nos plantea: ¿qué entendemos por magnitud grande? Necesitamos un criterio uniforme para declarar rechazos o aceptaciones. Pearson nos soluciona este problema demostrando que el estadígrafo de contraste propuesto seguía un modelo teórico: Una Ji-cuadrado con (r-1)(s-1) grados de libertad, cuando la hipótesis nula se verificaba. (Siendo r= nº de filas de la tabla y s= nº de columnas de la tabla). De este modo el criterio de decisión ya está establecido, declararemos rechazo, es decir declararemos diferencias grandes, cuando nuestro valor del estadígrafo experimental supere al valor crítico encontrado en la tabla de la distribución Ji-cuadrado con esos grados de libertad, al nivel de significación elegido. Recuérdese que un valor crítico no es más que un valor de la variable aleatoria que sólo es superado por un porcentaje pequeño, preestablecido de antemano, de individuos cuando la hipótesis nula es cierta 5.1.3 Test de asociación en tablas de contingencia Es frecuente el problema de estudiar conjuntamente dos variables en los mismos individuos y preguntarse si existe algún tipo de relación entre ellas, es decir si los valores que tome una de ellas van a condicionar de algún modo los valores que tome la otra. Cuando las dos variables son cuantitativas hemos visto que son las técnicas de regresión y correlación las que nos permiten resolver el problema, pero estas técnicas dejan de ser válidas cuando las dos variables en estudio son cualitativas. Este apartado pretende dar solución a dicha situación. Para resolver este problema vamos a explicarlo mediante un ejemplo. 338 EJEMPLO 5.2: Supongamos cuatro tratamientos (Ai) que se piensa efectivos para curar una determinada enfermedad, estos tratamientos se aplican a enfermos de dicha enfermedad y se anota el tipo de respuesta que presentan (Bj). La respuesta se clasifica en tres posibles clases: "peor", "igual", "mejor". Ejemplo tomado de MARTÍN ANDRÉS, A. et al. (1995). Peor Igual mejor TOTAL Trat 1 7 f11 28 f12 115 f13 150 f1. Trat 2 15 f21 20 f22 85 f23 120 f2. Trat 3 10 f31 30 f32 90 f33 130 f3. Trat 4 5 f41 40 f42 115 f43 160 f4. 37 f .1 118 f.2 405 f.3 560 f.. TOTAL fi. = Total fila i f.j = Total columna j f.. = Gran total Solución: Disponemos de nuestra tabla de frecuencias observadas, se necesita establecer una hipótesis de partida que nos permita el cálculo de las correspondientes frecuencias esperadas. La hipótesis de la que se parte es la hipótesis de independencia, es decir vamos a suponer que ambos caracteres no están relacionados (no están asociados). Si denotamos: Ai= Suceso de que un individuo pertenezca a la clase i de A Bj= Suceso de que un individuo pertenezca a la clase j de B Podemos escribir las hipótesis como: Ho: Los caracteres A y B son independientes ó bien los caracteres A y B no están relacionados ó los caracteres A y B no están asociados Ha: Son dependientes, relacionados, ó asociados 339 En nuestro ejemplo: Ho: El tipo de tratamiento no condiciona la respuesta del individuo. Ha: Si condiciona. Si ambas características son independientes podemos escribir las hipótesis de la siguiente forma: ( ) ( ) Ha:P( Ai ! Bj ) # P( Ai ) P( Bj ) en alguna ocasión Ho:P Ai ! B j = P(A i ) P B j "i, j Es decir bajo el supuesto de independencia, y sólo en este supuesto, la probabilidad de la intersección de dos sucesos es el producto de probabilidades de ambos sucesos Obtención de las feij: Como en todo test Ji-cuadrado necesitamos las cantidades esperadas bajo el supuesto de que H0 se verifique. Fijémonos en una cualquiera de ellas por ejemplo en la E21: Cantidad de individuos que habiendo recibido el tratamiento 2 empeoran supuestas ambas independientes. Si Ho es cierta: fe 21 = f .. P(A2 )P(B1 ) Para su cálculo necesitamos P(A2) , es decir la probabilidad de los individuos a recibir el tratamiento 2, y la P(B1) es decir la probabilidad de los individuos de empeorar. Nótese que en la fórmula aparecen, ademas de estas dos probabilidades el total global. El total global es necesario para pasar de probabilidades a frecuencias Ambas probabilidades son desconocidas pero estimables a partir de la tabla (casos favorables entre casos totales). A los correspondientes estimadores de las probabilidades les vamos a denotar con: pˆ ij ˆp(A2 ) = 120 f 2. = 560 f.. ˆp(B1 ) = 37 f.1 = 560 f .. 340 f f. f f fe 21 = f .. Pˆ (A2 ) Pˆ (B1 ) = f .. 2. 1 = 2. .1 = 7.93 f.. f .. f .. De donde se desprende la regla general que nos permitirá calcular la frecuencia esperada de cualquiera de las casillas de la tabla: feij= (Total fila i-ésima)(Total col. j-ésima)/Total global Sin más que aplicar esta fórmula general obtendremos la tabla de frecuencias esperadas: Trat 1 Trat 2 Trat 3 Trat 4 TOTAL Peor 7 9.91 15 7.93 10 8.59 5 10.57 37 Igual 28 31.61 20 25.28 30 27.39 40 33.72 118 mejor 115 108.48 85 86.79 90 94.02 115 115.71 405 TOTAL 150 120 130 160 560 Obtención de la cantidad experimental: Para medir las discrepancias entre ambas utilizamos el estadígrafo de contraste adecuado que como veíamos era: ! 2exp = ## i j ( foij " fe ij) 2 fe ij En nuestro ejemplo concreto este valor resulta ser: 2 ! exp = (7 " 9.91)2 9. 91 +... + (115 "115. 71)2 15. 71 = 13.87 Ya sabemos que valores grandes nos llevaran a rechazar la hipótesis de independencia, y los pequeños a aceptarla. Sabemos también que la regla de decisión está clara pues basta con buscar el valor crítico en la tabla de la Ji-cuadrado ( con los grados de libertad adecuados, y al nivel de significación deseado, 5% por ejemplo), y 341 comparar nuestro valor experimental con él. Declararemos significación siempre que el valor experimental supere el valor crítico. H 2 ! exp ""o# ! $2 , % ! = (r "1)(s " 1) = 2x3 = 6 ! 0.2 05,6 = 12. 59 12.59<13.87 , por tanto Rechazo Ho En nuestro caso concreto son 6 los grados de libertad y 12.59 el valor crítico. El valor experimental, 13.87, supera al valor crítico. Conclusión: El tipo de tratamiento condiciona el tipo de respuesta encontrada en el paciente. No podemos suponer independencia de las dos variables en estudio. En resumen, los pasos a seguir en este tipo de análisis son: 1º Cálculo individual de las frecuencias esperadas que cabría esperar si H0 fuera cierta. La hipótesis de la que partiremos es siempre la de independencia entre las dos variables, ya que sólo bajo este supuesto conocemos la distribución del estadígrafo de contraste (distribución ji-cuadrado de Pearson) 2 2º Cálculo de los componentes individuales de ! , es decir cálculo de las divergencias entre observadas y esperadas para cada casilla. 3º Suma de los valores obtenidos en el apartado anterior y obtención , de esta forma, del valor experimental de nuestro estadígrafo de contraste. 4º Determinación de los grados de libertad de la forma (r-1)(s-1) 2 5º Obtención del valor crítico en la tabla de la distribución ! con los grados de libertad correspondientes y decidir si el estadístico calculado en el paso 3º excede este valor crítico con p=0.05 o bien con p=0.01 6º Concluir en consecuencia. Es decir, hablar de que existe o no asociación entre ambas variables según el valor experimental exceda o no al valor crítico. 342 "TABLAS DE CONTINGENCIA" 5.2 Ampliación 343 5.2.1 Aspectos de interés. 5.2.1.1 Tipo de contraste - Se trata de un contraste unilateral superior y esto es así siempre que trabajemos con tablas de contingencia (sea cual sea el objetivo a cubrir), se debe a la forma del estadígrafo empleado. Si fuera bilateral rechazaríamos H0 para valores muy grandes y muy pequeños del estadígrafo de contraste, pero valores pequeños, se interpretan como gran parecido entre ambos tipos de frecuencias. Por tanto no nos interesa rechazar en los dos sentidos, sino sólo en el caso de valores anormalmente grandes. 5.2.1.2 Tablas poco ocupadas - Una problemática ampliamente tratada en los libros de texto es el de las tablas poco ocupadas o tablas con valores de frecuencias próximos a cero. Cuando nos encontremos en esta situación hay que estar prevenidos porque representan un problema de posible incremento en el riesgo tipo I. Se recomienda tenerlo en cuenta para frecuencias menores o iguales a 5. Si observamos la fórmula del estadígrafo de contraste podemos ver cómo las frecuencias esperadas van en el denominador. Frecuencias pequeñas nos darán, al ir el en denominador, valores altos en el estadígrafo de contraste, lo que nos llevará, con mayor probabilidad, a rechazar la Ho, aunque sea cierta. Es decir, a un serio incremento en el riesgo tipo I ó probabilidad de rechazar indebidamente la Ho. 5.2.1.3 Causas de la significación - El test empleado nos mide discrepancias a nivel global, pero no nos informa acerca de dónde están las discrepancias. Basta que en una sola casilla de la tabla se den grandes discrepancias para obtener valores experimentales grandes que nos llevarán a rechazar la hipótesis, por tanto ante una magnitud grande no podremos saber si sólo una, dos o todas las casillas discrepan. Necesitamos un procedimiento posterior que nos ponga de manifiesto dónde están realmente las discrepancias: Búsqueda de las causas de la significación. 344 5.2.2 Búsqueda de las causas de la significación Cuando un test ! 2 da no significativo, es decir aceptamos la H0 de independencia entre las variables, el problema acaba ahí, pero, si la significación se produce, lo inmediato es intentar localizar la causa de la misma. La idea ahora es la descomponer la tabla original en subtablas que nos expliquen 2 las causas de la significación. Para ello nos basamos en la propiedad aditiva de la ! . 5.2.2.1 Propiedad aditiva de la Ji-cuadrado 2 La propiedad aditiva de la ! dice: ! "21 + ! 2" 2 = ! "21 + " 2 Es decir: si tenemos dos variables aleatorias que siguen respectivamente un modelo teórico Ji-cuadrado con !1 y !2 grados de libertad, la suma de las dos nos da otra variable aleatoria que sigue un modelo Ji-cuadrado con la suma de los grados de libertad de las de partida. 5.2.2.2 Búsqueda de las causas de la significación El modo de partir la tabla original no es único y sólo el análisis detallado de los datos nos dará las pautas a seguir. Para el desarrollo de este apartado utilizaremos el ejemplo visto con los alumnos, dado que allí la conclusión a la que se llegaba era la de relación entre ambas variables. La primera idea que se nos ocurre para analizar la situación es saber lo que contribuye cada casilla al valor experimental (recordar que el rechazo se obtenía para valores grandes de éste y, que bastaba que una casilla tuviera grandes discrepancias para producirse este hecho). De esta manera calcularemos la tabla de contribuciones, donde los valores de cada casilla se obtienen como: 345 (fo i ! fe i )2 fe i En nuestro caso concreto: Tabla de contribuciones Peor 0.85 6.31 0.23 2.94 Trat 1 Trat 2 Trat 3 Trat 4 Igual 0.41 1.11 0.25 1.17 mejor 0.39 0.04 0.17 0.00 TOTAL 1.65 7.46 0.65 4.11 13.87 Donde el primer elemento de la primera columna se ha obtenido como: (7 ! 9.91) 2 9.91 = 0.85 El primer elemento de la segunda columna como: (28 ! 31.61)2 31.61 = 0.41 etc. El análisis de la tabla nos sugiere que el principal responsable de la significación es el tratamiento 2 con una contribución total de 7.46, superior a la de los otros 3 conjuntamente. Esto parece sugerir que los tratamientos 1,3,4 son homogéneos entre si (la respuesta es independiente de estos tratamientos) y difieren del 2. De ahí que intentemos realizar estos dos contrastes: Primero: Los tratamientos 1,3,4 son homogéneos Segundo: Los tratamientos anteriores difieren del 2 Para llevar a cabo el primero de ellos construimos una subtabla en la que hemos de eliminar el tratamiento 2 (el aparentemente responsable de la significación): T1 PEOR 7 IGUAL 28 MEJOR 115 TOTAL 150 346 T3 T4 TOTAL 10 5 22 30 40 98 90 115 320 130 160 440 En dicha tabla realizaremos el contraste de independencia del mismo modo a como lo hicimos en la tabla original, con la esperanza de que en este caso la conclusión sea la de aceptar la Ho (lo que sugiere la observación de los datos). Ahora las frecuencias esperadas no van a coincidir con el primer supuesto ya que los marginales de columnas son distintos (hemos eliminado a los enfermos tratados con el segundo de los tratamientos), tampoco coincidirá el valor experimental ni los grados de libertad de la tabla. Siguiendo los pasos enunciados en el ejercicio de los alumnos obtenemos para este caso: 2 ! exp = 5. 04 que hemos de comparar con el correspondiente valor crítico de la tabla en este caso con 4 grados de libertad, que resultó ser en este caso 2 ! 4;0.05 = 9.488 Concusión: ACEPTO Ho : HOMOGENEIDAD Como era de esperar hemos llegado a la conclusión de que estos tres tratamientos eran igualmente efectivos. Por tanto no se trata de tres tratamientos distintos sino de uno sólo que llamaremos a partir de ahora tratamiento (1+3+4). Para llevar a cabo el segundo de los contrastes, que nos ponga de manifiesto que es el tratamiento 2 el que difiere del resto necesitamos construir otra subtabla en la que se disponga de la información que nos interesa, es decir el tratamiento 2 y el tratamiento (1+3+4). 347 PEOR 15 22 37 T2 T(1+3+4) Total IGUAL 20 98 118 MEJOR 85 320 405 Total 120 440 560 Realizado el contraste de independencia en esta subtabla obtenemos: 2 ! exp = 9.488 que hemos de comparar con un valor crítico, correspondiente a esta 2 situación, con 2 grados de libertad. Dicho valor es: ! 2;0.05 = 9.21 La conclusión a la que llegamos es pues: Rechazo la H0 de independencia entre la respuesta y los dos tratamientos el 2 ó cualquiera de los otros. Obsérvese que la descomposición realizada de la tabla original es lícita puesto que se verifica la propiedad aditiva de la Ji-cuadrado. Hemos obtenido dos subtablas en la que las sumas de sus grados de libertad (4 y 2 respectivamente) coinciden con los grados de libertad de la tabla de partida (6). En resumen lo que hemos hecho es: Variación g.l. ! 2exp. significación 4 5.04 No 2 9.48 ** 6 14.52 - 6 13.87 ** tratamientos 1,3,4 tratamientos 2 y (1+3+4) Sumas tratamientos 1,2,3,4 Con esta descomposición hemos probado que el tratamiento 2 difiere del resto como parecía intuirse de la tabla de contribuciones, pero esta afirmación, aunque válida no deja de ser incompleta ya que nada nos dice de en qué sentido es diferente, dicho de otra forma, difiere el tratamiento 2 del resto porque es peor o porque es mejor. Faltaría, 348 pues, descomponer la última tabla que nos dio significativa, y que tenía dos grados de libertad, en otras dos subtablas de 1 grado de libertad cada una para saber el sentido de las diferencias. Un esquema global de los pasos pueden verse en la figura 5.1. P I M T1 P T1 I M T3 I M T4 T2 P T3 T4 NS I M T2 NS T1+T2+T3 T2 * P (I+M) T1+T2+T3 T2 * T1+T2+T3 Figura 5.1: Esquema de descomposición de la tabla de contingencia de partida para la búsqueda de la significación 349 5.2.3 Paradoja de Simpson Supongamos que se realiza un experimento para comparar un nuevo tratamiento para cierta enfermedad con el tratamiento estándar para esa enfermedad. En el experimento se tratan 80 individuos que padecen la enfermedad, 40 recibieron el nuevo tratamiento y 40 recibieron el estándar. Después de un tiempo se observa cuantos de los individuos de cada grupo han mejorado y cuantos no. Supongamos que los resultados fueron: TODOS LOS PACIENTES MEJORAN NO MEJORAN NUEVO TRATAMIENTO 20 20 TRAT. ESTÁNDAR 24 16 De acuerdo con la tabla, 20 de los 40 individuos que reciben el nuevo tratamiento mejoraron y 24 de los 40 individuos que recibieron el estándar mejoraron. Por tanto el 50% de los individuos mejoraron con el nuevo tratamiento, mientras que el 60% de los individuos mejoraron con el tratamiento estándar. El nuevo tratamiento parece inferior al tratamiento estándar. Para investigar la eficacia del nuevo tratamiento más a fondo, se podría comparar con el tratamiento estándar sólo para los hombres de la muestra y separadamente sólo para las mujeres. Podríamos pues desagregar esta tabla en otras dos subtablas: la de hombres y la de mujeres. Supóngase que tenemos información suficiente para construir estas subtablas y que el resultado es el siguiente: SOLO HOMBRES MEJORAN NO MEJORAN NUEVO TRATAM 12 18 TRAT. ESTÁNDAR 3 7 SOLO MUJERES MEJORAN NO MEJORAN NUEVO TRATAM 8 2 TRAT. ESTÁNDAR 21 9 350 Obsérvese que si agregamos de nuevo las dos subtablas obtendríamos de nuevo la tabla de partida. Sin embargo, el análisis de las subtablas nos pone de manifiesto algo sorprendente, ya que el nuevo tratamiento parece ser más efectivo que el estándar tanto en hombres como en mujeres. Específicamente, el 40% de los hombres (12 de cada 30) que reciben el nuevo tratamiento mejoraron, pero sólo el 30% de los hombres (3 de cada 10) que recibieron el estándar mejoraron. Además el 80% de las mujeres (8 de cada 10) que recibieron el nuevo tratamiento mejoraron pero sólo el 70% de ellas (21 de cada 30) que recibieron el tratamiento estándar mejoraron. Está claro que la tabla inicial y las subtablas proporcionan resultados contradictorios. De acuerdo con la primera el tratamiento estándar es mejor para todos pero con las subtablas, el nuevo es superior, para hombres y para mujeres. A este tipo de resultados se le conoce como paradoja de Simpson. La paradoja de Simpson no es realmente una paradoja, sólo es un resultado que sorprende y confunde cuando no se ha observado antes. Se puede ver en la subtabla correspondiente a mujeres que éstas tienen una tasa de recuperación de la enfermedad mayor que la de los hombres, independientemente del tratamiento que reciban. Además, entre los 40 hombres de la muestra, 30 recibieron el nuevo tratamiento y sólo 10 el estándar, mientras que para las mujeres estos números son justamente al revés. Por tanto aunque los números de hombres y de mujeres en el experimento fueron iguales, una alta proporción de mujeres y una baja proporción de hombres recibieron el tratamiento estándar. Puesto que las mujeres tienen una tasa de recuperación mayor, se encuentra en la tabla agregada que el tratamiento estándar manifiesta una mayor tasa global de recuperación que el nuevo tratamiento. La paradoja de Simpson demuestra de una forma drástica los peligros de realizar inferencias a partir de tablas agregadas. Para estar seguros de que la paradoja no está presente en un experimento las proporciones de relativas de hombres y de mujeres entre los individuos que reciben el nuevo tratamiento debe ser aproximadamente la misma, así como las proporciones relativas de hombres y de mujeres entre los individuos que reciben el tratamiento estándar. La posibilidad de la paradoja subyace en cualquier tabla de contingencia. Aún cuando se tuviera cuidado al diseñar un experimento particular de forma que no pudiera 351 ocurrir la paradoja cuando se desagrega para hombres y mujeres, siempre es posible que exista alguna otra variable, como la edad de los individuos o la intensidad y grado de avance de la enfermedad, con respecto a la cual la desagregación podría conducir a una conclusión directamente opuesta a la indicada por la tabla agregada.