Análisis de Datos I Esquema del Tema 17c Tema 17c): Introducción al contraste de hipótesis 1. LA LÓGICA DEL CONTRASTE DE HIPÓTESIS Hipótesis estadística Contrastes unilaterales y bilaterales Nivel de confianza, nivel de significación y nivel crítico El proceso de decisión en 5 pasos 2. CONTRASTES DE HIPÓTESIS PARA UNA MUESTRA Contraste sobre la media, μ Contraste sobre la correlación, ρ __________________ Bibliografía: Tema 14 (pág. 361-372) y Tema 15 (pág. 379-387) Carmen Ximénez 1 Análisis de Datos I Esquema del Tema 17c EL CONTRASTE DE HIPOTESIS La lógica del contraste de hipótesis general se concreta en una enorme cantidad de técnicas particulares. Cada técnica ha sido desarrollada para ser empleada en un escenario específico, es decir, a las hipótesis referidas a un determinado parámetro, con unos determinados supuestos distribucionales y en unas circunstancias concretas. En la asignatura Análisis de Datos II se expondrá una variedad de estas técnicas, elegidas por ser algunas de las más empleadas en Psicología. En este tema vamos a exponer tres de las más sencillas, para que el estudiante se vaya familiarizando con ellas y para que pueda ir aplicándolas en los contextos en los que sean pertinentes. En este documento se ofrece un esquema general de los pasos que se deben dar en un Contraste de Hipótesis y luego se exponen tres técnicas concretas, como ilustración de su aplicación. Las dos primeras se refieren al Contraste de Hipótesis sobre la media poblacional (µ), mientras que la tercera se refiere al Contraste de Hipótesis sobre la independencia lineal entre dos variables (ρ = 0). El estudiante debe prepararse para ir rellenando una tabla como la que aparece al final, en la que deberá ir incluyendo cada técnica estudiada. Pasos en el Contraste de Hipótesis Lo expuesto en el documento anterior nos permite especificar el esquema de los cinco pasos que se deben dar en un Contraste de Hipótesis de la siguiente forma: 1) Establecer las Hipótesis. Indicando la Hipótesis Nula y la Alterativa. 2) Especificar los Supuestos que se van a asumir, incluyendo supuestos distribucionales, de muestreo, de información conocida, etc. 3) Elegir un Estadístico de Contraste apropiado, especificando su distribución muestral cuando se asume como verdadera H0 y los supuestos indicados y calcularlo. 4) Establecer una Regla de Decisión, bilateral o unilateral, basada en el nivel de significación (α) específico que se haya adoptado. 5) Adoptar la Decisión y conclusión. Carmen Ximénez 2 Análisis de Datos I Esquema del Tema 17c Contraste de hipótesis sobre la media, conocida σ Para contrastar hipótesis sobre el valor de una media vamos a distinguir dos casos: aquellos en los que se conoce la varianza poblacional, σ2, y aquellos en los que no se conoce. Aunque el primer caso es muy infrecuente en la práctica, por razones didácticas se suele exponer en primer lugar. El procedimiento consiste, como ya hemos dicho en aplicar el esquema habitual con los siguientes pasos: 1) Hipótesis. Si se trata de un contraste bilateral, éstas serán de la forma, H0: µ = µ0 H1: µ ≠ µ0 2) Supuestos. - La población se distribuye N(µ, σ) o la muestra es suficientemente grande como para asumir la normalidad basándonos en el Teorema Central del Límite. - La media muestral se ha obtenido sobre una m.a.s. - Conocemos σ. 3) Estadístico de Contraste y su distribución bajo H0 verdadera. Z= X − μ0 ~ N(0, 1) σ N 4) Regla de Decisión, basada en el nivel de significación (α) adoptado. Rechazar si Z ≥ 1-α/2z ó Z ≤ α/2z No rechazar si α/2z < Z < 1-α/2z 5) Decisión y Conclusión. Ejemplo 1. Supongamos que queremos contrastar la hipótesis de que la media poblacional en una determinada variable, X, es igual a 100, sabiendo que la varianza poblacional es igual a 64. Para ello extraemos una m.a.s. de 25 observaciones y calculamos su media aritmética en X, que resulta ser igual a 103. Establecemos un nivel de significación (α) de 0,05. 1) Hipótesis. H0: µ = 100 H1: µ ≠ 100 2) Supuestos. (Adviértase que en el problema no se especifica nada sobre la dirección de la diferencia entre 100 y la media poblacional real, en caso de ser falsa H0, por lo que se realiza un contraste bilateral) - La población se distribuye N(µ, 8) - La población se distribuye N(µ, 8) - Se trata de una m.a.s. - Conocemos σ 3) Estadístico de Contraste. En las condiciones indicadas, Z= X − μ0 103 − 100 = = 3,125 ; donde Z ~ N(0, 1) σ 8 N 25 4) Regla de decisión. Rechazar si Z ≥ 1,96 ó Z ≤ -1,96 No rechazar si -1,96 < Z < 1,96 5) Decisión y Conclusión. Como 3,125 > 1,96 rechazamos H0. Concluimos que la evidencia aconseja rechazar, según la regla de decisión adoptada, la hipótesis de que la media poblacional sea igual a 100. 3 Carmen Ximénez Análisis de Datos I Esquema del Tema 17c Contraste de hipótesis sobre la media, desconocida σ Con mucha frecuencia nos encontraremos en una situación como la anterior pero con la diferencia de que no conoceremos la varianza poblacional, σ2. Es decir, queremos contrastar si la media poblacional es un cierto valor y podemos asumir la normalidad de la población (o se trata de una muestra grande) y que la media se ha obtenido en una m.a.s. Si la única diferencia con el escenario anterior es que no conocemos la varianza poblacional (algo bastante razonable, dado que será raro que no conozcamos µ y en cambio conozcamos σ) entonces podemos recurrir a un estadístico similar al anterior, pero en el que en lugar de aparecer σ en el denominador aparece su estimador S (la desviación típica de la muestra). aunque en ambos casos la distribución es la misma: tN-1. El esquema, muy similar al del caso anterior, es el siguiente, 1) Hipótesis. H0: µ = µ0 H1: µ ≠ µ0 2) Supuestos. - La población se distribuye N(µ, σ) o la muestra es suficientemente grande como para asumir la normalidad basándonos en el TLC. - La media muestral se ha obtenido sobre una m.a.s. - Desconocemos σ. 3) Estadístico de Contraste. T= X − μ0 X − μ0 o T= ~ tN-1 S N −1 SN N N -1 4) Regla de Decisión. Rechazar si T ≥ 1-α/2tN-1 ó T ≤ α/2tN-1 No rechazar si α/2tN-1 < T < 1-α/2tN-1 5) Decisión y Conclusión. Ejemplo 2. Supongamos que queremos contrastar la hipótesis de que la media poblacional en una determinada variable, X, es igual a 80. Extraemos una m.a.s. de 81 observaciones y en ella obtenemos que su media es 75,8 y su varianza ( S N2 −1 ) es igual a 236. Establecemos un nivel de significación (α) de 0,01. 1) Hipótesis. H0: µ = 80 H1: µ ≠ 80 2) Supuestos. - La población se distribuye N(µ, σ) - Se trata de una m.a.s. - Desconocemos σ. 3) Estadístico de Contraste. T= X − μ0 75,8 − 80 = = -2, 461 ; donde T ~ t80 S N −1 15,36 81 N 4) Regla de decisión, con el nivel de significación adoptado (α = 0,01), Rechazar si T ≥ 2,639 ó T ≤ -2,639 No rechazar si -2,639 < T < 2,639 5) Decisión y Conclusión. Como el valor obtenido (-2,461) está entre ± 2,639 Mantenemos H0. La evidencia aconseja no rechazar, según la regla de decisión adoptada, la hipótesis de que la media poblacional sea igual a 80; la evidencia observada es compatible con ella. Carmen Ximénez 4 Análisis de Datos I Esquema del Tema 17c Contraste de hipótesis sobre la correlación de Pearson El caso que exponemos aquí es única y exclusivamente aquel en el que queremos contrastar si la correlación de Pearson poblacional es 0. Los contrastes sobre cualquier otro valor exigen otros elementos que se expondrán en la asignatura de Análisis de Datos II. No obstante, el contraste del valor 0 es, con mucho, el más interesante y el que con mayor frecuencia se emplea. Se trata de contrastar la independencia lineal entre dos variables; es decir, si la correlación poblacional (ρ) es igual a 0. Para ello necesitamos especificar un escenario en el que podamos definir un Estadístico de Contraste con una distribución conocida con la que establecer la regla de decisión. El escenario buscado es el que se resume en el siguiente esquema, en el que se llega a un Estadístico de Contraste que bajo hipótesis nula verdadera se distribuye t de Student con N – 2 grados de libertad (tN-2). 1) Hipótesis. H0: ρ = 0 H1: ρ ≠ 0 2) Supuestos. - Las dos variables a las que se refiere la correlación son normales. - La correlación muestral, rxy, se ha obtenido sobre una m.a.s. de pares de valores de X e Y. 3) Estadístico de Contraste. T= rxy N - 2 1 − rxy2 ~ tN-2 4) Regla de Decisión. Rechazar si T ≥ 1-α/2tN-2 ó T ≤ α/2tN-2 No rechazar si α/2tN-2 < T < 1-α/2tN-2 5) Decisión y Conclusión. Ejemplo 3. Supongamos que queremos contrastar si a nivel poblacional las variables X e Y son linealmente independientes. Extraemos una m.a.s. de 62 observaciones y en ella obtenemos una correlación de 0,28. Por estudios anteriores sabemos que podemos asumir que se trata de variables normales. Establecemos un nivel de significación (α) de 0,05. 1) Hipótesis. H0: ρ = 0 H1: ρ ≠ 0 2) Supuestos. - Ambas variables se distribuyen Normalmente en la población. - Se trata de una m.a.s. 3) Estadístico de Contraste. T = rxy N - 2 1 − rxy2 = 0 , 28 62 - 2 1 − 0 , 28 2 = 2 , 259 ; donde T ~ t60 4) Regla de Decisión. Rechazar si T ≥ 2,000 ó T ≤ -2,000 No rechazar si -2,000 < T < 2,000 5) Decisión y Conclusión. Como 2,259 no está entre ± 2,000, Rechazamos H0. La evidencia aconseja rechazar, según la regla de decisión adoptada, la hipótesis de que en la población estas variables sean linealmente independientes; la evidencia observada no es compatible con ella. 5 Carmen Ximénez