CAPÍTULO 24 EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS1 ANGUSTIAS VALLECILLOS avalleci@ugr.es Universidad de Granada A pesar de las numerosas referencias a problemas derivados del uso incorrecto de los contrastes de hipótesis estadísticas o de interpretaciones incorrectas de sus resultados por parte de investigadores experimentales en diversas áreas, el mundo de la educación, como posible origen de los problemas denunciados, ha permanecido hasta el momento de espaldas a esta realidad. En este artículo incluimos una recopilación de trabajos de investigación sobre el aprendizaje de estos temas en diversos niveles de enseñanza. También presentamos un resumen de los resultados obtenidos en una amplia investigación llevada a cabo por la autora con el fin de realizar una evaluación comprensiva del aprendizaje de los contrastes de hipótesis por estudiantes universitarios. Señalamos algunas dificultades y errores de aprendizaje que pueden estar en el origen de los problemas denunciados y que la enseñanza deberá tener en cuenta con el fin de mejorar tanto la enseñanza de la estadística inferencial como sus aplicaciones. También describimos las concepciones de los estudiantes sobre los conceptos clave en los contrastes de hipótesis estadísticas. Se incluye un resumen de los aspectos teóricos y epistemológicos para ayudar al lector a ubicar más fácilmente los resultados descritos. INTRODUCCIÓN Existen numerosas referencias de investigación acerca de los usos incorrectos de los tests de significación en la investigación experimental o de interpretaciones erróneas de sus resultados, especialmente en el campo de la Psicología. A modo de resumen citamos el libro de Morrison y Henkel (1970) y la polémica mantenida por Menon, Bourke, Clements y Rowley en el número 5 de la revista Mathematics Education Research Journal. Hasta tal punto se ha abusado de ellos que incluso, su uso o no, se 1. Versión española ampliada de la ponencia invitada presentada en la 52nd Session of the International Statistical Institute, celebrada del 10 al 18 de Agosto de 1999 en Helsinki, Finlandia. En Gómez, P., y Rico, L. (Eds.). Iniciación a la investigación en didáctica de la matemática. Homenaje al profesor Mauricio Castro. Granada: Editorial Universidad de Granada. 340 ANGUSTIAS VALLECILLOS ha empleado como criterio para seleccionar los trabajos a publicar en algunas revistas especializadas (Melton, citado por Bakan, 1970, p. 236). En (Thompson, 1996) encontramos nuevas propuestas de reforma de los usos de los tests de significación y la política editorial de las revistas editadas por AERA al respecto. También podemos encontrar una gran cantidad de tales referencias en la siguiente dirección de internet: http://acs.tamu.edu/~bbt6147/. Muy recientemente, Poitevineau (1998) describe un estudio sobre la metodología del análisis de datos experimentales en este campo, volviendo sobre el tema del uso y abuso de los tests de hipótesis en el área de la psicología experimental. En otro orden de cosas, la naturaleza del propio razonamiento inductivo ha sido importante objeto de estudio por filósofos y filósofos de la ciencia durante siglos. También su relación con el tipo de razonamiento usado en la inferencia estadística ha sido analizada y continua siéndolo en la actualidad (Rivadulla, 1991; Moses, 1992). Las implicaciones para la enseñanza de las evidentes dificultades de tipo epistemológico del tema apenas han sido tenidas en cuenta (Vallecillos, 1995b). Sin embargo, sólo muy recientemente la investigación educativa está prestando alguna atención a la enseñanza de la estadística inferencial como posible origen de muchos de los problemas denunciados, que están relacionados con sus aplicaciones en casos concretos en diversos ámbitos. En menor medida aún, se están llevando a cabo investigaciones experimentales que puedan poner de manifiesto los previsibles problemas de enseñanza, dificultades de aprendizaje, errores, posibles planificaciones incorrectas de la enseñanza de los temas inferenciales, etc. Algunos problemas detectados en la enseñanza de la estadística inferencial en el nivel universitario tienen su origen en los niveles previos de escolaridad en donde se introducen los conceptos estadísticos básicos (MEC, 1990 (LOGSE); Cockcroft, 1982; NCTM, 1989). De esta manera se hace patente la necesidad de atender también la mejora de la enseñanza desde los comienzos, esto es, desde el nivel introductorio elemental en la enseñanza primaria y secundaria. En Vallecillos (1998a) se hacen algunas propuestas generales para mejorar la enseñanza de la estadística inferencial en los distintos niveles de enseñanza. En este trabajo pretendemos sintetizar algunos de los resultados de investigación publicados que se refieren a dificultades de aprendizaje de los alumnos relacionados con el tema en los distintos niveles de enseñanza, principalmente en el nivel universitario (Vallecillos, 1999). Su objetivo fundamental es mostrar a los profesores implicados en la enseñanza de estos temas las evidencias empíricas obtenidas hasta el momento acerca de problemas de aprendizaje de nuestros estudiantes, con el fin de concienciarles de la necesidad de prestarles una mayor atención así como de integrar en la docencia los resultados de la investigación específica (Vallecillos, 1997a; 1998a). Con el fin de facilitar la lectura del texto y ubicar mejor los resultados de las investigaciones citadas en el mismo, se han incluido dos apartados introductorios: el primero, contiene un breve resumen de los apartados teóricos del contraste de hipótesis estadísticas y las referencias de consulta precisas; el segundo, ilustra brevemente acerca de un aspecto de la inferencia estadística que tradicionalmente ha sido descuidado: su estrecha relación con la inducción y los problemas que históricamente ha planteado la validación del conocimiento adquirido inductivamente. EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 341 LOS TESTS DE HIPÓTESIS Y SU ENSEÑANZA En síntesis, en la teoría clásica sobre el contraste de hipótesis (Zaks, 1981, DeGroot, 1988), una hipótesis paramétrica es una afirmación acerca de un parámetro ϕ desconocido de una variable aleatoria en una determinada población. Usualmente solemos referirnos a ella como hipótesis nula H 0 :ϕ ∈ Θ 0 . Asociada a esta hipótesis también se considera la hipótesis alternativa H 1 :ϕ ∈ Θ – Θ 0 , siendo Θ el conjunto de posibles valores que puede tomar el parámetro o espacio paramétrico. Consideraremos en lo que sigue solamente el caso en que la hipótesis nula es simple H 0 :ϕ = ϕ 0 y nos referiremos sólo a los aspectos básicos de los tests de hipótesis cuya comprensión es necesaria para su aplicación con fines prácticos en el entorno universitario en el que desarrollamos nuestra investigación. Un contraste de hipótesis es un procedimiento de decisión entre dos hipótesis estadísticas H0 y H1 a partir de la observación de una muestra x = (x1, x2,...., xn) de valores de la variable aleatoria. Para llevarlo a cabo se utiliza un estadístico Ψ(x), que es una variable aleatoria función de los valores muestrales, cuya distribución es conocida, dependiente del parámetro. El conjunto de posibles valores del estadístico, supuesto que se verifica la hipótesis nula H0, se divide en dos regiones complementarias, denominadas región de aceptación A y región de rechazo o crítica C. Una vez observado el valor particular del estadístico en la muestra, la hipótesis nula H0 se acepta si este pertenece a la región A y se rechaza si pertenece a C. La aplicación de un procedimiento de contraste de hipótesis puede dar lugar a dos clases de errores diferentes: rechazar la hipótesis nula cuando es verdadera, llamado error de tipo I, y aceptarla cuando es falsa, llamado error de tipo II. Aunque no es posible saber con seguridad si hemos cometido uno de estos errores en un caso dado, se puede determinar la probabilidad de cometer un error de tipo I en función del valor ϕ del parámetro mediante la función de potencia del contraste ℘(ϕ) = P(rechazar H0 ϕ) En el caso particular ϕ = ϕ 0 , tendremos la probabilidad de rechazar H0 con el criterio elegido, supuesto que H0 sea cierta, esto es, la probabilidad de error de tipo I, que se conoce como nivel de significación del contraste. α = P(rechazar H0 ϕ 0 ) = P(rechazar H0 H0 cierta) La probabilidad del suceso contrario, aceptar la hipótesis H0, también puede expresarse en función del parámetro ϕ : β(ϕ) = P(aceptar H0 ϕ ) 342 ANGUSTIAS VALLECILLOS En este caso, y siempre que ϕ sea distinto del valor supuesto ϕ 0 , se comete un error de tipo II. Esto es, en el caso de una hipótesis nula simple, mientras que la probabilidad de error de tipo I es constante, α , la probabilidad de error de tipo II es una función del parámetro desconocido. Por último, teniendo en cuenta que los dos sucesos aceptar y rechazar la hipótesis son complementarios, sus probabilidades respectivas están relacionadas por la expresión siguiente: α = 1 – β ( ϕ0 ) Resumiendo, una hipótesis estadística no es mas que una afirmación con respecto a alguna característica desconocida de una población de interés. En ese caso, como hemos visto, la esencia del contraste de hipótesis es decidir si la misma se encuentra apoyada o no por la evidencia experimental obtenida mediante una muestra aleatoria. La decisión de admitir que los datos muestrales “soportan” la hipótesis estadística o no, se toma basándose en una probabilidad y cuando esta es mínima la hipótesis es rechazada. Para DeGroot (1988) la teoría de los tests de hipótesis se desarrolla según la siguiente metodología: ante un problema de test de hipótesis el experimentador tiene solamente dos decisiones: aceptar la hipótesis nula H0 o rechazarla, pero comprendiendo siempre que esta decisión, como toda decisión tomada en un proceso inferencial, está sujeta a error. La decisión de rechazar H0 no significa que H0 sea necesariamente falsa, sino que la evidencia que hemos obtenido de su verosimilitud a partir de una muestra aleatoria es tan escasa que, en la práctica, podemos operar como si H0 fuera falsa. La metodología de los tests de hipótesis solamente permite, pues, tomar una decisión de entre dos posibles: aceptar o rechazar la hipótesis nula. A pesar de esto “también es cierto, sin embargo, que la metodología de contraste de hipótesis se aplica en muchas situaciones en las que el experimentador esta interesado principalmente en conocer la verosimilitud de que la hipótesis H0 sea cierta y en las que no necesariamente tiene que elegir una de dos decisiones” (DeGroot, 1988, p. 471). Esto ha llevado al desarrollo de una cierta metodología del contraste de hipótesis, aplicada en muchos campos de la estadística, basada en la determinación de un nivel de significación mínimo α 0 tal que la hipótesis nula H0 sea rechazada para cualquier α superior y aceptada para cualquiera inferior. Esta metodología ha inducido en diversas ramas de la ciencia, una concepción basada en la creencia de que α 0 mide la probabilidad de error en la decisión tomada. Aunque el experimentador este interesado en determinar la probabilidad de que la hipótesis H0 sea cierta debe subrayarse que esta probabilidad no se puede calcular mediante la metodología de contraste de hipótesis que se ha tratado en esta sección. El área de la cola o el valor p que se calcula a partir de la muestra observada no proporciona, por si misma una idea de la probabilidad de que H0 sea cierta, aunque en ocasiones el valor p se malinterpreta de esta manera. De hecho, los experimentadores afirman, a veces incorrectamente, que el rechazo de H0 con un nivel de significación específico α indica que la probabilidad de que H0 sea cierta es menor que α 0 . Esta interpretación no es correcta. Para poder determinar la pro- EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 343 babilidad de que H0 sea cierta es experimentador debe adoptar un enfoque bayesiano, (DeGroot, 1988, p. 474) Es claro, pues, que en esta teoría no caben consideraciones acerca de la probabilidad de que ninguna de la hipótesis puestas en juego sea cierta o no. A pesar de la claridad con que esto es expuesto en la enseñanza del tema, es llamativo que un altísimo porcentaje de los estudiantes participantes en nuestra investigación experimental (Vallecillos, 1994) cree que, mediante un contraste de hipótesis estadísticas correctamente realizado, es posible demostrar la verdad de la hipótesis como si se tratara de una deducción lógica o una demostración matemática (Vallecillos, 1995a, 2000). INFERENCIA CIENTÍFICA Y TEST DE HIPÓTESIS La inferencia estadística ha jugado un papel relevante, aunque discutido (Morrison y Henkel, 1970), como herramienta capaz de proporcionar conocimiento científico. En el proceso de inferencia, como proceso de paso de unas afirmaciones dadas a nuevos enunciados, intervienen fundamentalmente dos tipos de razonamiento: deductivo e inductivo. El razonamiento lógico por excelencia es el deductivo que, a partir de premisas verdaderas obtiene una conclusión necesariamente verdadera. Por el contrario, en el razonamiento inductivo, la conclusión es una afirmación más general que las premisas, siendo por tanto posible su falsedad, aunque estas sean ciertas. En síntesis, el problema lógico de la inducción o problema de Hume, tan largamente debatido por los filósofos, surge de la aparente incompatibilidad entre el principio fundamental del empirismo, según el cual la aceptación y el rechazo de las teorías científicas debe depender de resultados observacionales y experimentales, y el principio de invalidez de la inducción, según el cual no pueden hacerse inferencias válidas de observaciones singulares a principios generales. La aparente contradicción se resuelve admitiendo la posibilidad de efectuar inferencias falseadoras, esto es, de la constatación de las observaciones a la falsedad de la teoría: de la búsqueda de un contraejemplo a la falsedad de la teoría (Popper, 1967). Para hacer compatibles el principio de invalidez de la inducción con el hecho de la existencia de conocimiento científico, el problema de la inducción debe ser replanteado en términos de “preferir racionalmente una teoría frente a otras con las que se encuentra en competencia” (Rivadulla, 1991, p. 26). Una de las soluciones posibles aportadas históricamente al problema de Hume ha sido tratar de debilitar la conclusión en el razonamiento inductivo recurriendo a la probabilidad. Si no es posible conseguir garantías de certeza para la conclusión, al menos sería deseable tener algún tipo de probabilidad para la misma (Black, 1979). Sin embargo las aportaciones en este sentido que ha hecho la inferencia estadística hasta la fecha tampoco han supuesto la solución al problema histórico de la inducción, como en algún momento se ha supuesto. Respecto al contraste de hipótesis, tanto en el sentido de Fisher como en el de Neyman-Pearson, no proporcionan un tipo de inferencia inductiva de la muestra a la población, sino una inferencia deductiva de la población de posibles muestras obteni- 344 ANGUSTIAS VALLECILLOS das de la población a la muestra particular obtenida en cada caso (Rivadulla, 1991). Para Fisher un test es sólo un criterio de clasificación de los resultados experimentales en dos clases; los que muestran una evidencia en contra de la hipótesis contrastada (resultados estadísticamente significativos) y los que no. En la teoría de NeymanPearson un test de hipótesis estadísticas es una regla de conducta inductiva o criterio de decisión probabilístico que permite aceptar o rechazar una hipótesis con unos riesgos asumidos de antemano (Lehmann, 1993). Una vez tomada la decisión no conocemos la probabilidad de error a posteriori. Las probabilidades de error de tipos I y II son probabilidades a priori. La confusión en este sentido es el error señalado por autores como Falk (1986) o Falk y Greenbaum (1995) y también ha sido encontrado en las respuestas de los alumnos participantes en nuestra propia investigación experimental (Vallecillos, 1994). Además de las referencias citadas en este brevísimo planteamiento de cuestiones epistemológicas relacionadas con el tema que nos ocupa, para estudiar este tema con un poco más de detalle puede consultarse (Vallecillos, 1995b). ESTUDIOS SOBRE EL APRENDIZAJE DE LA ESTADÍSTICA INFERENCIAL Sin pretender ser exhaustivos, recogemos a continuación los resultados publicados de investigaciones sobre el aprendizaje de contenidos de estadística inferencial en distintos niveles de enseñanza. La intención es mostrar la diversidad de problemas encontrados, aún teniendo en cuenta la relativamente escasa investigación educativa específica sobre la cuestión. Hemos clasificado los resultados según grandes bloques que se desprenden de nuestra propia investigación experimental sobre el aprendizaje de los contrastes de hipótesis en estudiantes universitarios (Vallecillos, 1994). Poblaciones y muestras En primer lugar citaré las conocidas investigaciones de Kahneman, Slovic y Tversky (1982) acerca de las heurísticas de razonamiento que emplean los sujetos para manejar situaciones de incertidumbre y tomar decisiones en ellas. Por ejemplo, la heurística de la representatividad, tiene una gran importancia por su incidencia en la selección de muestras adecuadas para los estudios en los que se usa la estadística inferencial. Pollatsek y cols. (1984) describen también problemas relacionados con el intento de combatir desde la enseñanza, por ejemplo, el tipo de razonamiento conocido como falacia del jugador, intentando cambiar el modelo que emplean los estudiantes en sus razonamientos. El intento resulta infructuoso ya que los estudiantes no parecen tener un modelo para el trabajo con muestras aleatorias y por tanto es imposible cambiarlo. Lavoie y Caillé (1986) han estudiado la comprensión del concepto probabilístico y estadístico de población y determinado distintos niveles y subniveles de comprensión del mismo. EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 345 Rubin y cols. (1990) han llevado a cabo una investigación para analizar la variabilidad y representatividad muestral como importantes conceptos contrapuestos y el uso de heurísticas en razonamientos de tipo inferencial. Concluyen con la afirmación de la dificultad del análisis que supone el razonamiento inferencial para los alumnos ya que estos tienen modelos inconsistentes de relación entre poblaciones y muestras, incluso en situaciones cuyo modelo matemático es el más sencillo posible. Jacobs (1996) ha realizado dos estudios experimentales con niños, encaminados a investigar la comprensión informal de conceptos relacionados con muestreo y la estadística inferencial en un contexto de interpretación y evaluación de resultados de encuestas. Concluye lo mismo afirmando la gran dificultad que supone la evaluación de la comprensión de los niños, si bien algunos niños demuestran comprensión de algunos conceptos inferenciales. Lógica del proceso de contraste de hipótesis Brewer (1986) informa de una investigación realizada con el fin de probar su hipótesis de que son los libros de texto y la literatura estadística utilizada en las ciencias del comportamiento los principales causantes de los errores de aprendizaje y de las aplicaciones incorrectas de la estadística inferencial. Brewer (1989) propone el uso de analogías para la enseñanza de la lógica del proceso de contraste de hipótesis. Afirma que ésta puede ser comparada con la demostración por reducción al absurdo y también con el proceso de declaración de inocencia o culpabilidad en un juicio legal. Falk y Greenbaum (1995) presentan una crítica de la estructura lógica de los tests de hipótesis estadísticas y analizan las posibles causas de la persistencia en el uso de los mismos en la investigación experimental en el campo de la Psicología, a pesar de los numerosos problemas denunciados. En particular, sugieren la existencia de profundas razones psicológicas que inducen a creer a las personas que se enfrentan a situaciones en las que interviene el azar, que minimizan su incertidumbre cuando obtienen un resultado significativo. Describen la ilusión de la prueba probabilística por contradicción, o creencia errónea en que la hipótesis nula se convierte en improbable cuando se obtiene un resultado significativo. En nuestra propia investigación, hemos podido constatar que muchos estudiantes no consiguen captar correctamente la lógica de un proceso que permite decidir entre dos hipótesis estadísticas usando un criterio no estrictamente subjetivo sino basado en datos obtenidos de una muestra aleatoria de una población de referencia. Por ejemplo, muchos estudiantes creen que el test de hipótesis correctamente realizado demuestra la veracidad de la hipótesis nula como si de un procedimiento deductivo se tratara. En nuestra investigación aparecen claramente diferenciadas cuatro concepciones (Artigue, 1990) diferentes acerca del tipo de validación de la hipótesis que proporciona un contraste (Vallecillos, 1995a; Vallecillos, 1996a; 2000). Concepción del contraste como una regla de decisión. El contraste no establece la verdad de la hipótesis, sino sólo una regla de decisión para aceptar una de la dos 346 ANGUSTIAS VALLECILLOS hipótesis investigadas. Estos estudiantes se aproximan así a la teoría del contraste presentada por Neyman y Pearson. Como Lehmann (1993, p. 1243) señala: La introducción de Neyman-Pearson a los dos tipos de error contenía una frase corta que se convirtió mas tarde en el foco del debate: Sin aspirar a conocer, escriben los autores, cuando cada una de las hipótesis es verdadera o falsa, podemos buscar reglas que gobiernen nuestro comportamiento con respecto a ellas, de tal manera que aseguremos que, en la experimentación a la larga no estemos equivocados demasiado a menudo. Y en este y los siguientes párrafos se refieren a los tests (i.e., una regla para rechazar o aceptar la hipótesis) como una regla de comportamiento. Concepción del contraste como procedimiento para obtener soporte empírico para la hipótesis investigada. Para estos estudiantes el contraste de hipótesis no establece la verdad de la hipótesis, sólo si está apoyada o no por la evidencia experimental obtenida usando una muestra aleatoria. Esta concepción de la lógica del proceso de contraste está próxima a la mantenida por Fisher. Éste consideró la Estadística como la ciencia de las inferencias inciertas, capaz de proporcionar la clave al largo debate histórico del problema de la inducción. Pero, como él mismo expresó: Aunque algunas inferencias inciertas pueden ser expresadas en términos de probabilidad matemática estrictamente, no puede deducirse que la probabilidad matemática es un concepto adecuado para la expresión propia de cualquier inferencia incierta.... Todas las inferencias de la teoría clásica de la probabilidad son de naturaleza deductiva. Son proposiciones sobre el comportamiento de individuos o muestras o series de muestras tomadas de poblaciones que son totalmente conocidas. (Fisher, 1935, p. 39) Neyman y Fisher consideraron ambos la distinción entre “comportamiento inductivo” e “inferencia inductiva” el centro de su desacuerdo (Lehmann, 1993). Concepción del contraste como prueba probabilística de la hipótesis. La “ilusión de la prueba probabilística por reducción al absurdo” aparece claramente como ha sido descrita por Falk y Greenbaum (1995), esto es, la creencia en que el contraste de hipótesis proporciona como resultado la probabilidad a posteriori de la hipótesis, dependiendo de los datos obtenidos. Estos estudiantes hacen una generalización abusiva (Artigue, 1990) de sus conocimientos sobre el tipo de demostración llamado “por reducción al absurdo’, que es válido en razonamientos de tipo deductivo. Este conocimiento se ha convertido aquí en un obstáculo para comprender correctamente la lógica del contraste hipótesis estadísticas. Esta concepción esta relacionada también con la interpretación incorrecta del nivel de significación como probabilidad a posteriori de la hipótesis, dependiendo de los datos obtenidos, esto es, el error descrito por Birnbaum (1982) y Falk (1986). Concepción del contraste como prueba matemática de la verdad de la hipótesis. Estos estudiantes esperan que, ya que están usando un procedimiento matemático, obtendrán de él una única solución posible, que será la demostración de una de las EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 347 dos hipótesis. En este caso, como en el anterior, se da también una generalización abusiva de la demostración por reducción al absurdo. Nivel de significación Diaconis y Freedman (1981) reconocen dificultades en la discriminación entre las dos probabilidades condicionales P(A B) y P(B A) y llaman a esta confusión falacia de la condicional traspuesta. Esta dificultad incide en la compresión del nivel de significación de los contrastes que, como sabemos, está definido mediante una probabilidad condicional. Falk (1986) sugiere que, en el caso particular del nivel de significación, que es una probabilidad condicional bien definida, la ambigüedad verbal en la expresión “error de Tipo I”, que es una expresión no condicionada, puede provocar confusión entre los estudiantes, que pueden creer que están trabajando con la probabilidad de un suceso simple. Menon (1993), afirma que la expresión “error de Tipo I” induce la idea de un solo suceso y, además, que la gente tiende a olvidar que están trabajando con una probabilidad condicional, que necesariamente envuelve dos sucesos. Esta situación induce a error cuando se interpreta el nivel de significación en términos de la conjunción de los dos sucesos, “la hipótesis nula es cierta” y “la hipótesis nula es rechazada”, de alguna de las dos maneras siguientes: • la hipótesis nula es cierta y después es rechazada; o • la hipótesis nula es rechazada y después es encontrada cierta. Otros autores, como Oakes (1986) y Pollard y Richardson (1987) describen errores también en la interpretación de tests estadísticos en investigadores y personas con conocimientos estadísticos. Análogamente, White (1980) señala multitud de errores relacionados con la creencia de la conservación del valor del nivel de significación α cuando se realizan contrastes sucesivos sobre los mismos datos, esto es, el llamado “problema de las comparaciones múltiples”. Williams (1997, 1998) ha llevado a cabo una investigación experimental con 18 estudiantes universitarios de un curso de estadística a nivel introductorio para analizar su comprensión del concepto de nivel de significación. Les propuso tareas de tipo conceptual y la realización de dos problemas tipo con el fin de analizar el conocimiento de tipo procedimental. En sus conclusiones afirma que “el conocimiento de la mayoría de los estudiantes sobre el nivel de significación era limitado. Sin embargo, la definición correcta y la descripción precisa de su papel en el proceso de toma de decisión parecía estar asociado con una mejor aplicación del procedimiento” y que “el estudio pone de manifiesto muchos problemas de los estudiantes asociados con el conocimiento del concepto” (Williams, 1998, p. 748). En nuestro propio trabajo hemos encontrado una gran variedad de interpretaciones del concepto de nivel de significación, hasta quince distintas, y la mayor parte de ellas incorrectas. Estas no se limitan al intercambio entre los dos sucesos que intervienen en la definición de (descrito por Falk y Greenbaum (1995), sino que abarcan mucha mayor variedad y están asociadas a diversas interpretaciones incorrectas, por 348 ANGUSTIAS VALLECILLOS ejemplo, de la probabilidad condicional que lo define o del resultado del test (Vallecillos, 1996b, 1998b). Sin embargo, para estos estudiantes, las explicaciones dadas por Falk y Greenbaum (1995) a los mecanismos psicológicos que producen las concepciones erróneas sobre el nivel de significación no pueden ser aplicados. En particular, mostramos que estudiantes que entienden correctamente las probabilidades condicionales también malinterpretan el significado del nivel de significación y que sus interpretaciones incorrectas se relacionan con errores conceptuales ligados a otros conceptos implicados en los contrastes de hipótesis estadísticas. Estos estudiantes no tienen en cuenta la naturaleza aleatoria de las muestras y no relacionan la distribución muestral con las regiones crítica y de aceptación y el nivel de significación. Nosotros hemos encontrado otra posible causa que puede explicar esta interpretación incorrecta del nivel de significación concreta que consiste en el intercambio de los dos sucesos que intervienen en la definición del mismo. Esto es, la que consiste en tomar como α la probabilidad de que la hipótesis nula sea cierta una vez que ha sido rechazada, P (H 0 cierta rechazada H 0 ) ≠ α . En efecto, esta interpretación errónea del nivel de significación ha sido descrita con anterioridad y relacionada con la incomprensión del concepto de probabilidad condicional implicado (Falk, 1986), pero, en nuestra opinión, encuentra mejor explicación en relación con una interpretación incorrecta del resultado del contraste, aquella que lleva a creer que éste demuestra la verdad de la hipótesis nula como si de un procedimiento deductivo se tratara (Vallecillos y Batanero, 1997). Esto nos señala, a su vez, una interrelación fuerte entre las concepciones erróneas sobre el concepto de nivel de significación y las de la lógica global del proceso no analizada hasta el momento ni tenida en cuenta en la enseñanza (Vallecillos, 1998a). En particular podemos determinar entre los estudiantes que han participado en nuestra investigación, además de los que manifiestan un conocimiento correcto del concepto de nivel de significación, tres principales concepciones incorrectas: Nivel de significación como probabilidad condicional referida a alguna de las hipótesis. Se pone de manifiesto en las respuestas de los alumnos que conservan la idea de probabilidad condicional en la definición del nivel de significación, pero cambiando los sucesos condición y condicionado o ambos. Incluye la confusión que acabamos de describir anteriormente como caso particular. Nivel de significación como probabilidad simple de la hipótesis nula. La manifiestan los alumnos que interpretan el nivel de significación como probabilidad no condicional de la hipótesis nula, tanto en el caso de aceptación como de rechazo. Nivel de significación como probabilidad de error. Incluimos aquí las respuestas que se refieren a α como la probabilidad de error, tanto si se asocia a la hipótesis nula como a la alternativa e indistintamente si se acepta o se rechaza cualquiera de ellas. Estadístico y parámetro. Distribución muestral del estadístico Schuyten (1991) informa de la dificultad que supone para los estudiantes la utilización simultánea de conceptos con diferentes niveles de concreción. Por ejemplo, la EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 349 media de la muestra, la de la población y la de la distribución muestral de medias se utilizan simultáneamente en inferencia y estas tienen diferentes niveles de abstracción que confunden y complican el trabajo de los alumnos. También informa de otras dificultades adicionales reseñables como son el uso de un lenguaje formal (notación empleada incorrectamente, a veces en conceptos cuya comprensión se manifiesta correcta y, al revés, notación adecuada con manifestación de una comprensión incorrecta del concepto); el manejo de tablas y las representaciones gráficas. En las respuestas de los estudiantes participantes en nuestra investigación hemos encontrado frecuentemente el error de confundir la media muestral x con la media poblacional µ . Esta es la manifestación concreta de un error bien conocido por los profesores, el de confundir conceptos teóricamente bien diferenciados como el de estadístico muestral con el de parámetro poblacional. Con la información escrita proporcionada por los estudiantes en sus respuestas al cuestionario propuesto, es tarea poco menos que imposible el averiguar las posibles causas de este error tan generalizado. En una entrevista realizada posteriormente a un grupo seleccionado de estudiantes se les preguntó específicamente por la interpretación dada y la notación empleada para referirse a estos conceptos. Hemos podido constatar que, al menos en los casos analizados, no se trata de un problema de uso incorrecto de la notación adecuada para cada concepto, sino al hecho de no tomar en consideración las distintas medias y distribuciones implicadas, en concreto la distribución muestral del estadístico (Vallecillos y Batanero, 1997). Comprensión del papel de las hipótesis en los contrastes El establecimiento de hipótesis adecuadas a la situación de que se trate, que den respuesta al problema que se intenta resolver, es, evidentemente, crucial y básico. Sin embargo, esta cuestión que es el primer paso en la resolución de un problema de contraste de hipótesis y en las aplicaciones de todos los procesos de contraste, presenta grandes dificultades de comprensión para los estudiantes que no logran identificar cuáles serían las hipótesis adecuadas en cada caso, no comprenden el papel que juegan en el proceso o confunden las hipótesis nula y alternativa (Vallecillos, 1997b). En particular, además de los estudiantes que manifiestan una concepción correcta, hemos determinado tres concepciones principales sobre el papel que desempeña la hipótesis nula en un contraste: Hipótesis nula como hipótesis a demostrar. Una parte importante de los alumnos han manifestado una concepción de la hipótesis nula que se asemeja más a un enunciado a demostrar que a una opción a elegir entre las dos posibles en un problema de decisión. Esta concepción parece claramente ligada a la suposición de que el contraste de hipótesis estadísticas es un procedimiento deductivo que finaliza con la demostración de la verdad de la hipótesis nula. Hipótesis nula referida indistintamente a la población o a la muestra. En este caso, aunque las hipótesis que se plantean en un contraste se refieren siempre a una población determinada, los datos con los que se trabaja pertenecen a una muestra de la misma. Los estudiantes confunden frecuentemente la población y la muestra y plantean hipótesis que se refieren a esta última. 350 ANGUSTIAS VALLECILLOS Hipótesis nula referida a una única población o a un único parámetro. Esto es, los alumnos manifiestan una concepción muy restrictiva de los tipos de hipótesis admisibles. Sin embargo, creemos que, en este caso, puede haber razones de tipo didáctico que expliquen la situación dado que los ejemplos empleados en clase y los textos utilizados ponen el énfasis en estos casos. En muchos casos, hemos observado, además, la ocurrencia del fenómeno de compartimentalización entre los conocimientos de tipo conceptual y procedimental. Muchos alumnos manifiestan conocimientos de tipo conceptual correctos que no aplican en la resolución de los problemas propuestos aunque, en otros casos, se ve la influencia que los errores de tipo conceptual tienen en la resolución de los mismos. CONCLUSIONES Hemos analizado someramente algunos aspectos filosóficos acerca de la validez del razonamiento inductivo como herramienta capaz de producir conocimiento científico válido y comprobado su posible incidencia en las dificultades de todo tipo que afectan tanto a los aspectos educacionales como a las aplicaciones en procedimientos de tipo inductivo, encontradas posteriormente en la investigación. Existen numerosísimas referencias de investigación sobre aplicaciones incorrectas de los contrastes de hipótesis en la investigación experimental o interpretaciones inadecuadas de sus resultados. Hemos detectado experimentalmente también errores y problemas de aprendizaje que afectan a multitud de conceptos, aspectos y aplicaciones de los contrastes de hipótesis estadísticas. Algunos de los errores detectados tienen su origen en niveles previos de enseñanza (confusión entre poblaciones y muestras, insuficiente comprensión de la variabilidad muestral y el proceso de muestreo, etc.) lo que plantea la necesidad de trabajar estos conceptos en los niveles previos a la universidad. La investigación experimental permite detectar los posibles problemas de enseñanza a todos los niveles. Sus resultados han de servir como base sólida para planificar la enseñanza y validarla científicamente con el fin de conseguir el mayor nivel de eficiencia para ella. Por el momento, las evidencias empíricas obtenidas en nuestro campo son escasas aunque espero que animen a los investigadores a proseguir con el esfuerzo de obtenerlas. Terminamos con una recomendación adicional para los investigadores en el tema: promover la incorporación en los equipos de trabajo de profesores de niveles preuniversitarios cuya experiencia y colaboración pueden ser muy valiosas para mejorar también la investigación educativa. Agradecimientos: A los Proyectos de Investigación PB96-1411 y PB97-0826 financiados por la Dirección General de Enseñanza Superior e Investigación Científica, M.E.C., Madrid, España. EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 351 REFERENCIAS Artigue, M. (1990). Épistémologie et Didactique. Recherches en Didactique des Mathématiques, 10 (2-3), 241-286. Bakan, D. (1970). The Test of Significance in Psychological Research. En D. E Morrison y R. E. Henkel (Eds.), The significance test controversy, pp. 231-251. Chicago: Aldine. Birnbaum, I. (1982). Interpreting Statistical Significance. Teaching Statistic, 4, 24-27. Black, M. (1979). Inducción y Probabilidad. Madrid: Cátedra, S. A. Bourke, S. (1993). Babies, Bathwater and Straw Person: A response to Menon. Mathematics Education Research Journal, 5 (1), 19-22. Brewer, J. K. (1986). Behavioural statistics textbooks: source of myths and misconceptions?. En R. Davidson y J. Swift (Eds.), Proceedings of the ICOTS II, pp. 127-131. Victoria, Canada: University of Victoria. Brewer, J. K. (1989). Analogies and Parables in the Teaching of Statistics. Teaching Statistics, 11, 21-23. DeGroot, M. H. (1988). Probabilidad y Estadística. México: Addison Wesley Iberomericana, S. A. Diaconis, P. y Freedman, D. (1981). The persistence of cognitive illusions. The behavioural and brain sciences, 4, 333-334. Clements, M. A. (1993). Statistical Significance Testing: Providing Historical Perspective for Menon’s paper. Mathematics Education Research Journal, 5, 1, 23-27. Cockcroft, W. H. (1982). Mathematics Counts. Report of the Committee of Inquiry into the Teaching of Mathematics in Schools. London: Her Majesty’s Stationery Office. Kahneman, D., Slovic, P. y Tversky, A. (1982). Judgement under uncertainty: Heuristics and biases. Cambridge: Cambridge University Press. Falk, R. (1986). Misconceptions of statistical significance. Journal of structural learning, 9, 83-96. Falk, R. y Greenbaum, C. (1995). Significance test die hard. Theory y Psychology, 5 (1), 75-98. Fisher, R. A. (1935). The logic of inductive inference. Journal of the Royal Statistical Society, 98, 39-54. Jacobs, V. (1996). Children’s informal interpretations and evaluation of statistical sampling in surveys. Ph. D. University of Wisconsin-Madison. Lavoie, R. y Caillé, A. (1986). Compréhension du concept de population: un étude exploratoire. Ann. Sc. Math. Québec, 10 (1), 27-49. Lehmann, E. L. (1993). The Neyman-Pearson Theories of testing hypothesis: one theory or two? Journal of the American Statistical Association, 88, 424, 1242-1249. Menon, R. (1993). Statistical Significance Testing Should be Discontinued in Mathematics Education Research. Mathematics Education Research Journal, 5 (1), 4-18. Ministerio de Educación y Ciencia. (1990). Ley Orgánica 1/1990 de Ordenación General del Sistema Educativo. (LOGSE, BOE de 4 de Octubre de 1990). Madrid: Autor. 352 ANGUSTIAS VALLECILLOS Morrison, D. E. y Henkel, R. E. (Eds.). (1970). The significance test controversy. Chicago: Aldine. Moses, L. E. (1992). The reasoning of statistical inference. En Hoaglin, D. C. y Moore, D. S. (Eds.), Perspectives on Contemporary Statistics (107-122). Washington D. C.: Mathematical Association of America. National Council of Teachers of Mathematics. (1989). Curriculum and evaluation standards of schools mathematics. Reston Va.: NCTM. Oakes, M. (1986). Statistical inference: A commentary for the social and behavioural sciences. Chichester: J. Wiley y Sons, Inc. Poitevineau, J. (1998). Méthodologie de l’analyse des données expérimentales: Étude de la pratique des tests statistiques chez les chercheurs en psychologie, approches normative, prescriptive et descriptive. Ph. D. Université de Rouen. Pollard, P. y Richardson, J. T. E. (1987). On the probability of making Type I errors. Psychological Bulletin, 10, 159-163. Pollatsek, A.; Konold, C.; Weel, A. D. y Lima, S. D. (1991). Belief underlying random sampling. Memory and Cognition, 12, 395-401. Popper, K. (1967). La lógica de la investigación científica. Madrid: Tecnos. Reeves, C. A. y Brewer, J. K. (1980). Hypothesis Testing and Proof by Contradiction: an Analogy. Teaching Statistic, 1 (2), 57-59. Rivadulla, A. (1991). Probabilidad e Inferencia científica. Barcelona: Anthropos. Rowley, G. (1993). Response to Menon. Mathematics Education Research Journal, 5, 1, 2829. Rubin, A.; Bruce, B. y Tenney, Y. (1990). Learning About Sampling: Trouble at the Core of Statistic. Proceedings of the ICOTS III. Dunedin, New Zealand: University of Otago. Schuyten, G. (1991). Statistical Thinking in Psychology and Education. Proceedings of the ICOTS III. Dunedin, New Zealand: University of Otago. Thompson, B. (1996). AERA Editorial Policies Regarding Statistical Significance Testing: Three Suggested Reform. Educational Researcher, 25 (2), 26-30. Vallecillos, A. (1994). Estudio teórico-experimental de errores y concepciones sobre el contraste estadístico de hipótesis en estudiantes universitarios. Tesis Doctoral. Universidad de Granada. Vallecillos, A. (1995a). Comprensión de la lógica del contraste de hipótesis en estudiantes universitarios. Recherches en Didactique des Mathématiques, 15 (3), 53-81. Vallecillos, A. (1995b). Consideraciones epistemológicas sobre la inferencia estadística: implicaciones para la práctica docente. UNO, 5, 80-90. Vallecillos, A. (1996a). Students’ conceptions of the logic of hypotheses testing. Hiroshima Journal of Mathematics Education, 4, 43-61. Vallecillos, A. (1996b). Inferencia estadística y enseñanza: un análisis didáctico del contraste de hipótesis estadísticas. Granada: Comares. EVIDENCIAS EMPÍRICAS SOBRE DIFICULTADES EN EL APRENDIZAJE DE LOS TESTS DE HIPÓTESIS 353 Vallecillos, A. (1997a). La investigación educativa y sus implicaciones curriculares. Revista EMA, 3 (1), 33-44. Vallecillos, A. (1997b). El papel de las hipótesis estadísticas en los contrastes: concepciones y dificultades de aprendizaje. Educación Matemática, IX, 2, 5-20. Vallecillos, A. (1998a). Research and Teaching of Statistical Inference. En Proceeding of the International Conference on the Teaching of Mathematics, pp. 296-298. Boston: J. Wiley y Sons, Inc. Vallecillos, A. (1998b). Experimental Study on the Learning of the significance level concept. En L. Pereira-Mendoza, L. Seu Kea, T. Wee Kee y W. Wong (Eds.), Proceedings of the ICOTS 5, pp. 1475-1476. Singapore: Nanyang Technological University. Vallecillos, A. (1999). Some empirical evidences on learning difficulties about testing hypothesis. En Proceedings of the 52nd Session of the International Statistical Institute, Vol. 2, pp. 201-204. The Netherlands: ISI. Vallecillos, A. (2000). Understanding of the logic of hypothesis testing amongst university students. Journal für Mathematik-Didaktik, 21 (2), 101-123. Vallecillos, A. y Batanero, C. (1997). Conceptos activados en el contraste de hipótesis estadísticas y su comprensión por estudiantes universitarios. Recherches en Didactique des Mathématiques, 17 (1), 29-48. White, A. L. (1980). Avoiding errors in Educational Research. In R. J. Shumway (Ed.), Research in Mathematics Education, pp. 47-65. Reston, Va.: NCTM. Williams, A. M. (1997). Students’ understanding of hypothesis testing: the case of the significance concepts. F. Biddulph y K. Karr (Eds.), People in Mathematics Education, Proceedings of the MERGA 20, 585-591. Australia: Aotearoa. Williams, A. M. (1998). Students’ understanding of the significance level concept. En L. Pereira-Mendoza, L. Seu Kea, T. Wee Kee y W. Wong (Eds.), Proceedings of the ICOTS 5, 743-749. Singapore: Nanyang Technological University. Zacks, S. (1981). Parametric Statistical Inference. Basic Theory and Modern Approaches. Oxford: Pergamon Press. 354 ANGUSTIAS VALLECILLOS