Dificultades del concepto de promedio a través de un curso universitario de estadística José Armando Albert*, María Guadalupe Tobías*, Oscar Villarreal* albert@itesm.mx, mgtl@itesm.mx, ovr@itesm.mx Tecnológico de Monterrey* Línea temática: Enseñanza de la probabilidad y la estadística a nivel universitario. Modalidad: Oral. RESUMEN La presente investigación aborda un concepto que en apariencia es simple y transparente para la enseñanza: el promedio, pero que entraña una gran complejidad por el cambio de significados que toma según el contexto estadístico, de distribuciones de probabilidad o inferencia estadística. El concepto de promedio es esencial para la el análisis de datos cuantitativos e inferencia estadística en ciencia e ingeniería. Sin embargo, a pesar de que es notable el número de estudios sobre este tema, la mayoría se concentra en el nivel básico, y, muy pocos, a nivel universitario. Es por eso que este estudio se aboca a explorar algunas de las dificultades y principales significados que estudiantes de ingeniería atribuyen al concepto de media en los distintos estadios del desarrollo de un curso de probabilidad y estadística, particularmente las referidas a la media, media ponderada, la media como representante de datos y la media como variable aleatoria que constituye una idea fundamental para las distribuciones del muestreo y posterior inferencia estadística. Se reportan los resultados obtenidos, algunos de los cuales son semejantes a los hallados en niveles anteriores, tal como la dificultad de interpretación del promedio como una función continua cuando la variable en cuestión sea discreta, pero también se reportan resultados más específicos del nivel universitario como las dificultades de asignar un dominio al promedio como valor esperado de una variable continua y para conceptualizar a la media como una variable aleatoria. Palabras clave: Promedio, variable aleatoria, parámetro, estadística universitaria. ABSTRACT This research deals with a concept that is simple and transparent appearance for teaching: the average, but that is highly complex by the change of meanings taken as the statistical context, probability distributions and statistical inference. The concept of average is essential for quantitative data analysis and statistical inference in science and engineering. However, although it is notable the number of studies on this topic, most people focus on the basic level, and very few, at the university level. That's why this study is to explore some of the main difficulties engineering’s students have and meanings attributed to the concept of average in different stages of development of a course in probability and statistics, particularly those related to the average weighted, average as representative data and average as random variable who is a fundamental idea of sampling distributions and subsequent statistical inference. The results are reported, some of which are similar to those found in previous levels as the average difficulty of interpretation as a continuous function when the variable in question is discrete, but more specific results at the university level are also reported as the difficulty of assigning a domain to the expected value of a continuous variable and to conceptualize the average as a random variable. Keywords: Average, random variable, parameter, university statistics. Introducción El concepto de media es importante en la formación de ingenieros por su muy frecuente uso en la obtención de mediciones confiables y en sus inferencias a partir del muestreo. El concepto de media es visto en los inicios de un curso de probabilidad y estadística para ingenieros como representante de datos o punto de equilibrio. Luego, como un parámetro en las distribuciones de probabilidad, como el valor esperado de una variable aleatoria X, como un estimador en inferencia estadística. Aunque existen varios trabajos de investigación alrededor del concepto de media, la gran mayoría se sitúa a nivel básico. Es por eso que esta investigación se propone hacer un estudio exploratorio que permita identificar con más claridad la problemática a la que se enfrenta el profesor universitario en su esfuerzo porque sus estudiantes aprendan este concepto multifacético. Antecedentes El problema sobre cómo aprender la estadística escolar es abordado por la comunidad de investigadores y educadores desde la década de los 80’s. Sin embargo, la mayoría de las investigaciones se sitúan en los niveles básicos. Debido a su complejidad, la comunidad científica en didáctica de la estadística se ha dado a la tarea de hacer investigaciones más puntuales. En ese sentido, esta investigación se restringe a la exploración de los significados que atribuyen al concepto de media los estudiantes universitarios. Investigadores ya han abordado este concepto y hallado algunos resultados importantes: Strauss y Bichler (1988) en su investigación escolar concluyen que en el modo de enseñar el concepto de media no se potencia en los estudiantes el trabajo de los aspectos estadístico, abstracto y representativo que tiene este concepto. Observan que los estudiantes desconocen cómo actuar en situaciones en las que aparecen valores atípicos. Estos valores son muy comunes en la recolección de datos, por ello es importante que sepan qué hacer y cómo influyen en la media. Batanero (2000) pone de manifiesto que los que los conceptos estadísticos, incluso los más sencillos como la media, mediana y moda tienen un significado complejo y necesitan ser tratados por un periodo dilatado a lo largo de la enseñanza en sus distintos niveles para que se dé un progresivo acoplamiento de los significados personales que construyen los estudiantes a los significados institucionales que se pretende adquieran. Takeshi y De la Cruz (2007), por su parte, señalan que es insuficiente la noción de media como promedio aritmético para resolver el estudiante universitario situaciones de contexto aleatorio y que son de gran relevancia en ingeniería. Metodología En una universidad del Norte de México se analizó una muestra de 55 estudiantes de ingeniería sobre sus concepciones acerca de la media después de haber llevado un curso de Probabilidad y Estadística. El objetivo de la investigación es hacer una valoración exploratoria del desempeño de los estudiantes ante situaciones que demandan la comprensión del concepto de media en sus distintos significados al finalizar su curso de probabilidad y estadística. Los significados específicos de la media a explorar son: Media aritmética y sus propiedades Media comparada con la mediana Media ponderada Media como variable aleatoria La media como parámetro El acercamiento fue a través de un instrumento de 10 preguntas abiertas. Con respecto a la media aritmética y sus propiedades, las preguntas fueron: 1. 2. 3. Un objeto pequeño se pesa con un mismo instrumento por ocho estudiantes de una clase, obteniéndose los siguientes valores en gramos: 6.2, 6.0, 6.0, 6.3, 6.1, 6.23, 6.15, 6.2 ¿Cuál sería la mejor estimación del peso real del objeto? Cuatro amigos se reúnen para preparar una cena. Cada uno de ellos trajo harina para hacer la masa de las pizzas. Como querían hacer cuatro pizzas del mismo tamaño, los que habían traído más harina regalaron a los que trajeron menos. Llamaremos X a la cantidad resultante con que cada quien hizo su pizza. a) ¿Con qué concepto estadístico está vinculado con X? b) ¿Qué es mayor: las diferencias de las cantidades de harina de los que trajeron más con respecto a X o las diferencias de las cantidades de harina de los que trajeron menos con respecto a X? Justifique su respuesta. Un periódico dice que el número promedio de hijos por familia en Nuevo León es de 2.3 hijos. ¿qué te parece esta frase? ¿es absurda o si tiene sentido qué puede significar? Explica tu respuesta. Respecto a la pregunta 1, Batanero (2000) menciona que la mayoría de los estudiantes sumará las cantidades y las dividirá entre el número de ellas. En tanto que para la pregunta 2, Cobo (2003) analiza que el problema contiene únicamente elementos verbales y eso será una dificultad para los estudiantes, más más acostumbrados a manejar situaciones numéricas. En sus investigaciones encuentra que aproximadamente 3 de cada 10 estudiantes dan una respuesta correcta. Con relación a la pregunta 3, planteada en Watson y Moritz (2000) y retomada por Batanero, Godino y Navas (1997) comentan que aproximadamente sólo 1 de cada 3 estudiantes dará una respuesta correcta. Cobo (2003) menciona al respecto que es frecuente respuestas de los estudiantes centradas en el algoritmo como “que han sumado y lo han dividido y le han salido 2.3” o también que los estudiantes confundan la media con la moda: “que han hecho la media y lo más frecuente es que esté entre 2 o 3 hijos”. Con respecto a la media comparada con la mediana, la pregunta fue: 4. El peso en Kg de 9 niños es 15, 25, 17, 19, 16, 26, 18, 19, 24. ¿Cuál es el peso de los niños que corresponde a la mediana? Si incluimos el peso de otro niño de 43 Kg ¿quién sería mejor representante de los datos: la media aritmética o la mediana? Razone y explique su respuesta. Batanero, Godino y Navas (1997) mencionan en su investigación que la mayoría de los estudiantes tienen dificultad para distinguir entre las medidas de centralización. Cobo (2003) llega a resultados similares. Con relación a Media ponderada, las preguntas fueron: 5. Una clase de estadística con 40 estudiantes realizó una prueba. 10 estudiantes obtuvieron cuatro puntos, 12 lograron tres puntos, 8 alcanzaron dos puntos, 6 se beneficiaron con un punto y 4 obtuvieron cero puntos. ¿Cuál es el promedio del grupo? 6. Un ingeniero especializado en el tránsito sabe que en un período de 100 días, el número de automóviles que pasan por un cierto crucero entre las 5:00 y 5:05 p.m. se distribuye de acuerdo a la siguiente tabla: Número de automóviles 0 1 2 3 4 5 Número de días 36 28 15 10 7 4 Si se toma un día al azar, ¿cuál será el valor esperado del número de automóviles que pasarán por ese crucero en el mismo horario? 7. Observa este diagrama de barras que muestra las ventas de bocadillos de la empresa “Delicias” durante los 6 meses de año pasado. A continuación dibuja una línea recta que señale el promedio de bocadillos en este periodo Al respecto, Pollatsek, Lima y Well (1981) mencionan en su investigación que los estudiantes tienen dificultades para identificar las situaciones donde se aplica la media ponderada así como la elección adecuada de los correspondientes pesos. Del Puerto y Seminara (2007) reportan en su estudio que un 30% de alumnos universitarios tienen problemas para calcular la media ponderada cuando los datos están agrupados por intervalos y frecuencias. Con respecto a la media como variable aleatoria, las preguntas fueron: 8. De una población de distribución normal con media 100 y desviación estándar 15 se toma una muestra al azar: a) Si se calcula el promedio de ésta muestra ¿qué valor esperaría que fuera? b) Si se toma otra muestra al azar y se calcula su media, ¿qué valores posibles podría tomar? Al respecto, Albert, Ruiz y Colunga (2009) reportan que tienden los estudiantes, de manera intuitiva, a acertar el valor esperado. Por otra parte, se esperaría que el dominio de la variable lo identificaran en todo el conjunto de los números reales dado que ya conocen la distribución normal. Con relación a la media como parámetro, las preguntas fueron: 9. Si se toman todas las muestras posibles de una población y se les calcula su media a cada una y luego se promedian todos los valores de las medias. ¿Este nuevo promedio es constante o varía? Justifique su respuesta. 10. En un intervalo al 95% de confianza 10 15 , la media es: a) una variable. b) una constante. Vallecillos (1994) en su investigación muestra cómo los estudiantes tienen confusión, desde el enfoque clásico de la estadística, para identificar a la media paramétrica como constante. Olivo (2008) reporta que en estudiantes universitarios se presentaron dificultades entre ejemplar (media) y tipo (media de la muestra, media de la población), así como la dificultad en distinguir entre estadístico y parámetro. Resultados Con relación a la media aritmética y sus propiedades, se observó que: Pregunta 1 2a 2b 3 Aciertos 55 43 32 7 % de aciertos 100% 78% 58% 13% Aunque el 100% de los estudiantes contestaron que la mejor estimación era la media e hicieron el cálculo correcto. También se puede decir que identifican algunas de sus propiedades correctamente, pero, al estudiar más de cerca sus respuestas, se observó que, aunque la gran mayoría concebía el valor promedio de 2.3 hijos como válido, no supieron dar argumento legítimo en un contexto de la variable discreta como es el número de hijos. Sobre la comparación entre media y mediana: Pregunta 4 Frec. aciertos % de aciertos 18 33% Aunque más del 50% pudo hacer los cálculos correctos de la media y la mediana en el problema, muchos no daban argumento o lo daban equivocado sobre quién sería mejor representante de los datos al añadírsele un dato más, atípico. Algunos argumentos a favor de la media aritmética se centraban en “porque es más exacta”. Otros, en cambio, argumentaban que la mediana porque “con un valor tan alto [el añadido] la media subiría mucho su valor”. En cualquier caso, se ve la necesidad hacer más esfuerzos de investigación y didácticos en esta faceta de las medidas de centralización. Respecto a la media ponderada, los resultados fueron: Pregunta 5 6 7 Frec. aciertos % de aciertos 51 93% 27 49% 43 78% Como puede observarse, en dos de tres problemas de media ponderada tuvieron una mayoría de aciertos. El caso de la pregunta 6, por la forma en que se acercaban a preguntar en la implementación en el aula, pareciera que la redacción del problema no fue óptima y pudo influir en el resultado. Relativo a la media como variable aleatoria, los resultados fueron: Pregunta 8a 8b Frec. aciertos % de aciertos 33 60% 2 4% Como lo muestran los aciertos de 8a, respecto al valor esperado de la media como variable aleatoria, hubo una relativa mayoría, pero no así el inciso b. Un análisis más cercano de las respuestas de los alumnos se pudo observar que el 65% de ellos contestaron que el dominio de la variable estaba una desviación estándar alrededor de la media. Perecieran estar preocupados porque la variable aleatoria estuviera cerca de la media. En sus palabras: “valores cercanos a 100”; “entre 85 y 115”, “Cualquiera, pero se esperaría y hay mayor posibilidad de que sea 100”. Con relación a la media como parámetro, los resultados fueron: Pregunta 9 10 Frec. aciertos % de aciertos 37 67% 27 49% En la pregunta 9, una mayoría relativa respondió correctamente. Hicieron justificaciones como la siguiente: “Constante ya que se tomaron todas las muestras posibles no se puede obtener valores diferentes para promediar, siempre serían lo mismo y por tanto el mismo promedio”. Sin embargo, no queda claro, si para ellos esto implica que esta media es el parámetro de la distribución muestral. Por lo que habría que diseñar un instrumento que permita observar esto con más detalle. Según la pregunta 10, los estudiantes tuvieron algunas dificultades en identificar la media paramétrica como constante. Discusión Con respecto a la media aritmética y sus propiedades, se cumple lo que Batanero (2000) menciona que harán los estudiantes de aplicar el algoritmo de la media. Por otra parte, los resultados fueron mejores a los predichos por Cobo (2003) en el problema de la distribución de harina. Esto es explicable por en nivel educativo diferente en que fueron hechos los estudios. Con respecto al problema de Watson y Moritz (2000), la pregunta 3, sobre la interpretación de 2.3 hijos como promedio, los resultados obtenidos de que el 80% de los estudiantes afirma que tiene sentido, sólo un 13% supo dar un argumento correcto. Esto nos muestra la complejidad que es para ellos la interpretación del promedio, como continuo, cuando la variable es discreta. Con respecto a la media comparada con la mediana, la mayoría pudo calcular con éxito la media y mediana, pero sus argumentaciones sobre cuál es conveniente usar aún muestran las dificultades reportadas por Batanero, Godino y Navas (1997). Con relación a Media ponderada, los estudiantes mostraron habilidad para el cálculo de su valor en contextos no sólo numérico sino también geométrico. Resultados diferentes de los ya reportados por Del Puerto y Seminara (2007) en estudiantes universitarios. Respecto a la Media como variable aleatoria, se mantuvo la semejanza de resultados de Albert, Ruiz y Colunga (2009) de que la mayoría de los estudiantes tienen intuiciones acertadas acerca del valor esperado. Sorprendió, sin embargo, la dificultad que tuvieron para identificar el dominio de una variable aleatoria normal. Mostraron preocupación porque sus valores estuvieran cerca de la media paramétrica. Aunque los resultados obtenidos a las preguntas sobre la media como parámetro fueron medianamente favorables, pareciera conveniente buscar la manera de profundizar en las concepciones de los estudiantes al respecto. Conclusión El concepto de media, en apariencia simple, guarda tras de sí mucha complejidad tanto del concepto mismo como sus implicaciones en estadística inferencial. Los resultados mostraron la apreciable habilidad de los estudiantes para resolver problemas de la media y media ponderada donde se requiere de hacer uso de un algoritmo, pero mostraron también la necesidad de una didáctica de la estadística que les permita desarrollar razonamientos y argumentaciones adecuadas para situaciones de comparación entre medidas de centralización y de interpretación de la media como una función continua. Llamó la atención también que los estudiantes tuvieran problemas para identificar adecuadamente el dominio de la media como variable aleatoria. Tal vez con el uso de tecnología se podría familiarizar al estudiante a tener una visión más holística de su distribución. El estudio de las concepciones de la media en estadística inferencial es un área de oportunidad importante en la investigación actual de didáctica de la estadística. Bibliografía Albert, J. A., Ruiz, B., Colunga, J. (2009). Intuiciones sobre el concepto de Esperanza Matemática en Estudiantes de Ingeniería. En EIME XII. México: Red de CIMATES. Batanero, C. (2000). Significado y comprensión de las medidas de posición Central. UNO, Vol. 25, 41-58. Batanero, C., Godino J. D, Navas, F. (1997). Concepciones de maestros de primaria en formación sobre los promedios. VII Jornadas LOGSE: Evaluación Educativa, 310-314. Cobo, B. (2003). Significado de las medidas de tendencia central para los estudiantes de secundaria. Tesis doctoral. Universidad de Granada. Mayén, S. & Batanero, C. (2009). Conflictos semióticos en estudiantes mexicanos de bachillerato y secundaria alrededor del concepto de mediana. En Acta Latinoamericanas de Matemática Educativa 2009. CLAME, 469-477. Pollatsek, A. & Lima, S., A. D. Well (1981). Concept or Computation: Students' Understanding of the Mean. En Educational Studies in Mathematics, Vol. 12, No. 2 (May, 1981), pp. 191-204. Strauss, S. & Bichler, E. (1988). The development of children’s concepts of the arithmetic average. Journal for Research in Mathematics Education, Vol. 19, 64-80. Takeshi, A & De la Cruz O. (2007). Un estudio sobre la construcción social de la noción de promedio en un contexto probabilístico. Acta Latinoamericana de Matemática Educativa Vol.20, 536-545. Watson, J. & Moritz J. (2000). The Longitudinal Development of understanding of Averge. Mathematical Thinking and Learning, 2(1&2), 11-50. Del Puerto, S. & Seminara S. (2007). Identificación y análisis de los errores cometidos por los alumnos en Estadística Descriptiva. Revista Iberoamericana de Educación, Nº 43/3. Vallecillos, A. (1994). Estudio teórico - experimental de errores y concepciones sobre el contraste de hipótesis en estudiantes universitarios. Tesis doctoral. Departamento de Didáctica de la Matemática. Universidad de Granada.