GEOGEBRA COMO RECURSO PARA UNAS NUEVAS MATEMÁTICAS ESTADÍSTICA CON GEOGEBRA Virgilio Gómez Rubio Mª José Haro Delicado Baeza 2014 1 ESTADÍSTICA DESCRIPTIVA 2 Estadística descriptiva 1. El puntaje de Apgar se usa para evaluar reflejos y respuestas de recién nacidos. A cada bebé un profesional de la medicina le asigna un puntaje y los valores posibles son enteros entre cero y diez. Se toma una muestra de 1000 bebés nacidos en cierto condado y los resultados han sido los siguientes: 0 1 2 3 4 5 1 3 2 4 25 35 6 7 8 9 198 367 216 131 10 18 • Halla la media de los puntajes de Apgar. Halla la desviación típica de la muestra. • Halla la mediana muestral. • ¿Cuáles son los cuartiles primero y tercero? 3 Resolviendo con Geogebra • Abrimos la hoja de cálculo • Introducimos en la 1ª columna los valores de la variable y en la segunda las frecuencias absolutas • Creamos sendas listas. 4 Cálculo de las medidas de centralización y dispersión Media[ <Lista de Números>, <Lista de Frecuencias> ] media =7.14 Mediana[ <Lista de Números>, <Lista de Frecuencias> ] mediana =7 La moda sólo se puede calcular para valores sin agrupar Varianza poblacional: Varianza[ <Lista de Números>, <Lista de Frecuencias> ] 1.72 Varianza muestral: VarianzaMuestral[ <Lista de Números>, <Lista de Frecuencias> ] Desviación típica poblacional: DE[ <Lista de Números>, <Lista de Frecuencias> ] Desviación típica muestral: DEMuestral[ <Lista de Números>, <Lista de Frecuencias> ] 1.31 Q1[lista1, lista2] 6 Q3[lista1, lista2] 8 5 Algunas representaciones gráficas 2. En un estudio sobre la amnesia postraumática tras una lesión craneal, se estudió el tiempo en días que estuvieron los pacientes en coma. Se recogieron los datos siguientes: 2 8 9 14 16 6 10 8 7 13 12 11 11 11 13 15 10 11 15 12 20 • Construir un diagrama de barras • Construir un diagrama de tallo y hojas para estos datos. ¿Parecen estar los datos simétricamente distribuidos? • Construir un diagrama de cajas y bigotes para los datos. ¿Da la misma impresión de simetría que con el diagrama de tallo y hojas? • ¿Existen datos puntuales que puedan considerarse como atípicos? 6 DIAGRAMA DE BARRAS Barras[ <Lista de Datos en Bruto>, <Ancho de Barras> ] Si el ancho de barras es 0, se obtiene una especie de agujas a diferentes alturas. También se puede trabajar con frecuencias y con otras opciones. En este caso, como los valores de la variable van de 1 en 1, es conveniente que el ancho de las barras sea de longitud 1 7 DIAGRAMA DE TALLOS Y HOJAS DiagramaTalloHojas[ <Lista> ] 8 DIAGRAMA DE TALLOS Y HOJAS DiagramaTalloHojas[ <Lista>, <Ajuste -1|0|1> ] En este caso el valor del ajuste es -1. Significa que la unidad se divide por 10. Los valores a cuyo lado no aparece el cero no corresponden a valores de la variable. 9 DIAGRAMA DE CAJAS Y BIGOTES DiagramaCaja[ <Offset_y>, <Escala_y>, <Lista de Datos en Bruto> ] El problema de calcular el diagrama de cajas y bigotes utilizando la instrucción anterior es que los bigotes se extienden hasta los valores máximo y mínimo, con lo cual, no sirve para detectar los valores atípicos. 10 3.Parte de un estudio de control de calidad tuvo como objetivo mejorar una línea de producción. Se midieron los pesos (en onzas) de 50 barras de jabón. Los resultados son los siguientes, ordenados de menor a mayor. a) Construye un diagrama de tallos y hojas para estos datos. b) Construye un histograma para estos datos. c) Construye un diagrama de cajas para estos datos. ¿Identifica datos atípicos? 11 Usaremos Análisis de una variable Seleccionamos nuestros datos en la hoja de cálculo y hacemos clic sobre “Análisis de una variable” y después en “analiza” 12 Si pinchamos sobre el botón que indica la flecha anterior, podemos agregar la tabla de frecuencias y el polígono de frecuencias entre otras cosas. La tabla de la izquierda en la que aparecen las medidas de centralización, posición y dispersión, se obtiene pinchando sobre el botón en el que aparece el signo sumatorio. 13 14 Si hay frecuencias absolutas, éstas, deben formar parte de una lista y pinchando sobre la rueda de la esquina superior derecha, podemos introducirlas. Para hacerlo, seleccionamos la columna que las contenga y pinchamos sobre la mano que aparece encima de las celdas 15 16 Para el diagrama de cajas, se procede de manera similar. Se nos da la opción de que aparezcan los datos atípicos, si los hay. 17 A PRACTICAR 18 ESTADÍSTICA DESCRIPTIVA PARA DOS VARIABLES 19 20 Introducimos los datos en dos columnas y usamos la opción Análisis regresión de dos variables. De esta forma, obtenemos tanto el diagrama de dispersión, como el diagrama de residuos y un resumen estadístico de la relación entre las dos variables. Se realizan diversos tipos de ajustes y se pueden usar para predecir valores de la variable dependiente. Se pueden intercambiar las variables, pasando la variable dependiente a ser independiente. 21 También se puede realizar usando comandos seleccionando previamente las dos columnas de datos y eligiendo la opción “crea lista de puntos” AjusteLineal[ <Lista de Puntos> ] 22 El diagrama de residuos lo podemos obtener con la opción DiagramaResidual[ <Lista de Puntos>, <Función> ] introduciendo en la opción Función, la ecuación de la recta obtenida previamente. Para obtener el coeficiente de correlación, usaríamos Spearman[ <Lista de Puntos> ] También hay opciones para calcular las medias, varianzas y desviaciones típicas marginales, así como para calcular la covarianza. 23 A PRACTICAR 24 VARIABLES Y MODELOS DE DISTRIBUCIÓN 25 26 a) Creamos un deslizador para c y representamos gráficamente la función f(x)=cx. El deslizador se puede iniciar en 0, ya que una de las condiciones que debe cumplir una función de densidad es el ser positiva, f(x)>0 y, en este caso, x[0,2] Se calcula el área en función del valor de c con el comando Integral[ <Función>, <Valor Inicial de x>, <Valor Final de x> ] b) Después de obtener el valor de c, en este caso de 0.5, calculamos 27 c) Para calcular la media usamos Integral[x*0.5*x,0,2]. Obtenemos d) Para hallar la varianza, podemos usar Integral[x² 0.5 x, 0, 2] – (Integral[x 0.5 x, 0, 2])^2 e) Para hallar la función de distribución, podemos crear un nuevo deslizador, k, que tome valores en el intervalo [0,2]. A continuación, obtenemos el valor distribución=Integral[0.5 x, 0, k]. Para que se visualice la función de distribución creamos el punto A(k, distribución) y activamos el rastro, poniendo el deslizador k en animación automática. 28 h) Para responder a esta pregunta basta con calcular Integral[0.5*x,0.8,2] 29 A PRACTICAR 2. La lectura de un termómetro calibrado en agua helada (temperatura real de 0ºC) representa una variable aleatoria con función de densidad de probabilidad : k 1 x 2 f ( x) 0 1 x 1 en cualquier otro caso Determina el valor de k ¿Cuál es la probabilidad de que el termómetro indique una temperatura mayor a 0ºC? ¿Cuál es la probabilidad de que la lectura esté dentro de los 0.25ºC de la temperatura real? ¿Cuál es la media de la lectura? ¿Cuál es la mediana de la lectura? ¿Cuál es la desviación típica? 30 3. Las puntuaciones de una prueba estandarizada se distribuyen normalmente con media de 480 y desviación típica de 90. ¿Cuál es la proporción de puntuaciones mayores a 700? ¿Cuál es el 25º percentil de las puntuaciones? Si la puntuación de alguien es de 600 ¿En qué percentil se encuentra? ¿Qué proporción de las puntuaciones se encuentra entre 420 y 520? 31 a) 1 - Normal[480, 90, 700]=0.0073 b) NormalInversa[ <Media>, <Desviación Estándar>, <Probabilidad> ] NormalInversa[480,90,0.25]=419.296. Consideramos que es el percentil 420 c) Normal[ <Media>, <Desviación Estándar>, x, <Booleana Acumulativa> ] Normal[480, 90, 600, true]=0.909, lo que implica prácticamente un percentil 91 d) Normal[ 480,90, 520,true]-Normal[480,90, 420,true]=0.419 32 APROXIMACIÓN DE LA BINOMIAL MEDIANTE LA NORMAL 33 1. El 45% de los condensadores de una cierta partida presenta deficiencias a) ¿Cuál es la probabilidad de que presenten deficiencias 1, 2, 3, 4,…,10 de los condensadores? b) ¿Cuál es la probabilidad de que de diez condensadores presenten deficiencias un número menor o igual a la mitad. c) ¿Puede la distribución aproximarse a la distribución normal? Calcula la probabilidad de que de diez condensadores examinados, la mitad presente dichas deficiencias utilizando la distribución normal. a)Distribución Binomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Acumulada Booleana> ] DistribuciónBinomial[10, 0.45, false] 34 b) DistribuciónBinomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Valor de Variable>, <Acumulada Booleana> ] DistribuciónBinomial[ 10,0.45,5,true]=0.738 c) nq=5.5>5, µ=np=0.4510=4.5 no es mayor o igual que 5, pero no queda muy lejos, por lo tanto, aunque muy en el límite, lo podríamos admitir. 2=npq=100.450.55=2.475; =1.57 5.5 4.5 4.5 4.5 P 5 P Z 1.57 1.57 Normal[ <Media>, <Desviación Estándar>, x, <Booleana Acumulativa> ] Normal[4.5, 1.57, 5.5,true]- Normal[4.5, 1.57, 4.5,true]=0.738-0.5=0.238 Si queremos comparar con el valor que se obtiene mediante el modelo binomial usamos, DistribuciónBinomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Valor de Variable>, <Acumulada Booleana> ] = DistribuciónBinomial[10, 0.45, 5,False ]= 0.234 35 Otra forma de hacer lo mismo: 36 Vamos a hacer un estudio más exhaustivo de la aproximación del modelo binomial por el modelo normal, analizando modelos binomiales con diferentes medias y desviaciones típicas y comparándolo con el modelo normal Vamos a crear dos deslizadores, uno que tomará los valores para n y otro para p. El deslizador para n abarcará un rango que vaya, por ejemplo, desde 1 hasta 1000, con pasos de 1 en 1. El deslizador para p irá desde 0 a 1, con pasos de 0.01. Aunque especifiquemos así los pasos, es difícil que los saltos no sean mayores y que haya valores que nos saltemos. Para solventar este problema, podemos crear casillas de control. Les damos los nombres n= y p= y los vinculamos al deslizador correspondiente. Podemos modificar la longitud de la casilla de entrada en estilo. Creamos la distribución binomial con DistribuciónBinomial[n,p] y dos variables 37 Ajustamos una curva normal de media y desviación típica , con Normal[,,x]. Para que sean los que sean los valores de p y de n la imagen se muestre siempre en pantalla, iremos a Vista gráfica y modificaremos el rango en los ejes. Eje X (-3, +3) Eje Y (-0.1, f()+0.1 Como en las casillas correspondientes de la vista gráfica no podemos introducir directamente los símbolos y , los introducimos en la entrada, los copiamos (control c) y los pegamos después (control V). 38 Si queremos calcular las probabilidades de que la variable esté en determinados intervalos, lo podemos hacer con la función Integral y hablar del factor de corrección de Yates. Por ejemplo, si queremos calcular la probabilidad de que r4, deberíamos hacerlo con Integral[f, -∞, 4.5]. Para estudiar en qué casos se puede aproximar el modelo binomial por el modelo normal, podemos fijar los valores de p e ir variando los de n con la animación automática. De esta forma observamos cómo evoluciona el ajuste de ambos modelos. 39 DISTRIBUCIÓN DE LA MEDIA MUESTRAL TEOREMA CENTRAL DEL LÍMITE 40 MODELO DE DISTRIBUCIÓN UNIFORME En la casilla A1 ponemos UniformeAleatoria[0, 1]. Extendemos hacia abajo para generar una muestra, tantas casillas como tamaño queramos para la muestra (tomemos n=40). A continuación, nos movemos hacia la derecha para generar más muestras del mismo tamaño. En la casilla A41 escribimos Media[A1:A40], se obtiene la media y nos movemos hacia la derecha para obtener las medias de todas las muestras. Creamos una lista con esas medias (llamémosla lista1). 41 Ahora toca representarlas y lo hacemos con la siguiente instrucción. Histograma[Clases[lista1, 10], lista1, false]. Hemos utilizado la instrucción Histograma[ <Lista de límites de clases>, <Lista de datos brutos>, <Usar densidad o no (true/false)>, <Factor de escala de densidad (opcional)> ]. Para <lista de límites de clase> hemos incluido la instrucción Clases[ <Lista de datos>, <Número de clases> ]. <Lista de datos> es la lista que contiene las medias muestrales, y <Número de clases> contiene el número de intervalos que queremos obtener. <Lista de datos brutos> es de nuevo nuestra lista de medias muestrales y no usaremos densidades, poniendo false en la zona correspondiente. Hemos dicho que se genere un histograma con 10 intervalos, con los valores de lista 1. 42 Para que se vea bien el histograma, ponemos en vista gráfica como valores mínimo y máximo de la x, -0.1 y 1.1, respectivamente. Ahora representamos la curva normal correspondiente al modelo de distribución uniforme [0,1] que tiene una media de: 01 x 1 x 1 1 dx 1 0 2 0 2 2 y una desviación típica igual a 1 x dx 1 0 2 40 2 x3 1 3 0 4 40 1 1 1 3 4 12 40 40 43 Lo hacemos con la instrucción Normal[0.5,1/sqrt(12*40),x] Para representar la curva uniforme usamos Uniforme[0,1,x] 44 Si queremos hacer un estudio de la variable correspondiente a las medias muestrales, podemos seleccionar la columna y hacer clic sobre Análisis de una variable. Si se pone, histograma normalizado se superpone una curva normal de media la media de las medias muestrales y desviación típica la de las medias muestrales. También obtendremos un resumen de las medidas de centralización y dispersión de la variable medias muestrales. 45 46 Podemos analizar la normalidad de los datos escogiendo Gráfico Q-Q Cuantil Normal 47 A PRACTICAR Analizad la media muestral para muestras procedentes de un modelo de Poisson 48 INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS 49 1. Un atleta efectúa seis lanzamientos, obteniendo distancias de 58, 69, 64, 57, 64 y 66 metros. Halla un intervalo de confianza para la media del 90%. Contrastar la hipótesis de que la media poblacional es mayor o igual que 66. IntervaloMediaT[ <Lista de datos (muestra)>, <Nivel> ] En lista 2, geogebra nos devuelve los extremos del intervalo 50 Para realizar el contraste de hipótesis, consideramos como hipótesis alternativa H1: <66, frente a la hipótesis nula H0: 66 TestMediaT[ <Lista de datos (muestra)>, <Media (hipótesis)>, <Cola> ] TestMediaT[ <lista1, 66, “<” ]. La respuesta es lista2 = {0.09, -1.58}. El primer valor corresponde al p-valor El segundo valor, corresponde al estadístico de contraste. 51 2. En una muestra de tamaño n=16, se mide una media 6 y una desviación típica s=12. ¿Es el valor de la media significativamente mayor que 0? Usa un nivel de confianza de =0.05 52 En este caso no disponemos de los datos en bruto, podemos usar TestMediaT[ <Media (muestra)>, <Desviación estándar (muestra)>, <Tamaño (muestra)>, <Media (hipótesis)>, <Cola> ] Hay otra forma: Vamos a calculadora de probabilidades, dentro del menú que ofrece la hoja de cálculo 53 O bien, dentro del menú de la vista gráfica 54 Diferentes tests que se pueden utilizar 55 Si queremos obtener un intervalo T de confianza para la media… 56 A PRACTICAR 3. Se quiere averiguar si ha habido una reducción significativa en el porcentaje de votantes a un determinado partido político, en el último año. Para ello se eligieron al azar 100 personas y se les preguntó si votarían al partido en cuestión, obteniéndose un porcentaje de respuestas afirmativas del 39%. Si el porcentaje de votantes a favor del partido considerado era del 42% hace un año, cuando se preguntó a 150 personas, contrasta a nivel de significación =0.05 si la reducción habida ha sido significativa. 57 4. En el laboratorio de física, dos alumnos realizan varias medidas sobre la relación carga-masa (e/m) del electrón, obteniendo los siguientes resultados: ¿Es el valor de la relación carga-masa obtenido por el segundo alumno significativamente menor que el valor real: e / m 1.75 1011C / kg ? Suponiendo varianzas poblacionales iguales, calcula un intervalo de confianza para la diferencia de medias ¿Son las medias significativamente diferentes entre sí? Usa =0.05 en todos los casos. 58 ANOVA 59 Para trabajar el análisis de la varianza, podemos teclear en la línea de entrada ANOVA[ <Lista>, <Lista>, ... ] 60 Introducimos los datos utilizando la hoja de cálculo y creamos varias listas, tantas como tratamientos diferentes haya. Utilizamos la instrucción ANOVA[ <Lista>, <Lista>, ... ] En una nueva lista aparecen dos valores El primero corresponde al p-valor El segundo valor corresponde al estadístico de contraste (cociente de cuadrados medios). 61 Si queremos realizar un análisis individual de las variables, podemos utilizar “Análisis multivariable” 62 También podemos realizar el análisis de la varianza desde el mismo sitio, e incluso contrastes de hipótesis e intervalos de confianza para la diferencia de medias 63 A PRACTICAR 64 MUCHAS GRACIAS 65