ESTADÍSTICA CON GEOGEBRA

Anuncio
GEOGEBRA COMO RECURSO PARA
UNAS NUEVAS MATEMÁTICAS
ESTADÍSTICA CON GEOGEBRA
Virgilio Gómez Rubio Mª José Haro Delicado
Baeza 2014
1
ESTADÍSTICA DESCRIPTIVA
2
Estadística descriptiva
1. El puntaje de Apgar se usa para evaluar reflejos y
respuestas de recién nacidos. A cada bebé un
profesional de la medicina le asigna un puntaje y los
valores posibles son enteros entre cero y diez. Se toma
una muestra de 1000 bebés nacidos en cierto condado
y los resultados han sido los siguientes:
0
1
2
3
4
5
1
3
2
4
25
35
6
7
8
9
198 367 216 131
10
18
• Halla la media de los puntajes de Apgar. Halla la
desviación típica de la muestra.
• Halla la mediana muestral.
• ¿Cuáles son los cuartiles primero y tercero?
3
Resolviendo con Geogebra
• Abrimos la hoja de cálculo
• Introducimos en la 1ª columna los valores de la variable y en la segunda
las frecuencias absolutas
• Creamos sendas listas.
4
Cálculo de las medidas de centralización y dispersión
Media[ <Lista de Números>, <Lista de Frecuencias> ]  media =7.14
Mediana[ <Lista de Números>, <Lista de Frecuencias> ]  mediana =7
La moda sólo se puede calcular para valores sin agrupar
Varianza poblacional: Varianza[ <Lista de Números>, <Lista de Frecuencias> ] 
1.72
Varianza muestral: VarianzaMuestral[ <Lista de Números>, <Lista de Frecuencias>
]
Desviación típica poblacional: DE[ <Lista de Números>, <Lista de Frecuencias> ]
Desviación típica muestral: DEMuestral[ <Lista de Números>, <Lista de
Frecuencias> ] 1.31
Q1[lista1, lista2] 6
Q3[lista1, lista2] 8
5
Algunas representaciones gráficas
2. En un estudio sobre la amnesia postraumática tras una lesión
craneal, se estudió el tiempo en días que estuvieron los pacientes en
coma. Se recogieron los datos siguientes:
2 8
9
14
16
6
10
8
7
13 12
11
11
11
13
15
10
11
15 12
20
• Construir un diagrama de barras
• Construir un diagrama de tallo y hojas para estos datos. ¿Parecen
estar los datos simétricamente distribuidos?
• Construir un diagrama de cajas y bigotes para los datos. ¿Da la
misma impresión de simetría que con el diagrama de tallo y hojas?
• ¿Existen datos puntuales que puedan considerarse como atípicos?
6
DIAGRAMA DE BARRAS
Barras[ <Lista de Datos en Bruto>, <Ancho de
Barras> ]
Si el ancho de barras es 0, se obtiene una
especie de agujas a diferentes alturas.
También se puede trabajar con frecuencias y con
otras opciones.
En este caso, como los
valores de la variable van
de 1 en 1, es conveniente
que el ancho de las
barras sea de longitud 1
7
DIAGRAMA DE TALLOS Y HOJAS
DiagramaTalloHojas[ <Lista> ]
8
DIAGRAMA DE TALLOS Y HOJAS
DiagramaTalloHojas[ <Lista>, <Ajuste -1|0|1> ]
En este caso el valor del ajuste es -1.
Significa que la unidad se divide por
10.
Los valores a cuyo lado no aparece
el cero no corresponden a valores
de la variable.
9
DIAGRAMA DE CAJAS Y BIGOTES
DiagramaCaja[ <Offset_y>, <Escala_y>, <Lista de
Datos en Bruto> ]
El problema de calcular el diagrama de cajas y bigotes
utilizando la instrucción anterior es que los bigotes se
extienden hasta los valores máximo y mínimo, con lo
cual, no sirve para detectar los valores atípicos.
10
3.Parte de un estudio de control de calidad tuvo como
objetivo mejorar una línea de producción. Se midieron los
pesos (en onzas) de 50 barras de jabón. Los resultados
son los siguientes, ordenados de menor a mayor.
a) Construye un diagrama de tallos y hojas para estos
datos.
b) Construye un histograma para estos datos.
c) Construye un diagrama de cajas para estos datos.
¿Identifica datos atípicos?
11
Usaremos Análisis de una variable
Seleccionamos nuestros datos en la hoja de
cálculo y hacemos clic sobre “Análisis de una
variable” y después en “analiza”
12
Si pinchamos sobre el botón que
indica la flecha anterior,
podemos agregar la tabla de
frecuencias y el polígono de
frecuencias entre otras cosas.
La tabla de la izquierda en la que
aparecen las medidas de
centralización,
posición
y
dispersión, se obtiene pinchando
sobre el botón en el que aparece
el signo sumatorio.
13
14
Si hay frecuencias absolutas, éstas, deben formar parte de una lista y
pinchando sobre la rueda de la esquina superior derecha, podemos
introducirlas. Para hacerlo, seleccionamos la columna que las contenga
y pinchamos sobre la mano que aparece encima de las celdas
15
16
Para el diagrama de cajas, se procede de manera similar. Se nos
da la opción de que aparezcan los datos atípicos, si los hay.
17
A PRACTICAR
18
ESTADÍSTICA DESCRIPTIVA
PARA DOS VARIABLES
19
20
Introducimos los datos en dos columnas y usamos la opción Análisis regresión
de dos variables. De esta forma, obtenemos tanto el diagrama de dispersión,
como el diagrama de residuos y un resumen estadístico de la relación entre las
dos variables. Se realizan diversos tipos de ajustes y se pueden usar para predecir
valores de la variable dependiente.
Se pueden intercambiar las variables, pasando la variable dependiente a ser
independiente.
21
También se puede realizar usando comandos seleccionando previamente las dos
columnas de datos y eligiendo la opción “crea lista de puntos”
AjusteLineal[ <Lista de Puntos> ]
22
El diagrama de residuos lo podemos obtener con la opción
DiagramaResidual[ <Lista de Puntos>, <Función> ]
introduciendo en la opción Función, la ecuación de la recta obtenida previamente.
Para obtener el coeficiente de correlación, usaríamos
Spearman[ <Lista de Puntos> ]
También hay opciones para calcular las medias, varianzas y
desviaciones típicas marginales, así como para calcular la
covarianza.
23
A PRACTICAR
24
VARIABLES Y MODELOS DE
DISTRIBUCIÓN
25
26
a) Creamos un deslizador para c y representamos gráficamente la función f(x)=cx. El
deslizador se puede iniciar en 0, ya que una de las condiciones que debe cumplir una
función de densidad es el ser positiva, f(x)>0 y, en este caso, x[0,2]
Se calcula el área en función del valor de c con el comando
Integral[ <Función>, <Valor Inicial de x>, <Valor Final de x> ]
b) Después de obtener el valor de c, en este caso de 0.5, calculamos
27
c) Para calcular la media usamos
Integral[x*0.5*x,0,2]. Obtenemos
d) Para hallar la varianza, podemos usar
Integral[x² 0.5 x, 0, 2] – (Integral[x 0.5 x, 0, 2])^2
e) Para hallar la función de distribución, podemos
crear un nuevo deslizador, k, que tome valores en el
intervalo [0,2]. A continuación, obtenemos el valor
distribución=Integral[0.5 x, 0, k].
Para que se visualice la función de distribución
creamos el punto A(k, distribución) y activamos el
rastro, poniendo el deslizador k en animación
automática.
28
h) Para responder a esta pregunta basta con calcular
Integral[0.5*x,0.8,2]
29
A PRACTICAR
2. La lectura de un termómetro calibrado en agua helada
(temperatura real de 0ºC) representa una variable aleatoria con
función de densidad de probabilidad :

k 1  x 2
f ( x)  
0

1  x  1
en cualquier otro caso
Determina el valor de k
¿Cuál es la probabilidad de que el termómetro indique una
temperatura mayor a 0ºC?
¿Cuál es la probabilidad de que la lectura esté dentro de los
0.25ºC de la temperatura real?
¿Cuál es la media de la lectura?
¿Cuál es la mediana de la lectura?
¿Cuál es la desviación típica?
30
3. Las puntuaciones de una prueba
estandarizada se distribuyen normalmente con
media de 480 y desviación típica de 90.
¿Cuál es la proporción de puntuaciones
mayores a 700?
¿Cuál es el 25º percentil de las
puntuaciones?
Si la puntuación de alguien es de 600 ¿En
qué percentil se encuentra?
¿Qué proporción de las puntuaciones se
encuentra entre 420 y 520?
31
a) 1 - Normal[480, 90, 700]=0.0073
b) NormalInversa[ <Media>, <Desviación
Estándar>, <Probabilidad> ]
NormalInversa[480,90,0.25]=419.296.
Consideramos que es el percentil 420
c) Normal[ <Media>, <Desviación Estándar>,
x, <Booleana Acumulativa> ]
Normal[480, 90, 600, true]=0.909, lo que
implica prácticamente un percentil 91
d) Normal[ 480,90, 520,true]-Normal[480,90,
420,true]=0.419
32
APROXIMACIÓN DE LA BINOMIAL
MEDIANTE LA NORMAL
33
1. El 45% de los condensadores de una cierta partida presenta deficiencias
a) ¿Cuál es la probabilidad de que presenten deficiencias 1, 2, 3, 4,…,10 de los
condensadores?
b) ¿Cuál es la probabilidad de que de diez condensadores presenten deficiencias un
número menor o igual a la mitad.
c) ¿Puede la distribución aproximarse a la distribución normal?
Calcula la probabilidad de que de diez condensadores examinados, la mitad
presente dichas deficiencias utilizando la distribución normal.
a)Distribución Binomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Acumulada
Booleana> ]
DistribuciónBinomial[10, 0.45, false]
34
b) DistribuciónBinomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Valor
de Variable>, <Acumulada Booleana> ]
DistribuciónBinomial[ 10,0.45,5,true]=0.738
c) nq=5.5>5, µ=np=0.4510=4.5 no es mayor o igual que 5, pero no queda muy
lejos, por lo tanto, aunque muy en el límite, lo podríamos admitir.
2=npq=100.450.55=2.475; =1.57
5.5  4.5 
 4.5  4.5
P    5   P
Z

1.57 
 1.57
Normal[ <Media>, <Desviación Estándar>, x, <Booleana Acumulativa> ]
Normal[4.5, 1.57, 5.5,true]- Normal[4.5, 1.57, 4.5,true]=0.738-0.5=0.238
Si queremos comparar con el valor que se obtiene mediante el modelo binomial
usamos, DistribuciónBinomial[ <Número de Ensayos>, <Probabilidad de Éxito>,
<Valor de Variable>, <Acumulada Booleana> ] = DistribuciónBinomial[10, 0.45,
5,False ]= 0.234
35
Otra forma de hacer lo mismo:
36
Vamos a hacer un estudio más exhaustivo de la aproximación del modelo
binomial por el modelo normal, analizando modelos binomiales con diferentes
medias y desviaciones típicas y comparándolo con el modelo normal
Vamos a crear dos deslizadores, uno que tomará los valores para n y otro para
p.
El deslizador para n abarcará un rango que vaya, por ejemplo, desde 1 hasta
1000, con pasos de 1 en 1. El deslizador para p irá desde 0 a 1, con pasos de
0.01.
Aunque especifiquemos así los pasos, es difícil que los saltos no sean mayores
y que haya valores que nos saltemos. Para solventar este problema, podemos
crear casillas de control. Les damos los nombres n= y p= y los vinculamos al
deslizador correspondiente. Podemos modificar la longitud de la casilla de
entrada en estilo.
Creamos la distribución binomial con DistribuciónBinomial[n,p] y dos
variables
37
Ajustamos una curva normal de media  y desviación típica , con
Normal[,,x].
Para que sean los que sean los valores de p y de n la imagen se muestre
siempre en pantalla, iremos a Vista gráfica y modificaremos el rango en
los ejes.
Eje X (-3, +3)
Eje Y (-0.1, f()+0.1
Como en las casillas correspondientes de la vista gráfica no podemos
introducir directamente los símbolos  y , los introducimos en la
entrada, los copiamos (control c) y los pegamos después (control V).
38
Si queremos calcular las probabilidades de que la variable esté en
determinados intervalos, lo podemos hacer con la función Integral y
hablar del factor de corrección de Yates. Por ejemplo, si queremos
calcular la probabilidad de que r4, deberíamos hacerlo con
Integral[f, -∞, 4.5].
Para estudiar en qué casos se puede aproximar el modelo binomial por
el modelo normal, podemos fijar los valores de p e ir variando los de n
con la animación automática. De esta forma observamos cómo
evoluciona el ajuste de ambos modelos.
39
DISTRIBUCIÓN DE LA MEDIA MUESTRAL
TEOREMA CENTRAL DEL LÍMITE
40
MODELO DE DISTRIBUCIÓN UNIFORME
En la casilla A1 ponemos UniformeAleatoria[0, 1].
Extendemos hacia abajo para generar una muestra, tantas
casillas como tamaño queramos para la muestra (tomemos
n=40).
A continuación, nos movemos hacia la derecha para generar
más muestras del mismo tamaño.
En la casilla A41 escribimos Media[A1:A40], se obtiene la
media y nos movemos hacia la derecha para obtener las
medias de todas las muestras. Creamos una lista con esas
medias (llamémosla lista1).
41
Ahora toca representarlas y lo hacemos con la siguiente
instrucción.
Histograma[Clases[lista1, 10], lista1, false].
Hemos utilizado la instrucción Histograma[ <Lista de límites de
clases>, <Lista de datos brutos>, <Usar densidad o no
(true/false)>, <Factor de escala de densidad (opcional)> ].
Para <lista de límites de clase> hemos incluido la instrucción
Clases[ <Lista de datos>, <Número de clases> ]. <Lista de datos>
es la lista que contiene las medias muestrales, y <Número de
clases> contiene el número de intervalos que queremos obtener.
<Lista de datos brutos> es de nuevo nuestra lista de medias
muestrales y no usaremos densidades, poniendo false en la zona
correspondiente. Hemos dicho que se genere un histograma con
10 intervalos, con los valores de lista 1.
42
Para que se vea bien el histograma, ponemos en vista gráfica
como valores mínimo y máximo de la x, -0.1 y 1.1,
respectivamente.
Ahora representamos la curva normal correspondiente al modelo
de distribución uniforme [0,1] que tiene una media de:
  01 x
1
x 
1
1
dx    
1 0
 2 0 2
2
y una desviación típica igual a
1

 x dx  
1
0
2
40
2

 x3 
1
  
 3 0 4
40

1 1
1

3 4
 12
40
40
43
Lo hacemos con la instrucción Normal[0.5,1/sqrt(12*40),x]
Para representar la curva uniforme usamos Uniforme[0,1,x]
44
Si queremos hacer un estudio de la variable correspondiente a las
medias muestrales, podemos seleccionar la columna y hacer clic
sobre Análisis de una variable.
Si se pone, histograma
normalizado se superpone una
curva normal de media la
media
de
las
medias
muestrales y desviación típica
la de las medias muestrales.
También obtendremos un
resumen de las medidas de
centralización y dispersión de
la variable medias muestrales.
45
46
Podemos analizar la normalidad de los datos
escogiendo Gráfico Q-Q Cuantil Normal
47
A PRACTICAR
Analizad la media muestral
para muestras procedentes
de un modelo de Poisson
48
INTERVALOS DE CONFIANZA Y
CONTRASTE DE HIPÓTESIS
49
1. Un atleta efectúa seis lanzamientos,
obteniendo distancias de 58, 69, 64, 57, 64 y
66 metros. Halla un intervalo de confianza
para la media del 90%. Contrastar la hipótesis
de que la media poblacional es mayor o igual
que 66.
IntervaloMediaT[ <Lista de datos (muestra)>, <Nivel> ]
En lista 2, geogebra nos
devuelve los extremos del
intervalo
50
Para realizar el contraste de hipótesis, consideramos
como hipótesis alternativa H1: <66, frente a la hipótesis
nula H0: 66
TestMediaT[ <Lista de datos (muestra)>, <Media
(hipótesis)>, <Cola> ]
TestMediaT[ <lista1, 66, “<” ].
La respuesta es lista2 = {0.09, -1.58}.
El primer valor corresponde al p-valor
El segundo valor, corresponde al estadístico de
contraste.
51
2. En una muestra de tamaño
n=16, se mide una media 6 y una
desviación típica s=12. ¿Es el valor
de la media significativamente
mayor que 0? Usa un nivel de
confianza de =0.05
52
En este caso no disponemos de los datos en bruto,
podemos usar
TestMediaT[ <Media (muestra)>, <Desviación estándar (muestra)>, <Tamaño
(muestra)>, <Media (hipótesis)>, <Cola> ]
Hay otra forma:
Vamos a calculadora
de probabilidades,
dentro del menú que
ofrece la hoja de
cálculo
53
O bien, dentro del menú de la vista gráfica
54
Diferentes tests que se pueden utilizar
55
Si queremos obtener un intervalo T de confianza para la
media…
56
A PRACTICAR
3. Se quiere averiguar si ha habido una reducción
significativa en el porcentaje de votantes a un
determinado partido político, en el último año. Para
ello se eligieron al azar 100 personas y se les preguntó
si votarían al partido en cuestión, obteniéndose un
porcentaje de respuestas afirmativas del 39%. Si el
porcentaje de votantes a favor del partido
considerado era del 42% hace un año, cuando se
preguntó a 150 personas, contrasta a nivel de
significación =0.05 si la reducción habida ha sido
significativa.
57
4. En el laboratorio de física, dos alumnos realizan varias
medidas sobre la relación carga-masa (e/m) del
electrón, obteniendo los siguientes resultados:
¿Es el valor de la relación carga-masa obtenido por el
segundo alumno significativamente menor que el
valor real: e / m  1.75 1011C / kg ?
Suponiendo varianzas poblacionales iguales, calcula
un intervalo de confianza para la diferencia de
medias ¿Son las medias significativamente diferentes
entre sí? Usa =0.05 en todos los casos.
58
ANOVA
59
Para trabajar el análisis de la varianza, podemos teclear
en la línea de entrada ANOVA[ <Lista>, <Lista>, ... ]
60
Introducimos los datos utilizando la hoja de cálculo y creamos varias
listas, tantas como tratamientos diferentes haya.
Utilizamos la instrucción ANOVA[ <Lista>, <Lista>, ... ]
En una nueva lista aparecen dos valores
El primero corresponde al p-valor
El segundo valor corresponde al estadístico de contraste (cociente de
cuadrados medios).
61
Si queremos realizar un análisis individual de las variables,
podemos utilizar “Análisis multivariable”
62
También podemos realizar el análisis de la varianza desde el mismo
sitio, e incluso contrastes de hipótesis e intervalos de confianza para
la diferencia de medias
63
A PRACTICAR
64
MUCHAS GRACIAS
65
Descargar