Laboratorio 2

Anuncio
Estadística I
Guión de la Práctica 2
Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística
1. Simulación de las variables aleatorias
En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para
simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los
pasos para simular valores de variables aleatorias son iguales para todo tipos de variables.
Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado
Análisis de Datos:
Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función
aparece la siguiente ventana:
 Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1.
 Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra.
 Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o
bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal).
 Parámetros: introducir los parámetros de la distribución.
 Iniciar con: dejamos en blanco.
 Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y
le damos algún nombre, según la distribución que seleccionamos.
1
1.1. Variables aleatorias discretas: Bernoulli y Binomial
1.1.1. En primer lugar, simulamos una muestra de n = 50 observaciones de una distribución Bernoulli:
. Abrimos la ventana de simulación de una variable aleatoria, como hemos visto
antes, rellenamos los siguientes campos y pulsamos Aceptar:
En la columna A tenemos una muestra aleatoria simple de una distribución Bernoulli con parámetro p =
0.4. Sabemos, que
y
, entonces
y
.
Calculamos la media y varianza muestrales usando las funciones de Excel PROMEDIO y VAR,
comparamos con los valores verdaderos:
Importante: cada alumno tendrá resultados diferentes porque los valores simulados son aleatorios.
1.1.2. Siguiendo los mismos pasos simulamos una muestra de n = 100 de una distribución Binomial:
.
Calculamos la media y varianza verdaderos y comparamos con la media y varianza muestrales:
2
1.2. Variables aleatorias continuas: Normal
Queremos generar una muestra de n = 20 de una Normal:
, donde
los mismos pasos que antes, calculamos la media y desviación típica muestrales:
y
. Seguimos
¿Están los valores estimados cerca de los valores verdaderos? ¿Qué pasaría si en vez de n = 20,
tuviéramos n = 1000?
2. Gráfica Cuantil – Cuantil (QQ - plot)
2.1. QQ – plot para una distribución Normal
Usamos los mismos datos que hemos generado antes de una Normal
. Primero, insertamos
una fila arriba del todo para los nombres de las columnas. Después, seleccionamos todos los datos y
ordenamos de menor a mayor a través del menú Datos y obtenemos la siguiente vista:
El siguiente paso sería calcular los cuantiles muestrales con las observaciones, pero antes tenemos que
asignar el rango a cada observación. Nos posicionamos en la celda B2 y escribimos 1, eso significa que el
número en A2 es la primera observación. En B3 introducimos la formula =B2+1 y copiamos la formula
hasta el final. Finalmente, podemos calcular los cuantiles muestrales en la tercera columna. Nos
posicionamos en la celda C2 e introducimos la formula =(B2-0.5)/20 (recordad que 20 es el tamaño
muestral). Copiamos esta fórmula hasta el final. Para comprobar si los cuantiles están bien, podemos
3
calcular que la mediana debería ocupar la posición (20+1)/2=10.5, entre 10 y 11. Como podemos ver, el
Q50% aparece justo entre las posiciones 10 y 11.
Finalmente, tenemos que calcular los valores de nuestra distribución Normal estimada, asociados con
cada cuantil:
, donde
y se corresponden a la media y desviación típica muestrales. Antes de
hacerlo, calculamos los z-scores, que son los valores de una distribución Normal estándar, asociados con
cada cuantil. Nos posicionamos en la celda D2, introducimos la siguiente función de Excel
=DISTR.NORM.ESTAND.INV(C2), y copiamos la formula hasta el final. Para convertir estos z-scores a los
valores asociados con la muestra original, hay que hacer la operación inversa, es decir la estandarización
inversa: multiplicar cada z-score por la desviación típica muestral y sumar la media estimada de X (lo
vamos a llamar x-scores):
Tenemos toda la información necesaria para dibujar un QQ – plot. Antes de hacerlo, hay que copiar la
columna A de datos originales a la derecha de la columna E de x-scores, porque así Excel reconoce mejor
qué datos son del eje x, y cuáles son del eje y.
Seleccionamos las dos columnas y vamos al menú Insertar, Dispersión, donde seleccionamos el tipo de
gráfico que queremos (sólo puntos):
4
N(2,3)
10
8
6
4
2
0
-5
-2 0
5
10
-4
-6
Para cambiar el tamaño o estilo de los puntos, hay que posicionarse encima de los puntos, botón
derecho, Dar formato a serie de datos…, Opciones de marcador.
Si los datos han sido realmente generados por la distribución considerada, entonces los puntos del
gráfico deben disponerse a lo largo de una línea recta. Para introducir esta línea, copiamos en la
columna G los X-scores, seleccionamos las tres columnas y hacemos otra vez: Insertar, Dispersión… Así
Excel dibuja no solo los puntos de nuestra distribución generada, sino, también los puntos que
corresponden a la línea recta
(ojo: al copiar y pegar la columna X-scores, se copian las formulas,
así que en el Pegado Especial…, que aparece pulsando botón derecho del ratón, tenemos que elegir Sólo
Valores).
Cuando aparece el siguiente gráfico, cambiamos el estilo de los puntos de X-score para que aparezca una
línea recta: nos posicionamos encima de los puntos, botón derecho, Dar formato a series de datos…,
Opciones de marcador: ninguno, Color de línea: Línea Sólida.
5
Finalmente obtenemos el siguiente gráfico:
10
8
6
4
2
0
-5
-2
0
5
10
-4
-6
Como podemos ver, los puntos del gráfico se disponen a lo largo de la línea recta. Eso significa que la distribución se
ajusta muy bien.
2.2. QQ – plot para data Binomial
Hemos visto como una variable aleatoria de distribución Binomial
una Normal
se puede aproximar con
dado que n es suficientemente grande.
2.2.1. Vamos a ver qué pasa cuando una variable aleatoria Binomial NO debería ser aproximada por
una distribución Normal. En una nueva hoja, generamos una muestra de tamaño 500 de una
Binomial
. La media y desviación típica muestrales y verdaderas son las
siguientes:
6
Después, seguimos los pasos para dibujar el QQ – plot:









Columna A: Ordenar los datos (de menor a mayor).
Columna B: Introducir el rango (de 1 a 500).
Columna C: Calcular los cuantiles (=(B2-0.5)/500).
Columna D: Calcular los z-scores (=DISTR.NORM.ESTAND.INV(C2)).
Columna E: Convertir los z-scores a x-scores usando la media y desviación típica de la
muestra Binomial para aproximar una Normal introduciendo la formula en la celda E2:
=D2*DESVEST(A$2:A$501)+PROMEDIO(A$2:A$501)
Columna F: Copiar columna A.
Columna G: Copiar columna E (¡sólo valores!).
Seleccionar columnas E, F y G, menú Insertar, Dispersión.
Hacemos cambios para los marcadores de la segunda serie, para que sea una línea.
4
3
2
1
0
-2
-1
0
1
2
3
-1
-2
4
3
2
1
0
-2
-1
0
1
2
3
-1
-2
Podemos ver que muchos puntos están bastante lejos de la línea y el ajuste es malo, por tanto, la Binomial
NO se puede aproximar con una Normal.
7
3. Ejercicio para entregar al final de clase.
3.1. Simula una variable aleatoria de tamaño n = 150 de la distribución Uniforme
, calcula la
media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en la Tabla 1.
3.2. Simula una variable aleatoria de tamaño n = 50 de la distribución Binomial
.
a. Calcula la media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en
la Tabla 2.
b. Aproxima esta Binomial con una Normal y escribe la media y desviación típica de esta Normal.
Dibuja el QQ – plot (sólo en Excel) de esta aproximación y comenta los resultados.
8
Respuestas del apartado 3.
Nombre y Apellidos:____________________________________________________________
NIU:_____________________Grado:___________________________________Grupo______
Tabla 1. Resultados de n = 150,
X
Estimada
Verdadera
Estimada
Verdadera
Media
Varianza
Desviación típica
Tabla 2. Resultados de n = 50,
X
Media
Varianza
Desviación típica
¿Cuáles son los parámetros de la Normal, con cual aproximamos la Binomial anterior?
Comenta los resultados del QQ – plot:
_______________________________________________________________________________________________
______________________________________________________________________________________________
_______________________________________________________________________________________________
_______________________________________________________________________________________________
9
Descargar