Labor-6

Anuncio
LABORATORIO 6 FUNCIONES DE DISTRIBUCIONES DE PROBABILIDAD
ILI-280 Estadística Computacional
Profesores: Dr. Héctor Allende O.
Dr. Gonzalo Hernández O.
OBJETIVOS DEL LABORATORIO: Construir distribuciones de probabilidad a través de funciones de
distribuciones conocidas. En particular: construcción de la distribución ji-cuadrado a partir de
normales estándares independientes; construcción de la t de Student a partir una normal y una jicuadrado independientes; construcción de la F de Snedecor a partir de dos ji-cuadradas
independientes. Construcción de una exponencial a partir de una Poisson.
Aprender a construir Gráficos de Probabilidad Q-Q y P-P y utilizarlos para juzgar si un
conjunto de datos proviene de una determinada distribución probabilística.
PARTE 1. CONSTRUCCIÓN DE GRÁFICOS DE PROBABILIDAD.
1)
Recordar la siguiente propiedad:
a)
Sea X una variable aleatoria, y sea F() su función de distribución de probabilidad
(acumulada). Entonces la nueva variable aleatoria construida aplicando la función F a la
variable aleatoria X, F(X), tiene distribución uniforme en el intervalo (0,1).
b)
En forma equivalente, si U es una variable aleatoria uniforme en (0,1), y si F es una
función de distribución, entonces la variable aleatoria F
probabilística F, en que F
1
1
(U) tiene distribución
es la inversa de la función F.
2)
La propiedad (1) se utilizará para la construcción de gráficos de probabilidad. Más adelante se
utilizará para generar observaciones aleatorias, provenientes de poblaciones con determinadas
distribuciones de probabilidad.
3)
Construcción de Gráficos P-P (Probabilidad versus Probabilidad): Supóngase que se tienen n
puntos, {x1, x2, ..., xn} y se sospecha que provienen de una población con distribución de
probabilidad F. Entonces si se les aplica la función F, se forma el conjunto {F(x1), F(x2), ..., F(xn)}.
Por la propiedad (1), en la forma (a), estos puntos, que llamaremos probabilidades empíricas,
deben obedecer a una distribución uniforme en el intervalo (0,1). Luego si los ordenamos,
deberían quedar más o menos equi-espaciadas. Para verificar esto, construimos un conjunto de n
puntos equi-espaciados (k-0.5)/n , para k=1,2,..., n (se resta 0.5 para que queden centrados entre
0 y 1). Estos puntos los llamaremos probabilidades teóricas. Se construye un gráfico de
dispersión de las probabilidades empíricas versus las probabilidades teóricas. Si las empíricas
están más o menos equi-espaciadas, la mayoría de los puntos del gráfico quedarán
aproximadamente alineados y este será un indicio que las observaciones efectivamente
provienen de una población con distribución F. Este se denomina Gráfico de Probabilidad P-P.
4)
Construcción de Gráficos Q-Q (cuantila versus cuantila): Se basan en la propiedad (1) forma
(b), que es equivalente a la forma (a). En este caso, en lugar de graficar las probabilidades F(xk)
versus (k-0.5)/n, se grafican las cuantilas xk versus F-1[(k-0.5)/n], en que F-1 es la inversa de la
función de distribución F.
5)
Construya un gráfico P-P para datos n = 100 observaciones provenientes de una normal con
parámetros  y  dados. Genere las observaciones utilizando la herramienta Generación de
números aleatorios, de EXCEL. Podemos asumir que no conocemos la media ni la varianza.
Entonces podemos estandarizar las observaciones restándoles la media muestral y dividiendo
por la desviación standard muestral. Se obtienen zk estandarizadas. Entonces les aplicamos la
función de distribución F de la normal standard . Para calcular las F(zk), utilice la función
DISTR.NORM.ESTAND(zk). ¿Se puede concluir del gráfico, razonablemente bien, que las
observaciones efectivamente provienen de una normal? Es posible que algunos puntos en los
extremos se salgan notoriamente de la recta, pero esto es normal. Lo importante es que la
mayoría estén más o menos alineados.
6)
Construya un gráfico Q-Q para las mismas observaciones del item (5). Para ello, se grafica xk
versus
F-1[(k-0.5)/100].
Esto
se
calcula
utilizando
la
función
de
EXCEL
DISTR.NORM.ESTAND.INV( (k-0.5)/100) ). ¿Qué se concluye ahora?
PARTE 2. CONSTRUCCION DE JI-CUADRADA A PARTIR DE NORMALES.
En esta parte se comprobará empíricamente que la suma de los cuadrados de variables
aleatorias normales estandares independientes, tiene la distribución de una ji-cuadrado, cuyo
parámetro es igual al número de normales que se sumaron. El parámetro se denomina grados de
libertad.
7)
Mediante la herramienta Generación de números aleatorios generar 20 grupos de v
observaciones normales standard cada uno. Por ejemplo, si v = 8 son un total de 160. Elevarlas al
cuadrado. Sumar las ocho de cada grupo, obteniéndose asi 20 valores.
8)
Mediante un gráfico P-P determine si estos valores corresponden a observaciones que siguen
una distribución ji-cuadrado con grados de libertad igual a v. Para obtener los valores F(xk), utilice
la funcion DISTR.CHI.
Nota 1: Esta función de EXCEL devuelve la probabilidad acumulada hacia la derecha de la cuantila
xk, por lo que la forma de obtener las probabilidades empíricas acumulada a la izquierda es mediante
1-DISTR.CHI(xk,v). v corresponde a los grados de libertad.
PARTE 3. CONSTRUCCION DE T DE STUDENT A PARTIR DE UNA NORMAL Y UNA JICUADRADA.
En esta parte se comprobará empíricamente que el cuociente entre una variable aleatoria
normal estandar y la raíz cuadrada de una variable aleatoria ji-cuadrada, independiente, dividida por
sus grados de libertad (dentro de la raíz) tiene la distribución de t de student, cuyo parámetro es igual
los grados de libertad de la ji-cuadrado. El parámetro de la t de student también se denomina grados
de libertad.
9)
Generar 100 observaciones aleatorias normales estandard. También generar 100 observaciones
de una ji-cuadrado con v grados de libertad. Dividir las ji-cuadrado por sus grados de libertad v y
extraer raiz cuadrada al cuociente. Finalmente dividir las normales por estos últimos valores.
Nota 2: EXCEL no tiene una herramienta para generar variables aleatorias ji-cuadrado. Para hacerlo
siga el siguiente procedimento: genere 100 observaciones uk, uniformes en (0,1). Luego aplíqueles la
función DISTR.GAMMA.INV(uk,2,v/2), en que v son los grados de libertad. Ver explicación en el
apéndice, al final de este laboratorio.
10) Mediante un gráfico Q-Q determine si estos valores corresponden a observaciones que siguen
una distribución t de student, con v grados de libertad. Para obtener los valores F-1[(k-0.5)/n],
utilice la funcion DISTR.T.INV.
Nota 3: Esta función de EXCEL tiene la característica que si se le entrega un valor de probabilidad p,
devuelve la cuantila que deja la mitad de p hacia la derecha. Por lo tanto, si A = [(k-0.5)/n] , la
probabilidad acumulada a la izquierda de A, es decir, F-1(A), se obtiene mediante DISTR.T.INV(1A/2,v)
PARTE 4. CONSTRUCCION DE F DE SNEDECOR A PARTIR DE DOS JI-CUADRADAS.
En esta parte se comprobará empíricamente que el cuociente entre dos variables aleatorias jicuadradas, independientes, cada una dividida por sus respectivos grados de libertad, tiene la
distribución de F de Snedecor, cuyos parámetros son iguales a los grados de libertad de las dos jicuadrado. El parámetro de la del numerador se denomina grados de libertad del numerador, y el del
denominador, grados de libertad del denominador.
11) Generar 100 observaciones aleatorias ji-cuadrado con v grados de libertad y otras 100
observaciones de una ji-cuadrado con w grados de libertad. Dividir ambas ji-cuadrado por sus
respectivos grados de libertad y hacer el cuociente entre ambos resultados.
12) Mediante un gráfico Q-Q determine si estos valores corresponden a observaciones que siguen
una distribución F de Snedecor, con v grados de libertad en el numerador y w grados de libertad
en el denominador. Para obtener los valores F-1[A], con A = (k-0.5)/n, utilice la funcion
DISTR.F.INV.
Nota 4: Esta función de EXCEL devuelve la cuantila que tiene acumulada la probabilidad A hacia la
derecha, por lo que la forma de obtener las cuantilas teóricas que acumulan la probabilidad a la
izquierda es mediante 1-DISTR.F.INV(A,v,w). v y w son los grados de libertad.
PARTE 5. CONSTRUCCION DE EXPONENCIAL A PARTIR DE UNA POISSON.
En esta parte se comprobará empíricamente que si una variable aleatoria tiene distribución
Poisson, su inverso tiene distribucion exponencial. Por ejemplo, si el número de naves que arriban a
un determinado puerto a la semana sigue una distribución Poisson, con parámetro L entonces los
tiempos entre arribo de naves sigue una distribución exponencial con el mismo parámetro. L es la tasa
semanal promedio de arribo de naves.
13) Generar 100 observaciones aleatorias Poisson xk con parámetro L. Calcular yk = 1/xk.
14) Mediante un gráfico Q-Q determine si estos valores corresponden a observaciones que siguen
una distribución exponencial con tasa promedio L.
Nota 5: EXCEL no tiene una función de distribución inversa de la exponencial, para obtener las
cuantilas teóricas. Para hacerlo, utilice la función DISTR.GAMMA.INV(A, L,1), en que A = (k-0.5)/n y L
es el parámetro de la exponencial. Ver explicación en el apéndice, al final de este laboratorio.
APENDICE: NOTAS TECNICAS
A1. GENERACIÓN DE VARIABLES ALEATORIAS POR EL MÉTODO DE LA INVERSA.
Se desea obtener una muestra de números aleatorios que provengan de una población con
distribución de probabilidad F(). Se conoce una expresión analítica para la inversa de la función, F-1().
Suponga que se dispone de un método computacional para generar números aleatorios u con
distribución uniforme entre 0 y 1. Por la propiedad (1), parte (b), F-1(u) tiene distribución F, y está
resuelto el problema.
Este método computacional de generar variables aleatorias se denomina Método de la
Inversa. Es muy fácil de aplicar, pero generalmente no es posible. En el caso de muchas variables
aleatorias, no es posible obtener una expresión analítica para su función de distribución; por ejemplo,
la normal. En otros casos si existe, pero no es posible obtener, a partir de ella, una expresión analítica
para su inversa.
Para generar observaciones provenientes de una distribución ji-cuadrado, se puede utilizar
este método (ver Nota 2).
A2. RELACION ENTRE LA DISTRIBUCION GAMA Y LA DISTRIBUCION JI-CUADRADO, Y ENTRE
LA DISTRIBUCION GAMA Y LA EXPONENCIAL.
La función de densidad de una gama es
x

1
f ( x)  u
x u 1 e b
b (u )
si x  0
b se denomina parámetro de escala y u parámetro de forma.  es la función gama, que tiene la
propiedad de que si u es entero positivo,  (u) = (u-1)! .
La distribución gama se puede parametrizar de otra forma, pero esta es la forma que utiliza EXCEL en
las funciones DISTR.GAMMA(x,b,u) y DISTR.GAMMA.INV(x,b,u).
La densidad de una ji-cuadrado con v grados de libertad es
x

1
f ( x)  v / 2
x v / 21 e 2
2 (v / 2)
si x  0
Se puede ver, entonces, que la chi-cuadrado es un caso especial de gama, con parámetros b = 2 y
u = v/2. La Nota 2 explica que se puede usar este resultado, y tambien que se pueden generar
observaciones chi-cuadrado por el método de la inversa.
Por otra parte, la función de densidad de una exponencial con parámetro L es
f ( x )  L e L x
si x  0
Haciendo b=1/L y u=1 en la gama, se obtiene esta expresión, por lo que la exponencial es un caso
especial de una gama (ver Nota 5).
Documentos relacionados
Descargar