LABORATORIO 6 FUNCIONES DE DISTRIBUCIONES DE PROBABILIDAD ILI-280 Estadística Computacional Profesores: Dr. Héctor Allende O. Dr. Gonzalo Hernández O. OBJETIVOS DEL LABORATORIO: Construir distribuciones de probabilidad a través de funciones de distribuciones conocidas. En particular: construcción de la distribución ji-cuadrado a partir de normales estándares independientes; construcción de la t de Student a partir una normal y una jicuadrado independientes; construcción de la F de Snedecor a partir de dos ji-cuadradas independientes. Construcción de una exponencial a partir de una Poisson. Aprender a construir Gráficos de Probabilidad Q-Q y P-P y utilizarlos para juzgar si un conjunto de datos proviene de una determinada distribución probabilística. PARTE 1. CONSTRUCCIÓN DE GRÁFICOS DE PROBABILIDAD. 1) Recordar la siguiente propiedad: a) Sea X una variable aleatoria, y sea F() su función de distribución de probabilidad (acumulada). Entonces la nueva variable aleatoria construida aplicando la función F a la variable aleatoria X, F(X), tiene distribución uniforme en el intervalo (0,1). b) En forma equivalente, si U es una variable aleatoria uniforme en (0,1), y si F es una función de distribución, entonces la variable aleatoria F probabilística F, en que F 1 1 (U) tiene distribución es la inversa de la función F. 2) La propiedad (1) se utilizará para la construcción de gráficos de probabilidad. Más adelante se utilizará para generar observaciones aleatorias, provenientes de poblaciones con determinadas distribuciones de probabilidad. 3) Construcción de Gráficos P-P (Probabilidad versus Probabilidad): Supóngase que se tienen n puntos, {x1, x2, ..., xn} y se sospecha que provienen de una población con distribución de probabilidad F. Entonces si se les aplica la función F, se forma el conjunto {F(x1), F(x2), ..., F(xn)}. Por la propiedad (1), en la forma (a), estos puntos, que llamaremos probabilidades empíricas, deben obedecer a una distribución uniforme en el intervalo (0,1). Luego si los ordenamos, deberían quedar más o menos equi-espaciadas. Para verificar esto, construimos un conjunto de n puntos equi-espaciados (k-0.5)/n , para k=1,2,..., n (se resta 0.5 para que queden centrados entre 0 y 1). Estos puntos los llamaremos probabilidades teóricas. Se construye un gráfico de dispersión de las probabilidades empíricas versus las probabilidades teóricas. Si las empíricas están más o menos equi-espaciadas, la mayoría de los puntos del gráfico quedarán aproximadamente alineados y este será un indicio que las observaciones efectivamente provienen de una población con distribución F. Este se denomina Gráfico de Probabilidad P-P. 4) Construcción de Gráficos Q-Q (cuantila versus cuantila): Se basan en la propiedad (1) forma (b), que es equivalente a la forma (a). En este caso, en lugar de graficar las probabilidades F(xk) versus (k-0.5)/n, se grafican las cuantilas xk versus F-1[(k-0.5)/n], en que F-1 es la inversa de la función de distribución F. 5) Construya un gráfico P-P para datos n = 100 observaciones provenientes de una normal con parámetros y dados. Genere las observaciones utilizando la herramienta Generación de números aleatorios, de EXCEL. Podemos asumir que no conocemos la media ni la varianza. Entonces podemos estandarizar las observaciones restándoles la media muestral y dividiendo por la desviación standard muestral. Se obtienen zk estandarizadas. Entonces les aplicamos la función de distribución F de la normal standard . Para calcular las F(zk), utilice la función DISTR.NORM.ESTAND(zk). ¿Se puede concluir del gráfico, razonablemente bien, que las observaciones efectivamente provienen de una normal? Es posible que algunos puntos en los extremos se salgan notoriamente de la recta, pero esto es normal. Lo importante es que la mayoría estén más o menos alineados. 6) Construya un gráfico Q-Q para las mismas observaciones del item (5). Para ello, se grafica xk versus F-1[(k-0.5)/100]. Esto se calcula utilizando la función de EXCEL DISTR.NORM.ESTAND.INV( (k-0.5)/100) ). ¿Qué se concluye ahora? PARTE 2. CONSTRUCCION DE JI-CUADRADA A PARTIR DE NORMALES. En esta parte se comprobará empíricamente que la suma de los cuadrados de variables aleatorias normales estandares independientes, tiene la distribución de una ji-cuadrado, cuyo parámetro es igual al número de normales que se sumaron. El parámetro se denomina grados de libertad. 7) Mediante la herramienta Generación de números aleatorios generar 20 grupos de v observaciones normales standard cada uno. Por ejemplo, si v = 8 son un total de 160. Elevarlas al cuadrado. Sumar las ocho de cada grupo, obteniéndose asi 20 valores. 8) Mediante un gráfico P-P determine si estos valores corresponden a observaciones que siguen una distribución ji-cuadrado con grados de libertad igual a v. Para obtener los valores F(xk), utilice la funcion DISTR.CHI. Nota 1: Esta función de EXCEL devuelve la probabilidad acumulada hacia la derecha de la cuantila xk, por lo que la forma de obtener las probabilidades empíricas acumulada a la izquierda es mediante 1-DISTR.CHI(xk,v). v corresponde a los grados de libertad. PARTE 3. CONSTRUCCION DE T DE STUDENT A PARTIR DE UNA NORMAL Y UNA JICUADRADA. En esta parte se comprobará empíricamente que el cuociente entre una variable aleatoria normal estandar y la raíz cuadrada de una variable aleatoria ji-cuadrada, independiente, dividida por sus grados de libertad (dentro de la raíz) tiene la distribución de t de student, cuyo parámetro es igual los grados de libertad de la ji-cuadrado. El parámetro de la t de student también se denomina grados de libertad. 9) Generar 100 observaciones aleatorias normales estandard. También generar 100 observaciones de una ji-cuadrado con v grados de libertad. Dividir las ji-cuadrado por sus grados de libertad v y extraer raiz cuadrada al cuociente. Finalmente dividir las normales por estos últimos valores. Nota 2: EXCEL no tiene una herramienta para generar variables aleatorias ji-cuadrado. Para hacerlo siga el siguiente procedimento: genere 100 observaciones uk, uniformes en (0,1). Luego aplíqueles la función DISTR.GAMMA.INV(uk,2,v/2), en que v son los grados de libertad. Ver explicación en el apéndice, al final de este laboratorio. 10) Mediante un gráfico Q-Q determine si estos valores corresponden a observaciones que siguen una distribución t de student, con v grados de libertad. Para obtener los valores F-1[(k-0.5)/n], utilice la funcion DISTR.T.INV. Nota 3: Esta función de EXCEL tiene la característica que si se le entrega un valor de probabilidad p, devuelve la cuantila que deja la mitad de p hacia la derecha. Por lo tanto, si A = [(k-0.5)/n] , la probabilidad acumulada a la izquierda de A, es decir, F-1(A), se obtiene mediante DISTR.T.INV(1A/2,v) PARTE 4. CONSTRUCCION DE F DE SNEDECOR A PARTIR DE DOS JI-CUADRADAS. En esta parte se comprobará empíricamente que el cuociente entre dos variables aleatorias jicuadradas, independientes, cada una dividida por sus respectivos grados de libertad, tiene la distribución de F de Snedecor, cuyos parámetros son iguales a los grados de libertad de las dos jicuadrado. El parámetro de la del numerador se denomina grados de libertad del numerador, y el del denominador, grados de libertad del denominador. 11) Generar 100 observaciones aleatorias ji-cuadrado con v grados de libertad y otras 100 observaciones de una ji-cuadrado con w grados de libertad. Dividir ambas ji-cuadrado por sus respectivos grados de libertad y hacer el cuociente entre ambos resultados. 12) Mediante un gráfico Q-Q determine si estos valores corresponden a observaciones que siguen una distribución F de Snedecor, con v grados de libertad en el numerador y w grados de libertad en el denominador. Para obtener los valores F-1[A], con A = (k-0.5)/n, utilice la funcion DISTR.F.INV. Nota 4: Esta función de EXCEL devuelve la cuantila que tiene acumulada la probabilidad A hacia la derecha, por lo que la forma de obtener las cuantilas teóricas que acumulan la probabilidad a la izquierda es mediante 1-DISTR.F.INV(A,v,w). v y w son los grados de libertad. PARTE 5. CONSTRUCCION DE EXPONENCIAL A PARTIR DE UNA POISSON. En esta parte se comprobará empíricamente que si una variable aleatoria tiene distribución Poisson, su inverso tiene distribucion exponencial. Por ejemplo, si el número de naves que arriban a un determinado puerto a la semana sigue una distribución Poisson, con parámetro L entonces los tiempos entre arribo de naves sigue una distribución exponencial con el mismo parámetro. L es la tasa semanal promedio de arribo de naves. 13) Generar 100 observaciones aleatorias Poisson xk con parámetro L. Calcular yk = 1/xk. 14) Mediante un gráfico Q-Q determine si estos valores corresponden a observaciones que siguen una distribución exponencial con tasa promedio L. Nota 5: EXCEL no tiene una función de distribución inversa de la exponencial, para obtener las cuantilas teóricas. Para hacerlo, utilice la función DISTR.GAMMA.INV(A, L,1), en que A = (k-0.5)/n y L es el parámetro de la exponencial. Ver explicación en el apéndice, al final de este laboratorio. APENDICE: NOTAS TECNICAS A1. GENERACIÓN DE VARIABLES ALEATORIAS POR EL MÉTODO DE LA INVERSA. Se desea obtener una muestra de números aleatorios que provengan de una población con distribución de probabilidad F(). Se conoce una expresión analítica para la inversa de la función, F-1(). Suponga que se dispone de un método computacional para generar números aleatorios u con distribución uniforme entre 0 y 1. Por la propiedad (1), parte (b), F-1(u) tiene distribución F, y está resuelto el problema. Este método computacional de generar variables aleatorias se denomina Método de la Inversa. Es muy fácil de aplicar, pero generalmente no es posible. En el caso de muchas variables aleatorias, no es posible obtener una expresión analítica para su función de distribución; por ejemplo, la normal. En otros casos si existe, pero no es posible obtener, a partir de ella, una expresión analítica para su inversa. Para generar observaciones provenientes de una distribución ji-cuadrado, se puede utilizar este método (ver Nota 2). A2. RELACION ENTRE LA DISTRIBUCION GAMA Y LA DISTRIBUCION JI-CUADRADO, Y ENTRE LA DISTRIBUCION GAMA Y LA EXPONENCIAL. La función de densidad de una gama es x 1 f ( x) u x u 1 e b b (u ) si x 0 b se denomina parámetro de escala y u parámetro de forma. es la función gama, que tiene la propiedad de que si u es entero positivo, (u) = (u-1)! . La distribución gama se puede parametrizar de otra forma, pero esta es la forma que utiliza EXCEL en las funciones DISTR.GAMMA(x,b,u) y DISTR.GAMMA.INV(x,b,u). La densidad de una ji-cuadrado con v grados de libertad es x 1 f ( x) v / 2 x v / 21 e 2 2 (v / 2) si x 0 Se puede ver, entonces, que la chi-cuadrado es un caso especial de gama, con parámetros b = 2 y u = v/2. La Nota 2 explica que se puede usar este resultado, y tambien que se pueden generar observaciones chi-cuadrado por el método de la inversa. Por otra parte, la función de densidad de una exponencial con parámetro L es f ( x ) L e L x si x 0 Haciendo b=1/L y u=1 en la gama, se obtiene esta expresión, por lo que la exponencial es un caso especial de una gama (ver Nota 5).