PROBABILIDAD Y ESTADISTICA PROBABILIDAD Y ESTADISTICA1 Lorenzo Castro Gómez2 ¿Qué se entiende por variable aleatoria? La palabra aleatoria3 es difícil de definir y se emplea en el español común en múltiples acepciones. Adoptaremos la siguiente definición: DEFINICIÓN. Una variable aleatoria pose cuatro propiedades: o Adopta un solo valor específico o No sabemos de antemano que valor adoptará o Pero sí conocemos los valores que puede adoptar o Conocemos la probabilidad de que adopte alguno de esos valores posibles. DEFINICIÓN. Una variable aleatoria que adopta un número finito de valores recibe el nombre de variable aleatoria discreta. La representamos con un diagrama muestre todos los resultados posibles junto con sus posibilidades. El diagrama es la función de masa de probabilidades de la variable aleatoria. o Ejemplo: lanzar un dado de seis lados –no cargado- la probabilidad es 1/6, o sea aproximadamente 0.1667 (16.67%), si el dado está cargado la probabilidad no será la misma. o La función de masa de probabilidad posee algunas propiedades simples, que podemos describir con términos algebraicos. Sea X la variable aleatoria, sea Xi un resultado posible de ella, sea I el conjunto de todos los resultados posibles y sea P(Xi) la probabilidad de que el resultado Xi ocurra. Entonces debe ocurrir que I P(Xi) = 1 Es decir, la suma de la probabilidad de todos los resultados posibles debe ser igual a 1, se garantiza que un resultado y solo uno ocurrirá. También puede suceder que, P(Xi) 1 DEFINICIÓN. Una variable aleatoria capaz de asumir cualquier valor de un conjunto recibe el nombre de variable aleatoria continua. Podemos representarla con una gráfica que muestre la probabilidad que adoptará un valor en cualquier parte de su rango. A esta gráfica se le conoce con el nombre de función de densidad de probabilidades de la variable aleatoria. (es un número infinito de valores posibles) Notas basadas en el libro de Schmidt J. Stephen. Econometría Ed. Mc Graw Hill, México 2005. Págs. (29 – 49). Nota. Es lo más básico que se debe saber sobre probabilidad, para iniciar un curso de Econometría. 2 Profesor del Departamento de Economía Agrícola, de la División de Ciencias Socioeconómicas de la Universidad Autónoma Agraria Antonio Narro. Buenavista Saltillo, Coahuila México. 2007. 3 Según el diccionario de la Real Lengua Española, del latín aleatorius, propio del juego de dados. Adj. Perteneciente o relativo al juego de azar, dependiente de algún suceso fortuito. 1 http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 1 PROBABILIDAD Y ESTADISTICA Pongamos el caso de una variable aleatoria U que puede asumir cualquier valor entre 0 y 1, teniendo todos ellos la misma probabilidad de ser iguales. Se le conoce como variable aleatoria uniforme. (Ui) = 1 si 0< Ui < 1 , (Ui) = si Ui < 0 o Ui > 1. DEFINICIÓN. La función empírica de la densidad de una variable aleatoria (o la función empírica de masa de una variable discreta) es un diagrama basado en una muestra de valores observados de los valores realizados de la variable, que muestran el porcentaje de veces que cada uno ha sido observado si la variable es discreta o el porcentaje de veces que ha caído en varios intervalos si es continua. DEFINICIÓN. La función de distribución acumulada de una variable aleatoria X es una gráfica que asocia todos los valores posibles, o el intervalo de valores posibles, con la probabilidad de que X sea menor o igual a Xi. Todas estas funciones presentan varias características comunes. Como se trata de probabilidades, siempre oscilan entre 0 y 1, es decir, 0 F(Xi) 1, donde F(Xi) es la función de densidad acumulada; además siempre son funciones crecientes. Ello se debe a que si consideramos dos valores posibles X y Y; y X< Y, entonces la probabilidad de obtener un valor realizado menor de Y ha de ser mayor que la de obtener otro menor de X; todos los valores menores de X son menores de Y, aunque algunos valores menores que Y son mayores que X. Por lo tanto, para toda función de distribución acumulada F, si X< Y, entonces F(X) F(Y) y la función será creciente. DEFINICIÓN. El valor medio de una variable discreta X se calcula con: = I Xi * P(Xi), donde I es el conjunto de todos los resultados posibles. El valor medio de una variable aleatoria continua se calcula con: = I X * P(X)dX, Con esta ecuación calculamos el valor esperado del resultado de lanzar un dado legal, y descubrimos que: = 1(0.167) + 2(0.167) + 3(0.167) + 4(0.167) + 5(0.167) + 6(0.167) = 0.167 + 0.333 + 0.5 + 0.667 + 0.833 + 1 = 3.5 TEOREMA. La ley de los grandes números: supongamos que observamos varias veces distintos valores realizados de una variable aleatoria y que calculamos el promedio de ellos. Este promedio tenderá a aproximarse al valor esperado. Cuantas más veces observemos la variable, más cercano será el promedio. Se puede demostrar que esto es verdadero. Sea N el número total de veces que observamos la variable aleatoria, y Ni sea el número de veces que observamos el resultado i. Entonces Ni será aproximadamente igual a N * P(Xi) y el total de todas las observaciones será Xi * Ni = Xi * N * P(Xi). Al dividir el total entre N para calcular el valor promedio, se obtiene Xi * P(Xi), que es la misma ecuación que el valor esperado. DEFINICIÓN. Para una variable aleatoria discreta la varianza 2 se calcula por medio de 2 = (Xi - )2 * P(Xi). Para una variable aleatoria continua la varianza http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 2 PROBABILIDAD Y ESTADISTICA se calcula por medio de 2 = I (X - )2 * P(X) dX. Donde P(Xi) es la probabilidad del resultado i, como antes, y el valor medio se calcula con la ecuación = I Xi * P(Xi), o = I X * P(X)dX. DEFINICIÓN. La desviación estándar de una variable aleatoria es igual a la raíz cuadrada de su varianza. La desviación estándar utiliza la raíz cuadrada para anular la elevación al cuadrado en la ecuación de la varianza. Es por tanto, en cierto modo, la diferencia promedio entre Xi y ; más exactamente es la raíz cuadrada de la media del cuadrado de la diferencia. Con estas ecuaciones podemos calcular la varianza y la desviación estándar del lanzamiento de un dado legal. El valor medio , calculado antes, es de 3.5 y la probabilidad de cada resultado es 1/6. Por tanto, la varianza será I (Xi – 3.5)2 (1/6), o bien (1-3.5)2 / 6 + (2-3.5)2 / 6 + (3-3.5)2 / 6 + (43.5)2 / 6 + (5-3.5)2 / 6 + (6-3.5)2 / 6 que nos da aproximadamente 2.971. La desviación estándar es la raíz cuadrada de esta expresión, la cual es aproximadamente 1. 708. Esto significa que debemos suponer que el dado caerá cerca de 1.708 lejos de su valor promedio de 3.5, lo cual es más o menos correcto. Una de las funciones de densidad de probabilidades mas usadas en econometría, es la distribución normal, llamada también curva de campana. Es una distribución con media 0 y una desviación estándar de 1, conocida como desviación normal estándar, la cual esta dado por la ecuación 1 f Xi e X 21 2 2 En general, la función de densidad de probabilidad de una variable aleatoria distribuida normalmente y con una media y una varianza 2 es X 1 f Xi 2 21 2 e 2 Si X es una variable aleatoria que presente dicha distribución, escribiremos X N (, 2), donde el símbolo indica una descripción de la función de densidad de probabilidad de la variable X, donde N indica que dicha función es la función normal dada por la ecuación anterior, y 2 son la media y la varianza de X, respectivamente. Si ocurre que X tiene la función de distribución normal estándar, escribiremos X N (0, 1). TEOREMA. Supongamos que una variable X presenta una distribución normal con media y una varianza 2 y que deseamos conocer la probabilidad de que X sea menor que cierto valor X*. Entonces calcule lo siguiente Z = X* - / , la probabilidad de que X sea menor que X* es igual a la que la variable aleatoria normal estándar sea menor que Z. Ejemplo. Supongamos que X está distribuida normalmente con una media de 25 y una varianza de 16; supongamos además que queremos conocer la probabilidad de que X sea menor que 19. Primero calculamos Z = X* - / = 19 –25 http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 3 PROBABILIDAD Y ESTADISTICA /16 = -6/4 = - 1.5, después buscamos 1.5 en la tabla de distribución normal estándar y observamos que su valor es de 0.0668. Por tanto, la probabilidad de que una variable aleatoria normal estándar sea menor de – 1.5 será 6.68%, el teorema indica que la probabilidad que X sea menor de 19 también es de 6.68%. ¿Qué significa Z? Es la diferencia entre X* y dividida entre la desviación estándar de X, o sea es el número de desviaciones entre X* y . DEFINICIÓN. La función de densidad conjunta de probabilidades de dos variables aleatorias X y Y depende de una función tal que la superficie bajo de cualquier intervalo de valores de X y de cualquier intervalo de valores de Y sea igual a la probabilidad de que los valores de las dos caigan dentro de sus intervalos respectivos. Ejemplo, lanzamos dos monedas: cara cara, cara cruz, cruz cara y cruz cruz DEFINICIÓN. Para dos variables aleatorias discretas X y Y, con media x y y , la covarianza de las dos variables aleatorias es: xy = IJ (Xi - x) * (Yj y) * P(Xi , Yj) donde Xi y Yj son los valores posibles de X y Y, I, y J son el conjunto de todos los valores posibles de X y de Y, donde P(Xi, Yj) es la función de densidad conjunta de probabilidades de X y de Y. Para dos variables continuas la covarianza es xy = IJ (Xi - x) * (Yj - y) * P(X , Y)dYdX. El valor numérico de la covarianza de X y de Y depende de sus desviaciones estándar. DEFINICIÓN. Para dos variables aleatorias X y Y, cuyas medias son x y y, su correlación sea: xy = xy / x y la correlación xy posee la útil propiedad de que no depende de la escala de X ni de Y, pues siempre se halla entre – 1 y 1. RESUMEN. Muchas variables económicas importantes son aleatorias: no sabemos que valores adoptarán, pero sí conocemos todos los valores que pueden asignársele a cada una. El valor realizado de la variable aleatoria es el que adopta en realidad. La función de densidad de probabilidades es una gráfica que muestra todos los valores posibles y la probabilidad de que ocurran. La función de distribución acumulada es una gráfica que muestra todos los valores posibles y la probabilidad de que el valor realizado sea menor que ellos. http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 4 PROBABILIDAD Y ESTADISTICA El valor medio es una medida de valor que una variable aleatoria debería tomar. Sí uno observa muchas veces la variable aleatoria, el promedio de los valores observados tenderá a aproximarse al valor promedio. La desviación estándar es una media de cuánto se acercará una variable aleatoria a su media; la varianza es el cuadrado de la desviación estándar. Las variables aleatorias normales son un tipo frecuente e importante de variables aleatoria, cuya función de densidad de probabilidades es la conocida curva de campana. Para calcular la probabilidad de que una variable aleatoria normalmente distribuida esté por arriba o por debajo de una variable aleatoria, usamos la tabla de distribuciones normales que contiene la probabilidad de una variable aleatoria normal esté a cierto número de desviaciones estándar arriba o debajo de su valor medio. La covarianza y la correlación de dos variables aleatorias miden la extensión a la cual sus valores realizados tienden a crecer y disminuir, al mismo tiempo o en sentido contrario. PROBLEMA. Sí lanzamos dos dados –legales- y la suma de sus resultados, es una función de masa de probabilidades, determine: a) ¿Qué probabilidades hay de que salga un 6, un 7, o un 8? b) ¿Qué probabilidades hay de que salga un número mayor de 9? ¿y menor que o igual a 5? c) Calcule el valor medio, la varianza y la desviación estándar de esta variable aleatoria. d) Encuentre y elabore una gráfica de la función de distribución acumulada de la variable aleatoria. http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 5 PROBABILIDAD Y ESTADISTICA LA ESTIMACIÓN4 La estimación es el proceso que consiste en datos para calcular un valor que utilizaremos cuando necesitamos considerar la media y la varianza de una variable aleatoria u otro número inobservable cualquiera de cuyo valor debemos hacernos una idea. El análisis econométrico consiste esencialmente en desarrollar y aplicar métodos eficientes para calcular las estimaciones de parámetros económicos cuyo valor desconocemos. Si podemos estimar las funciones de distribución de esas variables, estaremos en condiciones de aconsejar cómo tomar las decisiones. DEFINICIÓN. Si tenemos una variable aleatoria X con media µ y varianza σ2, y con una muestra de N observaciones de los valores realizados Xi, el estimador de la media de X será N 1 Xi N Xi i 1 DEFINICIÓN. Dada una variable aleatoria X cuya media es µ y cuya varianza es σ 2 y con una muestra de N observaciones de valores realizados Xi, el estimador de 2 de la varianza de X será: 2 N 1 N 1 Xi 2 i 1 En general, habrá una conexión entre el intervalo de valores realizados Xi y la varianza estimada. Cuando mayor sea el intervalo de los valores observados de Xi, 2 más grandes serán los valores de (Xi - ) y también . Por tanto, si observamos una dispersión más amplia de valores observados, obtendremos una gran varianza estimada; y si observamos poca difusión, obtendremos poca varianza estimada. Nótese que dividimos entre N – 1, no entre N. Lo hacemos porque vamos a calcular no la diferencia entre Xi y su valor medio µ (porque no lo conocemos), sino la diferencia entre Xi y nuestra estimación de la media . PROPIEDADES DE LOS ESTIMADORES DE LA MEDIA TEOREMA 1. El valor esperado de la respuesta correcta. 4 es µ. Nuestro estimador nos dará en promedio Op. Cit., págs. 56 – 75. http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 6 PROBABILIDAD Y ESTADISTICA TEOREMA 2. El valor esperado de una suma de términos es igual a la suma de sus valores esperados, es decir E(A+B+C) = E(A) + E(B) + E(C). 2 TEOREMA 3. La varianza de , que se escribe como está dada por: 2 2 N Y su desviación estándar es N DISTRIBUCIÓN DEL ESTIMADOR DE LA MEDIA TEOREMA 1. Supongamos que X tiene una distribución normal, es decir X N (, 2). Entonces el valor promedio de es una muestra de N observaciones de X presentará la misma distribución, o sea N (, 2/N). Nota se usa la tabla de distribución normal para una mayor o menor. TEOREMA 2. Del límite central: supongamos que una variable aleatoria X presenta una distribución desconocida, es decir, X (, 2), sin que su distribución sea necesariamente normal. Entonces, el valor promedio de una muestra de N observaciones de X presenta una distribución aproximadamente normal, esto es, N (, 2/N). A un mayor número de observaciones corresponde una aproximación más adecuada. Nota. No importa la distribución de la variable aleatoria X; ni siquiera es necesario conocerla. TEOREMA 3. Supongamos que X es una variable aleatoria distribuida normalmente con una media µ y con una varianza desconocida σ2. Entonces el estadístico t de la probabilidad de que sea menor que un valor dado X* se calcula mediante: x t 2 Y t es una variable aleatoria que sigue la distribución t. TEOREMA 4. Los grados de libertad (gl) del estadístico t están dados por el número de observaciones (N) de la muestra que generó el valor de esté, menos el número de parámetros estimados para calcular el estadístico. Para estimar una http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 7 PROBABILIDAD Y ESTADISTICA media los grados de libertad son N – 1, porque el cálculo de estimado de requiere un valor . INTERVALOS DE CONFIANZA DEFINICIÓN. Un intervalo de confianza de porcentaje Q es la escala de valores que µ podría asumir por lo cual, la probabilidad de observar un valor medio al menos tan cercano de µ como TcP no es mayor que Q. puede calcularse mediante: , TcP Donde p = (1-Q) /2 es la probabilidad de que este fuera del intervalo de P confianza en un lado particular, y Tc es el valor crítico de la probabilidad p del número apropiado de grados de libertad. Consultar: las distribuciones de los cuadrados de variables aleatorias normales. a) Para la distribución chi cuadrada χ2 b) Para la distribución F RESUMEN. Estimación es el proceso de utilizar una muestra de datos para obtener valores estimados para los parámetros desconocidos de un modelo estadístico. El estimador de la media de una variable aleatoria es el valor promedio de una muestra de valores realizados de la variable. El estimador de la media generalmente ofrece la respuesta correcta y podemos calcular su varianza y su desviación estándar. Cuanto más grande sea la muestra, menores serán las varianzas y la desviación estándar. Si una variable aleatoria presenta una distribución normal, también la presentará el estimador de su media. Aun cuando una variable aleatoria no tenga una distribución normal, el estimador de su media sí la tendrá. A un mayor tamaño de la muestra corresponde un resultado más exacto (teorema del límite central). http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 8 PROBABILIDAD Y ESTADISTICA El teorema de límite central nos permite calcular la probabilidad de obtener valores particulares del estimador, consultando la tabla de distribución normal. En cualquier muestra de datos algunas suposiciones sobre el valor verdadero de la media hacen probable el estimador observado; otras lo hacen improbable. El intervalo de confianza es el conjunto de todos los valores posibles de la media verdadera que tienen, al menos una, posibilidad porcentual de producir el estimador observado. La suma de los cuadrados de las variables aleatorias normales estándar toma la distribución chi cuadrada (χ2). Si las variables aleatorias normales no son estándar, pero conocemos su varianza, podemos transformarlas y las variables transformadas adoptan la distribución χ2 . Si no conocemos la varianza, podemos transformarla mediante la varianza estimada; entonces, las variables transformadas adoptan la distribución F. Las distribuciones χ2 y F están relacionados del mismo modo que las distribuciones normal y t lo están. PRUEBA DE HIPÓTESIS5 1. HIPÓTESIS NULA Para entender cómo se convierte una hipótesis económica en una hipótesis econométrica, es preciso conocer la estructura de esta última. La hipótesis econométrica consta de dos partes: un parámetro del modelo económico y un valor que adoptaría en caso de que la hipótesis económica fuese verdadera (o, a veces, falsa). DEFINICIÓN. La hipótesis nula, que escribimos H0, es una hipótesis econométrica con la forma H0 : µ = k Es decir, algún parámetro µ de un modelo económico asume exactamente un determinado valor k. DEFINICIÓN. La hipótesis alterna, que se escribe HA, es una hipótesis econométrica que esperamos sea verdadera si la hipótesis nula no lo es. Adopta cualquiera de varias formas: HA : µ ≠ k o HA : µ > k o bien HA : µ < k o posiblemente otras formas dependiendo de los valores de µ permitidos por el modelo económico subyacente. 5 Op. Cit., págs.. 80 - 93 http://www.everyoneweb.com/lcastrog Departamento de Economía Agrícola Página 9 PROBABILIDAD Y ESTADISTICA Nótese que la hipótesis nula contiene una igualdad: se prevé que el parámetro µ adapte exactamente cierto valor k, no otro cualquiera. Por el contrario, la hipótesis alterna no necesariamente es una igualdad; puede ser una desigualdad. ¿Por qué? Porque podemos predecir un valor para nuestro estimador solo si tenemos presente un valor especifico para µ. Si nuestra idea de este valor es errónea, no sabremos qué valores podría adoptar . La hipótesis nula nos da un valor especifico para µ. La estrategia para probarla será la entonces la siguiente: 1. Suponga que la hipótesis nula sea verdadera, es decir, que µ = k. 2. Calcule la distribución de basándose en la hipótesis anterior. 3. Pruebe si la muestra nos da un valor para calculamos. que sea probable con la distribución que 4. Si el valor obtenido para es muy poco probable, rechazaremos la hipótesis nula; si es probable, no la rechazaremos. 2. PRUEBA DE LA HIPÓTESIS NULA Para probar la hipótesis nula tenemos que poder calcular un para estimar el valor de µ y debemos conocer su varianza, pues solo así sabremos si está próximo al valor k al que debería acercarse según la hipótesis nula. Y la varianza se calcula con 2 k 1 k N El cual nos indica cuan cercana esperemos que la fracción muestral de empleados esté de k, el supuesto valor verdadero. 3. DECISIÓN DE RECHAZAR O NO LA HIPÓTESIS NULA DEFINICIÓN. El nivel de significancia de una prueba es la probabilidad de observar una muestra que nos hará rechazar la hipótesis nula si ésta es verdadera. DEFINICIÓN. El valor p del resultado de una prueba es el nivel de significancia donde empezamos a rechazar la hipótesis nula. A un nivel más alto la rechazamos; a un nivel más bajo no lo haremos. DEFINICIÓN. La región de rechazo de una hipótesis es el conjunto de todos los valores del estadístico de la prueba que nos obligará a rechazar la hipótesis nula. 4. TAMAÑO Y LA POTENCIA DE LAS PRUEBAS DEFINICIÓN. Se llama error de tipo I a rechazar una hipótesis nula verdadera. El tamaño de una prueba es la probabilidad de que rechacemos la hipótesis nula cuando es verdadera. DEFINICIÓN. Se llama error tipo II a no rechazar una hipótesis nula falsa. La potencia de una prueba es la probabilidad de que rechacemos la hipótesis nula cuando es falsa, esto es, la probabilidad de que no cometamos un error de tipo II. http://www.everyoneweb.com/lcastrog Departamento de Economía AgrícolaPágina 10 PROBABILIDAD Y ESTADISTICA RESULTADOS POSIBLES DE UNA PRUEBA DE HIPÓTESIS Hipótesis nula verdadera: µ = Hipótesis nula falsa: µ ≠ k k No rechazar la hipótesis Decisión correcta Decisión incorrecta: nula Error de tipo II Rechazar hipótesis nula Decisión incorrecta: Error de Decisión correcta. tipo I 5. PRUEBAS CON ESTIMACIONES DE LA VARIANZA TEOREMA. Si X y Y son dos variables aleatorias con la misma varianza σ2 y si estimamos su varianza con la muestra de N y las observaciones de M, respectivamente, 2 entonces la proporción de las estimaciones de su varianza, F con N – 1 grados de libertad en el denominador. 2 X Y , adopta la distribución 6. REPASO a. A fin de probar una hipótesis económica debemos transformarla en una hipótesis econométrica basada en un modelo económico, en que la primera indica un valor particular de uno o más parámetros del modelo. Después los estimamos y comprobamos si el valor estimado coincide con la hipótesis econométrica. b. La hipótesis nula establece que los parámetros adoptan el valor indicado por la hipótesis económica. La hipótesis alterna establece que no es así, sino que adopta algún otro valor o serie de valores. Suponemos que la hipótesis nula es correcta y luego verificamos si los datos apoyan nuestra suposición. Si no la apoyan la rechazamos, y esto nos deja sólo la hipótesis alterna. Cuando los datos son congruentes con la hipótesis nula, no la rechazamos. c. El nivel (o tamaño) de significancia, de una prueba es la posibilidad de que rechacemos una hipótesis nula verdadera. La potencia de la prueba es la probabilidad de que la rechacemos si es incorrecta. d. La región de rechazo de una prueba es el intervalo de los valores estimados del parámetro en cuestión que nos hará rechazar la hipótesis nula. e. La prueba de una cola sitúa la región de rechazo enteramente en una cola de la distribución del estimador. Una prueba de dos colas sitúa parte de la región en ambas colas. Recurriremos a una prueba de una cola cuando estemos seguros de que la hipótesis nula, si es correcta, lo será exclusivamente en una dirección. De lo contrario utilizamos una prueba de dos colas. http://www.everyoneweb.com/lcastrog Departamento de Economía AgrícolaPágina 11 PROBABILIDAD Y ESTADISTICA http://www.everyoneweb.com/lcastrog Departamento de Economía AgrícolaPágina 12