Tema 4 Variables aleatorias En este tema se introduce el concepto de variable aleatoria y se estudian los distintos tipos de variables aleatorias a un nivel muy general, lo que nos permitirá manejar los modelos estadı́sticos para describir los posibles resultados de un experimento aleatorio y asignar probabilidades a los diferentes sucesos que nos interesen. Contenido 4.1. 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.3. Variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.4. Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.5. Independencia de v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.6. Caracterı́sticas de una v.a. . . . . . . . . . . . . . . . . . . . . . . . 12 4.7. Desigualdad de Chebichev . . . . . . . . . . . . . . . . . . . . . . . 13 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Introducción Tanto en la vida cotidiana como en el campo cientı́fico estamos habituados a observar fenómenos aleatorios cuyos resultados se expresan mediante números; por ejemplo el voltaje de salida en una fuente de alimentación, el número de personas en la cola del cine, la velocidad de conexión a la red, etc. Incluso en problemas de naturaleza puramente cualitativa es muy frecuente recurrir a la codificación numérica; en situaciones tales como: el diagnóstico de un paciente “sano” o “enfermo”, preguntas del tipo ¿estudias o trabajas?, etc., las respuestas son usualmente codificadas con 0 y 1, aunque en realidad podrı́a emplearse cualquier pareja de sı́mbolos con igual precisión. 4.2. Variable aleatoria Este proceso de cuantificación nos lleva de manera natural a considerar la siguiente definición: 9 TEMA 4. VARIABLES ALEATORIAS Curso 2007 - 08 Definición 4.1 (Variable aleatoria). Dado un espacio de probabilidad (Ω, A, Pr), una variable aleatoria es cualquier función, X, X : Ω −→ R ω −→ X(ω) que asocia a cada suceso elemental un número real, verificando que PrX (B) = Pr[X ∈ B] = Pr{ω ∈ Ω | X(ω) ∈ B} ∀B ⊂ R. En general emplearemos las siglas v.a. para referirnos a una variable aleatoria. Para caracterizar la distribución de probabilidad inducida por una v.a. X definiremos una nueva función más sencilla de manejar: Definición 4.2 (Función de distribución). Dada la v.a. X se denomina función de distribución asociada a X, a la función F : R −→ R definida por: F (t) = Pr[X ≤ t] = Pr(X ∈ (−∞, t]) ∀ t ∈ R. Las propiedades más importantes de las funciones de distribución son: 1. F (−∞) = lı́m Pr[X ≤ t] = 0. t→−∞ 2. F (∞) = lı́m Pr[X ≤ t] = 1. t→∞ 3. La función es continua por la derecha, es decir, lı́m F (t + h) = F (t). h→0+ 4. F es no decreciente, es decir, si t1 < t2 entonces F (t1 ) ≤ F (t2 ). Teorema 4.1. Una función F : R −→ R se dice que es de distribución si y sólo si verifica las cuatro propiedades anteriores. 4.3. Variables discretas Definición 4.3 (Variable discreta). Una variable aleatoria discreta es aquella que sólo puede tomar valores dentro de un conjunto finito o infinito numerable. Definición 4.4 (Función de probabilidad). P Sea X una v.a. discreta que toma los valores xi con probabilidades pi = Pr(X = xi ), con i pi = 1. Se denomina función de probabilidad de la variable X a la función que asigna a cada xi su probabilidad pi . En las variables aleatorias discretas la función de distribución viene dada por la siguiente expresión: X F (t) = Pr[X ≤ t] = Pr(xi ). xi ≤t Esta función es escalonada, no decreciente, con saltos de discontinuidad en los puntos xi . El valor del salto en xi coincide con la probabilidad, pi , de dicho valor. Dpto. Estadı́stica e I.O. y D.M. 10 TEMA 4. VARIABLES ALEATORIAS 4.4. Curso 2007 - 08 Variables continuas Definición 4.5 (Variable continua). Una variable aleatoria continua es aquella que toma valores en uno o varios intervalos de la recta real. En las v.a. continuas la función de distribución no se puede calcular como la suma de las probabilidades de ciertos puntos porque el conjunto de posibles valores de la variable es no numerable. Para abordar esta nueva situación necesitamos la noción de función de densidad. Definición 4.6 (Función de densidad). Dada una v.a. continua X, su función de densidad es la función real de variable real f (x) = lı́m h→0+ Pr(x − h ≤ X ≤ x + h) . 2h De este modo, surge el concepto de función de densidad como la función lı́mite a la cual se aproxima el histograma. Ası́, la probabilidad de un intervalo (a, b) será el área limitada por esta función de densidad, las rectas x = a, x = b y el eje de abscisas. Aunque, de acuerdo con la anterior, la probabilidad de que la variable aleatoria tome un valor concreto es igual a cero, tiene sentido analizar lo “densamente” que está repartida la probabilidad en torno a ese valor. De la definición anterior, se deduce que la función de densidad verifica las siguientes propiedades: 1. f (x) ≥ 0 ∀x ∈ R. Z ∞ 2. f (x)dx = 1. −∞ En general, cualquier función real que verifica las propiedades anteriores es la función de densidad de alguna v.a. continua X. La función de distribución de una v.a. continua X se expresa a partir de la función de densidad como: Z t F (t) = f (x)dx ∀t ∈ R. −∞ Esta función es continua. Por lo tanto, la función de densidad de una v.a. continua es la derivada de su función de distribución, f (x) = F 0 (x). Por otro lado, las v.a. continuas verifican las siguientes propiedades: 1. Pr(t1 < X ≤ t2 ) = Z t2 t1 f (x)dx = F (t2 ) − F (t1 ). 2. Pr(t1 ≤ X ≤ t2 ) = Pr(t1 < X ≤ t2 ) = Pr(t1 ≤ X < t2 ) = F (t2 ) − F (t1 ). Z t 3. Pr(X = t) = f (x)dx = 0 ∀x ∈ R. t Dpto. Estadı́stica e I.O. y D.M. 11 TEMA 4. VARIABLES ALEATORIAS 4.5. Curso 2007 - 08 Independencia de v.a. Frecuentemente, al realizar un experimento aleatorio interesa estudiar conjuntamente varias caracterı́sticas de la población que se van a representar mediante v.a. Si limitamos el estudio al caso de dos v.a. Definición 4.7. Se dice que dos v.a. X e Y son independientes si se verifica que Pr(X = x ∩ Y = y) = Pr(X = x) Pr(Y = y) si X e Y son discretas f(X,Y ) (x, y) = fX (x)fY (y) si X e Y son continuas 4.6. Caracterı́sticas de una v.a. Las medidas resumen definidas para v.e. pueden generalizarse al caso de variables aleatorias, sin más que equiparar las frecuencias relativas de variables estadı́sticas con las probabilidades de las variables aleatorias. Entre los descriptores más habituales de las variables aleatorias se encuentran: Definición 4.8 (Esperanza). Dada una v. a. X definida sobre (Ω, A, Pr), se denomina esperanza o valor medio de X a la siguiente expresión X xi Pr(xi ) si X es discreta xi ∈SX µ = E(X) = Z ∞ xf (x)dx si X es continua −∞ La esperanza de una v.a. verifica las siguientes propiedades: 1. E(aX + b) = aE(X) + b. 2. E(X ± Y ) = E(X) ± E(Y ). 3. Si X e Y son independientes, entonces E(X · Y ) = E(X)E(Y ). Definición 4.9 (Varianza). La varianza de una v.a. X viene dada por la expresión X (xi − µ)2 Pr(xi ) si X es discreta xi ∈SX σ 2 = Var(X) = E (X − µ)2 = Z ∞ (x − µ)2 f (x)dx si X es continua −∞ La varianza de una v.a. verifica las siguientes propiedades: 1. Var(X) ≥ 0. 2. Var(aX + b) = a2 Var(X). 3. Var(X) = E(X 2 ) − E(X)2 . Dpto. Estadı́stica e I.O. y D.M. 12 TEMA 4. VARIABLES ALEATORIAS Curso 2007 - 08 4. Si X e Y son independientes, Var(X + Y ) = Var(X − Y ) = Var(X) + Var(Y ). Para simplificar la interpretación de las medidas de dispersión, se suele recurrir a la desviación tı́pica que viene dada en las mismas unidades que la variable Definición 4.10 (Desviación tı́pica). La desviación tı́pica de una v.a. X viene dada por la expresión p σ = + Var(X). De igual forma a como se ha hecho para las variables estadı́sticas se definen otras caracterı́sticas de una v.a.: Moda Es el valor que maximiza la función de probabilidad o la función de densidad, según se trate de una v.a. discreta o continua, respectivamente. Mediana Es la medida de centralización que divide la distribución en dos partes de igual probabilidad, por lo tanto verifica que Me = ı́nf{x | F (x) ≥ 1/2}. Cuantiles de orden p Para 0 < p < 1, Qp = ı́nf{x | F (x) ≥ p}. Recorrido intercuartı́lico Se define a partir de los cuartı́les como RIC(X) = Q3 − Q1 . Coeficiente de variación Medida de dispersión relativa con respecto a la media, dada por σ CV (X) = si µ > 0. µ 4.7. Desigualdad de Chebichev Dada una v.a. X con media µ y desviación tı́pica σ, la desigualdad de Chebichev afirma que para cualquier constante positiva, k > 0 se cumple que Pr(|X − µ| ≤ k) ≥ 1 − σ2 , k2 equivalentemente Pr(|X − µ| > k) ≤ σ2 k2 ∀ k > 0. La desigualdad anterior también se puede expresar como Pr(|X − µ| ≤ kσ) ≥ 1 − 1 , k2 equivalentemente Pr(|X − µ| > kσ) ≤ 1 k2 ∀ k > 0. Este resultado destaca la bondad de la desviación tı́pica como medida de dispersión respecto a la media, proporcionando un lı́mite inferior para la probabilidad de que una v.a. esté comprendida en el intervalo [µ − kσ, µ + kσ]. Por ejemplo, se tiene que Pr(X ∈ [µ − 2σ, µ + 2σ]) ≥ 0,75 o Pr(X ∈ [µ − 3σ, µ + 3σ]) ≥ 0,889. Dpto. Estadı́stica e I.O. y D.M. 13