Notas_Proba11.pdf

Anuncio
PROBABILIDAD Y ESTADÍSTICA
Universidad Nacional de Quilmes
Área Matemática. Departamento de Ciencia y Tecnologı́a
Notas escritas por:
Prof. Magister OSMAR DARÍO VERA
Buenos Aires, 2005
Probabilidad y Estadı́stica
AGRADECIMIENTOS
Agradezco muy especialmente a las nuevas autoridades de la Universidad Nacional
de Quilmes, a través de la Lic. Marı́a Inés Baragati la posibilidad de volver a dictar
esta asignatura en el Departamento de Ciencia y Tecnologı́a.
Probabilidad y Estadı́stica
Primer Semestre 2005
i
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
PROBABILIDAD Y ESTADÍSTICA
TEORIA Y APLICACIONES
Prof. Magister Osmar Darı́o Vera
PERSPECTIVA HISTÓRICA
La Teorı́a de Probabilidad es una rama de la Matemática que permite estudiar
todo tipo de fenómenos en que aparecen conceptos como indeterminismo, incertidumbre, impredecible, heterogeneidad, variabilidad, errores de medición, imprecisión y
azar.
Si somos tan afortunados como para disponer de un modelo teórico perfecto que
vincula los valores de ciertas variables con los de otras (por ejemplo en la Mecánica
de Newton, es posible predecir exactamente la trayectoria de un objeto, una vez especificadas la posición inicial, la velocidad inicial y todas las fuerzas que actúan sobre
él), su aplicación se ve trabada por la imposibilidad de conocer estos valores con absoluta precisión, es decir cuando hay errores de medición. Los Modelos probabilı́sticos
constituyen una alternativa a los modelos determinı́sticos en situaciones de este tipo.
Los errores de medición hacen que las fórmulas matemáticas no se verifiquen de
manera exacta con datos experimentales. Cómo ajustar modelos teóricos a datos
experimentales ó cómo rechazar teorı́as a partir de estos datos es un problema importante que se ataca utilizando métodos estadı́sticos, para los cuales la Teorı́a de
Probabilidad sirve de base.
Probabilidad y Estadı́stica
Primer Semestre 2005
ii
Prof.Mg. Osmar Vera
Índice general
AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
PERSPECTIVA HISTÓRICA . . . . . . . . . . . . . . . . . . . . . . . . .
ii
1. Teorı́a de Probabilidades
1
1.1. Teorı́a de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2. Teorı́a de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2.1. Fundamento axiomático . . . . . . . . . . . . . . . . . . . . .
10
1.2.2. El cálculo de probabilidad . . . . . . . . . . . . . . . . . . . .
13
1.2.3. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . .
15
1.2.4. Resultados Igualmente probables . . . . . . . . . . . . . . . .
19
1.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.3.1. Probabilidades compuestas e independencia . . . . . . . . . .
20
1.3.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . .
21
1.4. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2. Variables aleatorias
35
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.2. Funciones de Distribución . . . . . . . . . . . . . . . . . . . . . . . .
38
2.2.1. Densidad y Funciones de masa . . . . . . . . . . . . . . . . . .
43
2.3. Transformaciones y Esperanzas . . . . . . . . . . . . . . . . . . . . .
49
2.3.1. Distribuciones de funciones de una Variable Aleatoria . . . . .
49
2.4. Valores Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
iii
Probabilidad y Estadı́stica
2.5. Momentos y Funciones Generadoras de Momentos . . . . . . . . . . .
61
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
3. Distribuciones de Familias comunes
71
3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . .
71
3.1.1. Distribución uniforme discreta . . . . . . . . . . . . . . . . . .
72
3.1.2. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . .
72
3.1.3. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . .
75
3.1.4. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . .
78
3.1.5. Distribución Binomial Negativa . . . . . . . . . . . . . . . . .
80
3.1.6. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . .
82
3.2. Distribuciones Continuas . . . . . . . . . . . . . . . . . . . . . . . . .
83
3.2.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . .
83
3.2.2. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . .
83
3.2.3. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . .
86
3.2.4. Distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . .
91
3.2.5. Distribución Cauchy . . . . . . . . . . . . . . . . . . . . . . .
92
3.2.6. Distribución Lognormal . . . . . . . . . . . . . . . . . . . . .
93
3.2.7. Distribución Doble Exponencial . . . . . . . . . . . . . . . . .
93
3.3. Familias Exponenciales . . . . . . . . . . . . . . . . . . . . . . . . . .
94
4. Modelos Multivariados
97
4.1. Distribuciones conjuntas y marginales . . . . . . . . . . . . . . . . . .
Probabilidad y Estadı́stica
Primer Semestre 2005
iv
97
Prof.Mg. Osmar Vera
Capı́tulo 1
Teorı́a de Probabilidades
La teorı́a de probabilidades determina la fundamentación sobre la cual está construida toda la estadı́stica, proveyendo de un medio para modelar poblaciones, experimentos, o al menos todo aquello que puede ser considerado fenómeno aleatorio.
A través de esos modelos, los estadı́sticos son capaces de manejar inferencias acerca
de las poblaciones, inferencias basadas en general en una parte del todo.
La teorı́a de probabilidades posee una larga y rica historia, sus comienzos datan
del siglo XVII cuando, a pedido de sus amigos, el Chevalier de Meré, Pascal y Fermat
desarrollaron una formulación matemática de juegos basadas en desigualdades.
A lo largo de este capı́tulo formularé algunas ideas básicas de probabilidad teórica
que son fundamentales para el estudio de la estadı́stica.
Ası́ como la estadı́stica se construye sobre la probabilidad teórica, ésta comienza a
construirse sobre la teorı́a de conjuntos, con ello comenzaremos nosotros.
1
Probabilidad y Estadı́stica
1.1.
Teorı́a de Conjuntos
Uno de los objetivos principales de un estadı́stico es el de manejar conclusiones
acerca de una población de objetos, luego de tomar una muestra de ellos y realizar un
experimento. Un primer paso es identificar los posibles resultados ó, en terminologı́a
estadı́stica, el espacio muestral.
Definición 1.1.1. El conjunto, S, de todos los posibles resultados de un experimento
particular se denomina espacio muestral para el experimento.
Si el experimento consiste en el lanzamiento de una moneda, el espacio muestral
contiene dos resultados, cara y ceca; ası́:
S = {C, S}
Otro experimento podrı́a consistir en lanzar una tachuela al aire y observar si cae con
la punta hacia arriba ó hacia abajo, el espacio muestral serı́a S = {U, D}, finalmente
otro de este estilo (ó sea de experimentos de los más sencillos que existen: dos resultados posibles) consistirı́a en observar el sexo del siguiente niño nacido en el hospital
local, con S = {M, F }.
Supongamos ahora, en otro orden de ejemplos de espacios muestrales asociados a
experimentos, que éste consiste en probar cada baterı́a a medida que sale de una lı́nea
de ensamble hasta que observamos primero un éxito (E) (donde el éxito consiste en que
ésta tiene un voltaje dentro de ciertos lı́mites pre-establecidos). Aún cuando puede ser
que no sea muy probable, un posible resultado de este experimento es que las primeras
10 (ó 100, ó 1000, etc.), sean F (falla). Esto es, tendremos que examinar n baterı́as
antes de ver la primera S. El espacio muestral es S = {E, F E, F F E, F F F E, · · · }, el
cual contiene un número infinito de posibles resultados. Finalmente en esta vorágine
de ejemplos (ja ja!!), consideremos un experimento donde la observación consiste en
el tiempo de reacción a un cierto estı́mulo. Aquı́, el espacio muestral consistirı́a en
Probabilidad y Estadı́stica
Primer Semestre 2005
2
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
todos los posibles números reales positivos, es decir, S = (0, ∞).
Clasificaremos los espacios muestrales dentro de dos tipos, de acuerdo al número de
elementos que contienen. Los espacios muestrales de acuerdo con nuestra clasificación,
podrán ser numerables y no-numerables, si sus elementos pueden ser puestos en correspondencia 1 − 1 con un subconjunto de los números enteros, el espacio muestral
será numerable. Por supuesto, que si el espacio muestral contiene un número finito de
elementos, éste será numerable. Ası́, el lanzamiento de una moneda, la observación
del sexo del siguiente niño a nacer en el hospital local, representan espacios muestrales numerables (en efecto, además finitos); pero el ejemplo de las baterı́as también
se representa mediante un espacio muestral contable (pero infinito), mientras que el
experimento del tiempo de reacción forma un espacio muestral cuyos elementos no
se pueden poner en correspondencia 1 − 1 con los enteros, de donde este será nonumerable.
Esta distinción de espacios muestrales es importante solamente al momento de la
asignación de probabilidades, además el tratamiento matemático en cada caso es
diferente.
Una vez que el espacio muestral haya sido definido, estamos en posición de generar
colecciones de posibles resultados de un experimento.
Definición 1.1.2. Un evento es una colección de posibles resultados de un experimento, esto es, cualquier subconjunto de S (incluyendo el mismo S).
Sea A un evento, o sea un subconjunto de S. Nosotros diremos que el evento A
ocurre si al menos algún resultado del experimento está en el conjunto A. Cuando
hablamos de probabilidades, generalmente nos referimos a la probabilidad de que
ocurra algún evento, en vez de una conjunto. Pero podemos usar los términos indistintamente.
Primero necesitamos definir formalmente las siguiente dos relaciones, las cuales nos
Probabilidad y Estadı́stica
Primer Semestre 2005
3
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
permitirán ordenar e igualar conjuntos:
A ⊂ B ⇐⇒ x ∈ A =⇒ x ∈ B
inclusión
A = B ⇐⇒ A ⊂ B ∧ B ⊂ A
igualdad
Dados dos eventos (o conjuntos) A y B, nosotros tenemos las siguientes operaciones
elementales entre ellos:
Unión La unión de A y B, escrito A ∪ B, es el conjunto de los elementos
que pertenecen a A a B ó a ambos:
A ∪ B = {x : x ∈ A ∨ x ∈ B}.
Intersección La intersección de A y B, escrito A ∩ B, es el conjunto de
los elementos que pertenecen a A y a B a la vez:
A ∩ B = {x : x ∈ A ∧ x ∈ B}.
Complemento El complemento de A, escrito Ac , es el conjunto de los
elementos que no están en A:
Ac = {x : x ∈
/ A}.
Ejemplo 1.1.1. Consideremos el experimento de la prueba en la baterı́a, definimos
los siguientes conjuntos (eventos) A , B , C mediante:
A = {E, F E, F F E}
B = {E, F F E, F F F F E}
C = {F E, F F F E, F F F F F E, . . .}
entonces
A ∪ B = {E, F E, F F E, F F F F E}
A ∩ B = {S, F F S}
Ac = {F F F E, F F F F E, F F F F F E, . . .}
Probabilidad y Estadı́stica
Primer Semestre 2005
4
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
y
C c = {E, F F E, F F F F E, . . .} = {se examina un número par de baterı́as}
Además, podrı́a suceder que A ∪ B = Ω (el evento Ω), y (A ∪ B)c = ∅, donde ∅
denota el conjunto vacı́o (el conjunto que no tiene elementos).
Las operaciones elementales entre conjuntos pueden ser combinadas. A veces se
pueden comparar con las combinaciones que se hacen entre la suma y la multiplicación.
Con tal que seamos cuidadosos, nosotros podemos tratar a los conjuntos como si fuesen
números. Presento ahora, las siguientes propiedades de operaciones entre conjuntos
que son más usadas.
Teorema 1.1.1. Para cualquier terna de eventos A , B y C definidos sobre un mismo
espacio muestral S, se tiene:
A∪B = B∪A
1. Conmutatividad
A∩B = B∩A
A ∪ (B ∪ C) = (A ∪ B) ∪ C
2. Asociatividad
A ∩ (B ∩ C) = (A ∩ B) ∩ C
3. Leyes Distributivas A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
4. Leyes de De Morgan
(A ∪ B)c = Ac ∩ B c
(A ∩ B)c = Ac ∪ B c
La demostración de muchos de estos teoremas se dejarán como ejercicio, también
habrá ejercicios que generalizarán el teorema. Para ilustrar la técnica, probaré la Ley
Distributiva.
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Probabilidad y Estadı́stica
Primer Semestre 2005
5
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
(podrı́a serle familiar ”demostrarçon el uso de diagramas de Venn teoremas en teorı́a
de conjuntos. Por un tema de precaución diremos que los diagramas de Venn, en
algunos casos, sirven como ayuda para visualizar la situación, pero con eso no se
da una demostración ”formal”). Para probar que dos conjuntos son iguales, como es
este el caso, debe ser demostrado que cada conjunto contiene al otro. Formalmente,
entonces
A ∩ (B ∪ C) = {x ∈ S : x ∈ A ∧ x ∈ (B ∪ C)};
(A ∩ B) ∪ (A ∩ C) = {x ∈ S : x ∈ (A ∩ B) ∨ x ∈ (A ∩ C)}.
Primero mostramos que A ∩ (B ∪ C) ⊂ (A ∩ B) ∪ (A ∩ C). Sea x ∈ (A ∩ (B ∪ C)).
Por la definición de intersección, se debe cumplir que x ∈ (B ∪ C)), o sea, cada
x ∈ B∨x ∈ C. Ya que x también debe estar en A, se tiene que cada x ∈ (A∩B)∨x ∈
(A ∩ C); por lo tanto,
x ∈ ((A ∩ B) ∪ (A ∩ C)),
y la inclusión ha sido establecida.
Ahora asumimos que x ∈ ((A ∩ B) ∪ (A ∩ C)). Esto implica que x ∈ (A ∩ B) ∨ x ∈
(A ∩ C). Si x ∈ (A ∩ B) entonces x está tanto en A como en B. Como x ∈ B, x ∈
(B ∪ C) y ası́, x ∈ (A ∩ (B ∪ C). Si por otro lado, x ∈ (A ∩ C), con argumento
similar, concluimos nuevamente que x ∈ (A ∩ (B ∪ C)). Ası́, hemos establecido que
((A ∩ B) ∪ (A ∩ C)) ⊂ (A ∩ (B ∪ C), mostrando la inclusión en la otra dirección, por
lo tanto, se tiene demostrada la Ley Distributiva.
Las operaciones de unión e intersección pueden ser extendidas a colecciones infinitas
de conjuntos. Si A1 , A2 , A3 , . . . es una colección de conjuntos, todos definidos sobre
un mismo espacio muestral S, entonces
∞
[
i=1
∞
\
Ai = {x ∈ S : x ∈ Ai , para algún i},
Ai = {x ∈ S : x ∈ Ai , para todos los valores de i}.
i=1
Probabilidad y Estadı́stica
Primer Semestre 2005
6
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Por ejemplo, sea S = (0, 1] y definimos Ai = [(1/i), 1]. Entonces
∞
[
Ai =
i=1
∞
\
∞
[
[(1/i), 1] = {x ∈ (0, 1] : x ∈ [(1/i), 1] para algún i}
i=1
Ai
= {x ∈ (0, 1]} = (0, 1];
∞
\
=
[(1/i), 1] = {x ∈ (0, 1] : x ∈ [(1/i), 1] para todo i}
i=1
i=1
= {x ∈ (0, 1] : x ∈ [1, 1]}
= {1}
sólo el valor 1
Funciones definidas sobre el espacio muestral, son con frecuencia más importantes
que los eventos en sı́ mismos. Ahora discutiremos la forma como un conjunto es
identificado con una función {0, 1}-valuada.
Definición 1.1.3. La función indicadora del conjunto A ⊆ S, es la función sobre S
dada por

 1 si ω ∈ A
IA (ω) =
 0 si ω ∈
/ A.
∀ω ∈ S
Ası́, vemos que la función IA (ω) indica si el evento A ocurre. Operaciones algebraicas sobre funciones indicadoras, generalizan conjuntos de operaciones sobre
eventos:
IA∪B = máx {IA , IB }
IA∩B = mı́n {IA , IB } = IA IB
IAc = 1 − IA .
También es posible definir uniones e intersecciones sobre colecciones no numerables
de conjuntos. Si Γ es un conjunto de ı́ndices (es decir, un conjunto de elementos a ser
usados como ı́ndices) entonces
[
Aα = {x ∈ S : x ∈ Aα , para algún α},
α
\
Aα = {x ∈ S : x ∈ Aα , para todo α}.
α
Probabilidad y Estadı́stica
Primer Semestre 2005
7
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Si, por ejemplo, tomamos como Γ = {todos los reales positivos} y Aα = (0, a],
S
entonces α Aα = (0, ∞) la cual es una unión no-numerable. Mientras uniones e
intersecciones no- numerables no juegan un rol importante en estadı́stica, ellas a
veces proveen mecanismos muy usados para obtener algunas respuestas.
Finalmente discutiremos la idea de una partición de un espacio muestral.
Definición 1.1.4. Dos eventos A y B son disjuntos (o mutuamente excluyentes) si
A ∩ B = ∅. Los eventos A1 , A2 , . . . son disjuntos tomados de a pares si Ai ∩ Aj = ∅
para todo i 6= j.
Conjuntos disjuntos son aquellos que no tienen puntos en común. Si ocupamos un
diagrama de Venn para dos conjuntos disjuntos, estos no se solapan. La colección
Ai = [i, i + 1),
i = 0, 1, 2, . . .
consiste en una colección de conjuntos disjuntos tomados de a pares. Note además
S
que ∞
i=1 Ai = [0, ∞).
Definición 1.1.5. Si A1 , A2 , . . . son disjuntos tomados de a pares y
S∞
i=1
Ai = S,
entonces los conjuntos A1 , A2 , . . . forman una partición de S
Los conjuntos Ai = [i, i + 1),
i = 0, 1, 2, . . . forman una partición del interva-
lo [0, ∞). En general, las particiones son muy usadas, permitiéndonos subdividir el
espacio muestral en otros conjuntos más pequeños que no se solapan.
1.2.
Teorı́a de Probabilidad
Cuando se efectúa un experimento, la realización del mismo es un resultado en el espacio muestral. Si se efectúa el experimento un número de veces, diferentes resultados
pueden ocurrir ó algún resultado puede repetirse. Esta ”frecuencia de ocurrencia”de
un resultado puede ser pensado como una probabilidad. Es más probable que ocurra
Probabilidad y Estadı́stica
Primer Semestre 2005
8
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
un resultado, si este se repite más frecuentemente. La ”frecuencia de ocurrencia”de
un evento es un ejemplo de una interpretación particular de probabilidad, llamada
objetiva. Otra posible interpretación es la subjetiva, donde en vez de pensar en la
probabilidad como una frecuencia, podemos pensarla como una creencia de la chance
que un evento ocurra. Es decir, por ejemplo dos sujetos diferentes ubicados en distintos sitios pueden asignar distinto valor a la creencia de la chance de un mismo evento1 .
Consideremos un experimento que se puede realizar repetidamente en forma idéntica e independiente, y sea A en evento formado por un conjunto de resultados del
experimento. Los ejemplos simples de tales experimentos repetibles incluyen aquellos
de lanzar una moneda al aire y dados. Si el experimento se realiza n veces, en alguna
de las repeticiones ocurrirá el evento A (el resultado estará en el conjunto A), y en
otros, A no ocurrirá. Denotemos por n(A) el número de repeticiones en las que ocurre
A. Entonces la relación n(A)/n recibe el nombre de ”frecuencia relativa” de ocurrencia del evento A en la secuencia de n repeticiones. La evidencia empı́rica, basada en
los resultados de muchas de estas secuencias de experimentos repetibles, indica que a
medida que n crece, la frecuencia relativa n(A)/n se estabiliza alrededor de un valor,
como se ve en la Figura 1.12 . Esto es, a medida que n se hace arbitrariamente grande,
la frecuencia relativa se aproxima a un valor lı́mite que se conoce como frecuencia
relativa lı́mite del evento A. La interpretación objetiva de probabilidad identifica esta
frecuencia relativa lı́mite con el número P (A) (probabilidad del suceso A).
Si las probabilidades se asignan a eventos de acuerdo con sus frecuencias relativa
lı́mites, entonces podemos interpretar un enunciado como: ”la probabilidad que una
moneda al ser lanzada caiga de lado de la cara es 0.5”esto quiere decir que en un
1
El libro de Robert Wilkler, Introduction to Bayesian Inference and Decision, contiene varias
interpretaciones subjetivas de probabilidad.
2
Ver en apéndice como fue generado este gráfico con S-PLUS
Probabilidad y Estadı́stica
Primer Semestre 2005
9
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Figura 1.1: Estabilización de frecuencia relativa
gran número de lanzamientos, aparecerá una cara en aproximadamente la mitad de
los lanzamientos y una ceca en la otra mitad.
1.2.1.
Fundamento axiomático
Para cada evento A en el espacio muestral Ω , podemos asociar con A un número
entre cero y uno, el cual será llamado la probabilidad de A, notado por P (A). Parecerı́a natural definir el dominio de P (o sea, el conjunto donde los argumentos de la
función P (·) están definidos) como todos los subconjuntos de Ω; esto es, para cada
A ⊂ S nosotros definirı́amos el número P (A) como la probabilidad de que A ocurra.
Probabilidad y Estadı́stica
Primer Semestre 2005
10
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Desafortunadamente este tema no es tan sencillo. Hay algunas dificultades técnicas
para ser superadas. No nos detendremos en tantos tecnicismos, aunque son de importancia, usualmente tienen más interés para probabilistas que para estadı́sticos. Por
lo tanto, el objeto de comprender la estadı́stica requiere al menos que te familiarices
con los siguientes conceptos.
Definición 1.2.1. Una colección de subconjuntos de S, ó una familia de subconjuntos
de S se denomina Álgebra de Borel (ó sigma álgebra), denotado por B, si esa
satisface las siguientes tres propiedades:
1. ∅ ∈ B
2. Si A ∈ B entonces Ac ∈ B (B es cerrado bajo complementación)
3. Si A1 , A2 , . . . ∈ B entonces
S∞
i=1
Ai ∈ B (B es cerrado bajo uniones numerables).
El entorno matemático que ocupa la probabilidad necesita que nosotros trabajemos con σ-álgebras, pero con rareza estas son dadas a priori. Lo más común es elegir
una σ-álgebra que contenga definido explı́citamente algunas clases de eventos elementales. Afortunadamente, existe un mecanismo para lograrlo: dada cualquier clase de
subconjuntos de Ω, siempre existe una familia minimal conteniendo aquella clase y
cerrada bajo los conjuntos de operaciones preestablecidas en definición 1.2.1. La minimalidad es importante pues, a menos que Ω sea numerable, el conjunto de partes de
Ω es demasiado grande. Aquı́ la σ-álgebra que nos interesará es la única más pequeña
que contiene todos los conjuntos abiertos de un espacio muestral S dado. Sabemos
que esta siempre existe por lo dicho en el párrafo último anterior.
Ejemplo 1.2.1. Si Ω tiene n elementos, éste tiene 2n conjuntos en B. Si Ω {1, 2, 3},
entonces B está representado por la siguiente colección de 23 = 8 conjuntos:
{1}; {1, 2}; {1, 2, 3}; {2}; {1, 3}; {3}; {2, 3}; ∅
En general, si Ω no es numerable, no es fácil describir a B; entonces B se elige de
tal manera que contenga los conjuntos de interés y cumpla con su definición.
Probabilidad y Estadı́stica
Primer Semestre 2005
11
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 1.2.2. Sea S = (−∞, ∞), la recta real. Entonces B se elige de tal manera
que contenga todos los conjuntos de la forma:
[a, b]
(a, b]
(a, b),
y
[a, b)
para todos los números reales a y b. También de las propiedades de B se sigue que
esta contiene todos los conjuntos que pueden ser formados tomando (posiblemente
infinitos numerables) uniones e intersecciones de conjuntos de la forma dada arriba
en este ejemplo
Estamos ya en condiciones de definir una función de probabilidad.
Definición 1.2.2. Dado un espacio muestral S, y una σ-álgebra B asociada, una
función de probabilidad es una función P con dominio en B que satisface las siguientes
propiedades,
1. P (A) ≥ 0
∀A ∈ B
2. P (S) = 1
S
P∞
3. Si A1 , A2 , . . . ∈ B son dos a dos disjuntos, entonces P ( ∞
i=1 Ai ) =
i=1 P (Ai ).
La terna (S , B , P) se denomina espacio de probabilidad. También se suele anotar S
con la letra griega Ω.
A partir de ahora todo será estudiado en espacios de probabilidad, a pesar de mantenernos en un lenguaje de experimentos y eventos.
Las tres propiedades dadas en la definición 1.2.2 usualmente se denominan Axiomas de Probabilidad (ó Axiomas de Kolmogorov, uno de los padres de la teorı́a
de probabilidad). Cualquier función P que satisfaga los Axiomas de Probabilidad es
llamada función de probabilidad. Esta definición axiomática no hace referencia a la
función elegida en particular P , sólo se requiere que P satisfaga los axiomas. Ası́,
para un mismo espacio muestral, muchas funciones P diferentes pueden ser definidas
Probabilidad y Estadı́stica
Primer Semestre 2005
12
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
sobre él. Deberá ser observada, seguramente, el experimento particular para asignar
la función P adecuada.
Ejemplo 1.2.3. Consideremos el experimento simple que consiste en arrojar una
moneda, ası́ Ω = {C, S}. Entenderemos por moneda ”normal.a una tal balanceada, o
sea equilibrada de manera tal que pueda caer de cara ó ceca no este relacionado con
la moneda, sino con el resultado aleatorio del experimento. Con lo cual,
P ({C}) = P ({S}).
(1.1)
Note que hemos dado una interpretación simétrica de probabilidad (ó hemos ocupado la intuición) para imponer el requerimiento que tanto las caras como las secas sean
igualmente probables. Como Ω = {C} ∪ {S}, se tiene del ax. 2, P ({C} ∪ {S}) = 1.
También, los eventos {C} y {S} son disjuntos, ası́ P ({C}∪{S}) = P ({C})+P ({S}) =
1y
P ({C}) + P ({S}) = 1.
(1.2)
Resolviendo simultáneamente (1.1) y (1.2) se muestra que P ({C}) = P ({S}) = 1/2.
Ya que (1.1) está basada sobre nuestro conocimiento del experimento particular, no
en los axiomas, cualquier valor no negativo tanto para P ({C}) como para P ({S})
tal que satisfaga (1.2) define de manera legı́tima una función de probabilidad. Por
ejemplo, podrı́amos elegir P ({C}) = 1/9 y P ({S}) = 8/9.
La realidad fı́sica del experimento podrı́a determinar la asignación de probabilidad,
lo veremos en el siguiente ejemplo. Por supuesto, tal asignación debe satisfacer los
Axiomas de Kolmogorov.
Ejercicio 1.2.1.
1.2.2.
El cálculo de probabilidad
Desde los axiomas de probabilidad podemos construir algunas propiedades de la
función de probabilidad, tales propiedades son de gran ayuda en el cálculo de probaProbabilidad y Estadı́stica
Primer Semestre 2005
13
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
bilidad más complicado.
Comenzaremos con algunas (casi evidentes, otras no tanto) propiedades de la función
de probabilidad cuando la aplicamos a un evento simple,
Teorema 1.2.1. Sea (Ω, B, P ) un espacio de probabilidad y A, B ∈ B, entonces se
cumple,
a. P (∅) = 0, donde ∅ indica el conjunto vacı́o;
b. P (A) ≤ 1;
c. P (Ac ) = 1 − P (A);
d. P (B ∩ Ac ) = P (B) − P (A ∩ B);
e. P (A ∪ B) = P (A) + P (B) − P (A ∩ B);
f. Si A ⊂ B entonces P (A) ≤ P (B).
g. P (A ∩ B) ≥ P (A) + P (B) − 1
Ejemplo 1.2.4. La última desigualdad del teorema último anterior es muy usada
cuando es difı́cil (ó casi imposible) calcular la probabilidad de la intersección de dos
eventos, pero alguna de la medida de esa probabilidad se desea conocer. Supóngase
que A y B son dos eventos, cada uno con probabilidad 0.95. Entonces la probabilidad
que ambos ocurrieran está acotada inferiormente por
P (A ∪ B) ≥ P (A) + P (B) − 1 = 0,95 + 0,95 − 1 = 0,90.
Cerramos esta sección con un teorema que da algunos resultados útiles para tratar
con una colección de eventos.
Teorema 1.2.2. Sea (Ω, B, P ) un espacio de probabilidad, entonces
a. P (A) =
b. P (
S∞
i=1
P∞
i=1
Ai ) ≤
P (A ∩ Ci ) para cualquier partición C1 , C2 , . . .;
P∞
i=1
P (Ai ) para conjuntos cualesquiera A1 , A2 , . . . (desigualdad de
Boole)
Probabilidad y Estadı́stica
Primer Semestre 2005
14
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
1.2.3.
Técnicas de conteo
A menudo los métodos de conteo son ocupados en orden para construir asignaciones de probabilidad sobre espacios muestrales finitos, aunque pueden ser usados
para responder también otras cuestiones.
Si se tira un dado de seis caras 5 veces sucesivamente, entonces cada posible resultado es un conjunto ordenado de cinco números tales como (1, 3, 1, 2, 4) ó (6, 5, 2, 2, 2).
A un conjunto ordenado de k objetos le daremos el nombre de k − upla. Cada resultado del experimento de lanzar el dado es entonces una 5 − upla. Quisiéramos responder
a la siguiente pregunta: ¿cuántos son los resultados posibles totales del experimento?.
Sabemos que son muchos, no queremos enumerarlos uno a uno, sino, simplemente determinar cuantos son. El siguiente teorema es el primer paso para resolver tal proceso,
y muchas veces se lo conoce como Teorema Fundamental de Conteo.
Teorema 1.2.3. Supongamos que un conjunto está formado por grupos ordenados de
k elementos (k − upla) y que hay n1 posibles opciones para el primer elemento; por
cada opción del primer elemento hay n2 posibles opciones para el segundo elemento;
. . .; por cada posible opción de los primeros k − 1 elementos hay nk opciones del
k-ésimo elemento. Entonces hay n1 · n2 . . . nk posibles k − uplas.
Ejemplo 1.2.5. El propietario de una casa desea hacer una serie de remodelaciones
y requiere los servicios de un contratista plomero y de un contratista electricista.
Supongamos que este trabajo implica compar primero varios utensillos para la cocina.
Se comprarán todos al mismo distribuidor. Hay cinco distribuidores en la zona; 12
contratistas plomeros y 9 contratistas electricistas. ¿De cuántas maneras se pueden
seleccionar los distribuidores y los contratistas para hacer el trabajo?. Denotemos a
los distribuidores por d1 , d2 , . . . , d5 ; los plomeros por p1 , p2 , . . . , p12 y los electricistas
por e1 , e2 , . . . , e9 , entonces querremos contar el no de ternas de la forma (di , pj , ek ).
Con n1 = 5; n2 = 12; n3 = 9, el producto N = n1 · n2 · n3 = 5 · 12 · 9 = 540 formas
Probabilidad y Estadı́stica
Primer Semestre 2005
15
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
de seleccionar primero un distribuidor de aparatos domésticos, luego un contratista
plomero y, finalmente, un contratista electricista.
Ejemplo 1.2.6. Supongamos que una persona decide jugar al Quini seis. Entre los
números 1, 2, . . . , 36 una persona puede elegir 6 cualesquiera para completar su boleta.
El número ganador entonces, se selecciona en forma aleatoria, tomando seis números
entre los 36. Para calcular la probabilidad de ganar, primero debemos contar cuantos
grupos diferentes de seis números pueden se elegidos de entre los 36.
Ejemplo 1.2.7. Aunque el T.F.C. (Teorema Fundamental de Conteo) es un lugar
razonable para resolver los problemas de los ejemplos dos últimos anteriores, en la
aplicaciones usualmente hay muchos aspectos a considerar. Por ejemplo el en juego
del Quini, el primer número puede ser elegido entre 36 posibles, y el segundo número
en 35 posibilidades, produciendo un total de 36 · 35 = 1260 caminos distintos de elegir
el primero y el segundo número. Sin embargo, una persona también podrı́a considerar
la posibilidad de elegir las dos veces el mismo número para le elección del primero y
el segundo; de esta manera producirı́a un total de 36 · 36 = 1296 caminos distintos de
elección de los primeros dos números
La distinción hecha en el ejemplo está entre contar con reemplazo y sin reemplazo.
Hay otro elemento crucial en todo problema de conteo, si es o no importante el orden
en que se eligen los elementos. Para ejemplificarlo, supongamos que el número ganador
para el Quini es seleccionado con el siguiente orden: 12,36,35,9,13,22. Aquella persona
que seleccionó: 9,12,13,22,35,36; ¿se lo califica como un ganador?. En otras palabras
¿importa el orden en que se eligieron los números para conformar el cartón?. Tomado
todas esas consideraciones dentro del conteo, es posible construir una tabla de 2 × 2
que incluya todas las posibilidades:
Probabilidad y Estadı́stica
Primer Semestre 2005
16
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Posibles Métodos de conteo
Con reemplazo
Sin reemplazo
ordenado
sin orden
Antes de comenzar a contar, las siguientes definiciones nos darán algunas precisiones.
Definición 1.2.3. Para cualquier entero positivo n, n! (se lee n factorial) es el producto de todos los enteros positivos menores o iguales que n. Esto es,
n! = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1.
Además de define 0! = 1.
Consideremos ahora todos los posibles cartones de Quini bajo cada uno de los
cuatro casos dados en la tabla
1. Ordenados sin reemplazo Del T.F.C., el primer número puede ser
seleccionado de 36 formas, el segundo de 35, etc. , entonces todos los
posibles son:
36 × 35 × 34 × 33 × 32 × 31 =
35!
= 1,402,410,240
30!
posibles cartones.
2. Ordenados con reemplazo Cada número puede ser seleccionado en 36
formas diferentes (pues el número elegido es reemplazado), entonces
hay,
36 × 36 × 36 × 36 × 36 × 36 = 366 = 2,176,782,336
posibles cartones.
3. Sin orden, sin reemplazo Nosotros conocemos el número posible de
cartones para una consideración de orden, ahora deberemos dividir
Probabilidad y Estadı́stica
Primer Semestre 2005
17
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
por el número de ordenamientos redundantes. Nuevamente usando
el T.F.C., seis números pueden ser ordenados en 6 × 5 × 4 × 3 × 2 × 1
caminos, ası́ el total de cartones distintos no ordenados es:
36 × 35 × 34 × 33 × 32 × 31
36!
=
= 1,947,792
6×5×4×3×2×1
6!30!
Esta forma juega un rol central en muchos problemas de estadı́stica,
más aún, se ha ganado una notación especial.
Definición 1.2.4. Para enteros no-negativos n y r, n ≥ r, definimos el sı́mbolo
µ ¶
n!
n
=
.
r
r! (n − r)!
En nuestro ejemplo de los cartones de Quini, el número posible de estos (sin orden, sin
¡ ¢
reemplazo) es 36
. Cuando nos referimos ese número se lo suele denominar coeficiente
6
binomial, las razones serán explicadas más adelante.
4. Sin orden, con reemplazo Este es el caso más difı́cil de conteo. Para
contar en este caso resulta más fácil pensar en ubicar seis marcas
sobre los 36 números. En efecto, podemos pensar a los 36 números
definiendo celdas, en las cuales podemos ubicar seis marcas, M, como
se muestra en la figura siguiente
M
1
2
MM
M
3
4
5
···
M
M
···
33
34
35
36
El número de posibles cartones en entonces igual al número de caminos distintos
distintos en que podemos acomodar las seis marcas en las 36 celdas. Pero esto puede
ser reducido notando que todo lo que necesitamos para guardar la marca es un arreglo
con las marcas y de barras de las celdas. Note además que las dos barras externas
no juegan ningún papel. Ası́, nosotros tenemos para contar todos los arreglos de 35
barras (36 celdas se corresponden con 37 barras, pero quitamos las barras de sendos
extremos) y 6 marcas. Por lo tanto, tenemos 35+6=41 objetos, los cuales pueden ser
Probabilidad y Estadı́stica
Primer Semestre 2005
18
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
ordenados en 41! formas. Sin embargo, para eliminar los ordenamientos redundantes
debemos dividir por 6! y 35!, ası́ el número total de arreglos es:
41!
= 4,496,388.
6!35!
Aunque todas las derivaciones anteriores fueron hechas a partir de un ejemplo, es fácil
ver que se mantienen en general, para completar, es posible resumir las situaciones a
través de la siguiente tabla:
Número de posibles arreglos de medida r entre n objetos
sin reemplazo
con reemplazo
n!
(n−r)!
nr
Ordenado
Sin orden
1.2.4.
¡n¢
¡n+r−1¢
r
r
Resultados Igualmente probables
Las técnicas de conteo vistas en la sección última anterior son muy usadas cuando
el espacio muestral Ω es un conjunto finito y todos los resultados en Ω son igualmente probables. Entonces probabilidades de eventos pueden ser calculadas por simple conteo del número de resultados en el evento. Para ver esto, supongamos que
Ω = {ω1 , ω2 , . . . , ωN } es un espacio muestral finito. Afirmar que todos los resultados
son igualmente probables, significa que P ({ωi }) = 1/N para cada resultado ωi . Entonces, usando (3) de la definición de una función de probabilidad, se tiene para cada
evento A,
P (A) =
X
P ({ωi }) =
ωi ∈A
X 1
número de elementos en A
=
.
N
número
de
elementos
en
Ω
ω ∈A
i
Para muestras grandes, las técnicas de conteo podrı́an ser usadas para determinar
tanto el numerador como el denominador de esta expresión.
Ejemplo 1.2.8. Cuando dos dados ruedan separadamente, hay N = 36 resultados
posibles. Si ambos dados no están cargados, los 36 resultados son igualmente probables, ası́ que P (Ei ) =
Probabilidad y Estadı́stica
Primer Semestre 2005
1
,
36
siendo Ei cualquiera de los evento elementales del espacio
19
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
muestral. Entonces el evento A = {(x, y) ∈ Ω : x + y = 7}, ó sea la suma de los
números que aparecen en los dados es igual a siete, está formado por los siguientes
seis resultados:
(1, 6); (2, 5); (3, 4); (4, 3); (5, 2); (6, 1);
ası́ que, se tiene P (A) =
N (A)
N
=
6
36
= 16 .
1.3.
Probabilidad Condicional
1.3.1.
Probabilidades compuestas e independencia
Consideremos el siguiente problema:
Se lanzan simultáneamente dos dados, uno rojo y otro blanco, y se busca la probabilidad de que el rojo sea 2 y el blanco 5.
Sabemos que los casos posibles son 6 · 6 = 36, pues en el dado rojo puede salir
cualquier número del 1 al 6 y, para el caso del blanco también. De entre estos 36 casos
posibles, únicamente hay un caso favorable, y por lo tanto la probabilidad buscada
en 1/36. Se tiene ası́ que, mientras que en la probabilidad de que un dado rojo salga
2 es 1/6 y la que en el dado blanco salga 5 es también 1/6, la probabilidad de que
ocurran a la vez los dos sucesos es también el producto (1/6) · (1/6).
Este hecho señalado en el ejemplo último anterior es general. Supongamos que
para un suceso A hay m1 casos favorables entre un total de n1 posibles y para otro
suceso B hay m2 casos favorables entre un total de n2 posibles. Entonces se tiene
que P (A) = m1 /n1 y P (B) = m2 /n2 . Consideremos ahora el conjunto de pares de
casos posibles y favorables. Está claro que habrá n1 n2 casos posibles, y entre ellos,
m1 m2 casos favorables (en que tienen lugar A y B simultáneamente). Por lo tanto
P (A ∩ B) = m1 m2 /n1 n2 = P (A) · P (B).
Probabilidad y Estadı́stica
Primer Semestre 2005
20
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Podemos, por lo tanto, enunciar el siguiente principio de las probabilidades compuestas:
Si dos sucesos son independientes entre sı́, la probabilidad de que ocurran A y B a
la vez, es igual al producto de la probabilidad de A por la probabilidad de B, o sea,
P (A ∩ B) = P (A) · P (B).
(1.3)
La condición de que A y B sean independientes es fundamental, para que 1.3 sea
válida. Supongamos, por ejemplo, que se lanza un dado y se busca la probabilidad
de que el número resultante sea ”par y menor que 4”. Si A indica el suceso ”par B
2
el suceso ”menor que 4”, resulta P (A) = 1/2 y P (B) = 3/6 = 1/2. El único caso
favorable es el 2, y por lo tanto P (A ∩ B) = 1/6, mientras que P (A) · P (B) = 1/4.
Esto nos informa que los sucesos ”par ”menor que 4”no son independientes: si se
2
supiese de antemano que el resultado es par es menos probable que sea menor que 4
que si no se supiera.
En la mayorı́a de los casos no es fácil averiguar a priori si dos sucesos son o no
independientes. Por eso, veremos antes de finalizar este capı́tulo que es mejor tomar
la condición 1.3 como definición de independencia de dos eventos, es decir dos sucesos
A y B son independientes si cumplen con la condición 1.3. Veamos ahora como se
pueden tratar estas ideas dentro de la teorı́a axiomática.
1.3.2.
Probabilidad Condicional
Sea (Ω, B, P ) un espacio de probabilidad. Sea A ∈ B, un suceso tal que P (A) 6= 0.
Definición 1.3.1. Se llama probabilidad condicional de un suceso B ∈ B, dado el
suceso A ∈ B, y se representa por P (B/A), al cociente
P (B/A) =
Probabilidad y Estadı́stica
Primer Semestre 2005
P (A ∩ B)
.
P (A)
21
(1.4)
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Se deberá probar que esta definición de probabilidad condicional es admisible, es
decir, que la probabilidad condicional PA (B) = P (B/A), definida para todo B ∈ B,
una vez fijado A ∈ B, cumple con las tres partes de la definición de probabilidad.
Se debe probar que (Ω, B, PA ) es también un espacio de probabilidad. Esto se deja
como ejercicio. Un vez probado podremos afirmar que la última definición anterior es
admisible. A partir de ella se puede escribir
P (A ∩ B) = P (A) · P (B/A).
(1.5)
En forma análoga y fijando el suceso B, suponiendo que P (A) 6= 0, se tiene la probabilidad condicional
P (A/B) =
P (B ∩ A)
.
P (B)
(1.6)
Podremos enunciar ası́ ası́ ahora la siguiente definición de sucesos independientes.
Definición 1.3.2. Se dice que dos sucesos son independientes si se verifica que
P (B/A) = P (B).
(1.7)
Obsérvese que en este caso, según (1.4), es
P (A ∩ B) = P (A) · P (B)
A y B independientes
(1.8)
y por tanto comparando con (1.7), es también
P (A/B) = P (A).
(1.9)
Esto nos dice que la independencia es una propiedad simétrica, que puede definirse
por cualquiera de las igualdades (1.7) ó (1.9).
Puesto que el hecho de que un elemento pertenezca a la intersección A ∩ B significa
que a la vez pertenece a A .a B, la relación (1.8) equivale a la (1.3) (principio de las
2
probabilidades compuestas).
Probabilidad y Estadı́stica
Primer Semestre 2005
22
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La definición de independencia se generaliza a más de dos eventos de la siguiente
manera:
Definición 1.3.3. Se dice que n sucesos A1 , A2 , . . . , An son independientes ó (completamente independientes) si se verifica
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik )
(1.10)
para k = 2, 3, . . . , n, donde (i1 , i2 , . . . , ik ) es una combinación cualquiera de los n
números 1, 2, . . . , n.
Por ejemplo, para que 3 eventos A, By C sean independientes, se debe cumplir:
P (A ∩ B) = P (A) · P (B),
P (A ∩ C) = P (A) · P (B),
P (B ∩ C) = P (B) · P (C),
P (A ∩ B ∩ C) = P (A) · P (B) · P (C).
Observe que la última relación no puede deducirse de las dos primeras, es decir las
cuatro condiciones son necesarias.
Naturalmente, y es de suma importancia, no confundir eventos independientes con
eventos disjuntos.
Ejemplo 1.3.1. Problema de las coincidencias Se tienen dos urnas con n bolillas cada una, numeradas de 1 a n. Se va sacando simultáneamente una bolilla de cada
urna, y se quiere hallar la probabilidad de que , al terminar la extracción de todas las
bolillas, se haya extraı́do, por lo menos una vez, el mismo número de cada urna.
Solución:
El espacio muestral Ω puede ser visualizado como todas las matrices de la forma


i1 i2 . . . in


j1 j2 . . . jn
Probabilidad y Estadı́stica
Primer Semestre 2005
23
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
donde i1 , i2 , . . . , in son los números entre 1 y n que salen de la primera urna, y
j1 j2 . . . jn son los que salen de la segunda. El número total de elementos del espacio
muestral es n! · n! = (n!)2 (casos posibles) y la probabilidad de cada suceso elemental
es 1/(n!)2 .
Consideremos Ai , el conjunto de elementos de Ω, en los cuales el i en la primera fila
coincide con el j = i en la segunda fila, independientemente del lugar en que ocurra
la coincidencia. Por ejemplo, A3 es el conjunto de las matrices de la forma


...3...

.
···3···
El problema final se trata de calcular P (A1 ∪ A2 ∪ . . . ∪ An ). Para ello es posible
aplicar la fórmula:
P (A1 ∪ A2 ∪ . . . ∪ An ) =
P
i
P (Ai ) −
P
i,j
P (Ai ∩ Aj ) +
P
i,j,k
P (Ai ∩ Aj ∩ Ak ) − · · · +
(−1)n−1 P (A1 ∩ A2 ∩ . . . An ), donde las sumas se extienden en cada caso a todas las
combinaciones posibles entre los diferentes ı́ndices i, j, k, . . ., o sea que todo se reduce
al cálculo de las probabilidades del segundo miembro. Buscaremos el valor de cada
sumando:
(a) Probabilidad P (Ai ). El número de elementos del espacio muestral en que coinciden los números i, lo calculamos de la siguiente forma. Fijado el lugar en que
ocurre la coincidencia, los restantes n−1 números de la primera y de la segunda
fila pueden ser cualesquiera, y por lo tanto se tienen ((n − 1)!)2 casos. Como el
lugar de la coincidencia puede ser también cualquiera, se tienen en cada caso,
n posibilidades más. De donde Ai está compuesto de n · ((n − 1)!)2 elementos
del muestral, en consecuencia
1
n · ((n − 1)!)2
= ,
P (Ai ) =
2
(n!)
n
X
i
P (Ai ) =
n
= 1.
n
(b) Probabilidad P (Ai ∩ Aj ). Fijamos los lugares en que ocurren las coincidencias
de los lugares i y j, los restantes n − 2 números de la primera y de la segunda
Probabilidad y Estadı́stica
Primer Semestre 2005
24
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
fila pueden ser cualesquiera, y por lo tanto se tienen ((n − 2)!)2 casos. Como los
lugares de las coincidencias pueden ser también cualquiera de los n, se tienen
en cada caso, n(n − 1) posibilidades más. De donde Ai ∩ Aj está compuesto de
n(n − 1) · ((n − 2)!)2 elementos del muestral, en consecuencia
n(n − 1) · ((n − 2)!)2
1
=
2
(n!)
n(n − 1)
µ ¶
X
1
n
1
P (Ai ∩ Aj ) =
= .
2
2 n(n − 1)
i,j
P (Ai ∩ Aj ) =
(c) Análogamente,
P (Ai ∩ Aj ∩ Ak ) =
1
n(n − 1)(n − 2) · ((n − 3)!)2
=
2
(n!)
n(n − 1)(n − 2)
y por lo tanto
X
i,j,k
µ ¶
n
1
1
P (Ai ∩ Aj ∩ Ak ) =
= .
3 n(n − 1)(n − 2)
3!
Se tiene ası́ como resultado final (procediendo sucesivamente) que la probabilidad de por lo menos una coincidencia es:
P =1−
1
1
1
1
+ − + . . . + (−1)n .
2 3! 4!
n!
(1.11)
Para n −→ ∞, P = 1 − exp−1 = 0,6321 . . .. Es curioso notar que para valores
relativamente pequeños de n se obtienen valores ya muy próximos a esta valor
lı́mite. Ası́, se tiene
P (1) = 1, P (2) = 0,5, P (3) = 0,66 . . . , P (4) = 0,625 . . . ; P (7) = 0,6321 . . .
y para valores mayores de 7, quedan invariables las cuatro primeras cifras decimales.
Ejemplo 1.3.2. Problema de los nacimientos En una reunión de r personas,
¿cual es la probabilidad de que, por lo menos dos de ellas, cumplan años el mismo
dı́a?
Probabilidad y Estadı́stica
Primer Semestre 2005
25
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Vamos a prescindir de la posibilidad de que alguien haya nacido el 29 de febrero y
por tanto supondremos que el año tiene 365 dı́as. el espacio muestral se compone de
todos los conjuntos posibles de r fechas. Un individuo, seleccionado al azar, podrı́a
cumplir años en cualquiera de los 365 dı́as del año, de manera análoga un segundo
individuo podrı́a cumplir años en cualquiera de los 365 dı́as, etc. Por lo tanto, el
espacio muestral está constituido por 365r puntos, cada uno de los cuales tiene la
misma probabilidad. En vez del suceso cuya probabilidad se busca, consideremos su
complemento: el que ningún para de personas cumpla años el mismo dı́a. El número
de elementos de este suceso se calcula ası́: la primera persona tiene 365 posibilidades;
la segunda no habiendo nacido el mismo dı́a que la primera, tiene 364 posibilidades;
la tercera persona tiene 363 posibilidades y ası́ sucesivamente, la última persona tiene
365 − (r − 1) posibilidades. En total, el suceso complementario consta de 365 · 364 ·
363 · . . . (365 − (r − 1)) elementos. De donde su probabilidad es este número dividido
por 365r , y la probabilidad del suceso objeto del problema será (suponiendo r > 1)
Pr = 1 −
365 · 364 · 363 · . . . (365 − (r − 1))
.
365r
Este número no es fácil de calcular directamente. Los siguientes valores dan una idea
de su comportamiento:
No de personas
r
5
10
20
23
30
40
60
Probabilidad
Pr 0.027 0.117 0.411 0.507 0.706 0.89 0.99
Se ha tenido en cuenta el número r = 23, pues allı́ la probabilidad es prácticamente
1/2. Observe que si las personas son 60 ó más, la probabilidad es superior a 0.99, es
decir hay casi certeza de que por lo menos dos personas cumplan años el mismo dı́a,
lo cual es un resultado sorprendente a primera vista.
Modelos basados en probabilidades condicionales Para ver estos modelos
hace falta poder obtener la probabilidad de un evento, en función de sus probabilidades condicionales respecto de otros.
En el caso más sencillo, sea B1 , B2 , . . . , Bn una partición de Ω, y A cualquier evento.
Probabilidad y Estadı́stica
Primer Semestre 2005
26
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Entonces
P (A) =
n
X
P (A/Bi )P (Bi ).
(1.12)
i=1
Esta se llama ley de la probabilidad total, para probarla basta con aplicar el Teorema
1.2.2 parte a) y (1.5).
En las mismas condiciones se cumple para todo k = 1, . . . , n:
P (A/Bk )P (Bk )
P (Bk /A) = Pn
.
i=1 P (A/Bi )P (Bi )
(1.13)
Este resultado se conoce como fórmula de Bayes, se prueba usando (1.12) y la (1.5).
Ejemplo 1.3.3. En una fábrica dos máquinas trabajan simultáneamente produciendo un mismo artı́culo. Se sabe que la máquina A produce el doble de artı́culos que la
máquina B. El porcentaje de artı́culos defectuosos producidos por A es una 10 %, en
tanto que el porcentaje de artı́culos defectuosos que produce B es un 5 %. ¿Qué cantidad de artı́culos debe fabricar cada máquina, para tener aproximadamente 5500 artı́culos buenos en total?
Solución:
Sea el suceso S= ”se fabrica un artı́culo sano”. Se deberá calcular la probabilidad
de este evento, es decir querremos encontrar P (S).
Es mas sencillo calcular la probabilidad de D= ”se fabrica un artı́culo defectuoso”.
Como D = S c , tendremos P (S) = 1 − P (D). Es claro que un artı́culo puede provenir
de la máquina A ó la máquina B en forma excluyente. Si A y B son los sucesos ”el
artı́culo proviene de A y ”el artı́culo proviene de Brespectivamente, podemos poner
D = (D ∩ A) ∪ (D ∩ B)
Probabilidad y Estadı́stica
Primer Semestre 2005
27
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
, como ambos sucesos D ∩ A y D ∩ B son mutuamente excluyentes, resulta
P (D) = P [(D ∩ A) ∪ (D ∩ B)] = P (D ∩ A) + P (D ∩ B) = P (D/A)P (A) + P (D/B)P (D)
10 2
5 1
1
· +
· =
100 3 100 3
12
=
Esto nos dice que de cada 12 artı́culos fabricados 1 será defectuoso y 11 serán buenos
(P (S) =
11
).
12
Entonces
11
5500
=
,
12
x
ó sea
x = 6000 artı́culos
En consecuencia, como A produce el doble de artı́culos que B, deberán fabricar 4000
y 2000 artı́culos respectivamente.
Ejemplo 1.3.4. Consideremos una situación que resulta relativamente corriente en
casos de controles masivos aplicados en prevención médica y exámenes de calidad de
productos.
En el control preventivo de una población, en la que la proporción de enfermos
bacilares es p, se una un examen radiológico para detectar posibles enfermos. Se
sabe que la probabilidad de que el examen aplicado a un enfermo lo muestre como
tal es 0.90 y que la probabilidad de que el examen aplicado a una persona sana, la
señale como enferma es 0.01. Se quiere calcular la probabilidad de que una persona
sea realmente enferma si el examen radilológico la mostró como tal.
Solución:
Consideremos el experimento de elegir una persona al azar de la población y los
sucesos,
E = la persona es enferma
R+ = el examen la detecta como enferma
Tenemos entonces la siguiente partición de la población, donde S y R− son los sucesos
complementarios de E y R+ respectivamente, es decir, S: la persona es sana y R− : el
Probabilidad y Estadı́stica
Primer Semestre 2005
28
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
examen la detecta como sana.
En virtud de los datos sabemos que
P (E) = p,
P (R+ /E) = 0,90
y P (R+ /S) = 0,01
queremos hallar P (E/R+ ).
Aplicamos entonces la fórmula de Bayes,
P (E ∩ R+ )
P (R+ /E) · P (E)
=
P (R+ )
P (R+ /E)P (E) + P (R+ /S)P (S)
0,90p
0,90p
=
=
0,90p + 0,01(1 − p)
0,89p + 0,01
P (E/R+ ) =
En particular, si p = 1/500, resulta P (E/R+ ) ' 0,153. El significado de este resultado
debe considerarse detenidamente. Por una parte el examen radiológico es altamente
confiable (detecta la enfermedad en el 90 % de los casos en que esta exista). Por otra
parte, sólo en el 15, 30 % de los casos en que la prueba da un resultado positivo se
tiene que la enfermedad realmente existe.
Analicemos P (E/R+ ) para algunos valores de p.
p
P (E/R+ )
1/1000
0.083
1/500
0.153
1/200
0.311
1/100
0.476
1/10
0.909
Observamos que si p (proporción de enfermos en la población) es pequeño, el
método de control masivo indicado es insuficiente dado que P (E/R+ ) está lejos de
1. Este tipo de dificultades que ofrece el método requiere un análisis previo a su
aplicación.
Probabilidad y Estadı́stica
Primer Semestre 2005
29
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
1.4.
EJERCICIOS
1.1 Para cada uno de los siguientes experimentos, describir el espacio muestral.
a. Arrojar una moneda cuatro veces
b. Contar el no de insectos dañinos que viven sobre una planta.
c. Medir el tiempo de vida (en horas) de una marca particular de lamparitas
de luz.
d. Determinar el peso de ratas con 10 dı́as de vida.
e. Observe la proporción de defectos en un embarque de componentes electrónicos.
1.2 Verifique las siguientes identidades.
a. A − B = A − (A ∩ B) = A ∩ B c
b. B = (B ∩ A) ∪ (B ∩ Ac )
c. B − A = B ∩ Ac
d. A ∪ B = A ∪ (B ∩ Ac ).
1.3 Finalice la demostración del Teorema 1.1.1.
1.4 Demuestre que para cualquier para de eventos A y B en Ω, se cumple:
A∆B = Ac ∆B c .3
1.5 Con la misma técnica ocupada en clase, muestre que las siguientes igualdades se
cumplen: IA∪B = máx {IA , IB }
, IAc = 1 − IA
1.6 Pruebe la versión general de las Leyes de De Morgan. Sea {Aα : α ∈ Γ} una
colección de conjuntos (posiblemente no-numerables). Demuestre que:
T
S
S
T
b. ( α Aα )c = α Acα .
a. ( α Aα )c = α Acα
1.7 Supongamos que B es una sigma álgebra de subconjuntos de S, entonces
a. Probar que S ∈ B.
b. Probar que B es cerrado bajo intersecciones contables.
3
Recuerde que A∆B se define como: A∆B = (A ∪ B) − (A ∩ B).
Probabilidad y Estadı́stica
Primer Semestre 2005
30
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
c. Probar que el conjunto formado por el vacı́o y S es una sigma álgebra.
1.8 Si A∗i se define como en la demostración del Teorema 1.2.2 (b), demuestre que
A∗k ∩ A∗l = ∅,
∀ k 6= l
1.9 Demuestre que si B es una σ-álgebra, entonces también es cerrada para la diferencia entre conjuntos.
1.7 Sea (Ω, B, P ) un espacio de probabilidad, A, B ∈ B.
Demuestre que P (A ∩ B) ≥ P (A) + P (B) − 1 (caso especial de la desigualdad
de Bonferroni)
1.10 Aplicar la desigualdad de Boole al evento Ac ; y usando que
S
Aci = (
T
Ai )c ,
P (Aci ) = 1 − P (Ai ), pruebe la desigualdad
P(
n
\
i=1
Ai ) ≥
n
X
P (Ai ) − (n − 1),
i=1
la cual es la desigualdad más general de la desigualdad de Bonferroni.
1.11 Consideremos una caja que contiene 9 lámparas de las cuales 4 están quemadas.
Se extraen al azar tres lámparas sin reposición y se cuenta la cantidad de quemadas. ¿Cuál es la probabilidad de obtener i) ninguna lámpara quemada, ii)
exactamente una lámpara quemada, iii) exactamente dos lámparas quemadas,
iv) tres lámparas quemadas. Resumir los cuatro resultados obtenidos en una
tabla de doble entrada. ¿Cuánto da la suma de todas estas probabilidades?.
1.12 Consideremos la misma situación del [1.11], pero ahora la muestra es con reposición. ¿Cuánto da la suma de todas estas probabilidades?.
1.13 Suponga ahora una caja que contiene N lámparas de las cuales n están quemadas (n ≤ N ) . Se extraen al azar r lámparas y se cuenta la cantidad de
quemadas. ¿Cuál es la probabilidad de obtener exactamente k lámparas quemadas (k ≤ r) si la muestra que se toma es:
a) sin reposición,
Probabilidad y Estadı́stica
Primer Semestre 2005
b) con reposición.
31
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
1.14 Una firma de consultorı́a de computadoras ha licitado en tres proyectos. Sea
Ai = {proyecto i otorgado} , para i = 1, 2, 3 y supongamos que P (A1 ) =
0,22, P (A2 ) = 0,25, P (A3 ) = 0,28, P (A1 ∩A2 ) = 0,11, P (A1 ∩A3 ) = 0,05, P (A2 ∩
A3 ) = 0,07, P (A1 ∩ A2 ∩ A3 ) = 0,01. Exprese verbalmente cada uno de los siguientes eventos y calcule su probabilidad
a) A1 ∪ A2
b) Ac1 ∩ Ac2
c) A1 ∪ A2 ∪ A3
d) Ac1 ∩ Ac2 ∩ Ac3
e) Ac1 ∩ Ac2 ∩ A3
f) (Ac1 ∩ Ac2 ) ∪ A3
1.15 Aplique la fórmula demostrada en clase para determinar la probabilidad de la
unión de dos eventos a fin de,
a) Encontrar una fórmula para calcular la probabilidad de la unión de tres
eventos
b) Generalice la fórmula hallada en a), por inducción para determinar la probabilidad de la unión de n eventos.
1.16 Una tienda de video vende dos marcas diferentes de videograbadoras (VCR),
cada una de las cuales viene con dos o cuatro cabezas. La tabla siguiente indica
los porcentajes de compradores recientes de cada tipo de VCR:
Número de Cabezas
Marca
2
4
M
25 %
16 %
Q
32 %
27 %
Supongamos que se selecciona al azar un comprador reciente y que se determinan
tanto la marca como el número de cabezas.
a) ¿Cuáles son los cuatro eventos simples?
b) ¿Cuál es la probabilidad de que el comprador seleccionado haya comprado
la marca Q, con dos cabezas?
Probabilidad y Estadı́stica
Primer Semestre 2005
32
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
c) ¿Cuál es la probabilidad de que el comprador seleccionado haya comprado
la marca M?
1.16 Pruebe que la terna (Ω, B, PA ) representa un espacio de probabilidad, siendo
PA (B) = P (B/A) =
P (A∩B)
.
P (A)
1.17 Pruebe que si dos eventos A y B son independientes, entonces también lo son
A y B c ; Ac y B; Ac y B c ; A y Ω ; A y ∅.
1.18 Demuestre formalmente la ley de probabilidad total.
1.19 Demuestre formalmente el Teorema de Bayes.
1.20 1
Probabilidad y Estadı́stica
Primer Semestre 2005
33
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Probabilidad y Estadı́stica
Primer Semestre 2005
34
Prof.Mg. Osmar Vera
Capı́tulo 2
Variables aleatorias
2.1.
Introducción
En muchos experimentos resulta más fácil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinión,
podrı́amos decidir entrevistar a 50 personas y preguntarles si les agrada ó no cierta
cosa. Si usáramos un 1 para el que contesta ”me agrada un o para el que contesta
2
”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada
uno de estos elementos es un arreglo de dimensión 50, donde cada componente es un 1
ó es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podrı́a hacerse si, por ejemplo, nos interesa solamente
el número de personas a quienes les agrada (ó equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podrı́a interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, ó a la tercera parte; y ası́ definir la cantidad X =
números de 1´s encontrados entre los 50, de esta manera tendrı́amos capturada la
esencia del problema.
Ahora el espacio muestral que recorre X es el conjunto {0, 1, 2, . . . , 50}, el cual es
35
Probabilidad y Estadı́stica
mucho más fácil de manejar que el original. Para definir esta cantidad X es necesario
definir una función del espacio muestral original, Ω, a un nuevo espacio, usualmente
el conjunto de los números reales. En general se tiene la siguiente
Definición 2.1.1. Una variable aleatoria es una función del espacio muestral Ω en
los números reales.
Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implı́citamente. Veamos algunos ejemplos en la siguiente tabla:
Experimentos
Variable Aleatoria
Arrojar dos dados
X = suma de los números obtenidos
Arrojar una moneda 25 veces
X = número de caras obtenidas en los 50 tiros
Aplicar diferentes tipos de fertilizantes
a grupos de plantas
X = rendimiento por acre
En la definición de v.a. tenemos definido un nuevo espacio muestral (el rango ó recorrido
de la va). Ahora se debe chequear formalmente que nuestra función de probabilidad, la cual
está definida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
Ω = {ω1 , ω2 , . . . , ωn }
con una función de probabilidad P , y definimos una v.a. X con un rango en X = {x1 , x2 , . . . , xn }.
Definiremos una función de probabilidad PX sobre X del siguiente modo:
PX (X = xi ) = P ({ωj ∈ Ω / X(ωj ) = xi })
(2.1)
Note que la función PX a la izquierda del igual en (2.1) es una función de probabilidad
inducida por X , definida en términos de la probabilidad original P . La igualdad (2.1) formalmente define una función de probabilidad, PX , para la v.a. X. Por supuesto que se
deberá verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejercicio. Como son equivalentes, simplemente (2.1) se escribirá como P (X = xi ) en lugar de
PX (X = xi )
Probabilidad y Estadı́stica
Primer Semestre 2005
36
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Notación Variables aleatorias siempre serán denotadas por letras imprenta mayúsculas
tales como, X, Y , Z, X1 , X2, Y1 , etc; y los valores de su realización (ó su rango) con su
correspondiente letra minúscula. Ası́, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos
la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
ω
X(ω)
CCC
3
CCS
2
CSC
2
SCC
2
CSS
1
SCS
1
SSC
1
SSS
0
El rango de valores de la v.a. X es X = {0, 1, 2, 3}. Asumiendo equiprobabilidad, se
tiene P ({ω}) = 1/8
x
PX (X = x)
0
1/8
1
3/8
2
3/8
3
1/8
∀ ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla:
Por ejemplo PX (X = 1) = P ({CSS, SSC, SCS}) = 38 .
Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamaño 50 formado por 1´s y 0´s.
Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = {0, 1, 2, . . . , 50}.
Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obtenida contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral
original. Como cada cadena es igualmente probable, tenemos que
¡50¢
Nro. de cadenas con 27 1´s
P (X = 27) =
= 27
.
Nro. total de cadenas
250
Probabilidad y Estadı́stica
Primer Semestre 2005
37
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
En general
¡50¢
PX (X = i) =
i
250
Estos ejemplos anteriores tienen un Ω y un X finito. También X podrı́a ser numerable.
Si X no es numerable, también es posible definir la función de probabilidad inducida PX de
forma similar a la anterior:
Para A ⊂ X ,
PX (X ∈ A) = P ({ω ∈ Ω / X(ω) ∈ A}).
Esta también define legı́timamente una función de probabilidad que cumple con los
axiomas de Kolmogorov.
2.2.
Funciones de Distribución
Con toda v.a. X, tenemos asociada una función llamada función de distribución
acumulativa de X, dicha también f.d.a.
Definición 2.2.1. La f.d.a. de una v.a. X, denotada por FX (x), se define por:
FX (x) = PX (X ≤ x) ∀x ∈ R
Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa
la cantidad de caras obtenidas. Determinemos FX (x)
x<0
=⇒
FX (x) = PX (X ≤ x) = 0
0≤x<1
=⇒
FX (x) = PX (X ≤ x) = P (X = 0) = 1/8
1≤x<2
=⇒
FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) = 1/2
2≤x<3
=⇒
FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8
x≥3
=⇒ FX (x) = 1
Finalmente, la función de distribución asociada a X es,



0 si x < 0






1/8 si 0 ≤ x < 1



FX (x) =
1/2 si 1 ≤ x < 2





7/8 si 2 ≤ x < 3





 1 si x ≥ 3
Probabilidad y Estadı́stica
Primer Semestre 2005
38
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Le proponga al lector que grafique esta función, obtendrá un gráfico en R2 con las siguientes
caracterı́sticas:
(a) FX (x) está definida ∀ x, no solamente en X . Por ejemplo: FX (2,5) = 7/8
(b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi ).
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), ó sea discontinuidades, la
función alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbólicamente se tiene:
lı́m FX (x) = FX (xi )
si xi ∈ X
x−→x+
i
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que están definidas en términos de probabilidad.
Teorema 2.2.1. La función F(x) es una f.d.a. sı́ y sólo sı́ las siguientes tres condiciones
se cumplen:
(a)
lı́m
x−→−∞
F (x) = 0 ∧
lı́m F (x) = 1
x−→∞
(b) F (x) es no decreciente como función de x.
(c) F (x) es continua a la derecha, esto es:
lı́m F (x) = F (x0 )
x−→x+
0
∀ x0 .
Prueba:
Para probar la condición necesaria, basta escribir F (x) en términos de la función de probabilidad. Para la suficiencia ó sea, que si una función F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho más complicado (no lo haremos),
deberı́amos establecer que existe un espacio muestral Ω, una función de probabilidad P
sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X.
Probabilidad y Estadı́stica
Primer Semestre 2005
39
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
X = {1, 2, 3, . . .}, entonces para x = 1, 2, . . . ,
P (X = x) = (1 − p)x−1 p ,
ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, además los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
FX (x) = P (X ≤ x) =
x
X
P (X = i) =
x
X
i=1
(1 − p)i−1 p , x = 1, 2, . . .
i=1
recordar que la suma parcial de una serie geométrica es
n
X
tk−1 =
k=1
1 − tn
,
1−t
t 6= 1
(2.2)
Este resultado se puede probar por inducción matemática. Aplicando (2.2) a nuestra probabilidad, encontramos que la f.d.a. de nuestra v.a. X es
FX (x) = P (X ≤ x)
=
1 − (1 − p)x
p
1 − (1 − p))
= 1 − (1 − p)x ,
x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta función, por ejemplo para p = 0,3.
Es fácil mostrar que 0 < p < 1 para que FX (x) satisfaga las condiciones del teorema (2.2.1).
lı́m
x−→−∞
FX (x) = 0,
ya que FX (x) = 0 ∀ x < 0
y
lı́m FX (x) = lı́m [1 − (1 − p)x ] = 1.
x−→∞
Probabilidad y Estadı́stica
Primer Semestre 2005
x−→∞
40
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la función
1
,
1 + exp−x
FX (x) =
la cual satisface las condiciones de teorema (2.2.1).
Por ejemplo,
lı́m
FX (x) = 0,
ya que
lı́m FX (x) = 1,
ya que
x−→−∞
lı́m
x−→−∞
exp−x = ∞
y
x−→∞
lı́m exp−x = 0
x−→∞
Si derivamos FX (x) una vez, tenemos
d
exp−x
>0,
FX (x) =
dx
(1 + exp−x )2
mostrando que FX es creciente como función de x. FX no solamente es continua a la derecha.
Sino también continua. Este es un caso especial de la llamada distribución logı́stica.
Si una f.d.a. es continua ó presenta saltos se corresponde con la asociación de una v.a.
que sea continua ó no. En efecto, la asociación nos conduce a la siguiente definición,
Definición 2.2.2. Una v.a. X es continua se FX (x) es una función continua de x. Una
v.a. X es discreta de FX (x) es una función dada a trozos con respecto a x.
Necesitamos definir la noción de cuando dos v.a. son idénticamente distribuidas.
Definición 2.2.3. Se dice que dos v.a. X e Y están idénticamente distribuidas si para
cualquier conjunto A, P (X ∈ A) = P (Y ∈ B)
Note que dos v.a. que están idénticamente distribuidas no necesariamente son iguales.
Esto es, la definición última anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Definimos las v.a. X e Y como sigue,
X = número de caras obtenidas
Y
Probabilidad y Estadı́stica
Primer Semestre 2005
= número de cecas obtenidas
41
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La distribución de X está dada en el ejemplo (2.1.2), y se verifica fácilmente que
la distribución de Y es exactamente la misma; esto significa que para valores de k =
0, 1, 2, 3 P (X = k) = P (Y = k). Ası́, X e Y están idénticamente distribuidas, sin embargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y .
Igual distribución de v.a., no implica igualdad en las v.a.
Teorema 2.2.2. Las siguientes afirmaciones son equivalentes:
(a) Las v.a. X e Y están idénticamente distribuidas
(b) FX (x) = FY (x) para cada x.
Prueba:
Para mostrar la equivalencia, debemos demostrar que cada afirmación implica la otra.
Veamos que (a) =⇒ (b).
Ya que X e Y están idénticamente distribuidas, tenemos, para cualquier conjunto A,
P (X ∈ A) = P (Y ∈ B).
En particular, para el conjunto (−∞, x] se tiene
P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x])
∀ x.
Pero esta última igualdad es equivalente a:
P (X ≤ x) = P (Y ≤ x)
∀ x,
ó que FX (x) = FY (x) para cada x.
La implicación inversa, (b) =⇒ (a) es mucho más difı́cil de probar. Para mostrarla se requiere
usar una baterı́a pesada de σ- álgebras de Borel. No entraremos aquı́ en más detalles. Es
suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar
que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para
más detalles ver Chung,1977).
Probabilidad y Estadı́stica
Primer Semestre 2005
42
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.2.1.
Densidad y Funciones de masa
Asociada con una v.a.X y su f.d.a. FX (x) existe otra función, llamada según corresponda:
función de densidad de probabilidad (f.d.p.) ó función de masa de probabilidad (f.m.p.).
Los términos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.
Ambas funciones está relacionadas con probabilidades puntuales de v.a.
Definición 2.2.4. Una función de masa de probabilidad, f.m.p., de una v.a. discreta está dada por:
fX (x) = P (X = x) ,
∀ x.
Ejemplo 2.2.5. Para la distribución geométrica del ejemplo (2.2.2) tenemos la f.m.p.,

 (1 − p)x−1 p si x = 1, 2, . . .
fX (x) = P (X = x) =

0
en otro caso
Recordar que fX (x) ó equivalentemente P (X = x) es la medida del salto de la f.d.a. en
x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente
sumar sobre todos los puntos de un evento en forma apropiada.
Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos,
P (a ≤ X ≤ b) =
b
X
fX (k) =
b
X
(1 − p)k−1 p.
k=a
k=a
Ası́, se puede conseguir con esto un caso especial
P (X ≤ b) =
b
X
fX (k) = FX (b).
k=1
Una convención ampliamente aceptada, la cual también nosotros adoptaremos, es la de
anotar con letras imprentas mayúsculas las f.d.a.´s; y con la correspondiente minúscula la
f.m.p. ó la f.d.p. respectiva.
Debemos tener un poco más de cuidado en nuestra definición de f.d.p. en el caso continuo.
Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos
lo siguiente: ya que {X = x} ⊂ {x − ² < X ≤ x} para cualquier ² > 0, nosotros tendremos
a partir del teorema (1.2.1) parte f. que,
P (X = x) ≤ P (x − ² < X ≤ x) = FX (x) − FX (x − ²),
Probabilidad y Estadı́stica
Primer Semestre 2005
43
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
para cualquier ² > 0. Por lo tanto,
0 ≤ P (X = x) ≤ lı́m [FX (x) − FX (x − ²)] = 0,
x−→²+
por la continuidad de FX . Sin embargo, si nosotros comprendemos el propósito de la f.d.p.,
su definición será clara.
Definición 2.2.5. La función de densidad de probabilidad ó f.d.p., fX (x), de una v.a.
continua X es la función que satisface:
Z
FX (x) =
x
−∞
fX (x) dt
para todo x.
(2.3)
Una nota sobre notación: La expresión ”X tiene una distribución dada por FX (x)”se
abrevia simbólicamente por ”X ∼ FX (x)”, donde leemos el sı́mbolo ”∼çomo ”está distribuido como”. También podremos en forma similar escribir X ∼ fX (x) ó, si X e Y tienen la
misma distribución, X ∼ Y .
En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificación de incluir
o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0
si X es una v.a. continua,
P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b).
En este punto, ya debe estar claro que la f.d.p. (ó p.m.f.) contienen la misma información
que la f.d.a. Según sea el caso se puede ocupar una u otra para resolver problemas, de
acuerdo si facilita ó no su resolución.
Ejemplo 2.2.6. Para la distribución logı́stica dada en el ejemplo anterior. Se pide, determinar su f.d.p. y determinar una metodologı́a para calcular la P (a < X < b)
Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto
fx (x) =
d
exp−x
FX (x) =
.
dx
(1 + exp−x )2
El área bajo la curva fx (x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Probabilidad y Estadı́stica
Primer Semestre 2005
44
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Figura 2.1: Area bajo la curva logistica
Z
P (X ∈ [a, b]) = FX (b) − FX (a) =
Z
b
−∞
fX (x) dx −
Z
a
−∞
fX (x) dx =
a
b
fX (x) dx.
Solamente existen dos requerimientos para una f.d.p. (ó f.m.p.), los cuales son inmediatas
consecuencias de la definición.
Teorema 2.2.3. Una función fX (x) es una f.d.p. (ó una f.m.p.) de una variable aleatoria
X si y sólo sı́
(a) fX (x) ≥ 0
(b)
P
x
∀ x.
fX (x) = 1 (f.m.p.)
o
R +∞
−∞
fX (x) dx = 1 (f.d.p.).
Prueba:
Si fX (x) es una f.d.p. (ó una f.m.p.), las dos propiedades son inmediatas de las definiciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
Z
1 = lı́m FX (x) =
x−→∞
Probabilidad y Estadı́stica
Primer Semestre 2005
45
+∞
−∞
fX (t) dt.
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La implicación inversa, es también muy fácil de probar. Una vez que se tiene fX (x) podemos
definir FX (x) y recurrir al Teorema 2.2.1.
Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el puntaje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =
max{X1 , X2 }. Determinar la f.m.p y la f.d.a. de la v.a. X
X ≤ x ⇐⇒ max{X1 , X2 } ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x.
La última igualdad se deduce de la definición de máximo!.
∴ {X ≤ x} es equivalente a,
{X1 ≤ x} ∩ {X2 ≤ x}.
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
P (X ≤ x) = P [{X1 ≤ x} ∩ {X2 ≤ x}]
= P (X1 ≤ x) · P (X2 ≤ x).
Si suponemos que los dados son equilibrados , se tiene que
P (X1 = l) = P (X2 = l) =
Luego,
P (Xi ≤ x) =
x
X
P (Xi = l) =
l=1
x
6
1
6
con l = 1, . . . , 6.
x = 1, 2, . . . , 6,
i = 1, 2.
Finalmente,
P (X ≤ x) =
x2
,
36
x = 1, . . . , 6.
Siendo esta su f.d.a.. Pero
P (X = x) = P (X ≤ x) − P (X ≤ x − 1
=
Probabilidad y Estadı́stica
Primer Semestre 2005
x2 (x − 1)2
2x − 1
−
=
,
36
36
6
46
x = 1, . . . , 6.
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Siendo esta su f.m.p
• ¿Qué ocurre si lanzamos ahora infinitamente el dado en forma independiente?
Si razonamos como en la parte última anterior del ejemplo, sea Si el puntaje obtenido
en el i-ésimo lanzamiento, i=1,. . . ,k.
Nos interesa la v.a. Y = ”el puntaje máximo obtenido”:
Y = max {S1 , S2 , . . . ,k }.
Por definición del máximo, {Y ≤ y} es equivalente a,
{S1 ≤ y} ∩ {S2 ≤ y} ∩ . . . ∩ {Sk ≤ y}.
Luego, usando la independencia de los lanzamientos, se obtiene que
P (Y ≤ y) =
k
Y
P (Si ≤ y) =
i=1
³ y ´k
6
,
y = 1, . . . , 6.
Finalmente, para y = 1, 2, . . . , 6,
P (Y = y) = P (Y ≤ y) − P (Y ≤ y − 1) =
1 k
[y − (y − 1)k ].
6k
Calcular la probabilidad de que el máximo valor leı́do sea un valor y en infinitos lanzamientos, corresponde a tomar
lı́m P (Y = y).
k−→∞
Para calcular este lı́mite, debe notar que la f.m.p. de Y se puede escribir de manera equivalente como
P (Y = y) =
Al tomar lı́mite se obtiene:
³ y − 1 ´k i
yk h
1
−
.
y
6k

 0 si y < 6
lı́m P (Y ≤ y) =
 1 si y = 6
k−→∞
Esto significa que en un número infinito de lanzamientos, la probabilidad de obtener un
puntaje máximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje
igual a 6 es uno!!!.
Probabilidad y Estadı́stica
Primer Semestre 2005
47
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 2.2.8. Probar que la función dada por
1
2
fX (x) = √ exp−x /2 .
2π
(2.4)
es una función de densidad de probabilidad
En efecto, obviamente fX (x) > 0. Para verificar que es una densidad, falta comprobar
R∞
que −∞ fX (x) dx = 1.
Sea a =
R∞
2
e−x /2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que
Z ∞
Z ∞
Z ∞Z ∞
2
2
2
−x2 /2
−y 2 /2
a =
e
dx ·
e
dy =
e−(x +y )/2 dx dy;
−∞
−∞
−∞
−∞
−∞
y tomando, en la integral doble, coordenadas polares (r, φ) queda
Z 2π
Z ∞
2
2
a =
dφ
e−r /2 r dr = 2π.
0
0
Esta densidad se define como la densidad normal tı́pica (o estándar), y se la anota con la
letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la
densidad de una v.a. con distribución Normal estándar, definida por (2.4).
Ejemplo 2.2.9. Supóngase que la v.a. X es continua, y se tiene la función dada por

 kx si 0 < x < 1
f (x) =
 0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota ¡fX (x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P (X = 0,5) = 0, y por lo tanto fX (0,5) no la representa. Sólo cuando la función se integra
entre dos lı́mites produce una probabilidad. Sin embargo, es posible dar una interpretación
de 4x fX (x) del siguiente modo. Del teorema del valor medio del cálculo integral se deduce
que
Z
P (x ≤ X ≤ x + 4x) =
x
x+4x
fX (s) ds = 4x fX (ξ) ,
x ≤ ξ ≤ x + 4x.
Si 4x es pequeño, 4x fX (x) es aproximadamente igual a P (x ≤ X ≤ x + 4x). Si fX es
continuo por la derecha, esta llega a ser más segura cuando 4x −→ 0.
Probabilidad y Estadı́stica
Primer Semestre 2005
48
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.3.
Transformaciones y Esperanzas
A menudo, si nosotros somos capaces de modelar un fenómeno en términos de la va X
con una FX (x), también tendremos la relación con la conducta de funciones de X. En esta
sección estudiaremos técnicas que nos permitirán ganar información acerca de funciones de
X que podrı́an ser de interés, que puede ir desde ser completa (las distribuciones de esas
funciones) a muy vaga (la conducta del promedio).
2.3.1.
Distribuciones de funciones de una Variable Aleatoria
Si X es una v.a. con fda FX (x), entonces cualquier función de X, digamos g(X), es
también una v.a.. A menudo g(X) es de interés en sı́ misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una función de X, nosotros podemos describir su
conducta probabilı́stica, en términos de la de X. Esto es, para cualquier conjunto A,
P (Y ∈ A) = P (g(X) ∈ A) ,
esto muestra que la distribución de Y depende de las funciones FX y g. Dependiendo de
la elección de g, es algunas veces posible obtener una expresión tratable para el cálculo de
esta probabilidad.
Formalmente, si nosotros escribimos y = g(x), la función g(x) define una mapeo del espacio
muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto
es,
g(x) : X −→ Y.
Es posible asociar con g un mapeo inverso, denotado por g −1 , el cual es un mapeo proveniente de subconjuntos de Y a subconjuntos de X , y está definido por
g −1 (A) = {x ∈ X : g(x) ∈ A}.
Note que el mapeo g −1 está definido de conjuntos en conjuntos, esto es, g −1 (A) es el conjunto
de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
Probabilidad y Estadı́stica
Primer Semestre 2005
49
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
formado por un sólo punto, digamos A = {y}. Entonces
g −1 ({y}) = {x ∈ X : g(x) = y}.
En este caso casi siempre se escribe g −1 (y) en lugar de g −1 ({y}). Sin embargo, la cantidad
g −1 (y) puede aún ser un conjunto, si hay más de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g −1 (y) en el conjunto unitario {x},
y escribiremos g −1 (y) = x.
Si la v.a. Y está definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y,
P (Y ∈ A) = P (g(X) ∈ A)
= = P ({x ∈ X : g(x) ∈ A})
(2.5)
= P (X ∈ g −1 (A)).
Esta define la distribución de probabilidades de Y . Serı́a justo mostrar que esta distribución
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es
Y = {y : y = g(x), x ∈ X }, el cual también es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
fY (y) = P (Y = y) =
X
P (X = x) =
x∈g −1 (y)
X
fX (x),
para y ∈ Y ,
x∈g −1 (y)
y fY (y) = 0 para y ∈
/ Y. En este caso para encontrar la fmp de Y sólo es necesario identificar
g −1 (y), para cada y ∈ Y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribución binomial si su fmp es de la
forma
µ ¶
n x
fX (x) = P (X = x) =
p (1 − p)n−x ,
x
x = 0, 1, . . . , n ,
donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) =
n−x
Valores como n y p que al tomar diferentes valores producen diferentes funciones de
probabilidad, se llaman parámetros de la distribución. Consideremos la va. Y = g(X),
donde g(x) = n − x. Esto es Y = n − X. Aquı́ X = {0, 1, 2, · · · , n} y Y = {y : y = g(x), x ∈
Probabilidad y Estadı́stica
Primer Semestre 2005
50
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
X } = {0, 1, 2, · · · , n}. Para cualquier y ∈ Y, n − x = g(x) = y sı́ y sólo si x = n − y. Ası́,
g −1 (y) es entonces simplemente el punto x = n − y,
X
fY (y) =
y
fX (x)
x∈g −1 (y)
= fX (n − y)
µ
¶
n
=
pn−y (1 − p)n−(n−y)
n−y
µ ¶
n
=
(1 − p)y pn−y
y
Vemos que también Y es una va. con distribución binomial, pero con parámetros n y
(1 − p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar fórmulas
simples para la fda de Y en términos de la fda de X y la función g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
(2.6)
= P ({x ∈ X : g(x) ≤ y})
Z
=
fX (x) dx.
{x∈X : g(x)≤y}
Muchas veces resulta difı́cil identificar {x ∈ X : g(x) ≤ y} y resolver la integral de fX (x)
bajo esa región.
Cuando hacemos transformaciones, es importante mantener presente los espacios muestrales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando
hacemos una transformación de X a Y = g(X), lo más conveniente es usar,
X = {x : fX (x) > 0}
y
Y = {y : y = g(x) para algún x ∈ X }.
(2.7)
La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal conjunto es llamado el conjunto soporte de una distribución, más informalmente el soporte de
Probabilidad y Estadı́stica
Primer Semestre 2005
51
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
la distribución. Este terminologı́a puede también aplicarse para una fmp ó, en general, para
una función no negativa.
Es mucho más fácil tratar con aquellas g(x) que son monótonas, esto es aquellas que
satisfacen
a. u > v =⇒ g(u) > g(v) (crecientes) ó
b. u < v =⇒ g(u) > g(v) (decrecientes)
Si la transformación x −→ g(x) es monótona, entonces esta es (1-1) de X −→ Y. También
para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası́ la
transformación g unı́vocamente manda x´s en y´s. Si g es monótona, g −1 es univaluada,
esto es g −1 (y) = x sı́ y sólo sı́ y = g(x). Si g es creciente, esto implica que
{x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≤ g −1 (y)}
= {x ∈ X : x ≤ g −1 (y)}.
Mientras que si g es decreciente, esto implica que
{x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≥ g −1 (y)}
= {x ∈ X : x ≥ g −1 (y)}.
Si g(x) es una función creciente, entonces usando (2.6), podemos escribir
Z
FY (y) =
{x∈X : x≤g −1 (y)}
Z
fX (x) dx
g −1 (y)
=
fX (x) dx
−∞
= FX (g −1 (y)).
Si g(x) es decreciente, se tiene,
Z
FY (y) =
g −1 (y)
−∞
fX (x) dx
= 1 − FX (g −1 (y)). (aquı́ fue usada la continuidad de X)
Resumimos estos resultados en el siguiente teorema
Probabilidad y Estadı́stica
Primer Semestre 2005
52
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Teorema 2.3.1. Supongamos que X tiene una fda FX (x), sea Y = g(X), X e Y definidos
como en (2.7).
a. Si g es una función creciente sobre X , FY (y) = FX (g −1 (y)) para y ∈ Y.
b. Si g es una función decreciente sobre X y X es una v.a. continua,
FY (y) = 1 − FX (g −1 (y)) para y ∈ Y.
Ejemplo 2.3.2. Sea X fX (x) = 1.I(0 < x < 1), de donde se tiene X ∼ U (0, 1). Esto último se lee ”X con distribución uniforme en el intervalo (0,1)”. Se pide determinar
FX (x), FY (y), fY (y) si Y = g(X) = −logX.
Se aconseja siempre verificar que, en este caso la fX es una densidad.
Determinación de FX :
Rx
FX (x) = −∞ fX (t) dt para todo x ∈ R, por definición,
i. Si x < 0 =⇒ fX (x) = 0 =⇒ FX (x) =
Rx
ii. Si 0 < x < 1 =⇒ fX (x) = 1 =⇒ FX (x) =
iii Si x ≥ 1 =⇒ fX (x) = 0 =⇒ FX (x) =
De donde se tiene,
0 dt = 0.
−∞
R0
R0
−∞
−∞
0 dt +
0 dt +
R1
0
Rx
0
1 dt = 0 + t
1 dt +
Rx
1
ix
0
= x.
0 dt = 0 + t
i1
0
+ 0 = 1.



0 si x < 0



FX (x) =
x si 0 < x < 1




 1 si x ≥ 1
Determinación de FY :
Veamos si g(x) es monótona en el soporte de X, X .
d
1
g(x) = − < 0 ,
dx
x
para x ∈ (0, 1) = X ,
de donde g(x) resulta ser una función decreciente. Veamos cual es el soporte de Y . Y definido
como en (2.7), resulta ser Y = (0, ∞). Queda calcular la g −1 (y) para y ∈ Y = (0, ∞); la
cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g −1 (y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
FY (y) = 1 − FX (g −1 (y)) = 1 − FX (e−y ) = 1 − e−y , y ∈ Y = (0, ∞)
Probabilidad y Estadı́stica
Primer Semestre 2005
53
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Para determinar fY (y) queda diferenciar la fda de Y , ası́
fY (y) =
d
FY (y) = ey
dy
(y > 0)
La fdp y la fda de Y respectivamente son:


fY (y) = ey · I(0, ∞)
,
FY (y) =
0
si y ≤ 0
 1 − e−y si y > 0
Este resultado afirma que si: X ∼ U (0, 1) =⇒ Y = −logX ∼ Exp(1).
Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresión resultante
está dada por el siguiente teorema
Teorema 2.3.2. Supongamos X v.a. con una fdp fX (x). Sea Y = g(X), donde g es
monótona una transformación de X; X e Y son respectivamente sus soportes. Suponga
además que fX (x) es continua sobre X , y que g −1 (y) tiene una derivada continua sobre Y.
Entonces la fdp de Y está dada por:

 fX (g −1 (y))· |
fY (y) =

0
d −1
dy g (y))
| si y ∈ Y
(2.8)
e.o.c.
Demostración: Aplicando al teorema último la regla de la cadena, se tiene
fY (y) =
fY (y) =
d
FY (y) =
dy
d
FY (y) =
dy
d
d
FX (g −1 (y)) = fX (g −1 (y)) · g −1 (y)
g creciente
dy
dy
d
d
(1 − FX (g −1 (y)) = −fX (g −1 (y)) · g −1 (y) g decreciente
dy
dy
La cual puede ser expresada en forma consisa como en (2.8).
Ejemplo 2.3.3. Ses fX (x) la fdp de una va. gamma, entonces esta tiene la forma,
fX (x) =
1
xn−1 e−x/β · I(0, ∞)
(n − 1)!β n
β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =
g(X) = 1/X .
Probabilidad y Estadı́stica
Primer Semestre 2005
54
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el
resultado último no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es
monótona sobre ciertos intervalos.
Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X 2 .
En este ejemplo resultará que fdp de Y está expresada como la suma de dos términos,
donde cada uno de ellos representa el intervalo donde g(x) = x2 es monótona. En general
este será el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp fX (x), Y = g(X), y se define el soporte de X, X . Supongamos que existe una partición A0 , A1 , . . . , Ak de X , tal que P (X ∈
A0 ) = 0 y fX (x) es continua sobre cada Ai . Además, supóngase que existen funciones
g1 (x), g2 (x), . . . , gk (x), definidas sobre A1 , . . . , Ak respectivamente, satisfaciendo:
(a) g(x) = gi (x) , para x ∈ Ai
(b) gi (x) es monótona sobre Ai
(c) El conjunto Y = {y : y = gi (x) , para algún x ∈ Ai } es el mismo para cada i = 1, . . . , k y
(d) g −1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces
 P
k

fY (y) =
i=0
fX (g −1 (y))· |

d −1
dy g (y))
0
| si y ∈ Y
e.o.c.
El punto más importante en este teorema es que X puede ser divididos en conjuntos
A1 , . . . , Ak , tal que g(x) sea monótona sobre cada Ai . Es posible ignorar el conjunto excepcional A0 , ya que P (X ∈ A0 ) = 0. Esta es una técnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada gi (x) es una transformación 1 − 1
de Ai en Y.
Ejemplo 2.3.5. Sea X una va. con la distribución Normal estándar, entonces
1
2
fX (x) = √ exp−x /2 ·I(−∞, ∞)
2π
Sea Y = X 2 . Halle fY (y)
Probabilidad y Estadı́stica
Primer Semestre 2005
55
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado
de libertad. Cerramos esta sección con una especial y muy conocida transformación, la
transformación de probabilidad integral.
Teorema 2.3.4. Consideremos X va. continua con fda FX (x) y se define la va. Y = FX (x).
Entonces Y ∼ U (0, 1), tal que P (Y ≤ y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a FX−1 , la inversa de la fda con algún detalle.
Si FX es estrictamente creciente, entonces FX−1 está bien definida como
FX−1 (y) = x ⇐⇒ FX (x) = y
(2.9)
Sin embargo, si la fda llega a ser constante en algún intervalo, entonces su inversa no está bien definida por (2.10).
Cualquier x ∈ [x1 , x2 ], por ejemplo (intervalo donde la FX (x) es constante), satisface
FX (x) = y. Este problema se soluciona, definiendo FX−1 (y), para 0 < y < 1, del siguiente
modo,
FX−1 (y) = inf{x : FX (x) ≥ y},
(2.10)
esta definición coincide con de FX−1 (y) cuando FX (x) = y no es constante, pero provee una
FX−1 siempre univariada
Dem. del teorema:
Para Y = FX (X) = g(X); Y = (0, 1).
P (Y ≤ y) = P (FX (X) ≤ y)
= P (FX−1 (FX (X)) ≤ FX−1 (y))
(FX−1 creciente)
= P (X ≤ FX−1 (y))
= FX (FX−1 (y))
(definicion de FX )
= y
(continuidad de FX )
En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1,
mostrando ası́ que Y ∼ U (0, 1)
Probabilidad y Estadı́stica
Primer Semestre 2005
56
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
¿Cómo se razonó detrás de la igualdad
P (FX−1 (FX (X)) ≤ FX−1 (y)) = P (X ≤ FX−1 (y))?
esta requiere una particular atención. Si FX es estrictamente creciente, entonces es verdad que FX−1 (FX (X)) = X. Sin embargo, si FX presenta algún escalón, puede suceder que
FX−1 (FX (X)) 6= X, pero eso se salva ocupando la definición para FX−1 con en (2.10).
Una aplicación de este teorema está en la generación de muestras aleatorias provenientes
de una distribución particular. Si se quiere generar una observación x proveniente de una
población con fda FX , necesitamos generar solamente el número aleatorio uniforme u entre
0 y 1, y resolver para x la ecuación FX (x) = u.
2.4.
Valores Esperados
El valor esperado ó esperanza de una v.a. X es, su valor promedio. Aquı́ hablamos de
valor promedio como de tal pensado de acuerdo con la distribución de probabilidad.
El valor esperado de una distribución, también puede ser pensado como una medida de
centralización, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribución
de probabilidad, queremos obtener un número que resuma un valor tı́pico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que está entre 15000 registrados para el
perı́odo académico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x
1
2
3
4
5
6
7
fX (x)
0.01
0.03
0.13
0.25
0.39
0.17
0.02
Probabilidad y Estadı́stica
Primer Semestre 2005
57
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Podemos considerar a la población como aquella formada por 15000 personas, cada
una con su propio valor de X (según la cantidad de materias en las que inscribió en ese
año académico); la proporción con cada valor X está dada por fX (x) de la tabla. Por
ejemplo podrı́amos interpretar el valor fX (1) = P (X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribió en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Análogamente, fX (2) = P (X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribió en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y ası́ siguiendo, se genera la tabla (2.4)
x
1
2
3
4
5
6
7
fX (x)
0.01
0.03
0.13
0.25
0.39
0.17
0.02
No registrado
150
450
1950
3750
5850
2550
300
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la población misma
como formada por los valores X.
Una vez que tengamos un modelo matemático para una población, el objetivo será utilizarlo para calcular valores caracterı́sticos de esa población (como por ejemplo la media µ)
y hacer inferencias a partir de tales caracterı́sticas.
Si se quisiera determinar el número promedio de cursos por estudiante, o el valor promedio de X de la población, debemos calcular el número total de cursos y dividir entre el
número total de estudiantes. El valor promedio de X de la población es entonces,
1(150) + 2(450) + 3(1950) + · · · + 7(300)
= 4,57,
15000
como
150
15000
(2.11)
450
= 0,01 = fX (1); 15000
= 0,03 = fX (2); . . . , etc., otra expresión para el cociente
(2.11) es:
1 · fX (1) + 2 · fX (2) + 3 · fX (3) + · · · + 7 · fX (7)
(2.12)
Esta expresión (2.13) muestra que para calcular el valor promedio de X de la población,
sólo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
Probabilidad y Estadı́stica
Primer Semestre 2005
58
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El valor promedio, o la media de X es entonces un promedio ponderado de los posibles
valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.
La expresión (2.13), nos conduce la siguiente definición de valor esperado ó media de una
población.
Definición 2.4.1. El valor esperado ó media de una va. g(X), denotado por E g(X), es
 R
 ∞ g(x) fX (x) dx
si X es continua
−∞
E g(X) =
P
 P
x∈X g(x) fX (x) =
x∈X g(x) P (X = x)) si X es discreta
Suponiendo que la integral ó suma existen. Si E | g(X) |= ∞ diremos que E g(X) no
existe.
Ejemplo 2.4.1. Supongamos que X tiene una distribución exponencial λ, es decir su fdp
es,
fX (x) =
1 −x/λ
e
· I(0 ≤ x < ∞)
λ
λ>0
Se pide encontrar E X
Rta. E X = λ
Ejemplo 2.4.2. Si X tiene una distribución binomial con parámetros n y p, entonces su
fmp es,
µ ¶
n x
P (X = x) =
p (1 − p)n−x ,
x
x = 0, 1, . . . , n
donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp
suma 1. Determine el valor esperado de X.
Rta.: E X = np
Ejemplo 2.4.3. Un ejemplo clásico de una variable aleatoria cuyo valor esperado no existe
es la variable aleatoria Cauchy, cuya fdp es,
fX (x) =
1
1
,
π 1 + x2
−∞ ≤ x ≤ ∞.
Mostrar, entonces que E | g(X) |= ∞.
Probabilidad y Estadı́stica
Primer Semestre 2005
59
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El proceso de tomar esperanza es una operación lineal, lo cual significa que la esperanza
es una función lineal de X, la cual entonces puede ser fácilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX + b) = aE X + b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayorı́a de tales propiedades se derivan de las propiedades de la integral ó la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1 (X), g2 (X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
(a) E (ag1 (X) + bg2 (X) + c) = aE (g1 (X)) + bE (g2 (X)) + c.
(b) Si g1 (x) ≥ 0,
∀ x =⇒ E (g1 (X)) ≥ 0.
(c) Si g1 (x) ≥ g2 (x),
∀ x =⇒ E (g1 (X)) ≥ E (g2 (X)).
(d) Si a ≤ g1 (x) ≥ b,
∀ x =⇒ a ≤ E (g1 (X)) ≥ b.
Ejemplo 2.4.4. También es posible interpretar el valor esperado de una va., pesándola con
relación a considerarla como un ”buen acierto”para el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X − b)2 , o sea buscamos el valor de b más cercano a X. Podemos ası́, determinar el
valor de b que minimiza E(X − b)2 y, por lo tanto esto podrı́a interpretarse en términos
estadı́sticos como la búsqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X − b)2 , ya que la respuesta podrı́a depender de X, siendo ası́ un
predictor inútil de X).
Podrı́amos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el
cálculo, pero hay un método más simple, usando la creencia que existe algo especial en
relación con este problema y la E X, ası́ escribimos
E(X − b)2 = E(X − E X + E X − b)2
= E((X − E X) + (E X − b))2
= E(X − E X)2 + (E X − b)2 + 2E((X − E X)(E X − b)),
Probabilidad y Estadı́stica
Primer Semestre 2005
60
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
en esta última igualdad hemos expandido el cuadrado. Ahora note que
E((X − E X)(E X − b)) = (E X − b)E(X − E X) = 0
ya que (E X − b) es constante sale fuera de la expresión, y E(X − E X) = E X − E X = 0.
Esto significa que
E(X − b)2 = E(X − E X)2 + (E X − b)2 .
(2.13)
No tenemos control sobre el primer término del lado derecho en la igualdad (2.13) y el
segundo término, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mı́n E(X − b)2 = E(X − E X)2
b
(2.14)
Existe un resultado similar para la mediana.
Cada vez que evaluemos la esperanza de una función no lineal de X, podemos proceder de
dos maneras diferentes. De la definición de E g(X), serı́a posible calcular directamente
Z
∞
E g(X) =
−∞
g(x)fX (x) dx.
(2.15)
Pero también podrı́amos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego
calcular
Z
∞
E g(X) = E Y =
−∞
y fY (y) dy.
(2.16)
Ejemplo 2.4.5. Sea X ∼ U (0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
2.5.
Momentos y Funciones Generadoras de Momentos
Los distintos momentos de una distribución son una importante clase de esperanzas.
Definición 2.5.1. Para cada entero n, el n-ésimo momento de X (ó de FX (x)), notado
µ0n , es
µ0n = E X n .
Probabilidad y Estadı́stica
Primer Semestre 2005
61
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El n-ésimo momento central de X, es
µn = E (X − µ)n ,
donde µ = µ0 = E X
Además de la media, E X, de una va., quizá el momento más importante es el central
de segundo orden, más comúnmente conocido como la varianza.
Definición 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =
E(X − E X)2 . La raı́z cuadrada positiva de la V ar X se denomina desviación estándar de
X.
La varianza de una medida del grado de diseminacion de una distribución alrededor de
la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X − b)2 es minimizada eligiendo b =
E X. Consideremos ahora la medida absoluta de este mı́nimo. La interpretación agregada
a la varianza es que valores grandes de la misma, significan que X es muy variable. En
el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no
existe variación en X. La desviación estándar tiene la misma interpretación cualitativa:
pequeños valores de la misma significan que X está probablemente muy cerca de E X, y
grandes valores significa que X es muy variable. La desviación estándar es más fácil para
interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.
X.
Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone
ahora calcular V ar X.
Rta.: V ar X = λ2
Vemos que la varianza de una distribución exponencial está directamente relacionada
con el parámetro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando
los valores de λ. De esta manera será posible notar como la distribución está más concentrada
alrededor de su media para valores pequeños de λ. El comportamiento de la varianza de
una va. exponencial, como una función de λ, es una caso especial del comportamiento de la
varianza resumido en el siguiente teorema,
Probabilidad y Estadı́stica
Primer Semestre 2005
62
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de constantes a, b se cumple,
V ar(aX + b) = a2 V ar X.
En muchos casos es más fácil usar una fórmula alternativa para la varianza, dada por,
V ar X = E X 2 − (E X)2 ,
(2.17)
la cual es muy fácil de demostrar.
Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide
ahora calcular V ar X.
Rta.: V ar X = np(1 − p)
Para calcular momentos de orden más alto se procede de manera análoga. En aplicaciones, momentos de orden 3 ó 4 algunas veces resultan de interés, pero usualmente existen
razones estadı́sticas para examinar momentos de orden más algo que 2.
Ahora introduciremos una nueva función, la cual está asociada con distribuciones de
probabilidad, la función generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la práctica es más fácil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribución. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Definición 2.5.3. Sea X una va. con fda. FX . La función generadora de momentos (fgm)
de X (o FX ) , denotada por MX (t) ,es
MX (t) = E et X ,
suponiendo que la esperanza exista para valores de t en algún entorno del 0. Esto es, existe
un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Probabilidad y Estadı́stica
Primer Semestre 2005
63
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Más explı́citamente, podemos escribir la fgm de X como
MX (t) =
MX (t) =
R∞
−∞
et x fX (x) dx
Si X es continua
et x fX (x)
Si X es discreta
P
x∈X
Es muy fácil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
Teorema 2.5.2. Si X tiene fgm MX (t), entonces
(n)
E X n = MX (0),
donde se define
(n)
MX (0) =
dn
MX (t)|t=0 .
dtn
Es decir el n-ésimo momento de la va. X es igual a la n-ésima derivada de la fgm de X
evaluada en t = 0
Del teorema último anterior es fácil mostrar que,
d
MX (t)|t=0 = E X et X |t=0 = E X.
dt
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
fX (x) =
1
xα−1 e−x/β ,
Γ(α) β α
0 < x < ∞,
α > 0,
β > 0,
donde Γ(α) representa la función gamma. Determinar la MX (t) para esta va.
³
Rta.: MX (t) =
1
1−βt
´α
si t < β1 .
Ejemplo 2.5.4. Para otra ilustración sobre el cálculo de la fgm, consideremos una distribución discreta, la distribución binomial. Si X ∼ Bin(n, p), determina la fgm de X
Rta.: MX (t) = [pet + (1 − p)]n .
Podrı́a ocurrir que existan dos va. con distintas fdp, pero que generen los mismos momentos, e.d.,
X1 ∼ f1
Probabilidad y Estadı́stica
Primer Semestre 2005
,
X2 ∼ f2
64
con
f1 6= f2 ,
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
pero tal que E X1r = E X2r
r = 0, 1, . . ..
Querrı́amos tener condiciones para poder caracterizar las distribuciones con iguales momentos. El siguiente teorema muestra como puede ser caracterizada una distribución usando su
fgm.
Teorema 2.5.3. Sean FX (x), FY (y) dos fda tales que sus momentos existen
(a) Si FX y FY tienen soporte acotado, entonces FX (u) = FY (u) sı́ y sólo sı́
E Xr = E Y r
r = 0, 1, . . ..
(b) Si las fgm existen y se cumple MX (t) = MY (t) para todo t en algún entorno del 0,
entonces FX (u) = FY (u)
∀ u.
La demostración de este teorema recae en las teorı́a de las ”transformaciones de Laplace”(ver
Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.
Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b está dada
por
MY (t) = MaX+b (t) = eb t MX (at).
Probabilidad y Estadı́stica
Primer Semestre 2005
65
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.6.
Ejercicios
2.1 De un lote que contiene 25 artı́culos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el número de defectuosos encontrados. Obtener la distribución de probabilidades de X si,
(a) los artı́culos se escogen con sustitución
(b) los artı́culos se escogen sin sustitución.
2.2 Supóngase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j =
1, 2, . . .
(a) Calcular P (Xsea par ).
(b) Calcular P (X ≥ 5).
(c) Calcular P (Xes divisible por 3)
2.3 Considérese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X =
j) = (1 − a) aj , j = 0, 1, . . .
(a) ¿Para qué valores a es significativo el modelo anterior?
(b) Verificar que la anterior representa una legı́tima f.m.p.
(c) Demostrar que para dos enteros positivos cualesquiera s y t,
P (X < s + t | X > s) = P (X ≥ t).
2.4 Considere la v.a. X que mide la duración de un tubo electrónico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. fX (x) = be−bx I (x ≥ 0). Sea
pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1 − a) aj y determine a.
2.5 La v.a. continua X tiene f.d.p. fX (x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un número que
satisface −1 < b < 0, calcular P (X > b | X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: fX (x) = 20x3 (1 − x)I(0 < x < 1).
Probabilidad y Estadı́stica
Primer Semestre 2005
66
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
(a) Obtener una expresión para fda, FX y dibujar su gráfico.
(b) Calcular la P (X ≤ 23 ).
(c) Supóngase que el precio de venta del compuesto depende del contenido alcohólico.
Especı́ficamente, si
1
3
<X <
2
3,
el compuesto se vende por C1 dólares/galón.
Encontrar la distribución de probabilidades de la utilidad neta por galón.
2.7 Supóngase que X está distribuida uniformemente en [−α, α], en donde α > 0. Cada
vez que sea posible determinar α de modo que se satisfaga lo siguiente:
(a) P (X > 1) =
1
3
(d) P (X > 21 ) = 0,3
(b) P (X > 1) =
1
2
(c) P (X > 12 ) = 0,7
(e) P (| X |< 1) = P (| X |> 1).
2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX (x) = 42x5 (1 − x), 0 < x < 1; Y = X 3 .
(b) fX (x) = 7e7x , 0 < x < ∞; Y = 4X + 3.
2.9 Si X tiene fdp
fX (x) =
1 −(x/σ2 )/2
xe
· I(0, ∞),
σ2
σ 2 es una constante positiva
Determine la fdp de Y = eX .
2.10 Suponga que X tiene una distribución geométrica con fmp dada por fX (x) = 13 ( 32 )x , x =
0, 1, 2, . . .. Determine la distribución de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especificar la distribución de probabilidad
de Y , especifique su fmp.
2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX (x) =
1
2
e−|x| , −∞ < x < ∞; Y =| X |3 .
(b) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 .
(c) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 si X ≤ 0 e Y = 1 − X si X > 0.
Probabilidad y Estadı́stica
Primer Semestre 2005
67
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.12 Suponga que X es una va. con la siguiente función de densidad
1
fX (x) = (1 + x) · I(−1, 1).
2
(a) Encuentre la fdp. de Y = X 2
(b) Encuentre la E X y la V arX
2.12 Una mediana de una distribución es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 .
Rm
R∞
(Si X es continua, m satisface −∞ fX (x)dx = m fX (x)dx = 12 .). Encuentre la
mediana de las siguientes distribuciones
(a) fX (x) = 3x2 · I(0, 1)
(b) fX (x) =
1
π(1+x2 )
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
(a) fX (x) = axa−1
(b) fX (x) =
1
n
0 < x < 1, a > 0
x = 1, 2, . . . , n; n > 0 entero
(c) fX (x) = 32 (x − 1)2 ,
0<x<2
2.14 Sea µn el n-ésimo momento central de la va. X. Dos cantidades de interés, agregadas
a la media y la varianza son,
α3 =
µ3
(µ2 )3/2
y
α4 =
µ4
.
(µ2 )2
El valor α3 es llamado coeficiente de asimetrı́a, y el α4 es llamado de curtosis. La
medida de asimetrı́a se refiere a cuanto se aparta la forma de la distribución simétrica
la fdp. La curtosis, aunque mucho mas difı́cil de interpretar que la asimetrı́a, mide
cuanta forma de punta ó chata tiene la fdp.
(a) Muestre que si la fdp es simétrica alrededor de un punto a, entonces α3 = 0.
(b) Calcule α3 para f (x) = e−x , x ≥ 0, una fdp que tiene asimetrı́a a la derecha.
(c) Calcule α4 para cada una de las siguientes fdp.
(i) f (x) =
(ii) f (x) =
√1
2π
1
2
e−x
2 /2
,
−∞ < x < ∞
· I(−1, 1)
(iii) f (x) = 12 e−|x| , −∞ < x < ∞
Probabilidad y Estadı́stica
Primer Semestre 2005
68
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.15 Sea MX (t) la fgm de una va. X, y se define S(t) = log(MX (t)). Muestre que,
d2
S(t)|t=0 = V ar X.
dt2
d
S(t)|t=0 = E X
dt
2.16 En cada uno de los siguientes casos verifique que la expresión dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
(a) P (X = x) =
e−λ λx
x! ,
t −1)
MX (t) = eλ(e
(b) P (X = x) = p(1 − p)x ,
(c) f (x) =
2
/(2σ
e−(x−µ)
√
2πσ
2)
MX (t) =
, MX (t) = eµt+σ
, x = 0, 1, 2, . . . ;
p
1−(1−p)et
2 t2 /2
λ>0
, x = 0, 1, 2, . . . ; 0 < p < 1
, −∞ < x < ∞, −∞ < µ < ∞, σ > 0
2.17 Determinar E X 4 para X ∼ N (0, 1) [use que ϕ0 (x) = xϕ(x)].
2.18 Teorema: [Convergencia de fgm]: Suponga que {Xi , i = 1, 2, . . .} es una secuencia
de va., cada una con fgm MXi (t). Además suponga que
lı́m MXi (t) = MX (t)
i−→∞
para todo t en un entorno de 0,
y MX (t) es una fgm. Entonces existe una única fda FX , cuyos momentos son determinados por MX (t)y, para todo x donde FX (x) es continua, se tiene
lı́m FXi (x) = FX (x).
i−→∞
Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda
respectiva.1
Una aproximación muy útil es la de la distribución Binomial a la distribución de
Poisson. La distribución binomial está caracterizada por dos cantidades, n y p. La
aproximación de Poisson es válida cuando ”n es grande y np pequeño”.
La fmp de una va. con distribución de Poisson está dada por
P (X = x) =
e−λ λx
,
x!
x = 0, 1, . . . , λ > 0.
La aproximación afirma que si X ∼ Bin(n, p) e Y ∼ P o(λ), con λ = np, entonces
P (X = x) ≈ P (Y = x)
para n grande y np pequeño.
1
La demostración de este teorema también recae sobre la teorı́a de transformadas de Laplace
Probabilidad y Estadı́stica
Primer Semestre 2005
69
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Se te pide demostrar esta afirmación siguiendo los siguientes pasos:
(a) Encontrar MX (t), MY (t)
(b) Reemplazar p =
λ
n
en MX (t)
(c) Calcular el lı́mn−→∞ MX (t), observando que su resultado es justamente MY (t)
la fgm de la Poisson.
(d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de
una Bin(15, 0,3) y de una P o(4,5); observe el resultado del teorema.
Probabilidad y Estadı́stica
Primer Semestre 2005
70
Prof.Mg. Osmar Vera
Capı́tulo 3
Distribuciones de Familias comunes
Distribuciones estadı́sticas son usadas para modelar poblaciones. Nosotros usualmente
trataremos con familias de distribuciones, en vez de con una simple distribución. Esas familias son indexadas por uno o más parámetros, lo cual nos permite variar ciertas caracterı́sticas
de la distribución. Por ejemplo, podemos especificar que la distribución Normal es una elección de un modelo razonable para una población particular, pero no podemos especificar
precisamente la media; entonces trataremos con una familia paramétrica, la normal con
media µ, donde este es un parámetro no especificado −∞ < µ < ∞.
En este capı́tulo serán catalogadas algunas de las muchas distribuciones estadı́sticas,
algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones
que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales
ó medidas que pudieran agregar comprensión. También se indicará alguna aplicación tı́pica
de esas distribuciones, e interrelaciones adicionales.
3.1.
Distribuciones discretas
Una va. X se dice tiene una distribución discreta, si su rango; e.d. el espacio muestral es
numerable. En la mayorı́a de las situaciones, la va. es entero-positiva valuada.
71
Probabilidad y Estadı́stica
3.1.1.
Distribución uniforme discreta
Una va. X tiene distribución uniforme discreta (1, N ), si
P (X = x | N ) =
1
,
N
x = 1, 2, . . . , N
(3.1)
donde N es un entero especificado. Esta distribución pone igual masa sobre cada uno de los
resultados 1, 2, . . . , N .
Una cuestión de Notación Cuando estamos tratando con distribuciones paramétricas, como será en la mayorı́a de los casos, la distribución depende de los parámetros. Con
la idea de enfatizar este hecho, y de mantener visibles los parámetros, los escribiremos
en la fmp precedido por un ”|”(dado). Esta misma convención también será usada con la
fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibilidad de confusión, los parámetros pueden ser omitidos para no desordenar tanto la notación.
Calculemos ahora la media y la varianza de X. Entonces
EX =
N
X
xP (X = x | N ) =
x=1
N
X
x=1
x
1
1 N (N + 1)
N +1
=
=
N
N
2
2
y
2
EX =
N
X
2
x P (X = x | N ) =
x=1
N
X
x=1
x2
1
1 N (N + 1)(2N + 1)
(N + 1)(2N + 1)
=
=
N
N
2
2
y ası́,
V ar X = E X 2 − (E X)2
=
=
(N + 1)(2N + 1) ³ N + 1 ´2
−
2
2
(N + 1)(N − 1)
.
2
Esta distribución puede ser generalizada, a un espacio muestral en cualquier rango de enteros, N0 , N0 + 1, . . . , N1 , con fmp P (X = x | N0 , N1 ) = 1/(N1 − N0 + 1).
3.1.2.
Distribución Hipergeométrica
La distribución hipergeométrica tiene muchas aplicaciones en muestreo de poblaciones
finitas. Es mejor para su comprensión pensarla en el ejemplo clásico de un modelo de urna.
Probabilidad y Estadı́stica
Primer Semestre 2005
72
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M
rojas y N − M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una
a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).
¿Cuál es la probabilidad que exactamente x de las bolillas sean rojas?.
El número total de muestras de medida K que pueden ser seleccionadas de un total de
¡N ¢
. Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de
N es K
¡M ¢
¡M −N ¢
formas,
dejando
x
K−x caminos para elegir las K − x restantes que no son rojas. Ası́,
denotaremos por X la va. que mide el número rojas en la muestra de tamaño K, entonces
X tiene distribución hipergeométrica dada por
¡M ¢¡N −M ¢
x
P (X = x | N, N, K) =
,
¡NK−x
¢
x = 0, 1, . . . , K.
(3.2)
K
Note que hay implı́cita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes
¡ ¢
binomiales de la forma nr , han sido definidos solamente si n ≥ r, y ası́ el rango de x
está adicionalemente restringido por el siguiente par de inecuaciones
M ≥x
y
N − M ≥ K − x,
las cuales pueden ser combinadas como
M − (N − K) ≤ x ≤ M.
En muchos casos K es pequeño comparado con N y M , ası́ el rango 0 ≤ x ≤ K estará contenido en el rango último anterior dado para x, y por lo tanto será apropiado. La fórmula
para la función de probabilidad hipergeométrica es difı́cil de tratar. En efecto no es trivial
verificar que
K
X
P (X = x) =
x=0
K
X
¡M ¢¡N −M ¢
x=0
K
x
¡NK−x
¢
= 1.
El caso de la distribución hipergeométrica, ilustra la dificultad estadı́stica de tratar con
poblaciones finitas (finito N ).
La media de la distribución hipergeométrica está dada por
EX =
K
X
x=0
Probabilidad y Estadı́stica
Primer Semestre 2005
¡M ¢¡N −M ¢
x
x
¡NK−x
¢
K
73
=
K
X
¡M ¢¡N −M ¢
x=1
K
x
.
¡NK−x
¢
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes identidades,
µ ¶
µ
¶
M
M −1
x
= M
,
x
x−1
µ ¶
µ
¶
N
N N −1
=
,
K
K K −1
y obtener
EX =
K
X
M
x=1
¡M −1¢¡N −M ¢
x−1
¡ K−x
¢
N N −1
K K−1
K
KM X
=
N
x=1
¡M −1¢¡N −M ¢
x−1
¡N −1K−x
¢
K−1
.
Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra
distribución hipergeométrica basada en valores de parámetros N −1, M −1, y K −1. Luego
esa suma vale 1. Finalmente se tiene que
EX =
KM
.
N
En forma similar, pero con más labor, es posible establecer que
V ar X =
KM ³ (N − M )(N − K) ´
.
N
N (N − 1)
Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejemplares de cierto tipo de texto de introducción a la economı́a, de los cuales 8 son primeras
impresiones y 12 son segundas impresiones (que contienen correcciones de algunos pequeños
errores que aparecieron en la primera edición). El instructor del curso ha solicitado que 5
ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una
forma por completa al azar, de modo que cada subconjunto de tamaño 5 tenga la misma
probabilidad de ser seleccionado, ¿cuál es la probabilidad de que x (x = 0, 1, 2, 3, 4ó 5) de los
seleccionados sean segundas impresiones?
Ejemplo 3.1.2. Cinco ejemplares de una población animal considerados en vı́a de extinción
en cierta región han sido atrapados, marcados y puestos en libertad para que se mezclen en la
población. Después de tener la oportunidad de mezclarse, se seleccionó una muestra aleatoria
de 10 de estos animales. Sea X = número de animales marcados de la segunda muestra .
Si hay en realidad 25 animales de este tipo en la región. ¿Cuál es la probabilidad de que
(a) halla dos marcados en la muestra?
Probabilidad y Estadı́stica
Primer Semestre 2005
74
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
(b) halla a lo sumo dos marcados en la muestra?
(c) Determine la media y la varianza de X.
3.1.3.
Distribución Binomial
La distribución binomial, una de las distribuciones discretas más usadas, está basada
sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con
dos, y solamente dos, resultados posibles. Una va. tiene una distribución Bernoulli(p) si

 1
con probabilidad p
X=
0 ≤ p ≤ 1.
(3.3)
 0 con probabilidad 1 − p
El valor X = 1 es a menudo tomado como un ӎxito p se refiere a la probabilidad de que
2
ocurra el éxito. El valor X = 0 es tomado como una ”falla”.
También es posible realizar la siguiente interpretación de un ensayo de Bernoulli, si consideremos un evento A ⊆ Ω con probabilidad p, X = IA es una variable discreta con
P (X = 1) = p, P (X = 0) = 1 − p. Calculemos con estas dos interpretaciones la media y la
varianza de esta va.
E X = E(IA ) = 1p + 0(1 − p) = p,
V ar X = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p).
Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli,
tales como el lanzamiento de monedas, elección de candidatos polı́ticos, incidencia de una
enfermedad, etc.
Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los
eventos
Ai = {X = 1 en el i-ésimo ensayo},
i = 1, 2, . . . , n.
Si asumimos que los eventos A1 , A2 , . . . , An representan una colección de eventos independientes (como es el caso del lanzamiento de una moneda), es fácil encontrar la distribución
del número total de éxitos en n ensayos. Definamos la va. Y por
Y = número total de éxitos en n ensayos.
Probabilidad y Estadı́stica
Primer Semestre 2005
75
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El evento {Y = y} ocurrirá solamente si, exactamente y de los eventos A1 , A2 , . . . , An
ocurren, y n − y de ellos no ocurren. Un resultado particular de n ensayos (un particular
ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podrı́a ser
A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An . Este tiene probabilidad de ocurrrencia
P (A1 ∩ A2 ∩ Ac3 ∩ . . . ∩ Acn−1 ∩ An ) = pp(1 − p) . . . . . . p(1 − P )
= py (1 − p)n−y ,
donde nosotros hemos usado la independencia de los Ai s en este cálculo. Note que el cálculo
no depende sobre cuales de los Ai s ocurre, solamente que algún conjunto de y de ellos
ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con
¡ ¢
exactamente y éxitos tiene probabilidad py (1 − p)n−y de ocurrencia; ya que hay ny de tales
secuencias (el número de ordenamientos de y unos y de (n − y) ceros), se tiene
P (Y = y | n, p) =
µ ¶
n
y
e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del
siguiente modo: como una secuencia de n idénticas, e independientes ensayos de Bernoulli,
cada una con éxito p y fracaso 1 − p, definiendo las variables X1 , X2 , . . . , Xn por

 1
con probabilidad p
Xi =
 0 con probabilidad 1 − p
0 ≤ p ≤ 1.
Entonces la va.
Y =
n
X
Xi
i=1
tiene distribución Bin(n, p). Análogamente, usando funciones indicadoras, Y podrı́a escribirse como
Y =
n
X
IAi ,
i=1
y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.
Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para
completar, afirmemos entonces que si X ∼ Bin(n, p) se tiene
Probabilidad y Estadı́stica
Primer Semestre 2005
76
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
E X = np ,
V ar X = np(1 − p) ,
y su fgm es
MX (t) = [pey + (1 − p)]n .
Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,
se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los
vasos son idénticos en apariencia excepto por un código que se encuentra en el fondo para
identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que
beben refresco de cola para preferir entre una marca u otra.
(a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S
(b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola
S.
(c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S
(d) Calcule la E X, V ar X, σX .
Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan
en una prueba de resistencia a la encuadernación. Si X es el número entre 15 ejemplares
seleccionados al azar que fallan a la prueba.
(a) ¿Qué distribución sigue X?
(b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba
(c) ¿Cuál es la probabilidad de que exactamente 8 fallen a la prueba?, y ¿la probabilidad
de que por lo menos 8 fallen a la prueba?
(d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba.
(e) Determine la media y la varianza de X.
Ejemplo 3.1.5. Un fabricante de equipos electrónicos argumenta que a los sumo el 10 % de
sus unidades de fuentes de alimentación necesitan reparación durante el perı́odo de garantı́a.
Probabilidad y Estadı́stica
Primer Semestre 2005
77
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Para investigar esto, técnicos de un laboratorio de pruebas compran 20 unidades y las someten a pruebas aceleradas para simular su uso durante el perı́odo de garantı́a. Denotemos por
p la probabilidad de que una fuente de alimentación necesita reparación durante el perı́odo
(la proporción de todas las unidades que necesitan reparación). Los técnicos de laboratorio deben determinar si los datos resultantes del experimento apoyan el argumento de que
p ≤ 0,10.
3.1.4.
Distribución de Poisson
La distribución de Poisson es una distribución discreta ampliamente aplicada, y puede
servir como un modelo de un número diferente de experimentos. Por ejemplo, si estamos
modelando un fenómeno en el cual estamos esperando alguna ocurrencia (tales como esperando un ómnibus, esperando que lleguen clientes a la ventanilla de un banco), el no
de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la
distribución de Poisson. Uno de los supuestos básicos sobre los cuales esta distribución
se construye, es que, para pequeños intervalos de tiempo, la probabilidad de un arribo es
proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situaciones como las que indicamos más arriba. Por ejemplo, esto hace razonable asumir que en
un largo tiempo de espera, es más probable que un cliente entre al banco.
Otro área de aplicación es en distribuciones espaciales, donde, por ejemplo, la Poisson
puede ser empleada para modelar la distribución del estallido de una bomba en un area, o
la distribución de peces en un lago.
La distribución de Poisson tiene sólo un parámetro, λ, algunas veces llamado parámetro de
intensidad. Una va. X que toma valores enteros no negativos, tiene una distribución Po(λ)
si
P (X = x | λ) =
Para ver que
P∞
x=0
e− λλx
,
x!
x = 0, 1, . . . . . .
(3.4)
P (X = x | λ) = 1, debemos ocupar la expansión en serie de Taylor de
ey ,
ey =
∞
X
yi
.
y!
i=0
Probabilidad y Estadı́stica
Primer Semestre 2005
78
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ası́
∞
X
P (X = x | λ) = e
−λ
x=0
∞
X
λx
= e−λ eλ = 1
x!
x=0
La media de X se puede ver fácilmente, haciendo
EX =
∞
X
x
e−λ λx
x!
x
e−λ λx
x!
x=0
=
∞
X
x=1
= λe−λ
= λe−λ
∞
X
x=1
∞
X
y=0
λx−1
(x − 1)!
λy
y!
sustituyendo y = x − 1
= λ.
Cálculos similares mostrarán que
V ar X = λ,
Ası́ el parámetro λ es el mismo tanto para la media como para la varianza de la distribución
Poisson.
También puede ser obtenida la fgm usando argumentos de cálculos análogos, siendo
MX (t) = eλ(e
t −1)
.
Ejemplo 3.1.6. Si X es el número de la fallas en la superficie de un calentador de cierto
tipo seleccionado al azar. Suponga que X tiene una distribución de Poisson con λ = 5.
Determine:
(a) La probabilidad de que tenga exactamente dos fallas
(b) La probabilidad de que un calentador contenga un máximo de dos fallas
Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis
por minuto, supongamos α = 6. Para hallar la probabilidad de que en un intervalo de 0.5
min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene
una distribución de Poisson con parámetro λ = αt = 6(0,5). Si X representa el número de
pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba más
de una llamada.
Probabilidad y Estadı́stica
Primer Semestre 2005
79
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
3.1.5.
Distribución Binomial Negativa
La distribución Binomial cuenta el número de éxitos en un número prefijado de ensayos
de Bernoulli. Supongamos que, en cambio, contamos el número de ensayos de Bernoulli
requeridos para conseguir un número prefijado de éxitos. Esta última formulación nos anticipa la distribución binomial negativa.
En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el
ensayo para el cual el r-ésimo éxito ocurre, donde r es un entero prefijado. Entonces
µ
¶
x−1 r
P (X = r | r, p) =
p (1 − p)x−r ,
r−1
x = r, r + 1, . . .
(3.5)
y diremos que X tiene una distribución binomial negativa (r,p).
La obtención de (3.5) se sigue rápidamente de la distribución binomial. El evento {X = x}
puede ocurrir solamente si hay exactamente r − 1 éxitos en los primeros x − 1 ensayos, y
un éxito en el ensayo x. La probabilidad de r − 1 éxitos en x − 1 ensayos es la probabilidad
¡ ¢ r−1
binomial x−1
(1 − p)x−r y con probabilidad p hay un éxito en el ensayo x. Multiplir−1 p
cando esas probabilidades se llega a la igualdad (3.5).
La distribución binomial negativa es muchas veces definida en términos de la va. Y =
número de fracasos antes del r-ésimo éxito. Esta formulación es estadı́sticamente equivalente a la dada antes en términos de X = ensayos en los cuales el r-ésimo éxito ocurre,
en consecuencia Y = X − r. Usando la relación entre y y X, la forma alternativa para la
distribución binomial negativa es
µ
¶
r+y+1 r
P (Y = y) =
p (1 − p)y ,
y
y = 0, 1, . . . . . .
(3.6)
A menos que sea notado, cuando nos hagamos referencia a la distribución binomial negativa(r, p)
usaremos la fmp (3.6).
La distribución binomial negativa, tiene ese nombre de la relación
µ
¶
µ ¶
r+y+1
(−r)(−r − 1)(−r − 2) . . . (−r − y + 1)
y −r
= (−1)
= (−1)y
,
y
y
y(y − 1)(y − 2) . . . 2,1
Probabilidad y Estadı́stica
Primer Semestre 2005
80
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
la cual es, en efecto, la definición para un coeficiente binomial con enteros negativos (ver
Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene
µ ¶
y −r
P (Y = y) = (−1)
pr (1 − p)y ,
y = 0, 1, . . . . . .
y
la cual muestra un parecido muy llamativo con la distribución binomial.
P
El hecho que ∞
y=0 P (Y = y) = 1 no es fácil de verificar, pero proviene de una extensión
del Teorema del Binomio, extensión que incluye exponentes negativos. No expondré esto
aquı́. Una excelente exposición de este hecho lo puede encontrar en Feller (1968).
La media y la varianza de Y puede ser calculada usando técnicas similares a las usadas para
la distribución binomial:
EY
µ
¶
∞
X
r+y+1 r
=
y
p (1 − p)y
y
y=0
∞
X
(r + y − 1)!
pr (1 − p)y
(y − 1)!(r − 1)!
y=1
µ
¶
∞
X
r+y+1 r
=
r
p (1 − p)y .
y−1
=
y=1
Ahora escribimos z = y − 1, y la suma se transforma en
µ
¶
∞
X
r+z r
EY =
r
p (1 − p)z+1
z
z=0
¶
∞ µ
(1 − p) X (r + 1) + z − 1 r+1
p (1 − p)z ,
= r
p
z
z=0
este último sumando se corresponde con la fmp de una binomial negativa, de donde
EY =r
(1 − p)
p
Un cálculo similar mostrará que
V ar Y = r
(1 − p)
.
p2
La familia de la distribución binomial negativa incluye a la Poisson como un caso lı́mite. Si
r −→ ∞ y p −→ 1 tal que r(1 − p) −→ λ, 0 < λ < ∞, entonces
EY
V ar Y
(1 − p)
−→ λ,
p
(1 − p)
= r
−→ λ,
p2
= r
lo cual se corresponde con la media y la varianza de la Poisson.
Probabilidad y Estadı́stica
Primer Semestre 2005
81
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera
a su primer hijo, para que participen en un régimen de nacimiento natural. Sea p =
P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, ¿cuál es la probabilidad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto
es, si S={accede a participar}, ¿cuál es la probabilidad de que ocurran 10 fallas antes del
quinto éxito?.
3.1.6.
Distribución Geométrica
La distribución geométrica es la más simple de las distribuciones, y es un caso especial
de la distribución binomial negativa. Si se hace r = 1 en (3.5) tenemos
P (X = x | p) = p(1 − p)x−1 ,
x = 1, 2, . . .
la cual define la fmp de una variable aleatoria X geométrica con probabilidad de éxito p.
X puede ser interpretada como el ensayo para el cual el primer éxito ocurre. Ası́, diremos
P
”esperando el primer éxito”. El hecho que ∞
x=1 P (X = x) = 1 se sigue de la propiedad de
series geométricas. Para cualquier a tal que | a |< 1,
∞
X
ax−1 =
x=1
1
,
1−a
la cual ya ha sido probada anteriormente.
La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa
y escribiendo X = Y + 1 para obtener
E X = EY + 1 =
1
p
y
V ar X =
1−p
.
p2
La distribución geométrica tiene una propiedad interesante conocida como ”pérdida de
memoria”. Para enteros s > t, esto significa que
P (X > s | X > t) = P (X > s − t);
(3.7)
Esto significa que la distribución geométrica olvida lo que ha ocurrido.
Probabilidad y Estadı́stica
Primer Semestre 2005
82
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
3.2.
Distribuciones Continuas
En esta sección discutiremos algunas de las familias de distribuciones continuas más comunes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aquı́ no
constituyen todas las distribuciones usadas en estadı́stica; pues además como vimos en secciones anteriores, cualquier función nonegativa, e integragrable puede ser transformada en
una fdp.
3.2.1.
Distribución Uniforme
La distribución uniforme continua está definida de manera tal que se extiende masa
uniformemente sobre un intervalo [a, b]. Su fdp está dada por


f (x | a, b) =
Es fácil demostrar que
Rb
a
 0
si x ∈ [a, b]
(3.8)
en otro caso
f (x) dx = 1. También se tiene
Z
b
x
a+b
dx =
b−a
2
a+b 2
(x − 2 )
(b − a)2
dx =
.
b−a
12
EX =
a
Z
b
V ar X =
a
3.2.2.
1
b−a
Distribución Gamma
La familia de distribuciones gamma es una familia flexible de distribuciones sobre [0, ∞].
Esta familia puede ser derivada por la siguiente construcción.
Sea α una constante positiva, la integral
Z
∞
tα−1 e−t dt
0
es finita. Si α es un entero positivo la integral puede ser expresada en forma cerrada, en
otro caso no es posible. En cualquier caso, su valor define la función gamma,
Z
Γ(α) =
∞
tα−1 e−t dt.
(3.9)
0
Probabilidad y Estadı́stica
Primer Semestre 2005
83
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La función gamma satisface muchas relaciones muy usadas, en particular
Γ(α + 1) = αΓ(α) ,
α > 0,
(3.10)
la cual puede ser verificada utilizando integración por partes. Combinando (3.9) y (3.10)
verificando el hecho que Γ(1) = 1, se tiene para cualquier entero n > 0,
Γ(n) = (n − 1)!.
(Otro caso especial muy usado, que veremos en breve es: Γ( 12 ) =
(3.11)
√
π.)
Las expresiones (3.10) y (3.11) dan relaciones recursivas para la función gamma, que
hacen más fácil su cálculo.
Ya que la integral en (3.9) es positiva, inmediatamente se sigue que
f (t) =
tα−1 e−t
,
Γ(α)
0<t<∞
(3.12)
es una fdp. La familia gamma completa, sin embargo, tiene dos parámetros, y puede ser
derivada por cambio de variables para conseguir la fdp de la va. X = βT en (3.12), donde
β es una constante positiva. Al hacer esto, conseguimos la familia gamma(α, β),
f (x) =
1
xα−1 e−x/β , 0 < x < ∞ , α > 0 , β > 0.
Γ(α)β α
(3.13)
El parámetro α es conocido como el parámetro de forma, ya que es el que más influencia
tiene en el pico de la distribución, mientras que β es llamado el parámetro de escala, ya que
su influencia está sobre la cuan abierta o cerrada es la distribución.
Hemos ya probado que la media de la distribución es
1
EX =
Γ(α)β α
Z
∞
x, xα−1 e−x/β dx.
(3.14)
0
Para evaluar (3.14), note que el integrando es el núcleo de una fdp gamma(α + 1, β). De la
(3.13) sabemos que para α, β > 0,
Z
∞
xα−1 e−x/β dx = Γ(α)β α ,
(3.15)
0
Probabilidad y Estadı́stica
Primer Semestre 2005
84
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
ası́ tenemos
EX =
=
1
Γ(α)β α
αΓ(α)β
Γ(α)
Z
∞
x, xα−1 e−x/β dx =
0
1
Γ(α + 1)β α+1
Γ(α)β α
= αβ.
Note que para evaluar la E X hemos usado la técnica de reconocimiento de la integral como
el núcleo de una fdp. Este hecho ya fue utilizado en múltiples oportunidades.
La varianza de la distribución gamma(α, β ) se calcula de manera análoga. En particular,
en el cálculo de E X 2 nos manejamos con el núcleo de una distribución gamma(α + 2, β).
El resultado es
V ar X = αβ 2
. En un ejemplo anterior hemos calculado la fgm de una distribución gamma(α, β). Ésta
está dada por
³
MX (t) =
1 ´α
.
1 − βt
Ejemplo 3.2.1. Existe una interesante relación entre las distribuciones gamma y la Poisson. Si va. X es una gamma(α, β), donde α es un entero, entonces para cualquier x,
P (X ≤ x) = P (Y ≤ α),
(3.16)
donde Y ∼ Poisson(x/β). La ecuación (3.16) puede ser establecida por sucesivas integraciones por partes. Ya que α es un entero, podemos escribir Γ(α) = (α − 1)! para conseguir
Z x
1
P (X ≤ x) =
tα−1 e−t/β dt
(α + 1)β α 0
hh
ix Z x
i
1
(α−1)
β/t
α−2
−t/β
=
−
t
β
−
t
+
(α
−
1)t
βe
dt
,
(α + 1)β α
0
0
hemos usado la integración por partes, sustituyendo u = tα−1 , dv = e−t/β dt. Continuando
con la evaluación de la probabilidad, tenemos
P (X ≤ x) =
=
Z x
−1
1
α−1 −x/β
x
e
+
tα−2 βe−t/β dt
(α − 1)!β α−1
(α − 2)!β α−1 0
Z x
1
tα−2 βe−t/β dt − P (Y = α − 1),
(α − 2)!β α−1 0
donde Y ∼ Poisson(x/β). Continuando de esta manera, es posible establecer (3.16).
Probabilidad y Estadı́stica
Primer Semestre 2005
85
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Hay dos importantes casos especiales de distribución gamma. Si hacemos α = p/2, donde
p es un entero, y β = 2, entonces la fdp de la gamma resulta
f (x) =
1
x(p/2)−1 e−x/2 , 0 < x < ∞,
Γ(p/2)2p/2
(3.17)
la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la
fgm de la distribución chi cuadrado pueden todas se calculadas usando las fórmulas gamma
derivadas previamente.
La distribución chi cuadrado juega una papel importante en inferencia estadı́stica, especialmente cuando se muestrea de una distribución normal. Esto será estudiado con detalle más
adelante.
Otro caso especial importante proveniente de la distribución gamma se obtiene cuando
se reemplaza α = 1. Ahora resulta,
f (x | β) =
1 −x/β
e
,
β
0 < x < ∞,
(3.18)
la fdp exponencial con parámetro de escala β. Su media y su varianza fueron calculadas en
ejemplos anteriores.
La distribución exponencial puede ser usada para modelar tiempos de vida, análogo al uso
de la distribución geométrica en el caso discreto.
Otra distribución relacionada con la exponencial y con la familia gamma es la distribución
Weibull. Si X ∼ Exp(β), entonces Y = X 1/γ tiene una distribución Weibull(γ, β).
fY (y | γ, β) =
γ γ−1 yγ /β
y
e
,
β
0 < y < ∞, γ > 0 , β > 0.
(3.19)
La distribución Weibull juega un rol extremadamente importante en el análisis de tiempo de
fracaso (ver Kalbfleidch and Prentice (1980)para un tratamiento de este tópico). La Weibull
en particular es muy usada para modelar funciones de riesgo.
3.2.3.
Distribución Normal
La distribución Normal (muchas veces llamada Distribución gaussiana juega un rol central a lo largo de toda la estadı́stica. Existen tres grandes razones para ello. Primero, la
Probabilidad y Estadı́stica
Primer Semestre 2005
86
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
distribución Normal y las distribuciones asociadas con ella, son muy tratables analı́ticamente (aunque no lo parezca con una primera mirada). Segundo, la distribución normal
tiene una forma de campana familiar, cuya simetrı́a la hace elegible para modelar un sin
fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,
pero no poseen la tratabiliad analı́tica de la normal. Tercero, existe el Teorema Central del
Lı́mite (más adelante se verá con detalle) el cual muestra que bajo algunas condiciones, la
distribución normal puede ser usada para aproximar una gran variedad de distribuciones
en grandes muestras.
La distribución normal tiene dos parámetros, usualmente anotados por µ y σ 2 , las cuales
son su media y su varianza. La fdp de la distribución Normal con media µ y varianza σ 2
(usualmente anotada N (µ; σ 2 )) está dada por,
1
2
2
e−(x−µ) /(2σ ) , −∞ < x < ∞.
f (x | µ, σ 2 ) = √
2πσ
(3.20)
Si X ∼ N (µ; σ 2 ), entonces la va. Z = (X −µ)/σ tiene distribución N (0, 1), también conocida
como Normal estándar. Esto se establece fácilmente escribiendo
³
´
P (Z ≤ z) = P X − µ)/σ ≤ z
= P (X ≤ zσ + µ)
Z zσ+µ
1
2
2
= √
e−(x−µ) /(2σ ) dx
2πσ −∞
Z z
x−µ
1
2
e−t /2 dt,
(sustituyendo t =
= √
)
σ
2π −∞
mostrando que P (Z ≤ z) es la fda de la normal estándar.
Lo último anterior muestra que todas las probabilidades normales puedes ser calculadas
en términos de la normal estándar. Además, el cálculo de la media puede ser simplificado,
calculándolo para la N (0, 1), y luego transformando para el caso de N (µ, σ 2 ). Por ejemplo,
si Z ∼ N (0, 1),
1
EZ = √
2π
Z
∞
−∞
ze−z
2 /2
1
2
dz = − √ e−z /2 |∞
−∞ = 0
2π
y ası́, si X ∼ N (µ, σ 2 ), se sigue que
E X = E(µ + zσ) = µ + σE Z = µ.
Probabilidad y Estadı́stica
Primer Semestre 2005
87
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
En forma análoga, se tiene que V ar Z = 1, y se prueba que V ar X = σ 2 .
Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble
que
1
√
2π
Z
∞
e−z
2 /2
dz = 1.
−∞
Note que esta integral es simétrica alrededor del 0, lo cual implica que la integral sobre
(−∞, 0) es igual a la integral sobre (0, ∞). Ası́ el problema se reducı́a a probar
Z
∞
e
−∞
Dijimos que la función e−z
2 /2
−z 2 /2
√
r
2π
π
dz =
=
.
2
2
(3.21)
no tiene una antiderivada que puede ser escrita explı́citamente
en términos de funciones elementales (esto es, en forma cerrada), por ello, no podemos
resolver la integral en forma directa. Se resuelve vı́a una integral doble
La integral (3.21) está relacionada con la función gamma; en efecto haciendo la sustitución
w = 21 z 2 en (3.21) nosotros vemos que esta integral es Γ( 12 ). Si se es cuidadoso al conseguir
las constantes correctas ,nosotros vemos que la sustitución propuesta implica
³1´ Z ∞
√
Γ
=
w−1/2 e−w dw = π.
2
0
(3.22)
La distribución normal es un poco especial en el sentido, que sus dos parámetros, µ (la
media) y σ 2 (la varianza), nos proveen una completa información exacta acerca de la forma
y la ubicación de la distribución. Esta propiedad que tiene la distribución normal, no es sólo
para esta fdp, pero está formada por una familia de fdp´s llamadas familias de localización
y escala.
Basta con resolver un elemental problema de cálculo para mostrar que la fdp normal (3.20)
tiene un máximo en x = µ y puntos de inflexión (donde la curva cambia de cóncava a
convexa) en x = µ±σ. Además la probabilidad contenida entre 1,2 ó 3 desviaciones estándar
de la media es
P (| X − µ |≤ σ) = P (| Z |≤ 1) = 0,6826
P (| X − µ |≤ 2σ) = P (| Z |≤ 2) = 0,9544
P (| X − µ |≤ 3σ) = P (| Z |≤ 3) = 0,9947
Probabilidad y Estadı́stica
Primer Semestre 2005
88
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Donde X ∼ N (µ, σ 2 ), Z ∼ N (0, 1) , y los valores numéricos provienen de una tabla de distribución normal. A menudo valores de dos dı́gitos son reportados, aunque no representan
valores redondeados, se ocupan frecuentemente.
Entre los muchos usos de la distribución Normal, uno de gran importancia es su uso como
aproximación de otras distribuciones (los cuales son justificados por el Teorema central del
Lı́mite). Por ejemplo, si X ∼ Bin(n, p), entonces E X = np y V ar X = np(1 − p), y bajo
condiciones convenientes, la distribución de X puede ser aproximada con una va. normal
con media µ = np y varianza σ 2 = np(1 − p). Las çondiciones convenientes”son que n debe
ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el
caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicación debe ser
chequeada para decidir si la aproximación es buena para ese caso. Una regla conservativa
que se sigue es que la aproximación será buena si min(np, n(1 − p)) ≥ 5.
Ejemplo 3.2.2. Sea X ∼ Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la
probabilidad de que X tome valores menores ó iguales que 13, y compare con el valor exacto.
La aproximación puede ser grandemente mejorada, por una çorrección por continuidad”.
Se describirá un método estándar para mejorar la calidad de la aproximación que se obtiene
cuando se aproxima una probabilidad basada en una distribución discreta por una basada
en una distribución continua.
Supóngase, que la va. X tiene una distribución discreta con fmp f (x) y se desea aproximar
esta distribución por una distribución continua con fdp g(x). Consideremos por simplicidad
solamente una distribución discreta para la que todos los valores posibles de X sean enteros.
Si la fdp g(x) proporciona una buena aproximación a la distribución de X, entonces para
cualquier par de enteros a, b se puede aproximar simplemente la probabilidad
P (a ≤ X ≤ b) =
b
X
f (x)
(3.23)
x=a
por la integral
Z
b
g(x) dx.
(3.24)
a
Probabilidad y Estadı́stica
Primer Semestre 2005
89
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Esta sencilla aproximación tiene el siguiente inconveniente: aunque P (X ≥ a) y P (X > a)
en general tendrán valores distintos para la distribución discreta, éstas probabilidades serán
siempre iguales para la distribución continua. Otra forma de expresar este inconveniente es
la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X,
esta probabilidad es necesariamente 0 con la fdp aproximada.
La fmp de X se puede representar por un histograma, ó diagrama de barras. Para cada
entero x, la probabilidad de que x se representa por el área de un rectángulo cuya base se
extiende desde x −
1
2
hasta x +
1
2
y cuya altura es f (x). Entonces, el área del rectángulo
cuya base está centrada en el entero x es simplemente f (x).
Desde este punto de vista se puede observar que P (a ≤ X ≤ b), como se especifica en
la ecuación (3.23), es la suma de la áreas de los rectángulos formados por las barras que
representan la distribución discreta que están centrados en a, a + 1, . . . , b. La suma de estas
áreas se aproxima con la integral
Z
b+ 21
a− 12
g(x) dx.
(3.25)
el ajuste la integral (3.24) a la integral (3.25) se llama corrección por continuidad.
Si se utiliza la corrección por continuidad se determina que la probabilidad f (a) del entero
a se puede aproximar como sigue,
³
1´
1
P (X = a) = P a − ≤ X ≤ a +
2
2
Z a+ 1
2
≈
g(x) dx.
a− 12
(3.26)
(3.27)
Análogamente,
³
1´
P (X > a) = P (X ≥ a + 1) = P X ≥ a +
2
Z ∞
≈
g(x) dx.
a+ 12
Ejemplo 3.2.3. Continuación ejemplo último anterior Determinar usando la corrección por continuidad P (X ≤ 13) y comparar todas las aproximaciones hechas sobre esta
probabilidad.
Probabilidad y Estadı́stica
Primer Semestre 2005
90
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
3.2.4.
Distribución Beta
La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos
parámetros. La fdp de la beta(α, β) es
f (x | α, β) =
1
xα−1 (1 − x)β−1 , 0 < x < 1 α > 0 β > 0,
B(α, β)
(3.28)
donde B(α, β) denota la función beta,
Z
B(α, β) =
1
xα−1 (1 − x)β−1 dx.
0
La función beta está relacionada con la función gamma a través de la siguientes identidad:
B(α, β) =
Γ(α)Γ(β)
.
Γ(α + β)
(3.29)
La (3.29) es muy usada al ocupar la función Beta, permitiendonos ciertas ventajas tomadas
de la funció Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)
para todas las evaluaciones que hagamos.
La distribucuı́n Beta, es una de las pocas distribuciones, entre las más conocidas que dan
probabilidad 1 sobre un intervalo finito, aquı́ el intervalo es el (0, 1). De esta manera, la
Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.
Serán ilustradas algunas de estas situaciones en el capı́tulo 4.
Calculemos los momentos para esta distribución. Resolverlo es fácil por la forma de la fdp.
Para n > −α se tiene
EX
n
=
=
Z 1
1
xn xα−1 (1 − x)β−1 dx
B(α, β) 0
Z 1
1
x(α+n)−1 (1 − x)β−1 dx.
B(α, β) 0
Reconocemos la integral como el núcleo de una densidad beta(α + n, β), de donde
E Xn =
B(α + n, β)
Γ(α + n)Γ(α + β)
=
.
B(α, β)
Γ(α + β + n)Γ(α)
(3.30)
Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la
distribución beta(α, β) como sigue
EX =
Probabilidad y Estadı́stica
Primer Semestre 2005
α
α+β
y
V ar X =
91
αβ
(α +
β)2 (α
+ β + 1)
.
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Como los valores de α y β varı́an, la distribución beta toma diversas formas, estrictamente
decrece (α = 1, β > 1), forma de U (α < 1, β < 1) ó es unimodal (α > 1, β > 1). El
caso α = β la fdp es simétrica alrededor de 1/2 y varianza (4(2α + 1)−1 ). La fdp se vuelve
más concentrada cuando α crece, pero sigue siendo simétrica. Finalmente, si α = β = 1,
la distribución se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser
considerada un miembro de la familia beta. La beta está tambiés relacionada, a través de una
transformación, con la distribución F , una distribución que juega un papel extremadamente
importante en análisis estadı́stico.
3.2.5.
Distribución Cauchy
La distribución Cauchy, es una distribución simétrica y con forma de campana sobre
(−∞, ∞) con fdp
f (x | θ) =
1
1
, −∞ < x < ∞ , −∞ < θ < ∞.
π (x − θ)2
(3.31)
A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo
existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribución
no existe, o sea hemos probado que E | X |= ∞. Es fácil probar que la (3.31) es una fdp
para todo θ.
Ya que la E | X |= ∞, se sigue que esta no existen momentos para la distribución
Cauchy, o sea que el valor absoluto de todos los momentos es ∞. En particular la fgm
no existe.E | X |= ∞.
El parámetro θ en no mide (3.31) el centro de la distribución; sino que representa la mediana. De donde, se sique que si una va. X tiene distribución Cauchy con parámetro θ,
entonces P (X ≥ θ) = 21 , mostrando que θ es la mediana de la distribución.
La distribución Cauchy juega un rol especial en estadı́stica teórica. Ella representa, más
bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras
propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.
Diriamos que es un caso patológico. Por ejemplo es común en la práctica calcular cocientes
de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos
Probabilidad y Estadı́stica
Primer Semestre 2005
92
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
normales estándar tiene distribución Cauchy; de donde el hecho de tomar cocientes nos
puede llevar a distribucines enfermas!!.
3.2.6.
Distribución Lognormal
Si X es una va. cuyo logaritmo está normalmente distribuı́do (esto es, logX ∼ N (µ, σ 2 ),
entonces se dice que X tiene una distribución lognormal. La fdp de X puede ser obtenida por
una transformación de la fdp Normal usando el teorema de las transformacines, obteniendose
1 1 −(logx−µ)2 /(2σ2 )
f (x | µ, σ 2 ) = √
e
, 0 < x < ∞, ∞ < µ < ∞, σ > 0
2π x
(3.32)
para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando
(3.32), ó explotando su relación con la normal.
E X = E elog X
Y = log X ∼ N (µ; σ 2 ))
= EY
= eµ+(σ
2 /2)
.
La última igualdad se obtiene reorganizando la fgm de la distribución normal (tomar t = 1).
Es posible usar una técnica similar para calcular E X 2 , y conseguir asi
2
2
V ar X = e2(µ+σ ) − e2µ+σ .
La distribución lognormal, es en apariencia similar a la distribución gamma. Esta distribución es muy común cuando se aplican modelos, donde interesa la asimetrı́a a la derecha.
3.2.7.
Distribución Doble Exponencial
La distribución doble exponencial se forma reflejando la distribución exponencial alrededor de su media. La fdp está dada por
f (x | µ, σ) =
Probabilidad y Estadı́stica
Primer Semestre 2005
1 −|x−µ|/σ
e
, −∞ < x < ∞ , −∞ < µ < ∞ , σ > 0.
2σ
93
(3.33)
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La doble exponencial provee una distribución simétrica con colas pesadas (mucho más pesadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy
fáciles de calcular, ellas son
EX =µ
V ar X = 2σ 2 .
y
La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de
manera más formal, un punto de no diferenciabilidad) en x = µ. Es muy importante recordarlo al tratar con esta distribución en forma analı́tica.
Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones
estadı́sticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material
bibliográfico referente para las distribuciones usadas en estadı́stica, puede ser el trabajo de
Johnson y Kotz (1969,1970a,1970b).
3.3.
Familias Exponenciales
Una familia de fdp ó de fmp se denomina familia exponencial, si puede ser expresada
como
f (x | θ) = h(x)c(θ) exp
k
³X
´
wi (θ)ti (x) .
(3.34)
i=1
Aquı́ h(x) ≥ 0 y t1 (x), t2 (x), . . . , tk (x) son funciones real valoradas de las observaciones x
(ó sea, ellas no pueden depender de θ), c(ϑ) > 0 y w1 (θ), w2 (θ), . . . , wk (θ) son todas funciones
real valoradas positivas del parámetro vector valuado θ (ellas no pueden depender de x).
Muchas de las familias introducidas en las secciones previas son familias exponenciales.
Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas
(binomial, Poisson, binomial negativa, etc.)
La forma especı́fica (3.34) implica que las familias exponenciales tienen muchas propiedades
interesantes desde el punto de vista matemático. Pero aún más importante para un modelo
estadı́stico, esta forma (3.34) implica muchas propiedades estadı́sticas interesantes y de fácil
deducción a partir de la misma.
Para verificar que una familia de fpd´s ó fmp´s es una familia exponencial, nosotros debemos
Probabilidad y Estadı́stica
Primer Semestre 2005
94
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
identificar las funciones h(x), c(θ), wi (θ), ti (x) y mostrar que la familia tiene la forma (3.34).
Esto se ilustra en los siguientes dos ejemplos
Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una
familia exponencial.
Ejemplo 3.3.2. Sea f (x | µ, σ 2 ) la familia de densidades N (µ, σ 2 ), donde θ = (µ, σ)
−∞ < x < ∞
σ > 0. Mostrar que esta es una familia exponencial.
Probabilidad y Estadı́stica
Primer Semestre 2005
95
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Probabilidad y Estadı́stica
Primer Semestre 2005
96
Prof.Mg. Osmar Vera
Capı́tulo 4
Modelos Multivariados
4.1.
Distribuciones conjuntas y marginales
En capı́tulos previos hemos discutido modelos de probabilidad y cálculos de probabilidades sobre eventos que involucran solamente una variable aleatoria. Estos se llaman modelos univariados. En este capı́tulos discutiremos modelos de probabilidad que involucran
más de una v.a., llamados naturalmente modelos multivariados.
En situaciones experimentales, no es usual observar solamente el valor de una v.a.. Esto
es, no representa un experimento usual aquel para el cual el total de los datos obtenidos
provienen solo de un valor numérico. Lo comun es tener más de una variable para ser observada en una situación experimental. Por ello, necesitamos conocer la manera de describir y
utilizar modelos de probabilidad que manejen más de una v.a. al mismo tiempo.
Para la primera sección, abordaremos modelos bivariados, es decir modelos que involucran
dos variables aleatorias.
Definición 4.1.1. Un n-dimensional vector aleatorio es una función de un espacio muestral
Ω en Rn (espacio euclı́deo n-dimensional)
Supongamos que con cada punto en un espacio muestral asociamos un para ordenado
97
Probabilidad y Estadı́stica
de números, esto es, un punto (x, y) ∈ R2 , donde R2 es el plano coordenado. Entonces,
ası́ tenemos definido un vector aleatorio 2-dimensional (ó bivariado) (X, Y ).
Ejemplo 4.1.1. Consideremos el experimento que consiste en arrojar dos dados honestos.
El espacio muestral para este experimento tiene 36 elementos igualmente probables. Por
ejemplo el punto muestral (3, 3) denota el resultado para el cual ambos dados muestran un
3; el punto muestral (4, 1) denota el resultado para el cual el primer dado mostro un cuatro
y el segundo dado un 1; etc. Ahora, con cada uno de los 36 puntos del muestral asociamos
dos números, X e Y . Sean
X = Suma de los dos dados
Y =| Diferencia de los dados | .
Ası́, para el punto muestral (3, 3), X = 3 + 3 e Y =| 3 − 3 |= 0. Para (4, 1), X = 5 e Y = 3.
Estos también son los valores de X e Y para el punto muestral (1, 4). Para cada uno de
los 36 puntos muestrales podrı́amos calcular el valor de X e Y . De esta manera tenemos
definido un vector aleatorio vivariado (X, Y ).
Habiendo definido un vector aleatorio (X, Y ), podremos discutir probabilidades de eventos
definidos en término del vector (X, Y ). ¿Qué es P (X = 5 e Y = 3)?, serı́a posible verificar
que los únicos puntos muestrales que hacen que X = 5 e Y = 3 son (4, 1) y (1, 4). Ası́ el
evento ”X = 5 e Y = 3.ocurrirá sı́ y sólo sı́ el evento {(4, 1); (1, 4)} ocurre. Ya que cada uno
de los 36 puntos muestrales es igualmente probable, se tiene
P ({(4, 1); (1, 4)}) =
2
1
= .
36
18
Ası́,
P (X = 5 e Y = 3) =
1
.
18
De aquı́ en adelante, escribiremos P (X = 5, Y = 3) por P (X = 5 e Y = 3). Leer la coma
como una ”. En forma análoga, P (X = 6, Y = 0) =
1
36
por que el único punto muestral
2
hace que X = 6, Y = 0 es el (3, 3). Para eventos más complicados, la técnica es la misma.
Por ejemplo, P (X = 7, Y ≤ 4) =
4
36
=
1
9
por que solamente para cuatros puntos muestrales
se cumple que X = 7, Y ≤ 4, ellos son {(4, 3); (3, 4); (5, 2); (2, 5)}.
Probabilidad y Estadı́stica
Primer Semestre 2005
98
Prof.Mg. Osmar Vera
Descargar