Población y muestra Población. Conjunto completo de individuos

Anuncio
17/11/2011
Análisis de datos y gestión veterinaria
Muestreo
Departamento de Producción Animal – Facultad de Veterinaria
Universidad de Córdoba
Córdoba, 16 de Noviembre de 2011
Población y muestra
Predecir los
resultados
electorales en
España
Población. Conjunto completo de individuos sobre
el que estamos interesados en obtener conclusiones.
1
17/11/2011
Población y muestra
N = ??
?? = millones de votantes
Predecir los
resultados
electorales en
España
Población. Conjunto completo de votantes.
Población y muestra
n = 10.000
votantes
N = ??
?? = millones de votantes
n = 10.000
votantes
Muestra. Subconjunto de los valores poblacionales
observados.
2
17/11/2011
Población y muestra
n = 10.000
votantes
los estadísticos
N = ??
se
utilizan como
?? = millones de votantes
Inferencias.
Generalizaciones
a
partir de la muestra a
la población.
estimadores
de los
parámetros de
la población,
como la edad
media de los
votantes de la
población
calculamos
estadísticos,
como la edad
media de los
votantes de la
muestra
Población y muestra
¿Se puede confiar en que los
estadísticos sean similares a
los parámetros?
N = ??
?¿?¿?¿ 35,5 años ??¿?¿?
?? = millones de votantes
Los parámetros son
los que realmente se
quieren conocer
n = 10.000
35,5 años
votantes
Los
estadísticos
son calculados
y conocidos
3
17/11/2011
Población y muestra
¿Se puede confiar en que los
estadísticos sean similares a
los parámetros?
Los parámetros no son verificables (si lo fueran, no
trabajaríamos con muestras).
Si, siempre que la muestra
represente a la población
Población y muestra
N = 12 vacas
Si, siempre que la muestra
represente a la población
4
17/11/2011
Población y muestra
N = 12 vacas
n=6
vacas
La muestra representa
a la población
las
Si, siempre
que la simuestra
características de la población
se
repiten
en
la
muestra.
represente a la población
¿Si no sabemos cómo es la población, ni
Población y muestra
siquiera su tamaño?
La representatividad se basa en la forma en
n = mejores
10.000
que la muestra es seleccionada (los
métodos son los que se basan en el usovotantes
planeado
del azar)
N = ??
?? = millones de votantes
La representatividad se basa en el tamaño de
la muestra (en principio, mayores tamaños
mejoran la representatividad)
La muestra representa a la población si las
características de la población se repiten en la muestra.
5
17/11/2011
Muestreo aleatorio simple
Población (N):
5.000 papeletas marcadas con 1
5.000 papeletas marcadas con 0
Muestreo aleatorio simple
Se le da la urna y se le informa que contiene un número
determinado de papeletas con ceros y unos. Se le pide que
estime sus proporciones
Agita la urna (garantizamos la aleatoriedad)
Saca 1.000 papeletas
sin reposición (n)
6
17/11/2011
Muestreo aleatorio simple
Dado que todos los elementos de la urna tenían la misma
probabilidad de ser seleccionados, el muestreo es
aleatorio, por tanto:
% unos en la muestra = % unos en la urna + error aleatorio
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
Muestreo aleatorio simple
521 unos en la muestra = 500 + 21
491 unos en la muestra = 500 - 9
507 unos en la muestra = 500 + 7
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
7
17/11/2011
Distribución en el muestreo de la media
muestral
Población (N):
6 papeletas marcadas con:
2, 4, 6, 6, 7 y 8
µ = 5,5
Distribución en el muestreo de la media
muestral
Media = µ + error aleatorio
4,5 = 5,5 -1
Repetimos…
Agitamos
la urna…
Sacamos 4 papeletas
(n)
2, 4, 6, 6
media = 4,5
8
17/11/2011
Distribución en el muestreo de la media
muestral
Media = µ + error aleatorio
4,5 = 5,5 -1
5,0
= 5,5 - 0,5
Repetimos…
Agitamos la urna…
Sacamos 4 papeletas
(n)
2, 4, 6, 8
media = 5,0
Distribución en el muestreo de la media
muestral
Media = µ + error aleatorio
4,5 = 5,5 -1
5,0 = 5,5 - 0,5
5,75 = 5,5la+urna…
0,25
Agitamos
Sacamos 4 papeletas
(n)
2, 6, 7, 8
media = 5,75
9
17/11/2011
Distribución en el muestreo de la media
muestral
…Si hay 6 papeletas….
…y se extraen sin reposición
4…
¿cuántas muestras se
pueden extraer?
La variable “sacamos 4
papeletas de la urna”
es una variable aleatoria
como las estudiadas en
temas anteriores (cada
extracción es una variable
aleatoria).
La distribución de probabilidades de los posibles valores que
puede tomar el estadístico (en este caso, la media) a lo largo de
todas las posibles muestras con el mismo número de
observaciones (se denomina distribución muestral) sirve para
estimar el error aleatorio a través del error estándar (y
proporciona la base para la inferencia).
Distribución en el muestreo de la media
Muestra
Media muestral
muestral
2, 4, 6, 6
2, 4, 6, 7
2, 4, 6, 8
2, 4, 6, 7
2, 4, 6, 8
2, 4, 7, 8
2, 6, 6, 7
2, 6, 6, 8
2, 6, 7, 8
2, 6, 7, 8
4, 6, 6, 7
4, 6, 6, 8
4, 6, 7, 8
4, 6, 7, 8
6, 6, 7, 8
4,50
4,75
5,00
4,75
5,00
5,25
5,25
5,50
5,75
5,75
5,75
6,00
6,25
6,25
6,75
Todas las muestras
tienen la misma
probabilidad de ser
seleccionadas (1/15)
10
17/11/2011
Distribución en el muestreo de la media
muestral
Muestra Media muestral
2, 4, 6, 6
4,50
2, 4, 6, 7
4,75
2, 4, 6, 8
5,00
2, 4, 6, 7
4,75
2, 4, 6, 8
5,00
2, 4, 7, 8
5,25
2, 6, 6, 7
5,25
2, 6, 6, 8
5,50
2, 6, 7, 8
5,75
2, 6, 7, 8
5,75
4, 6, 6, 7
5,75
4, 6, 6, 8
6,00
4, 6, 7, 8
6,25
4, 6, 7, 8
6,25
6, 6, 7, 8
6,75
Todas las muestras
tienen la misma
probabilidad de ser
seleccionadas (1/15)
La distribución muestral de la media
(función de probabilidad):
Px(4,50) = 1/15
Px(4,75) = 2/15
Px(5,00) = 2/15
Px(5,25) = 2/15
Px(5,50) = 1/15
Px(5,75) = 3/15
Px(6,00) = 1/15
Px(6,25) = 2/15
Px(6,75) = 1/15
Distribución en el muestreo de la media
muestral
Px(4,50) = 1/15
Px(6,25) = 2/15
Px(5,25) = 2/15
Px(4,75) = 2/15
Px(5,50) = 1/15
Px(5,75) = 3/15
Px(x)
3/15
El valor esperado de la media
2/15
E( X ) =
1
Px(5,00) = 2/15
Px(6,75) = 1/15
Px(6,00) = 1/15
muestral es:
 2
1
∑ xPx ( x ) =(4,5)  15  + (4, 75)  15  + ... + (6, 75)  15  = 5,5
Por tanto, el valor esperado de la media muestral es la
1/15 poblacional
media
0
4,5
5,5
6,5
7,5
11
17/11/2011
Distribución en el muestreo de la media
muestral
Por tanto, la suma de las 4 variables aleatorias será:
 n

E  ∑ X i  =Sacamos
nµ x
siendo
n=4
4 papeletas
 i =1 
(n)
SeX1trata de
4 variables
aleatorias,
X2
X3
X4
cuya esperanza es:
E ( X1 ) = E ( X 2 ) = E ( X 3 ) = E ( X 4 ) = µ x
La media muestral esperada será:
E(X ) =
1  n
 nµ
E  ∑ X i  = x = µx
n  i =1 
n
LaDistribución
distribución de
muestral
centrada
enlaelmedia
muestreo
de está
la media
en la media
poblacional.
muestral
Px(x)
3/15Por el teorema central del límite, sabemos
2/15
además que sigue una distribución normal
1/15
0
4,5
5,5
6,5
7,5
12
17/11/2011
Distribución en el muestreo de la media
muestral
Media = µ + error aleatorio
4,5 = 5,5 -1
5,0 = 5,5 - 0,5
5,75 = 5,5 + 0,25
…
…
…
Cuando el número
de4muestras
Sacamos
papeletasse hace muy grande, el
promedio de las medias
(n) muestrales tiende a la media
poblacional (µ)
Distribución en el muestreo de la media
muestral
Dado que todos los elementos de la urna tenían la
misma probabilidad de ser seleccionados, el muestreo
es aleatorio, por tanto:
% unos en la muestra = % unos en la urna + error aleatorio
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
13
17/11/2011
Distribución en el muestreo de la media
muestral
521 unos en la muestra = 500 + 21
491 unos en la muestra = 500 - 9
507 unos en la muestra = 500 + 7
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
Distribución en el muestreo de la media
muestral
521 unos en la muestra = 500 + 21
491 unos en la muestra = 500 - 9
507 unos en la muestra = 500 + 7
El error aleatorio cambia con cada extracción
No es posible conocer cuánto medirá en una
extracción particular
Es posible calcular su tamaño probable (error estándar)
14
17/11/2011
Distribución en el muestreo de la media
muestral
Px(x)
3/15
2/15
1/15
0
4,5
5,5
6,5
7,5
Es posible calcular su tamaño probable (error estándar)
Distribución en el muestreo de la media
muestral
Población (N):
6 papeletas marcadas con:
2, 4, 6, 6, 7 y 8
µ = 5,5
Sacamos 4 papeletas
(n)
15 combinaciones
Sacamos 5 papeletas
(n)
6 combinaciones
15
17/11/2011
Distribución en el muestreo de la media
muestral
Todas las muestras
tienen la misma
probabilidad de ser
seleccionadas (1/6)
Sacamos 5 papeletas
(n)
6 combinaciones
La distribución muestral de la media
(función de probabilidad):
Muestra Media muestral
2, 4, 6, 6, 8
5,0
2, 4, 6, 6, 7
5,2
2, 4, 6, 7, 8
5,4
2, 4, 6, 7, 8
5,4
2, 6, 6, 7, 8
5,8
4, 6, 6, 7, 8
6,2
Px(5,0)
Px(5,2)
Px(5,4)
Px(5,8)
Px(6,2)
=
=
=
=
=
1/6
1/6
1/3
1/6
1/6
Distribución
en
el muestreo
de
la media
Px(5,0)
= 1/6
Px(5,2)
= 1/6
Px(5,4)
= 1/3
Px(5,8) = 1/6
Px(6,2)
=
1/6
muestral
Px(x)
2/6
1/6
0
4,5
5,5
6,5
7,5
Es posible calcular su tamaño probable (error estándar)
16
17/11/2011
Distribución en el muestreo de la media
muestral
Px(x)
σx
Error
estándar.
La varianza
muestral
el error se
aleatorio,
Ambas
distribuciones
dedetermina
la media muestral
centran
EE = yen
Si
n
se
incrementa,
la
varianza
muestral
disminuye.
Indica
el tamaño
del probable.
error aleatorio.
n
sirve
para
calcularprobable
su tamaño
la media
poblacional.
2/6
1/6
0
4,5
5,5
6,5
7,5
Distribución en el muestreo de la media
muestral
Px(x)
Ambas distribuciones de la media muestral se centran en la
media poblacional.
2/6
Si n se incrementa, la varianza muestral disminuye.
La varianza muestral determina el error aleatorio, y
1/6 para calcular su tamaño probable.
sirve
Error estándar.
Indica el tamaño probable del error aleatorio.
0
4,5
5,5
6,5
EE =
7,5
σx
n
17
17/11/2011
Distribución en el muestreo de la media
muestral
Siempre que el muestreo sea aleatorio:
Mientras mayor sea n, menor será el error aleatorio.
Si n respecto a N es muy pequeño, se puede asumir
que los valores individuales de la muestra se distribuyen
independientemente unos de otros.
El
error
cometido
asumir
independencia
muy pequeño,
P.e.
Muestra
de al
1.000
votantes
sobre eles censo
total de
por
lo
que
votantes en las elecciones presidenciales
españolas (N
σ
EE = x
entorno a 30 millones).
n
Probabilidad primera extracción = 1/30 millones
Probabilidad segunda extracción = 1/(30 millones – 1)
Probabilidad 999 extracción = 1/(30 millones – 999)
Distribución en el muestreo de la media
muestral
Siempre que el muestreo sea aleatorio:
Mientras mayor sea n, menor será el error aleatorio.
Si n respecto a N no es muy pequeño, no se puede asumir
que los valores individuales de la muestra se distribuyen
independientemente unos de otros.
P.e. Muestra de 4 sobres sobre 6 sobres.
El error cometido al asumir independencia es muy grande,
porProbabilidad
lo que seprimera
aplica extracción
el factor= 1/6
de corrección por
población
finita
(N – n)/(N
– 1):= 1/(6-1)
Probabilidad
segunda
extracción
σ
N −n
EE =
Probabilidad cuarta extracción = 1/(6-3)
x
n
·
N −1
18
17/11/2011
Distribución en el muestreo de la media
muestral
Si la distribución de la población es normal:
Z=
X − µx
σx
Sigue una distribución normal estándar
Si la distribución de la población no es normal pero n es
grande, Z se considera que sigue una distribución normal
estándar por el teorema central del límite.
Distribución
en el muestreo de la media
σx
X − µx
Z=
muestral
σx
n
EE =
La tasa de abortos en una cooperativa lechera sigue una
distribución normal con media 12,2% y desviación típica 3,6%. Se
toma una muestra aleatoria de 9 explotaciones. ¿Cuál es la
probabilidad de que la media muestral sea menor del
10%?
µx = 12,2
σx = 3,6
 X − µ x 10 − µ x 

10 − µ x 
P ( X < 10 ) = P 
<
 = PZ <

σ
σ
σx 
x
x



n=9
EE = σ x =
σx
n
=
3, 6
= 1, 2
9
10 − 12, 2 

P ( X < 10 ) = P  Z <
= P ( Z < −1,83)
1, 2 

P ( X < 10 ) = Fz ( −1,83) = 1 − Fz (1,83) = 1 − 0,9664
P ( X < 10 ) = 0, 0336
19
17/11/2011
Distribución en el muestreo de una
proporción muestral
Se le da la urna y se le informa que contiene un número
determinado de papeletas con ceros y unos. Se le pide
que estime sus proporciones
Agita la urna (garantizamos la aleatoriedad)
Saca 1.000 papeletas
sin reposición (n)
Distribución en el muestreo de una
proporción muestral
Si en la urna hay 5.000 papeletas con ceros y 5.000
papeletas
con unos:
Sea X el número
de éxitos en n observaciones, donde la
probabilidad de éxito es p.
Px(1)=0,5
X
pˆ x =
E ( X ) = np
En
la muestra (1.000),
Var ( X ) = np (1 − p )
n
el número esperado de
unos será:
n—p = 1.000 — 0,5 = 5000
E ( pˆ x ) = p
La proporción
esperada será:
EE ( pˆ x ) =
p(1 − p )
EE ( pˆ x ) =
p (1 − p ) N − n
·
n
N −1
p −p
(n—p)/n =n(1.000 — 0,5)/1.000
Z = x = 0,5
ˆ
EE ( pˆ x )
20
17/11/2011
Z=
pˆ x − p
Distribución
EE ( pˆ x )
en el muestreo de
EE ( una
pˆ x ) =
proporción muestral
p (1 − p )
n
Tras una epidemia de lengua azul en Córdoba, se estima que el
30% de las explotaciones resulta insegura. Se toma una muestra
de 250 explotaciones para determinar la proporción de las que
resultan inseguras. Hallar la probabilidad de que la
proporción en la muestra esté entre el 25% y el 30%.
p = 0,30
n = 250
 0, 25 − p pˆ x − p 0,35 − p 
P ( 0, 25 < pˆ x < 0, 35 ) = P 
<
<
=
 σˆ
σ pˆ
σ pˆ 
p

 0, 25 − p
0,35 − p 
= P
<Z<

 σˆ
σ pˆ 
p

(1

= 

P ( 0, 25 < pˆ x < 0, 35) = P ( −1, 72 < Z < 1, 72 ) =
 p (1 − p ) 
 0,30·0, 60 
= 
=
n




σ pˆ = 
)
 0, 30·0, 60 
= 
 = 0, 029

 250 
= Fz (1, 72) − Fz (−1, 72) = 0,9573 − (1 − 0,9573) = 0,9146
Distribución en el muestreo de la varianza
muestral
sx2 =
2
1 n
·∑ ( X i − X )
n − 1 i =1
Si la distribución poblacional es normal, entonces:
( n − 1)·sx2
σ x2
sigue una distribución
χ (2n −1)
21
17/11/2011
Distribución en el muestreo de la varianza
muestral
χ (2n −1)
Var ( χ (2n −1) ) = 2(n − 1)
E ( χ (2n −1) ) = n − 1
(n - 1) = grados de libertad
f(chi-cuadrado)
0,16
χ 52
0,12
0,08
0,04
0
0
4
8
12
16
20
24
chi-cuadrado
Distribución en el muestreo de la varianza
muestral
χ (2n −1)
E ( χ (2n −1) ) = n − 1
Var ( χ (2n −1) ) = 2(n − 1)
(n - 1) = grados de libertad
f(chi-cuadrado)
0,1
χ102
0,08
0,06
0,04
0,02
0
0
10
20
30
40
chi-cuadrado
22
17/11/2011
Distribución en el muestreo de la varianza
muestral
χυ2
Es la distribución de la suma de los
cuadrados de variables aleatorias
normales estándar independientes
Si la distribución poblacional es normal, entonces:
( n − 1)·sx2
σ x2
sigue una distribución
χ (2n −1)
( ) x
2
Distribución
en el muestreo de la varianza
χ
2
(
n −1)
σx
muestral
n − 1 ·s 2
Cuando una fábrica de piensos funciona adecuadamente, el peso
de los sacos de 50 kg sigue una distribución normal con
desviación típica 3,6. Se toma una muestra aleatoria de 4 sacos.
¿Qué probabilidad hay de que la varianza sea superior a
30?.
n=4
σx = 3,6
 (n − 1) sx2 30(n − 1) 
P ( sx2 > 30 ) = P 
>
=
2
σ x2 
 σx
30·3 

= P  χ 32 >
= P ( χ 32 > 6,94 )
12,96 

σx2 = 12,96
P ( χ 32 > 6, 25 ) = 0,10
P ( χ 32 > 7,81) = 0, 05
0, 05 < P ( sx2 > 30 ) < 0,10
23
17/11/2011
Muestreo aleatorio simple
La inferencia basada en la media muestral es robusta
debido a que si la distribución de la población de la que
extrae la muestra se desvía de la normal, el error cometido
en el cálculo de probabilidades es pequeño.
La inferencia basada en la varianza muestral es muy
sensible a las desviaciones de la distribución de la
población respecto a la normal, por lo que el error cometido
en el cálculo de probabilidades es grande.
Sesgo
Estimador = Parámetro + Error aleatorio + Sesgo
24
17/11/2011
Sesgo
Sesgo. Distorsión causada por la selección de la
muestra, que potencia o excluye cierto tipo de
resultados.
Estimador = Parámetro + Error aleatorio + Sesgo
Sesgo
Sesgo. Distorsión causada por la selección de la
muestra, que potencia o excluye cierto tipo de
resultados.
- El sesgo se controla aleatorizando el muestreo.
- Cualquier tipo de selección provoca sesgo.
- Es difícil de detectar.
- Si se detecta, tampoco se “puede” corregir.
25
17/11/2011
Sesgo
Por ejemplo. Para estudiar la opinión de los españoles
sobre la ley del aborto, hacemos una encuesta a 100.000
españoles.
Los encuestadores preguntan a la salida de misa en la
puerta de las iglesias.
La muestra es seleccionada aleatoriamente a partir del
listín telefónico.
Los encuestadores preguntan a padres y madres en la
puerta de los colegios.
Sesgo
Ejemplos de sesgo.
Los indecisos.
Sesgo de respuesta.
Sesgo de no respuesta.
Sesgo del hogar.
Sesgo del entrevistador.
26
Descargar