Subido por leonziobela

Apuntes Estadística I

Anuncio
Apuntes Estadística I
Parámetros
Las actividades de estimación, comprobación, etc., que se realizan con los resultados de una muestra, tienen
por objetivo estudiar características específicas de una población denominadas Parámetros. Los parámetros
se entienden como constantes dentro de una población ya que no dependen de una muestra n particular sino
de los N valores de la población definida. Los más frecuentes son seis:
1. Promedio: Suma total de los valores de una variable dividida por la cantidad de unidades consideradas.
2. Totales: total de los valores de una variable.
3. Proporciones: casos favorables a un determinado valor de variable respecto al total de unidades.
4. Cantidad de Casos Favorables: conteo de casos o unidades que cumplen una cierta condición en la
población (uede analizarse como una combinación de proporciones y totales)
5. Varianzas y Desviación Estándar: medidas de dispersión.
6. Razones: indicadores relacionales cuando se trabaja con dos o más variables (Proporciones,
Promedios, Tasas, etc.)
Estimadores
¿Qué son los Estimadores?
Los parámetros se estiman o comprueban utilizando los denominados estimadores o estadísticos.
Los estimadores a través de su aplicación, sirven para aproximarse a un determinado valor poblacional
desconocido (parámetro) en base a los valores (i) obtenidos de los elementos (xi) de una muestra (n). Para
cada parámetro que se desee estimar existe una serie de fórmulas algebraicas diferentes. Por ejemplo, el
estimador de la media poblacional μ puede expresarse como x̄ = ∑ xi / n (la sumatoria de todas las unidades
xi muestrales dividido por el tamaño n de la muestra).
A su vez, en muchos casos no sólo se desea estimar el parámetro sino también la distribución muestral del
estimador y/o el error por muestreo.
Los estimadores, a diferencia de los parámetros que se consideran constantes desconocidas, son
entendidos como variables aleatotrias. Esto se debe a que el valor de los mismos pueden variar entre
muestra, dependiendo de las unidades seleccionadas (y estas, a su vez, al ser seleccionadas al azar varían
de muestra en muestra)
¿Cuáles son las propiedades de los estimadores?
Existen una serie de propiedades deseables de lo estimadores que ya han sido probadas teóricamente y que
tienen su correlato en la constitución de sus expresiones algebraicas.
A grandes rasgos pueden nombrarse cuatro propiedades deseables. Se espera que el Estimador, entonces,
sea:
1. Insesgado
Según Cochran, un estimador x* de un parámetro X es insesgado si su valor medio calculado a través
de todas las muestras posibles coincide con el verdadero valor del parámetro X. Es decir, si la
esperanza matemática de estimador (x*) coincide con el valor poblacional a estimar (X).
Por ejemplo, la media muestral x̄ es un estimador insesgado del promedio poblacional μ.
2. Consistente
Se considera a un estimador x* consistente cuando su sesgo tiende a 0 al aumentar el tamaño de la
muestra (n->N ó n->∞).
Puede pensarse también que, a medida que la información obtenida mediante el muestreo aleatorio se
vuelve má completa, la distribución en el muestreo del estimador se encuentra cada vez más
concentrada alrededor del parámetro.
Dicho en términos de probabilidad, P(x* -> X*) tiende a 1 si n->N ó n->∞.
Por ejemplo, la media muestral (x̄ ) es un estimador consistente de la media poblacional (μ) ya que
cuando n tiende a infinito, la probabilidad de que x̄ -> μ se acerca a 1. A su vez, cuando n tiende a
infinito, σx̄ tiende a 0.
3. Eficiente
Un estimador x* es eficiente (o más preciso) al presentar menor varianza o desvío estándar que otros.
Es deseable que la dispersión de un estimador alrededor del parámetro sea lo más pequeña posible
4. Suficiente
Se dice que un estimador x* es suficiente cuando resume toda la información relevante contenida en la
muestra, de forma que ningún otro estimador pueda proporcionar información adicional sobre el
parámetro X desconocido de la población.
5. Robustez
Un estimador x* se considera robusto cuando se ve menos influido por valores extremos o alejados de
una variable.
Como se dijo más arriba, es deseable que un estimador posea todas estas propiedades (que tenga una
distribución en el muestreo concentrada alrededor del parámetro, que su varianza disminuya al crecer la
muestra, que su dispersión sea lo menor posible, etc.) aunque es muy raro en la práctica encontrar alguno
que satisfaga todas las condiciones imaginadas.
Estimación puntual vs. estimación por intervalos de confianza
De acuerdo con la forma en que se desee expresar esa estimación, y a los procedimientos que se esté
dispuesto a aplicar, la estimación puede ser puntual o por intervalos. En el primer caso lo que se hace es
aplicar la fórmula de un estimador a la muestra para obener una cifra como estimación del parámetro en
estudio. En el caso de la estimación por intervalos de confianza lo que busca es establecer, con un
determinada probabilidad, el intervalo (marcado por un límite inferior y un límite superior) en el que se
encuentra el valor del parámetro, en base a la utilización de las funciones de probabilidad.
Estimación puntual en una población
Cualquiera de los parámetros que caracterizan una población es factible de ser estimado de manera puntual
(el valor per se), aplicando correctamente la fórmula que le corresponde. Aclaración : durante el curso de
Estadística I se parte del supuesto que todas las muestras extraídas fueron tomadas mediante el MAS
(Muestreo Aleatorio Simple.
A continuación se presentan la forma de calcular los cinco parámetros más comunes presentados
anteriormente de manera puntual (Promedio, Totales, Cantidad de Casos Favorables y Varianza/Desvío
Estándar). En el otro apartado, se introducen las funciones de probabilidad que sirven para determinar en
ciertos casos la posibilidad de ocurrencia (por ejemplo, que un valor (x) en una distribución normal sea menor
o mayor a la media) de un suceso en base a modelos matemáticos y, sobre todo, para la estimación por
intervalos de confianza. Pero antes:
1. Media/Promedio en una población (μ) o en una muestra (x̄ )
Es generalmente el punto de partida para analizar la estimación de parámetros.
Si de una población de N unidades, con una variable xi, media poblacional desconocida μ y varianza σ2 , se
extrae una muestra de tamaño n unidades para estimar μ, siendo μ la sumatoria de todos los valores de la
población dividida por el total poblacional (μ = ∑xi / N), el estimador de μ será x̄ = ∑ xi / n.
Ejemplo: página 27 de Guía de Aspectos Conceptuales
En la CABA, una empresa lechera desea determinar el consumo promedio mensual de manteca en una
población (μ). Se realiza una encuesta a 300 personas (n), de la que se obtiene que entre todos los
encuestados consumen por mes 225kg de manteca (∑ xi).
sum_xi = 225
n = 300
x_raya = sum_xi/n
print(paste("El consumo mensual de manteca es de", x_raya, "kg. por persona. Mmm... No lo sé.
Rick"))
## [1] "El consumo mensual de manteca es de 0.75 kg. por persona. Mmm... No lo sé. Rick"
2. Total en una población (X)
El total representa la expansión de la media muestral en la población. Así, el estimador del total poblacional
(X) será la media muestral (x̄ ) multiplicada por el tamaño (N) de la población. X = N.x̄
Ejemplo: página 27 de Guía de Aspectos Conceptuales
La empresa lechera estimó que la media muestral de consumo mensual de manteca por persona en la CABA
era de 0,75kg por persona (x̄ ), sobre una encuesta a 300 personas (n) que arrojo un total de 225kg
consumidos entre todes elles (∑ xi) por mes. La intención es ahora saber cuál es el consumo total (X) de
manteca para los 3.000.000 de habitantes (N).
sum_xi = 225
n = 300
N = 3000000
x_raya = sum_xi/n
X = N*x_raya
print(paste("Los habitantes de la CABA consumen un total de", X, "kg. de manteca por mes"))
## [1] "Los habitantes de la CABA consumen un total de 2250000 kg. de manteca por mes"
3. Proporción en una población (P) o en una muestra (p)
Parte de la clasificación binaria de la variable observada, buscando contabilizar la presencia o ausencia de
esa categoría particular en la población. Siendo la población N se denomina la aparición de la categoría a en
la poblacióncomo Na.
La proporción poblacional (P) será, así, P = ∑xi / N , donde ∑xi es la sumatoria de las apariciones de la
categoría a en la población (Na), por lo que también puede expresarse como P = Na / N.
A diferencia de la media poblacional (μ), el valor de la proporción poblacional (P) -y sus correlatos muestralessiempre da un resultado que oscila entre 0 y 1, representando sus extremos la total ausencia o presencia de
dicha categoría en la población.
El estimador de la proporción poblacional (P) será la proporción muestral (p̂ o p_hat) donde para una
determinada muestra (n) y la categoría (a), se cuenta la aparición el total de ocurrencias de dicha categoría en
la muestra (na) y así se define que p̂ = na/n. También puede definirse como p̂ = ∑xi / n, tomando cada
aparición de la a como 1 para cada xi y su ausencia como 0. Es importante recordar la relación entre la
proporción y la función binomial.
Ejemplo: página 28 de Guía de Aspectos Conceptuales
Se desea estimar, continuando el ejemplo anterior, la proporción de habitantes que consume manteca en
CABA (P). Para esto se toma una nueva muestra de 300 personas (n) en las que 240 (na) refieren consumir la
misma.
n_a = 240
n = 300
p_hat = n_a/n
print(paste("Se estima que la proporción de habitantes de la CABA que consumen manteca es de"
, p_hat, "por mes"))
## [1] "Se estima que la proporción de habitantes de la CABA que consumen manteca es de 0.8 p
or mes"
4. Total de casos favorables en una población (A)
Como en el caso del total, planteado en el punto 2., muchas veces se requiere calcular sobre el total
poblacional (N) los casos favorables (total de ocurrencias de la categoría a en N). Para eso se utiliza el
estimador de casos poblacionales (A), que es en sí la expansión de la proporción muestral (p) por la
población (N). Es decir, A=N.p
Ejemplo: página 29 de Guía de Aspectos Conceptuales
Continuando con el ejemplo anterior, se desea estimar la cantidad de habitantes que consume manteca en la
CABA (A), sabiendo que la muestra anteriror de 300 (n) indicaba que (na) personas decían consumir
habitualmente manteca entre los 3.000.000 de habitantes (N).
Se desea estimar A: la cantidad de personas que consume manteca entre los habitantes de la ciudad de
Buenos Aires.
n_a = 240 #casos favorables
n = 300
N = 3000000
p_hat = n_a/n #proprocion muestral de casos favorables
A = N*p_hat #Estimador de total de casos favorables
print(paste("Se estima que un total de", A, "habitantes de la CABA consumen manteca mensualme
nte"))
## [1] "Se estima que un total de 2400000 habitantes de la CABA consumen manteca mensualment
e"
5. Estimación del Desvío Estándar (σ) o de la Varianza (σ2) en
una población o en una muestra (s ó s2)
Se trata de una estimación de la dispersión y variación de los valores poblaciones o muestrales.
Una varianza (σ2) baja indica que la mayor parte de los datos de una población (N) tienden a estar agrupados
cerca de su promedio (μ), mientras que una varianza alta indica que los datos se extienden sobre un rango de
valores más amplio. A su vez, la desviación típica (σ) es la raíz cuadrada de la varianza. Esta se calcula para
poder trabajar sobre las unidades de medida iniciales (o sea, para trabajar sobre manzanas y no mazanas al
cuadrado!)
Flashback: para calcular la varianza (s2) de una terminada muestra de datos (n), lo que hacíamos era restarle
a cada observación (xi) su media (x̄ ) y luego, sumarlas (xi), elevarlas al cuadrado ∑(xi -x)2 y dividir todo por el
total de la muestra (s2 = ∑(xi -x̄ )2 / n). Una vez hecho esto, hacíamos la raíz cuadrada y calculabamos la
desviación típica σ. El concepto de desviación típica es también la base sobre la que posteriormente se
aplicarán algunas las funciones de probabilidad de dispersión sobre otros estimadores poblacionales,
particularmente cuando se trate de aquellas poblaciones o muestras que presenten distribuciones normales (o
en forma de campana).
Entonces: ¿la varianza me sirve para algo, más que para calcular la desviación
típica?
Bueno, aunque la interpretación del valor que arroja no nos da demasiada información, su cálculo es
necesario para obtener el valor de otros parámetros.
Para calcular la covarianza ecesitamos la varianza y no la desviación típica, también para calcular algunas
matrices econométricas se utiliza la varianza y no la desviación típica. Es una cuestión de comodidad a la
hora de trabajar con los datos en según qué cálculos.
Volviendo, la varianza (σx2) de la media de una población (N) se define como σx2= ∑((xi -μ)2/N . utilizarse el
estimador de la varianza muestral (s2). El mismo se calcula como más arriba (sx2 = ∑(xi -x̄ )2 / n-1), aunque
restando el tamaño de la muestra (n) por 1. Nota: esas x que aparecen como subíndice sigifica que lo que
estamos calculando se va a usar para calcular distintas varianzas; no sólo de la media σx̄ 2, sx̄ 2 sino también
del total, σN.x̄ 2, sN.x̄ 2, la proporción σp̂ 2 , Sp̂ 2 , etc. a través de las funciones de probabilidad de desviación que
se verán a continuación. Re divertido.
En general igual, por ser más práctico, lo que se usa para calcular directamente la desviación estándar no es
la fórmula o expresión algebraica de definición más arriba sino la de trabajo, hete aquí: sx = √[1/(n-1).∑(xi)2 (n/n-1).x̄ 2]. Cómo olvidarla. Practiquísima.
Ejemplo: página 30 de Guía de Aspectos Conceptuales
Finalizando con el ejemplo anterior, Se desea estimar el desvío estándar del la media del consumo de
manteca (σx̄ ) de los habitantes de CABA (N), para lo cual con los datos de la muestra (n) se calculó que la
sumatoria de la resta del consumo de cada persona (xi) contra la media (x̄ ), elevados al cuadrado( ∑(x̄ -xi)2 ),
fue de 200 kg. Amigue, si hiciste hasta ahí terminala! Es empujar la pelota nomás! Bue
Con los otros datos presentados (muestra de 300 personas (n) de la que se obtuvo que entre todos los
encuestados consumen por mes 225kg de manteca (∑ xi) y sabiendo que hay 3.000.000 de habitantes en la
CABA (N) y, bueno, que ∑(x̄ -xi)2 = 200kg) nos piden que utilicemos esta sencilla ecuación sx = √[1/(n-1).∑(xi)2
- (n/n-1).x̄ 2] para calcular el desvío estandar de la media muestral (sx̄ ). O bueno, podemos escribir una línea
de código y ya. Vot 6.
sum_xi = 225 #sumatoria del consumo de manteca de las 300 personas de la muestra
sum_xi_menos_xraya_al_cuadrado = 200 #cuadrado de la sumatoria de la sustracción de cada cons
umo individual a la media muestral
n = 300
N = 3000000
x_raya <- sum_xi/n
s_x = sqrt((1/(n-1))*sum_xi_menos_xraya_al_cuadrado - (n/(n-1))*x_raya^2)
print(paste("La desviación estandar de consumo mensual de manteca es de", s_x, "kg. respecto
a la media"))
## [1] "La desviación estandar de consumo mensual de manteca es de 0.32328787506992 kg. respe
cto a la media"
Factor de corrección para poblaciones finitas
Algo que no se había visto hasta aquí y se debe aplicar, cuando el problema lo amerite, es el factor de
corrección para poblaciones finitas. Para aquellos casos en que N sea conocido y finito (por ejemplo, el
ejercicio en que sabemos que los habitantes de la CABA son 3.000.000), debe utilizarse el factor de
corrección a la hora de calcular las medidas de dispersión muestral.
Para esto, a la hora de estimar la varianza σ2 e base a una muestra (σx2 / n) deberemos multiplicar a la
misma por [(N-n)/(N-1)], siendo N el tamaño de la pobación y n el tamaño de la muestra. Esto igual va a ser
retomado en la fórmula de cada una de las estimaciones.
Funciones de probabilidad para el cálculo de
ocurrencias y distribución de los estimadores en
una población
Desde el punto de vista teórico, los estimadores o estadísticos poblacionales (media, total, proporción,
total de casos favorables y varianza) se construyen a partir de estadísticos muestrales. A su vez,el
estadístico muestral es una variable aleatoria: su resultado individual es incierto y, sin embargo, existe una
distribución regular de los resultados después de un gran número de repeticiones. Asimismo, el concepto de
probabilidad indica que la probabilidad de cualquier resultado de un fenómeno aleatorio es la proporción
de veces que el resultado se da después de una larga serie de repeticiones.
Entonces, por ejemplo, al considerar la media aritmética muestral (x̄ )como una variable aleatoria podemos, a
través de la aplicación de un modelo matemático, graficar su curva de densidad de probabilidad (por ejemplo,
la campana de Gauss para la distribución normal) y, a través de ella, por un lado, visualizar la forma de
distribución de dicha variable aleatoria y, en base a eso, intentar predecir la probabilidad de un valor xi .1
En otras palabras, una parte de las tareas de la Inferencia Estadística es, no sólo la estimación de los valores
paramétricos o muestrales en sí sino también el estudio de sus formas de distribución y sus probabilidades de
ocurrencia. Como partimos de que lo resultados de los estadísticos muestrales conforman una distribución
de probabilidad muestral es posible aplicar -según las condiciones del problema, el parámetro a estimar y
los datos conocidos- diferentes funciones de probabilidad (es decir, modelos matemáticos) para calcular la
probabilidad de que una variable xi tome determinado valor (o se encuentre entre determinados valores, en el
caso de los intervalos de confianza).
Por ejemplo, quiero saberun caso de la utilización de la función de probabilidad normal para estimación
puntual:
En nuestro ejemplo ya clásico de la manteca en la CABA, nos interesa saber cuál es la probabilidad de que
alguien consuma más de 2kg de manteca por mes (yo cuando hago puré de papas), habiendo estimado ya la
media poblacional de consumo de manteca por persona mensualmente (µx̄ = 0,75kg), y sabiendo que la
desviación típica (σx̄ ) es de 0,32kg. Es importantísimo aclarar que sabemos que el consumo de manteca tiene
forma de distribución normal.
Acompañenme a la cocina.
Nota: La función pnorm permite calcular la función de distribución acumulada de la distribución normal en R,
que es la probabilidad de que la variable x* tome valores menores o iguales que X. A continuación se
presenta a sintaxis de la función.
##Estimación puntual de probabilidad de la media
v = 2 #valor a evaluar de consumo de manteca
p =
pnorm(v,
mean = 0.75, #mu de x_raya
sd = 0.32, #desviacion_estandar de mu calculada en base a la muestra anterior
lower.tail = FALSE) # Si TRUE, se analiza las probabilidad de que media >= v;
# Si FALSE se analiza la probabilidad de que v > media.
print(paste("La probabilidad es", p*100, "% (o sea muy baja, lo cual es lógico porque estoy c
omo más de 3 desvíos estándar para la derecha)"))
## [1] "La probabilidad es 0.00468697650164552 % (o sea muy baja, lo cual es lógico porque es
toy como más de 3 desvíos estándar para la derecha)"
Vale aclarar que durante este curso se usan las funciones de probabilidad que se aplican a variables
continuas. Estas también se denominan funciones de densidad de probabilidad, que seben diferenciarse
de otras funciones de probabilidad que se aplican a variables discretas (no se verán en este curso).
¿Cuáles son las funciones de probabilidad más
usuales?
Como se dijo, de acuerdo a las condiciones del problema y al parámetro que se deba estimar o sobre el cual
se quiera trabajar, existen diversos tipos de funciones de probabilidad para la resolución de estos problemas.
Nota: para todos estos calculos se refieren tablas pero es mucho más fácil hacerlo con alguna app o linea de
programación. Las principales funciones son:
Función de probabilidad normal (tabla del Z score): es la principal función de probabilidad. Sirve
para evaluar la distribución de la media muestral (x̄ ), del estimador del total (X), de la proporción
muestral (p) y de cualquier otro estadístico muestral, siempre que el tamaño de la muestra (n) se
considere grande (Nota: a efectos de este curso grande es n>=100). Como se verá después, es debido
al Teorema Central del Límite que bajo ciertas condiciones se la puede aplicar a las distribuciones y
pruebas de todos los estimadores conocidos.
Función de probabilidad t de Student (tabla de t): permite evalular la distribución de la media
muestral (x̄ ) y del estimador del total (X), en casos en que el tamaño de la muestra (n) sea pequeño
(n<100). Permite realizar estimaciones y pruebas para la media y el total. Matemáticamente se calcula
también utilizando el valor z y chi cuadrado.
Lo único importante de esto es que, para encontrar su valor, hay que calcular el valor de t en base a los
grados de libertad, los cuales a su vez dependen del tamaño (n) de la muestra (grados de libertad ó
df=n-1).
Video sobre cómo usar t de Student (https://www.youtube.com/watch?v=vWbe2KeslJ4) (desde minuto
3.25)
Función de probabilidad Chi Cuadrado (tabla de Chi Cuadrado ó χ2): permite evalular la
distribución de la varianza muestral (s2), realizar estimaciones y pruebas para la varianza y la
realización de pruebas no paramétricas (continuará…). También es necesario para su cáculo contar con
los grados de libertad, determinados en base al tamaño (n) de la muestra.
Video sobre cómo usar Chi Cuadrado (https://www.youtube.com/watch?v=vWbe2KeslJ4) (hasta minuto
3.24)
Función F de probabilidad F de Snedecor (tabla de la distribución F): se utiliza en condiciones muy
particulares en las cuales se quiere trabajar en cocientes (divisiones) entre varianzas (s2). Es decir, su
principalidad utilidad es la de comparar la dispersión entre dos poblaciones. Se retomará cuando se
vean Pruebas de Hipótesis. Por ahora vale sólo subrayar que la misma se calcula como el cociente
entre los chi cuadrado de las varianzas muestrales (s2) dividida por sus respectivos grados de libertad
(nx) (es un cociente de promedios de sumas de variables normales estandarizadas al cuadrado #wtf).
La fórmula sería F = χ2(n1) / χ2(n1) y da como resultado F(n1;n2), que es la función F de Snedecor con
n1 yn2 grados de libertdad para el numerador y denominador respectivamente y lo buscas en esta
tablita:
Más claro echale agua.
La distribución de la media aritmética muestral (x̄ ),
su forma y el Teorema Central del Límite (TCL)
Antes de avanzar con la aplicación de las funciones de probabilidad al conjunto de los principales
estimadores, haremos una un poco más extensa explicación de qué es lo que sucede en el caso específico de
la media muestral (x̄ ). Esto es fundamental, ya que en base al estudio de la distribución de x̄ y su forma se
podrán realizar (o no) las estimaciones y comprobaciones necesarias.
Distribución de la media aritmética muestral
La media muestral (x̄ ) es el estimador que inicialmente se toma para analizar las distribuciones de muestreo.
Como dijimos anteriormente, se puede describir el comportamiento de un estimador mediante un modelo de
probabilidad. Entonces, en este caso, la pregunta sería ¿qué pasaría si calcularamos la media (x̄ ) muchas
veces, en diferentes muestras?
Ejemplo de la Guía conceptual Página 42
Supongamos que se analiza la variable (xi) que representa el número de hijos de una población hipotética
compuesta por un grupo de 4 parejas (N=4), donde los valores de cada una de las unidades de la población
son x1=1, x2=2, x3=3, x4=4. Esta es una población de una variable discreta con distribución uniforme, con la
siguiente forma y características:
library(ggplot2)
x1
x2
x3
x4
=
=
=
=
1
2
3
4
x_i = c(x1,x2,x3,x4) #creamos cada una de las x_i
N= length(x_i) #calculo mi N contando el total de x_i
#Hacemos un gráfico de frecuencias de los Xi
qplot(x_i, geom="histogram",
binwidth = 0.5,
xlab = "xi", ylab = "Frecuencia de xi")
Como puede observarse cada valor de vartiable tiene frecuencia 1, es decir que f(xi)=1.
Ahora, si quisieramos calcular nuestra media poblacional (μ) para nuestra población de grupos familiares (N):
x_i = c(x1 = 1, x2 = 2, x3 = 3, x4 = 4)
N= length(x_i) #calculo mi N contando el total de x_i
sum_xi = (x1+x2+x3+x4)
mu = sum_xi/N
print(paste("El promedio poblacional es de", mu,"hijos por pareja"))
## [1] "El promedio poblacional es de 2.5 hijos por pareja"
Y la varianza (σ2)y desvío estándar (σ) de la población (N), será:
varianza = ((x1-mu)^2+(x2-mu)^2+(x3-mu)^2+(x4-mu)^2)/N #revisar porque no puedo hacerlo con l
a función var()
de = sqrt(varianza)
print(paste("La varianza poblacional es de",varianza, "y el desvío estándar de", de))
## [1] "La varianza poblacional es de 1.25 y el desvío estándar de 1.11803398874989"
Entonces, tenemos una población N=4; con una media poblacional de μ= 2,5; una varianza σ2= 1,25; y un
desvío estádar σ=1,12 . Vale aclarar que estos datos poblacionales en la práctica siempre son
desconocidos.
Para estimar nuestro μ deberíamos realizar un muestreo aleatorio. En este ejemplo, se definió que se
realizaron 6 muestras diferentes, sin reposición, de tamaño 2 (n=2)2, dando como resultado:
n_1
n_2
n_3
n_4
n_5
n_6
=
=
=
=
=
=
c(1,2)
c(1,3)
c(1,4)
c(2,3)
c(2,4)
c(3,4)
#una
#una
#una
#una
#una
#una
muestra
muestra
muestra
muestra
muestra
muestra
con
con
con
con
con
con
una
una
una
una
una
una
pareja
pareja
pareja
pareja
pareja
pareja
con
con
con
con
con
con
un hijo y otra con dos hijos
un hijo y otra con tres hijos
un hijo y otra con cuatro hijos
dos hijo y otra con tres hijos
dos hijos y otra con cuatro hijos
tres hijos y otra con cuatro hijos
Si ahora se quisiese calcular la media muestral (x̄ ) para cada una de las 6 muestras de tamaño n=2 se
tendría:
x_raya_1
x_raya_2
x_raya_3
x_raya_4
x_raya_5
x_raya_6
=
=
=
=
=
=
mean(n_1)
mean(n_2)
mean(n_3)
mean(n_4)
mean(n_5)
mean(n_6)
print(paste("x_raya_1 es", x_raya_1,
", x_raya_2 es", x_raya_2,
", x_raya_3 es", x_raya_3,
", x_raya_4 es", x_raya_4,
", x_raya_5 es", x_raya_5,
", x_raya_6 es", x_raya_6))
## [1] "x_raya_1 es 1.5 , x_raya_2 es 2 , x_raya_3 es 2.5 , x_raya_4 es 2.5 , x_raya_5 es 3 ,
x_raya_6 es 3.5"
Podemos observar que en función de las distintas muestras al azar de igual tamaño que se pueden extraer de
la población, se obtienen distintos valores del estimador μx
Lo que convierte a x̄ en una nueva variable con 6 resultados (uno por cada muestra, con la repetición de las
x_raya_3 y x_raya_4), que determina la distribución de las medias muestrales:
frecuencia_x_raya = c(x_raya_1, x_raya_2, x_raya_3, x_raya_4, x_raya_5, x_raya_6)
#Hacemos un gráfico de frecuencias de los X_rayas
qplot(frecuencia_x_raya, geom="histogram",
binwidth = 0.25,
xlab = "x_raya", ylab = "Frecuencia de x_raya")
Si bien es razonable utilizar x̄ para estimar µ, al tomar seis muestras aleatorias podemos ver que sólo dos
representan exactamente a nuestra media poblacional µ. Es claro que no esperamos que x̄ sea siempre igual
a µ, y sabemos que si tomáramos otra muestra, el azar seguramente nos daría x̄ .
Así pues, si x̄ difícilmente nos da el valor exacto de µ y además su valor cambia de muestra a muestra, ¿por
qué x̄ es un estimador razonable de la media poblacional µ?3
Veamos que sucede si hacemos el promedio entre estas medias muestrales (es decir, la media de las medias
para cada x_raya)
sum_x_raya = x_raya_1 + x_raya_2 + x_raya_3 + x_raya_4 + x_raya_5 + x_raya_6
n_muestras= length(frecuencia_x_raya) #mi tamaño de muestra de x_raya
x_raya_de_rayas = sum_x_raya/n_muestras
print(paste("El promedio de las medias de", x_raya_de_rayas))
## [1] "El promedio de las medias de 2.5"
Por lo que podemos ver, al calcular el promedio de las diferentes x̄ nos da exactamente el valor de µ. Y,
viendo el gráfico anterior, puede también aseverarse que -si bien existe dispersión de las medias muestralesla moda está centrada en µ.
En un muestreo repetido, x̄ tomará algunas veces valores mayores que el verdadero valor del parámetro µ y
otras veces, valores distintos. No existe una tendencia sistemática a subestimar o a sobrestimar el valor del
parámetro. Debido a que la media de x̄ es igual a µ, decimos que x̄ es un estimador insesgado del parámetro
µ4.
Todo esto, sin embargo, ya lo sabíamos (ponele). Pero veamos ahora ¿qué pasa con la Desviación Estándar?
varianza_x_raya = ((x_raya_1-mu)^2+
(x_raya_2-mu)^2+
(x_raya_3-mu)^2+
(x_raya_4-mu)^2+
(x_raya_5-mu)^2+
(x_raya_6-mu)^2)/n_muestras #revisar porque no puedo hacerlo con la func
ión var()
de_x_raya = sqrt(varianza_x_raya)
print(paste("La varianza de las seis x̄ es de",varianza_x_raya, "y el desvío estándar de", de_
x_raya))
## [1] "La varianza de las seis x̄ es de 0.416666666666667 y el desvío estándar de 0.645497224
367903"
Es decir, para la misma población, en base a nuestro primer cálculo de frecuencias, teníamos una media
poblacional µ = 2,5. Este valor coincide con nuestro estimador µx̄ del segundo calculo, con las seis muestras.
Sin embargo, hemos reducido el desvío estandar del 1,12 hijos por grupo familiar a 0,65 hijos.
No sólo la desviación típica σ de la distribución de x̄ es menor que la desviación típica de las observaciones
individuales, sino que esta se hará aún menor a medida que el tamaño de la muestra aumente. Los resultados
de muestras grandes son menos variables que los resultados de muestras pequeñas.
Si n es grande, la desviación típica de x̄ es pequeña y casi todas las muestras dan valores de x̄ muy próximos
al verdadero parámetro µ. Es decir, se puede confiar en la media muestral de una muestra grande para
estimar de forma precisa la media poblacional.
1. Estimador de la Media (μ): Forma de la distribución
Lo visto previamente (que a un n más grande la desviación típica de la media x̄ disminuye y, por tanto, x̄ se
acerca más a los valores poblacionales) se aplica a cualquier forma en que se distribuyan las medias
muestrales (sea normal, asimétrica, etc.). Sin embargo, en Inferencia Estadística es sumamente importante
conocer la forma que toma esa distribución, ya que es en función de esto que se podrán (o no) realizar las
estimaciones y comprobaciones deseadas.
Los principales elementos que influyen en la forma que toma la distribución de la media muestral son:
1. Si el tamaño de la muestra que se extrae.
Es grande (para este curso n>100)
Es pequeño (n<100)
2. Si la distribución de la variable (x) de la población (N) de la que se extrae la muestra (n)
Es normal
Es desconocida o no normal
3. Si la varianza σ2 o desvío estándar σ de la población (N)
Es conocide
Es desconocide (y si se estima con la varianza muestral (s))
Anticipando, el único caso en que no podremos realizar estimaciones sobre el estimador de la media será
cuando el tamaño de la muestra (n) sea pequeña y se desconozca la forma de la distribución de la variable (x)
en la población.5
Para todo lo demás le echamos mano a la función de probabilidad normal o la t de student (para cuando n
<100 y la desviación estandar σ es desconocida).
El Teorema Central del Límite (TCL)
Como se dijo, los principales elementos que influyen para determinar la forma de la distribución de las medias
muestrales x̄ son tres:
El conocimiento de la forma de la distribución (o no) de la variable en la población original
El conocimiento previo (o no) de la dispersión (σ2 ó σ) de la población (N)
El tamaño de la muestra (n) tomada de la misma
De todas estas, la más importante es el tamaño de la muestra, ya que el Teorema Central del Límite (TCL)
ha demostrado que si una muestra elegida aleatoriamente es grande6, la distrbución de cualquier
función lineal de valores muestrales tiende a distribuirse normalmente.
En forma algebraica, puede resumirse diciendo que:
x̄ = ∑(xi)/n se distribuye como N(µ ; σ2 / n) cuando n ->∞
La importancia del TCL se debe a que relaciona la teoría de las probabilidades con la teoría del muestreo y, a
través de su comprobación, permite utilizar los cálculos de probabilidad de una población normal para
responder a preguntas sobre las medias muestrales de muchas observaciones, incluso cuando la
distribución de la población es desconocida o no es normal.7
Es decir, sin saber nada acerca de la distribución de la variable original (x) en la poblacion, siempre que µ y σ2
sean finitas, si el tamaño de la muestra (n) es grande la x̄ presenta una distribución normal.
Vale destacar que en la media muestral (x̄ ),la parte aleatoria es la suma muestral del numerador (∑ xi) -ya que
el denominador es una constante (el tamaño de la muestra n)- con lo cual este Teorema se generaliza a
cualquier otro caso en que un estimador esté constituido por una suma muestral, y se encuentre o no
multiplicado por una constante.
a. Estimación de la forma de distribución de la media para muestras grandes (n>100)
- Aplicación del TCL
Ejemplo: Guía Conceptual página 45
En cierto momento de la campaña agrícola 2012/2013, se desea evaluar el desarrollo de las plantas de maíz
de un campo del sur de Santa fe. Para hacerlo se decide medir la altura de 900 plantas elegidas por métodolo
aleatorio (n), sabiendo que el año anterior en ese mismo momento de la campaña, la altura de las mismas
tenía un promedio de 85cm (µx̄ ), con un desvío estándar de 6cm (σx̄ ).
Suponiendo que las medidas del año anterior se mantienen vigentes, se nos pide:
a. Determinar cuál sería la forma de la distribución de los promedios de muestras de 900 plantas elegidas
al azar.
En principio, sólo tenemos información sobre el tamaño de la muestra (n = 900), la estimación de la media
poblacional del año pasado (µx̄ = 85) y su desvío estándar (σx̄ = 6). Sin embargo, al partir de la TCL podemos
asumir que como la muestra es grande (n = 900), y µx̄ y σx̄ conocidos:
mu_x_2011 = 85 #estimación del año anterior
de_x_2011 = 6 #estimación del desvío estándar del año anterior
n_2012 = 900 #muestra actual
#esperamos que, por el tamaño muestral, x_raya_2012 = x_raya_2011
x_raya_2012 = mu_x_2011
#calculamos el desvío estandar muestral s
s_2012 = de_x_2011/sqrt(n_2012)
print(paste("Siguiendo la TCL, debido a que el tamaño de la muestra es grande (",n_2012,") pu
ede considerarse que la forma de distribución de las alturas de las plantas de maíz es de un
a normal con media muestral", x_raya_2012, "y desvío estandar muestral", s_2012))
## [1] "Siguiendo la TCL, debido a que el tamaño de la muestra es grande ( 900 ) puede consid
erarse que la forma de distribución de las alturas de las plantas de maíz es de una normal c
on media muestral 85 y desvío estandar muestral 0.2"
b. ¿Cuál es la probabilidad de que la media de la muestra sea inferior a 84,6 cm?
Para eso utilizo la función de probabilidad normal para calcular el valor estándar (z score), de la variable a
evaluar (x) en la tabla… o utilizo unas líneas de código. Lo que estoy buscando es si la probabilidad de que x
< µx̄ dado que x=84,6 y µx̄ =85 en una muestra de 900 plantas (n) con una σx̄ =0,2.
##Estimación media poblacional con funcion de probabilidad normal
x_raya = 84.6
mu = 85
de = 0.2
prob_x = pnorm(x_raya, mean= mu, sd=de, lower.tail=TRUE) #Se coloca TRUE porque se busca un v
alor de x_raya menor a la media dada (lower); si se busca comprobar si el valor es mayor que
la media se coloca FALSE
print(paste("La probabilidad de que la media sea inferior a", x_raya, " es de", round(prob_x*
100, 2), "%"))
## [1] "La probabilidad de que la media sea inferior a 84.6
es de 2.28 %"
c. Bueno, y ahora te tira: “Determinar el valor de altura de las plantas que sería superado por el 10% de
los promedios de muestras de esas características”. Quién formuló eso, Robocop?
Qué se yo. En fin.
Tenemos que hacer la operación contraria, convertir la probabilidad de robocop_raya = 0,1 ´con la tabla
estandarizada del z score a un valor poblacional y ver cuál es el valor de la altura que en vez de estar abajo
estaría un 10% arriba de =85, en una muestra de 900 plantas (n) con una σx̄ =0,2
##Estimación media poblacional con funcion de probabilidad normal
robocop_raya =
0.1
mu = 85
de = 0.2
robocop_valor = qnorm(robocop_raya, mean= mu, sd=de, lower.tail=FALSE) #Se coloca FALSE porqu
e se busca un valor de x_raya mayor a la media dada (lower=FALSE); si se busca comprobar si e
l valor es menor que la media Se coloca TRUE
print(paste("La altura que tendría que tener una planta para estar un 10% arriba de la media
es de", round(robocop_valor, 2), "cm"))
## [1] "La altura que tendría que tener una planta para estar un 10% arriba de la media es de
85.26 cm"
b. Estimación de la forma de distribución de la media para muestras pequeñas
(n<100) con variable (x) distribuída normalmente y varianza/desvío estandar
conocidos
En los casos en que la muestra n no es grande (y no se puede aplicar el Teorema Central del Límite), pero sí
se conoce o se puede comprobar que la distribución de la variable original x (la que se analiza en la
población) tiene distribución Normal, se dispone de desarrollos teóricos que demuestran que hay dos
alternativas para estimar la media, según conozcamos o no la varianza (σ2 ) o el desvío estándar (σ)de la
población:
i) Si se conoce la varianza (σ2 ) o el desvío estándar (σ) de la población, la media muestral (x̄ )
se distribuye normalmente con las mismas características del caso anterior (cuando n ~ ∞).
Ejemplo Guía Conceptual. Página: 46
Se tiene una máquina para el llenado de cajas de cereal, cuyas especificaciones de fábrica dicen que la
cantidad que coloca en cada caja (x) es una variable aleatoria que se distribuye normalmente con media µ
= 500 gr. y σ desviación estándar de 20gr.
Para verificar si el peso medio de las cajas se mantiene en 500 gr., se toma una muestra aleatoria de 25 cajas
(n) en forma periódica, pesándose el contenido de las mismas y calculando el peso promedio de la muestra.
El responsable de la planta ha decidido detener el proceso y encontrar la falla cada vez que el promedio de la
muestra sea mayor a 508 gr. o menor a 492 gr.
a. Determinar la probabilidad de que el proceso se detenga. Todo re serio.
O sea, queremos que x̄ se mantenga entre 492gr y 508 gr (492<x̄ <508), y si bien nuestra muestra de cajas es
pequeña (n=25), como ya nos fijeron que x es pequeña podemos utilizar la función de probabilidad normal.
Sabemos que la media µ = 500 gr. y σ desviación estándar de 20gr.
Primero, debemos calcular el desvío de nuestra muestra.
##Estimación con funcion de probabilidad normal
mu = 500
de = 20
n = 25
s = de/sqrt(n)
x_raya_menor = 492
x_raya_mayor = 508
prob_x_menor = pnorm(x_raya_menor, mean= mu, sd=s, lower.tail=TRUE) #Calculo la probabilidad
de que el proceso se detenga por ser menor a 492
prob_x_mayor = pnorm(x_raya_mayor, mean= mu, sd=s, lower.tail=FALSE) #Calculo la probabilidad
de que el proceso se detenga por ser mayor a 508
#sumo sus probabilidades
prob_detencion = prob_x_mayor + prob_x_menor
print(paste("La probabilidad de que el proceso se detenga es de ", round(prob_detencion*100,
2), "%"))
## [1] "La probabilidad de que el proceso se detenga es de
4.55 %"
b. Determinar el contenido (x) de las cajas que superaría al 5 % (robocop_raya = 0.05) de los promedios
de las 25 que se tomen como muestra (n).
##Estimación media poblacional con funcion de probabilidad normal
robocop_raya =
0.05
mu = 500
de = 20
n = 25
s = de/sqrt(n)
robocop_valor = qnorm(robocop_raya, mean= mu, sd=s, lower.tail=TRUE) #Se coloca TRUE porque s
e busca un valor de x_raya menor a la media dada (lower); si se busca comprobar si el valor e
s mayor que la media se coloca FALSE
print(paste("La cajas contendrían un total de", round(robocop_valor, 2), "gr. de cereal"))
## [1] "La cajas contendrían un total de 493.42 gr. de cereal"
ii) Si no se conoce la Variancia poblacional, y se debe trabajar con una estimación que provea la
misma muestra (S2), Gosset demostró que la media muestral tiene una distribución de
características similares a la Normal, pero cuya forma depende del tamaño de la muestra n. La
denominó “t de Student”. La descripción y manejo de esta función de probabilidad se mencionó
anteriormente.
Bueno, aca en el apunte no había nada. Pero sé que todes queremos trabajar con la t de student. Así que
para cumplir ese sueño:
Ejemplo 2: Cuando fui a la fábrica de cereales, me robé 8 paquetes de papas fritas (n) que hacía la misma
compañía. Soy amigo de un pibe que trabaja ahí y me dijo que entre esos paquetes hay un promedio de 125
gr de papas por paquete y que el peso sigue una distribución normal. Además el chabón tiene rayos x y me
dijo que el desvío estandar (s) de los paquetes (muestral) es de 1.5gr.
a. ¿Qué posibilidad tengo de que me toque un paquete de entre 126.5 gr. y 128 gr. de papas?
###Estimación de probabilidad de variable x con t de student
x = 126.5
x_raya = 125
n = 8
s= 1.5
t = (x-x_raya)/((s/sqrt(n)))
t
## [1] 2.828427
prob_t = pt(t, df = n-1,
lower.tail = FALSE)
print(paste("la probabilidad de que me toque un paquete con 126.5 gr. de papas o más es de ",
round(prob_t*100,2), "%"))
## [1] "la probabilidad de que me toque un paquete con 126.5 gr. de papas o más es de
%"
1.27
2. Estimador del Total (X̂ ): forma de la distribución
Ya se enumeraron algunos de los Parámetros que pueden llegar a estimarse a partir de datos muestrales.
Entre ellos figuraba el “Total” X̂ ), presentándose en ese momento las fórmulas correspondientes al parámetro
(X) y su estimador (X̂ ):
Total Poblacional : X = ∑xi = N.μ y su estimador muestral: X̂ = N.x̄
Es decir que en este caso el estimador del Total Poblacional se construye a partir del estimador de la media,
el cual ya se mencionó bajo qué condiciones puede aceptarse que se distribuye normalmente, en particular
cuando la muestra es grande y puede aplicarse el Teorema Central del Límite.
Ahora podemos entonces generalizar la manera de identificar un estadístico muestral:
Puede observarse que si la variable es cuantitativa, con k = 1/n, esa expresión es un promedio (x̄ ), mientras
que con k = N/n representa un Total (X̂ ).8
Por otro lado, la expresión de la varianza σ2/ n solo vale para la media (μ), ya que para un total (X) de una
variable (x), aplicando las propiedades arriba mencionadas para la media y la varianza σ2 , será: N2.(σ2/n).
Nota: Esto sólo principalmente a fines de entender mejor las fórmulas que serán utilizadas a continuación
para trabajar (en vez de utilizar las de definición).
En resumen: para los casos en que deban resolverse problemas de Totales de una Población, inferidos a
partir de datos muestrales, se podrá utilizar la Normal en los mismos casos vistos para la Distribución
de la Media Muestral, y la t de Student para el caso allí indicado.
Ejemplo Guía Conceptial. Página 50:
En una finca situada en el Partido de Balcarce (Provincia de Buenos Aires), se desea estimar la producción de
papas que aún no ha sido recogida. La finca dedica a ese producto una extensión de 3 km2 ( N = 3.000.000
m2), de los cuales para realizar la estimación solicitada se eligen al azar 400 unidades de 1m2 cada una (n =
400).
Los resultados de la muestra (n) indican que el total de papas recogidas en ella alcanzan a los 1.000 kg. (∑xi),
con una dispersión entre unidades de 0,4 kg (s).
En base a esa muestra se debe estimar la cantidad de papas a recoger en toda la finca (N.x̄ ), como así
también realizar una estimación de la dispersión de esa estimación (sNx̄ ).
Manos a la obra (?)
options(scipen = 999)
N= 3000000
n=400
sum_xi = 1000
s= 0.4
x_raya = sum_xi/n
N_x_raya = N*x_raya
print(paste('la estimación de la producción total de papa de la finca será', N_x_raya,'kilos
de papas'))
## [1] "la estimación de la producción total de papa de la finca será 7500000 kilos de papas"
Y ahora vamos con la dispersión del estimador del total, para el cual utilizaremos el factor de correción para
poblaciones finitas ya que conocemos el N poblacional.
s_nx = N*(s/sqrt(n)
)*sqrt((N-n)/(N-1)) #Este es el factor de corrección de poblaciones finitas
s_nx
## [1] 59996.01
print(paste('la estimación de la dispersión del estimador del total es de ', s_nx,'kilos de p
apas'))
## [1] "la estimación de la dispersión del estimador del total es de
de papas"
59996.0098659936 kilos
3 y 4. Estimador de la proporción (p̂ ) y del total de casos
favorables (A ó N.p̂ ): su forma de la distribución.
La Proporción (P) y el Total de Casos Favorables (NA) son otros de los parámetros sobre los que
analizaremos su forma de distribución. Previamente, se presentaron las fórmulas correspondientes a los
parámetros (P y NA) y sus estimadores (p̂ y N.p̂ ).
Ambos estimadores (p̂ y N.p̂ ) se construyen (aunque en forma más indirecta) a partir del estimador de la
media poblacional (𝝻 sombrerito). Como se vio en el apartado anterior, existen una serie de consideraciones
en las cuales puede aceptarse que la media poblacional se distribuye normalmente; en particular, en el caso
en que la muestra es considerada grande (n>100) y puede aplicarse el TCL.
Por lo taaanto, la distribución de los Estimadores Proporción y Cantidad de Casos Favorables Muestrales,
pueden ser considerados “casos particulares” del Teorema Central del Límite, con lo cual si n es grande se
distribuirán normalmente.
En álgebra esto se diría así:
Retomando la forma genérica de identificar un “estadístico” muestral (k.∑xi), ya que para el caso de las
proporciones la variable xi sólo puede tomar los valores cero o uno (es dicotómica), si reemplazamos k = 1/n,
esa expresión algebraica se convierte en el estimador de la proporciónl (p̂ ); si reemplazamos k = N/n, nuestra
fórmula representa el estimador de total de una clase o cantidad de casos favorables (N.p̂ ).
Y nuevamente, visualizamos, en la formulación algebraica estos estimadores, que el tamaño muestral (n) es
una variable determinante, por lo que se reafirma más arriba dicho sobre su forma de distribución y el TCL.
Como si fuera poco, Bernoulli además se encargo de demostrar que su función binomial (perdoná Bernoulli,
“tu función”, daaale) al crecer el n tendía a distribuirse como una normal, lo que luego fue generalizado para
otras funciones de variables discretas. Acá dejo un video de ejemplo de esa demostración: aproximación
de la binomial a la normal (https://www.youtube.com/watch?v=-oZytZODwSM).
Como sabemos que la binomial, gracias a la TCL, se distribuye como una normal cuando el tamaño de la
muestra (n) es grande, podemos ahora utilizar la función de probabilidad normal para inferir probabilidades
sobre el estimador de la proporción (p̂ ) y la cantidad de casos favorables (N.p̂ ). Remarcamos entonces: si n
no es grande no es posible aceptar que el estimador p̂ se distribuye normallmente, y no puede
utilizarse esta función para los trabajos de inferencia estadística.
Para poder utilizar la función de probabilidad normal (cuando se cumple el TCL), debemos estandarizar p̂ ,
como en los casos anteriores. Sin embargo, para estandrizar es necesario hacer una consideración particular
en lo que respecta a la varianza σ2 , ya que para calcular la misma sí debemos basarnos en la función
binomial.
En forma algebraica, recordemos que:
p̂ = na/n, donde na es la sumatoria de la aparición de la categoría a en nuestra muestra (también puede
definirse como p̂ = ∑xi/n, si consideramos cada aparición de a como 1 para cada xi y su ausencia como 0
para cada xi)
Por lo que si la Esperanza de p̂ = P, se espera una Varianza de(p̂ ) = P.Q9/n. Es decir, la dispersión de p̂
surgirá de la multiplicación de las chances de ocurrencia de nuestro suceso (P entre 0 y 1) y las
chances de no ocurrencia del suceso (Q, que es 1-P), sobre el tamaño de la muestra (n).
Si puede aplicarse el TCL porque la muestra es grande, se asume que la distribución de p̂ sigue una forma
normal, por lo que p̂ ~ N[P; √(P.Q/n)]
Entonces, la varianza de p̂ (σp̂ 2) sería σp̂ 2 = p̂ .q̂ /n y su desviación estándar σp̂ = √(p̂ .q̂ /n)
Si se desconoce P,puede ser estimado con p̂ , estandarizando el estimador a su z score:
z = (p̂ -P)/√(p̂ .q̂ /n)
Todo esto mismo se aplica para el estimador total de casos favorables (N.p̂ ), siempre que se pueda aplicar el
TCL y se asuma una distribución normal. La única diferencia que entra en juego el total poblacional (N). Por lo
que la fórmula para la el desvío estándar de N.p̂ , resultaría: σNp̂ = √[N2.(p̂ .q̂ /n)].
Y ahora sí, vamos con unos lindos ejemplos.
Ejemplo Guía Conceptual. Página 52:
a. En el caso anterior de la finca donde se producen papas, se desea también estimar el porcentaje de las que
presentan defectos como para ser descartadas de la producción total (p̂ .100), y la cantidad que son
defectuosas (N.p̂ ).
De un total de 37.500.000 papas (N), en una muestra observada de 5.000 (n), el total de papas con defectos
fue de 600 (na, recordar que esta es mi categoría a de casos favorables).
n= 5000
n_a = 600
p_hat = n_a/n
print(paste("El",p_hat*100,"%de las papas son unidades defectuosas" ))
## [1] "El 12 %de las papas son unidades defectuosas"
Y el total de casos favorables (si nos parece que una papa en mal estado es favorable, claro):
options(scipen=999) #para que no me aparezca el resultado en notación científica
N = 37500000
A = p_hat*N
print(paste(A, "de las papas son unidades defectuosas" ))
## [1] "4500000 de las papas son unidades defectuosas"
Y de yapa calculamos la dispersión de ambos estimadores:
s_p_hat = sqrt((p_hat)*(1-p_hat)/n) #entiendase (p_hat)*(1-p_hat) como p*q
s_A= N*s_p_hat #lo miso que arriba pero multiplicado por el total poblacional N
print(paste('el porcentaje de dispersión de la estimación de papas defectuosas es de', round
(s_p_hat*100,2),'%, lo que representa en el total de casos unas',round(s_A,2), 'papas defectu
osas.'))
## [1] "el porcentaje de dispersión de la estimación de papas defectuosas es de 0.46 %, lo qu
e representa en el total de casos unas 172336.88 papas defectuosas."
b. ¿ Qué probabilidad hay que si la proporción de papas defectuosas fuera del 15% (la voy a llamar p̂ b = 0.15,
para diferenciar), la estimación de papas defectuosas (N.p̂ b) hubiese dado 4.500.000 o menos
(A<4.500.000)?
N = 37500000 #este dato ya lo teníamos
p_hat_b = 0.15
A_b = p_hat_b*N
print(paste("Con una proporción de 15%, se hubiese esperado un total de", A_b ,"papas defectu
osas"))
## [1] "Con una proporción de 15%, se hubiese esperado un total de 5625000 papas defectuosas"
O sea, lo que tengo que ver es cuál es la probabilidad de que NA<4.500.000 (tener menos de 4.500.000 de
papas defectuosas) sabiendo que, en base a mi muestra de 5000 unidades (n=5000) con un 15% de
proporción de papas en mal estado, debo esperar 5.625.000 de papas feas (Ab).
Para poder hacer esto tengo que calcular el valor z, por lo que debo en primera instancia hallar la dispersión
estándar (s) de mi p̂ b
n= 5000
p_hat_b = 0.15
s_p_hat_b = sqrt((p_hat_b)*(1-p_hat_b)/n) #desío estandar muestral
s_A_b= N*(s_p_hat_b) #lo miso que arriba pero multiplicado por el total poblacional N
print(paste('Con un porcentaje de dispersión en la estimación de papas defectuosas del', roun
d(p_hat_b*100,2),'%, la dispersión del total de casos sería de',round(s_A_b,2), 'papas defect
uosas.'))
## [1] "Con un porcentaje de dispersión en la estimación de papas defectuosas del 15 %, la di
spersión del total de casos sería de 189365.72 papas defectuosas."
Entonces ahora, por ser una muestra grande (n=5000) puedo usar la función de probabilidad normal (pnorm)
para calcular mi z score y ver la probabilidad de que mi estimación de papas defectuosas hubiera dado
4.500.000 o menos.
N_a = 4500000
A_b = 5625000
s_A_b = 189365.72
prob_N_a = pnorm(N_a, A_b, s_A_b, lower.tail= TRUE)
print(paste('La probabilidad de que mi estimación de papas defecuosas hubiera dado', N_a, 'es
casi 0 (',prob_N_a*100, '%)'))
## [1] "La probabilidad de que mi estimación de papas defecuosas hubiera dado 4500000 es casi
0 ( 0.000000141743561789831 %)"
También puede hacerse considerando la distribución del estimador p̂ (o de la variable nA), considerando que
el valor esperado es 0,15 (o sea 750 papas), y que el que se debe comprobar es 600/5.000 = 0,12 (o 600).
Bueno, y ahora el último, que es lo mismo pero al revés:
c. ¿ Y cuál es la probabilidad de que en ese caso (o sea, p̂ b = 0,15) la estimación de la cantidad de papas
defectuosas (NA) hubiese dado 5.625.000 unidades o más?
N_a = 5625000
p_hat_b = 0.15
A_b = 5625000
s_A_b = 189365.72
prob_N_a = pnorm(N_a, A_b, s_A_b, lower.tail= FALSE)
print(paste('La probabilidad de que mi estimación de papas defecuosas hubiera dado', N_a, 'se
ría de (',prob_N_a*100, '%)'))
## [1] "La probabilidad de que mi estimación de papas defecuosas hubiera dado 5625000 sería d
e ( 50 %)"
5. Estimador de la varianza (S2) (y del desvío estandar S): su
forma de la distribución.
Con relación al estimador de la varianza (el estadístico S2), sólo se adelantará en este momento (…
saraaaan…) que dada una variable aleatoria xi que presenta una distribución normal en la población, con
media μ y variancia σ2 , es decir xi ~ N(μ; σ2);
Si se extrae de la misma población una muestra de tamaño n (x1, x2, … , xi ; siendo i variables aleatorias
independientes), y se calcula con la misma la varianza muestral (S2) para estimar la varianza poblacional (σ2):
S2 = [1/(n-1)] ∑(xi - x̄ )2
La varianza sigue una distribución denominada Chi Cuadrado (χ2), con (n-1, es decir el tamaño de la muestra
menos 1) grados de libertad, modificada por el parámetro y sus grados de libertad (meme de si vos ente.
En símbolos: (n-1).S2/σ2 se distribuye como χ2 n-1 (función de Chi Cuadrado con un total de grados de libertad
igual al de la muestra menos uno)
Esta función de probabilidad “Chi Cuadrado” fue presentada como una de las distribuciones muestrales.
Estimación por Intervalos de Confianza (IC)
##Estimación de la media poblacional por intervalos de confianza con t de student
#Ejemplo con ejercicio página 57
confianza = 0.95
x_raya <- 0.85
s <- 0.3 #dispersion muestral
n <- 16
sx<-s/sqrt(n) #dispersion de x_raya en la muestra
prob_k= 1-((1-(confianza))/2)
limite <- qt(prob_k,df=n-1)*sx
li <- x_raya-limite
ls <- x_raya+limite
print(paste("la media poblacional se encuentra entre", li, "y", ls, "con un nivel de confianz
a del", confianza*100, "%"))
## [1] "la media poblacional se encuentra entre 0.690141284083017 y 1.00985871591698 con un n
ivel de confianza del 95 %"
##Estimación varianza/desvio estandar por intervalos de confianza con chi cuadrado
confianza = 0.9
x_raya <- 14 #no es relevante para este estimador
s <- 1.5 #dispersion muestral
n <- 50 #determina grados de libertad de chi cuadrado
sx<-s/sqrt(n) #dispersion de x_raya en la muestra
prob_k= 1-((1-(confianza))/2)
li <- s^2*(n-1)/qchisq(prob_k, df=(n-1), lower.tail=TRUE)
ls <- s^2*(n-1)/qchisq(prob_k, df=(n-1), lower.tail=FALSE)
print(paste("la varianza poblacional se encuentra entre", li, "y", ls, "con un nivel de confi
anza del", confianza*100, "%"))
## [1] "la varianza poblacional se encuentra entre 1.66192712528312 y 3.24930760245783 con un
nivel de confianza del 90 %"
print(paste("la desviacion estandar poblacional se encuentra entre", sqrt(li), "y", sqrt(ls),
"con un nivel de confianza del", confianza*100, "%"))
## [1] "la desviacion estandar poblacional se encuentra entre 1.28915752539522 y 1.8025835909
7653 con un nivel de confianza del 90 %"
1. Moore, XXXX.↩︎
2. El número muestras, sin reposición, no es caprichoso. Surge del numero combinatorio “4 tomado de a
2”, que es 6.↩︎
3. Moore, XXXX, p. 298↩︎
4. Moore, XXXX, 306↩︎
5. Para algunos problemas de este tipo a veces puede recurrirse a un Teorema o Regla del cálculo de
probabilidades: la Desigualdad de Tchebycheff, que no será abordada en este curso.↩︎
6. En elTCL se toma grande como n tendiendo a infinito.↩︎
7. Moore, XXXX, p. 311↩︎
8. Lo que está haciendo, en realidad, es utilizar las propiedades matemáticas de la sumatoria para sacar
la k de la misma.↩︎
9. Donde Q=“no P” ó “1-p”↩︎
Descargar