Apuntes Estadística I Parámetros Las actividades de estimación, comprobación, etc., que se realizan con los resultados de una muestra, tienen por objetivo estudiar características específicas de una población denominadas Parámetros. Los parámetros se entienden como constantes dentro de una población ya que no dependen de una muestra n particular sino de los N valores de la población definida. Los más frecuentes son seis: 1. Promedio: Suma total de los valores de una variable dividida por la cantidad de unidades consideradas. 2. Totales: total de los valores de una variable. 3. Proporciones: casos favorables a un determinado valor de variable respecto al total de unidades. 4. Cantidad de Casos Favorables: conteo de casos o unidades que cumplen una cierta condición en la población (uede analizarse como una combinación de proporciones y totales) 5. Varianzas y Desviación Estándar: medidas de dispersión. 6. Razones: indicadores relacionales cuando se trabaja con dos o más variables (Proporciones, Promedios, Tasas, etc.) Estimadores ¿Qué son los Estimadores? Los parámetros se estiman o comprueban utilizando los denominados estimadores o estadísticos. Los estimadores a través de su aplicación, sirven para aproximarse a un determinado valor poblacional desconocido (parámetro) en base a los valores (i) obtenidos de los elementos (xi) de una muestra (n). Para cada parámetro que se desee estimar existe una serie de fórmulas algebraicas diferentes. Por ejemplo, el estimador de la media poblacional μ puede expresarse como x̄ = ∑ xi / n (la sumatoria de todas las unidades xi muestrales dividido por el tamaño n de la muestra). A su vez, en muchos casos no sólo se desea estimar el parámetro sino también la distribución muestral del estimador y/o el error por muestreo. Los estimadores, a diferencia de los parámetros que se consideran constantes desconocidas, son entendidos como variables aleatotrias. Esto se debe a que el valor de los mismos pueden variar entre muestra, dependiendo de las unidades seleccionadas (y estas, a su vez, al ser seleccionadas al azar varían de muestra en muestra) ¿Cuáles son las propiedades de los estimadores? Existen una serie de propiedades deseables de lo estimadores que ya han sido probadas teóricamente y que tienen su correlato en la constitución de sus expresiones algebraicas. A grandes rasgos pueden nombrarse cuatro propiedades deseables. Se espera que el Estimador, entonces, sea: 1. Insesgado Según Cochran, un estimador x* de un parámetro X es insesgado si su valor medio calculado a través de todas las muestras posibles coincide con el verdadero valor del parámetro X. Es decir, si la esperanza matemática de estimador (x*) coincide con el valor poblacional a estimar (X). Por ejemplo, la media muestral x̄ es un estimador insesgado del promedio poblacional μ. 2. Consistente Se considera a un estimador x* consistente cuando su sesgo tiende a 0 al aumentar el tamaño de la muestra (n->N ó n->∞). Puede pensarse también que, a medida que la información obtenida mediante el muestreo aleatorio se vuelve má completa, la distribución en el muestreo del estimador se encuentra cada vez más concentrada alrededor del parámetro. Dicho en términos de probabilidad, P(x* -> X*) tiende a 1 si n->N ó n->∞. Por ejemplo, la media muestral (x̄ ) es un estimador consistente de la media poblacional (μ) ya que cuando n tiende a infinito, la probabilidad de que x̄ -> μ se acerca a 1. A su vez, cuando n tiende a infinito, σx̄ tiende a 0. 3. Eficiente Un estimador x* es eficiente (o más preciso) al presentar menor varianza o desvío estándar que otros. Es deseable que la dispersión de un estimador alrededor del parámetro sea lo más pequeña posible 4. Suficiente Se dice que un estimador x* es suficiente cuando resume toda la información relevante contenida en la muestra, de forma que ningún otro estimador pueda proporcionar información adicional sobre el parámetro X desconocido de la población. 5. Robustez Un estimador x* se considera robusto cuando se ve menos influido por valores extremos o alejados de una variable. Como se dijo más arriba, es deseable que un estimador posea todas estas propiedades (que tenga una distribución en el muestreo concentrada alrededor del parámetro, que su varianza disminuya al crecer la muestra, que su dispersión sea lo menor posible, etc.) aunque es muy raro en la práctica encontrar alguno que satisfaga todas las condiciones imaginadas. Estimación puntual vs. estimación por intervalos de confianza De acuerdo con la forma en que se desee expresar esa estimación, y a los procedimientos que se esté dispuesto a aplicar, la estimación puede ser puntual o por intervalos. En el primer caso lo que se hace es aplicar la fórmula de un estimador a la muestra para obener una cifra como estimación del parámetro en estudio. En el caso de la estimación por intervalos de confianza lo que busca es establecer, con un determinada probabilidad, el intervalo (marcado por un límite inferior y un límite superior) en el que se encuentra el valor del parámetro, en base a la utilización de las funciones de probabilidad. Estimación puntual en una población Cualquiera de los parámetros que caracterizan una población es factible de ser estimado de manera puntual (el valor per se), aplicando correctamente la fórmula que le corresponde. Aclaración : durante el curso de Estadística I se parte del supuesto que todas las muestras extraídas fueron tomadas mediante el MAS (Muestreo Aleatorio Simple. A continuación se presentan la forma de calcular los cinco parámetros más comunes presentados anteriormente de manera puntual (Promedio, Totales, Cantidad de Casos Favorables y Varianza/Desvío Estándar). En el otro apartado, se introducen las funciones de probabilidad que sirven para determinar en ciertos casos la posibilidad de ocurrencia (por ejemplo, que un valor (x) en una distribución normal sea menor o mayor a la media) de un suceso en base a modelos matemáticos y, sobre todo, para la estimación por intervalos de confianza. Pero antes: 1. Media/Promedio en una población (μ) o en una muestra (x̄ ) Es generalmente el punto de partida para analizar la estimación de parámetros. Si de una población de N unidades, con una variable xi, media poblacional desconocida μ y varianza σ2 , se extrae una muestra de tamaño n unidades para estimar μ, siendo μ la sumatoria de todos los valores de la población dividida por el total poblacional (μ = ∑xi / N), el estimador de μ será x̄ = ∑ xi / n. Ejemplo: página 27 de Guía de Aspectos Conceptuales En la CABA, una empresa lechera desea determinar el consumo promedio mensual de manteca en una población (μ). Se realiza una encuesta a 300 personas (n), de la que se obtiene que entre todos los encuestados consumen por mes 225kg de manteca (∑ xi). sum_xi = 225 n = 300 x_raya = sum_xi/n print(paste("El consumo mensual de manteca es de", x_raya, "kg. por persona. Mmm... No lo sé. Rick")) ## [1] "El consumo mensual de manteca es de 0.75 kg. por persona. Mmm... No lo sé. Rick" 2. Total en una población (X) El total representa la expansión de la media muestral en la población. Así, el estimador del total poblacional (X) será la media muestral (x̄ ) multiplicada por el tamaño (N) de la población. X = N.x̄ Ejemplo: página 27 de Guía de Aspectos Conceptuales La empresa lechera estimó que la media muestral de consumo mensual de manteca por persona en la CABA era de 0,75kg por persona (x̄ ), sobre una encuesta a 300 personas (n) que arrojo un total de 225kg consumidos entre todes elles (∑ xi) por mes. La intención es ahora saber cuál es el consumo total (X) de manteca para los 3.000.000 de habitantes (N). sum_xi = 225 n = 300 N = 3000000 x_raya = sum_xi/n X = N*x_raya print(paste("Los habitantes de la CABA consumen un total de", X, "kg. de manteca por mes")) ## [1] "Los habitantes de la CABA consumen un total de 2250000 kg. de manteca por mes" 3. Proporción en una población (P) o en una muestra (p) Parte de la clasificación binaria de la variable observada, buscando contabilizar la presencia o ausencia de esa categoría particular en la población. Siendo la población N se denomina la aparición de la categoría a en la poblacióncomo Na. La proporción poblacional (P) será, así, P = ∑xi / N , donde ∑xi es la sumatoria de las apariciones de la categoría a en la población (Na), por lo que también puede expresarse como P = Na / N. A diferencia de la media poblacional (μ), el valor de la proporción poblacional (P) -y sus correlatos muestralessiempre da un resultado que oscila entre 0 y 1, representando sus extremos la total ausencia o presencia de dicha categoría en la población. El estimador de la proporción poblacional (P) será la proporción muestral (p̂ o p_hat) donde para una determinada muestra (n) y la categoría (a), se cuenta la aparición el total de ocurrencias de dicha categoría en la muestra (na) y así se define que p̂ = na/n. También puede definirse como p̂ = ∑xi / n, tomando cada aparición de la a como 1 para cada xi y su ausencia como 0. Es importante recordar la relación entre la proporción y la función binomial. Ejemplo: página 28 de Guía de Aspectos Conceptuales Se desea estimar, continuando el ejemplo anterior, la proporción de habitantes que consume manteca en CABA (P). Para esto se toma una nueva muestra de 300 personas (n) en las que 240 (na) refieren consumir la misma. n_a = 240 n = 300 p_hat = n_a/n print(paste("Se estima que la proporción de habitantes de la CABA que consumen manteca es de" , p_hat, "por mes")) ## [1] "Se estima que la proporción de habitantes de la CABA que consumen manteca es de 0.8 p or mes" 4. Total de casos favorables en una población (A) Como en el caso del total, planteado en el punto 2., muchas veces se requiere calcular sobre el total poblacional (N) los casos favorables (total de ocurrencias de la categoría a en N). Para eso se utiliza el estimador de casos poblacionales (A), que es en sí la expansión de la proporción muestral (p) por la población (N). Es decir, A=N.p Ejemplo: página 29 de Guía de Aspectos Conceptuales Continuando con el ejemplo anterior, se desea estimar la cantidad de habitantes que consume manteca en la CABA (A), sabiendo que la muestra anteriror de 300 (n) indicaba que (na) personas decían consumir habitualmente manteca entre los 3.000.000 de habitantes (N). Se desea estimar A: la cantidad de personas que consume manteca entre los habitantes de la ciudad de Buenos Aires. n_a = 240 #casos favorables n = 300 N = 3000000 p_hat = n_a/n #proprocion muestral de casos favorables A = N*p_hat #Estimador de total de casos favorables print(paste("Se estima que un total de", A, "habitantes de la CABA consumen manteca mensualme nte")) ## [1] "Se estima que un total de 2400000 habitantes de la CABA consumen manteca mensualment e" 5. Estimación del Desvío Estándar (σ) o de la Varianza (σ2) en una población o en una muestra (s ó s2) Se trata de una estimación de la dispersión y variación de los valores poblaciones o muestrales. Una varianza (σ2) baja indica que la mayor parte de los datos de una población (N) tienden a estar agrupados cerca de su promedio (μ), mientras que una varianza alta indica que los datos se extienden sobre un rango de valores más amplio. A su vez, la desviación típica (σ) es la raíz cuadrada de la varianza. Esta se calcula para poder trabajar sobre las unidades de medida iniciales (o sea, para trabajar sobre manzanas y no mazanas al cuadrado!) Flashback: para calcular la varianza (s2) de una terminada muestra de datos (n), lo que hacíamos era restarle a cada observación (xi) su media (x̄ ) y luego, sumarlas (xi), elevarlas al cuadrado ∑(xi -x)2 y dividir todo por el total de la muestra (s2 = ∑(xi -x̄ )2 / n). Una vez hecho esto, hacíamos la raíz cuadrada y calculabamos la desviación típica σ. El concepto de desviación típica es también la base sobre la que posteriormente se aplicarán algunas las funciones de probabilidad de dispersión sobre otros estimadores poblacionales, particularmente cuando se trate de aquellas poblaciones o muestras que presenten distribuciones normales (o en forma de campana). Entonces: ¿la varianza me sirve para algo, más que para calcular la desviación típica? Bueno, aunque la interpretación del valor que arroja no nos da demasiada información, su cálculo es necesario para obtener el valor de otros parámetros. Para calcular la covarianza ecesitamos la varianza y no la desviación típica, también para calcular algunas matrices econométricas se utiliza la varianza y no la desviación típica. Es una cuestión de comodidad a la hora de trabajar con los datos en según qué cálculos. Volviendo, la varianza (σx2) de la media de una población (N) se define como σx2= ∑((xi -μ)2/N . utilizarse el estimador de la varianza muestral (s2). El mismo se calcula como más arriba (sx2 = ∑(xi -x̄ )2 / n-1), aunque restando el tamaño de la muestra (n) por 1. Nota: esas x que aparecen como subíndice sigifica que lo que estamos calculando se va a usar para calcular distintas varianzas; no sólo de la media σx̄ 2, sx̄ 2 sino también del total, σN.x̄ 2, sN.x̄ 2, la proporción σp̂ 2 , Sp̂ 2 , etc. a través de las funciones de probabilidad de desviación que se verán a continuación. Re divertido. En general igual, por ser más práctico, lo que se usa para calcular directamente la desviación estándar no es la fórmula o expresión algebraica de definición más arriba sino la de trabajo, hete aquí: sx = √[1/(n-1).∑(xi)2 (n/n-1).x̄ 2]. Cómo olvidarla. Practiquísima. Ejemplo: página 30 de Guía de Aspectos Conceptuales Finalizando con el ejemplo anterior, Se desea estimar el desvío estándar del la media del consumo de manteca (σx̄ ) de los habitantes de CABA (N), para lo cual con los datos de la muestra (n) se calculó que la sumatoria de la resta del consumo de cada persona (xi) contra la media (x̄ ), elevados al cuadrado( ∑(x̄ -xi)2 ), fue de 200 kg. Amigue, si hiciste hasta ahí terminala! Es empujar la pelota nomás! Bue Con los otros datos presentados (muestra de 300 personas (n) de la que se obtuvo que entre todos los encuestados consumen por mes 225kg de manteca (∑ xi) y sabiendo que hay 3.000.000 de habitantes en la CABA (N) y, bueno, que ∑(x̄ -xi)2 = 200kg) nos piden que utilicemos esta sencilla ecuación sx = √[1/(n-1).∑(xi)2 - (n/n-1).x̄ 2] para calcular el desvío estandar de la media muestral (sx̄ ). O bueno, podemos escribir una línea de código y ya. Vot 6. sum_xi = 225 #sumatoria del consumo de manteca de las 300 personas de la muestra sum_xi_menos_xraya_al_cuadrado = 200 #cuadrado de la sumatoria de la sustracción de cada cons umo individual a la media muestral n = 300 N = 3000000 x_raya <- sum_xi/n s_x = sqrt((1/(n-1))*sum_xi_menos_xraya_al_cuadrado - (n/(n-1))*x_raya^2) print(paste("La desviación estandar de consumo mensual de manteca es de", s_x, "kg. respecto a la media")) ## [1] "La desviación estandar de consumo mensual de manteca es de 0.32328787506992 kg. respe cto a la media" Factor de corrección para poblaciones finitas Algo que no se había visto hasta aquí y se debe aplicar, cuando el problema lo amerite, es el factor de corrección para poblaciones finitas. Para aquellos casos en que N sea conocido y finito (por ejemplo, el ejercicio en que sabemos que los habitantes de la CABA son 3.000.000), debe utilizarse el factor de corrección a la hora de calcular las medidas de dispersión muestral. Para esto, a la hora de estimar la varianza σ2 e base a una muestra (σx2 / n) deberemos multiplicar a la misma por [(N-n)/(N-1)], siendo N el tamaño de la pobación y n el tamaño de la muestra. Esto igual va a ser retomado en la fórmula de cada una de las estimaciones. Funciones de probabilidad para el cálculo de ocurrencias y distribución de los estimadores en una población Desde el punto de vista teórico, los estimadores o estadísticos poblacionales (media, total, proporción, total de casos favorables y varianza) se construyen a partir de estadísticos muestrales. A su vez,el estadístico muestral es una variable aleatoria: su resultado individual es incierto y, sin embargo, existe una distribución regular de los resultados después de un gran número de repeticiones. Asimismo, el concepto de probabilidad indica que la probabilidad de cualquier resultado de un fenómeno aleatorio es la proporción de veces que el resultado se da después de una larga serie de repeticiones. Entonces, por ejemplo, al considerar la media aritmética muestral (x̄ )como una variable aleatoria podemos, a través de la aplicación de un modelo matemático, graficar su curva de densidad de probabilidad (por ejemplo, la campana de Gauss para la distribución normal) y, a través de ella, por un lado, visualizar la forma de distribución de dicha variable aleatoria y, en base a eso, intentar predecir la probabilidad de un valor xi .1 En otras palabras, una parte de las tareas de la Inferencia Estadística es, no sólo la estimación de los valores paramétricos o muestrales en sí sino también el estudio de sus formas de distribución y sus probabilidades de ocurrencia. Como partimos de que lo resultados de los estadísticos muestrales conforman una distribución de probabilidad muestral es posible aplicar -según las condiciones del problema, el parámetro a estimar y los datos conocidos- diferentes funciones de probabilidad (es decir, modelos matemáticos) para calcular la probabilidad de que una variable xi tome determinado valor (o se encuentre entre determinados valores, en el caso de los intervalos de confianza). Por ejemplo, quiero saberun caso de la utilización de la función de probabilidad normal para estimación puntual: En nuestro ejemplo ya clásico de la manteca en la CABA, nos interesa saber cuál es la probabilidad de que alguien consuma más de 2kg de manteca por mes (yo cuando hago puré de papas), habiendo estimado ya la media poblacional de consumo de manteca por persona mensualmente (µx̄ = 0,75kg), y sabiendo que la desviación típica (σx̄ ) es de 0,32kg. Es importantísimo aclarar que sabemos que el consumo de manteca tiene forma de distribución normal. Acompañenme a la cocina. Nota: La función pnorm permite calcular la función de distribución acumulada de la distribución normal en R, que es la probabilidad de que la variable x* tome valores menores o iguales que X. A continuación se presenta a sintaxis de la función. ##Estimación puntual de probabilidad de la media v = 2 #valor a evaluar de consumo de manteca p = pnorm(v, mean = 0.75, #mu de x_raya sd = 0.32, #desviacion_estandar de mu calculada en base a la muestra anterior lower.tail = FALSE) # Si TRUE, se analiza las probabilidad de que media >= v; # Si FALSE se analiza la probabilidad de que v > media. print(paste("La probabilidad es", p*100, "% (o sea muy baja, lo cual es lógico porque estoy c omo más de 3 desvíos estándar para la derecha)")) ## [1] "La probabilidad es 0.00468697650164552 % (o sea muy baja, lo cual es lógico porque es toy como más de 3 desvíos estándar para la derecha)" Vale aclarar que durante este curso se usan las funciones de probabilidad que se aplican a variables continuas. Estas también se denominan funciones de densidad de probabilidad, que seben diferenciarse de otras funciones de probabilidad que se aplican a variables discretas (no se verán en este curso). ¿Cuáles son las funciones de probabilidad más usuales? Como se dijo, de acuerdo a las condiciones del problema y al parámetro que se deba estimar o sobre el cual se quiera trabajar, existen diversos tipos de funciones de probabilidad para la resolución de estos problemas. Nota: para todos estos calculos se refieren tablas pero es mucho más fácil hacerlo con alguna app o linea de programación. Las principales funciones son: Función de probabilidad normal (tabla del Z score): es la principal función de probabilidad. Sirve para evaluar la distribución de la media muestral (x̄ ), del estimador del total (X), de la proporción muestral (p) y de cualquier otro estadístico muestral, siempre que el tamaño de la muestra (n) se considere grande (Nota: a efectos de este curso grande es n>=100). Como se verá después, es debido al Teorema Central del Límite que bajo ciertas condiciones se la puede aplicar a las distribuciones y pruebas de todos los estimadores conocidos. Función de probabilidad t de Student (tabla de t): permite evalular la distribución de la media muestral (x̄ ) y del estimador del total (X), en casos en que el tamaño de la muestra (n) sea pequeño (n<100). Permite realizar estimaciones y pruebas para la media y el total. Matemáticamente se calcula también utilizando el valor z y chi cuadrado. Lo único importante de esto es que, para encontrar su valor, hay que calcular el valor de t en base a los grados de libertad, los cuales a su vez dependen del tamaño (n) de la muestra (grados de libertad ó df=n-1). Video sobre cómo usar t de Student (https://www.youtube.com/watch?v=vWbe2KeslJ4) (desde minuto 3.25) Función de probabilidad Chi Cuadrado (tabla de Chi Cuadrado ó χ2): permite evalular la distribución de la varianza muestral (s2), realizar estimaciones y pruebas para la varianza y la realización de pruebas no paramétricas (continuará…). También es necesario para su cáculo contar con los grados de libertad, determinados en base al tamaño (n) de la muestra. Video sobre cómo usar Chi Cuadrado (https://www.youtube.com/watch?v=vWbe2KeslJ4) (hasta minuto 3.24) Función F de probabilidad F de Snedecor (tabla de la distribución F): se utiliza en condiciones muy particulares en las cuales se quiere trabajar en cocientes (divisiones) entre varianzas (s2). Es decir, su principalidad utilidad es la de comparar la dispersión entre dos poblaciones. Se retomará cuando se vean Pruebas de Hipótesis. Por ahora vale sólo subrayar que la misma se calcula como el cociente entre los chi cuadrado de las varianzas muestrales (s2) dividida por sus respectivos grados de libertad (nx) (es un cociente de promedios de sumas de variables normales estandarizadas al cuadrado #wtf). La fórmula sería F = χ2(n1) / χ2(n1) y da como resultado F(n1;n2), que es la función F de Snedecor con n1 yn2 grados de libertdad para el numerador y denominador respectivamente y lo buscas en esta tablita: Más claro echale agua. La distribución de la media aritmética muestral (x̄ ), su forma y el Teorema Central del Límite (TCL) Antes de avanzar con la aplicación de las funciones de probabilidad al conjunto de los principales estimadores, haremos una un poco más extensa explicación de qué es lo que sucede en el caso específico de la media muestral (x̄ ). Esto es fundamental, ya que en base al estudio de la distribución de x̄ y su forma se podrán realizar (o no) las estimaciones y comprobaciones necesarias. Distribución de la media aritmética muestral La media muestral (x̄ ) es el estimador que inicialmente se toma para analizar las distribuciones de muestreo. Como dijimos anteriormente, se puede describir el comportamiento de un estimador mediante un modelo de probabilidad. Entonces, en este caso, la pregunta sería ¿qué pasaría si calcularamos la media (x̄ ) muchas veces, en diferentes muestras? Ejemplo de la Guía conceptual Página 42 Supongamos que se analiza la variable (xi) que representa el número de hijos de una población hipotética compuesta por un grupo de 4 parejas (N=4), donde los valores de cada una de las unidades de la población son x1=1, x2=2, x3=3, x4=4. Esta es una población de una variable discreta con distribución uniforme, con la siguiente forma y características: library(ggplot2) x1 x2 x3 x4 = = = = 1 2 3 4 x_i = c(x1,x2,x3,x4) #creamos cada una de las x_i N= length(x_i) #calculo mi N contando el total de x_i #Hacemos un gráfico de frecuencias de los Xi qplot(x_i, geom="histogram", binwidth = 0.5, xlab = "xi", ylab = "Frecuencia de xi") Como puede observarse cada valor de vartiable tiene frecuencia 1, es decir que f(xi)=1. Ahora, si quisieramos calcular nuestra media poblacional (μ) para nuestra población de grupos familiares (N): x_i = c(x1 = 1, x2 = 2, x3 = 3, x4 = 4) N= length(x_i) #calculo mi N contando el total de x_i sum_xi = (x1+x2+x3+x4) mu = sum_xi/N print(paste("El promedio poblacional es de", mu,"hijos por pareja")) ## [1] "El promedio poblacional es de 2.5 hijos por pareja" Y la varianza (σ2)y desvío estándar (σ) de la población (N), será: varianza = ((x1-mu)^2+(x2-mu)^2+(x3-mu)^2+(x4-mu)^2)/N #revisar porque no puedo hacerlo con l a función var() de = sqrt(varianza) print(paste("La varianza poblacional es de",varianza, "y el desvío estándar de", de)) ## [1] "La varianza poblacional es de 1.25 y el desvío estándar de 1.11803398874989" Entonces, tenemos una población N=4; con una media poblacional de μ= 2,5; una varianza σ2= 1,25; y un desvío estádar σ=1,12 . Vale aclarar que estos datos poblacionales en la práctica siempre son desconocidos. Para estimar nuestro μ deberíamos realizar un muestreo aleatorio. En este ejemplo, se definió que se realizaron 6 muestras diferentes, sin reposición, de tamaño 2 (n=2)2, dando como resultado: n_1 n_2 n_3 n_4 n_5 n_6 = = = = = = c(1,2) c(1,3) c(1,4) c(2,3) c(2,4) c(3,4) #una #una #una #una #una #una muestra muestra muestra muestra muestra muestra con con con con con con una una una una una una pareja pareja pareja pareja pareja pareja con con con con con con un hijo y otra con dos hijos un hijo y otra con tres hijos un hijo y otra con cuatro hijos dos hijo y otra con tres hijos dos hijos y otra con cuatro hijos tres hijos y otra con cuatro hijos Si ahora se quisiese calcular la media muestral (x̄ ) para cada una de las 6 muestras de tamaño n=2 se tendría: x_raya_1 x_raya_2 x_raya_3 x_raya_4 x_raya_5 x_raya_6 = = = = = = mean(n_1) mean(n_2) mean(n_3) mean(n_4) mean(n_5) mean(n_6) print(paste("x_raya_1 es", x_raya_1, ", x_raya_2 es", x_raya_2, ", x_raya_3 es", x_raya_3, ", x_raya_4 es", x_raya_4, ", x_raya_5 es", x_raya_5, ", x_raya_6 es", x_raya_6)) ## [1] "x_raya_1 es 1.5 , x_raya_2 es 2 , x_raya_3 es 2.5 , x_raya_4 es 2.5 , x_raya_5 es 3 , x_raya_6 es 3.5" Podemos observar que en función de las distintas muestras al azar de igual tamaño que se pueden extraer de la población, se obtienen distintos valores del estimador μx Lo que convierte a x̄ en una nueva variable con 6 resultados (uno por cada muestra, con la repetición de las x_raya_3 y x_raya_4), que determina la distribución de las medias muestrales: frecuencia_x_raya = c(x_raya_1, x_raya_2, x_raya_3, x_raya_4, x_raya_5, x_raya_6) #Hacemos un gráfico de frecuencias de los X_rayas qplot(frecuencia_x_raya, geom="histogram", binwidth = 0.25, xlab = "x_raya", ylab = "Frecuencia de x_raya") Si bien es razonable utilizar x̄ para estimar µ, al tomar seis muestras aleatorias podemos ver que sólo dos representan exactamente a nuestra media poblacional µ. Es claro que no esperamos que x̄ sea siempre igual a µ, y sabemos que si tomáramos otra muestra, el azar seguramente nos daría x̄ . Así pues, si x̄ difícilmente nos da el valor exacto de µ y además su valor cambia de muestra a muestra, ¿por qué x̄ es un estimador razonable de la media poblacional µ?3 Veamos que sucede si hacemos el promedio entre estas medias muestrales (es decir, la media de las medias para cada x_raya) sum_x_raya = x_raya_1 + x_raya_2 + x_raya_3 + x_raya_4 + x_raya_5 + x_raya_6 n_muestras= length(frecuencia_x_raya) #mi tamaño de muestra de x_raya x_raya_de_rayas = sum_x_raya/n_muestras print(paste("El promedio de las medias de", x_raya_de_rayas)) ## [1] "El promedio de las medias de 2.5" Por lo que podemos ver, al calcular el promedio de las diferentes x̄ nos da exactamente el valor de µ. Y, viendo el gráfico anterior, puede también aseverarse que -si bien existe dispersión de las medias muestralesla moda está centrada en µ. En un muestreo repetido, x̄ tomará algunas veces valores mayores que el verdadero valor del parámetro µ y otras veces, valores distintos. No existe una tendencia sistemática a subestimar o a sobrestimar el valor del parámetro. Debido a que la media de x̄ es igual a µ, decimos que x̄ es un estimador insesgado del parámetro µ4. Todo esto, sin embargo, ya lo sabíamos (ponele). Pero veamos ahora ¿qué pasa con la Desviación Estándar? varianza_x_raya = ((x_raya_1-mu)^2+ (x_raya_2-mu)^2+ (x_raya_3-mu)^2+ (x_raya_4-mu)^2+ (x_raya_5-mu)^2+ (x_raya_6-mu)^2)/n_muestras #revisar porque no puedo hacerlo con la func ión var() de_x_raya = sqrt(varianza_x_raya) print(paste("La varianza de las seis x̄ es de",varianza_x_raya, "y el desvío estándar de", de_ x_raya)) ## [1] "La varianza de las seis x̄ es de 0.416666666666667 y el desvío estándar de 0.645497224 367903" Es decir, para la misma población, en base a nuestro primer cálculo de frecuencias, teníamos una media poblacional µ = 2,5. Este valor coincide con nuestro estimador µx̄ del segundo calculo, con las seis muestras. Sin embargo, hemos reducido el desvío estandar del 1,12 hijos por grupo familiar a 0,65 hijos. No sólo la desviación típica σ de la distribución de x̄ es menor que la desviación típica de las observaciones individuales, sino que esta se hará aún menor a medida que el tamaño de la muestra aumente. Los resultados de muestras grandes son menos variables que los resultados de muestras pequeñas. Si n es grande, la desviación típica de x̄ es pequeña y casi todas las muestras dan valores de x̄ muy próximos al verdadero parámetro µ. Es decir, se puede confiar en la media muestral de una muestra grande para estimar de forma precisa la media poblacional. 1. Estimador de la Media (μ): Forma de la distribución Lo visto previamente (que a un n más grande la desviación típica de la media x̄ disminuye y, por tanto, x̄ se acerca más a los valores poblacionales) se aplica a cualquier forma en que se distribuyan las medias muestrales (sea normal, asimétrica, etc.). Sin embargo, en Inferencia Estadística es sumamente importante conocer la forma que toma esa distribución, ya que es en función de esto que se podrán (o no) realizar las estimaciones y comprobaciones deseadas. Los principales elementos que influyen en la forma que toma la distribución de la media muestral son: 1. Si el tamaño de la muestra que se extrae. Es grande (para este curso n>100) Es pequeño (n<100) 2. Si la distribución de la variable (x) de la población (N) de la que se extrae la muestra (n) Es normal Es desconocida o no normal 3. Si la varianza σ2 o desvío estándar σ de la población (N) Es conocide Es desconocide (y si se estima con la varianza muestral (s)) Anticipando, el único caso en que no podremos realizar estimaciones sobre el estimador de la media será cuando el tamaño de la muestra (n) sea pequeña y se desconozca la forma de la distribución de la variable (x) en la población.5 Para todo lo demás le echamos mano a la función de probabilidad normal o la t de student (para cuando n <100 y la desviación estandar σ es desconocida). El Teorema Central del Límite (TCL) Como se dijo, los principales elementos que influyen para determinar la forma de la distribución de las medias muestrales x̄ son tres: El conocimiento de la forma de la distribución (o no) de la variable en la población original El conocimiento previo (o no) de la dispersión (σ2 ó σ) de la población (N) El tamaño de la muestra (n) tomada de la misma De todas estas, la más importante es el tamaño de la muestra, ya que el Teorema Central del Límite (TCL) ha demostrado que si una muestra elegida aleatoriamente es grande6, la distrbución de cualquier función lineal de valores muestrales tiende a distribuirse normalmente. En forma algebraica, puede resumirse diciendo que: x̄ = ∑(xi)/n se distribuye como N(µ ; σ2 / n) cuando n ->∞ La importancia del TCL se debe a que relaciona la teoría de las probabilidades con la teoría del muestreo y, a través de su comprobación, permite utilizar los cálculos de probabilidad de una población normal para responder a preguntas sobre las medias muestrales de muchas observaciones, incluso cuando la distribución de la población es desconocida o no es normal.7 Es decir, sin saber nada acerca de la distribución de la variable original (x) en la poblacion, siempre que µ y σ2 sean finitas, si el tamaño de la muestra (n) es grande la x̄ presenta una distribución normal. Vale destacar que en la media muestral (x̄ ),la parte aleatoria es la suma muestral del numerador (∑ xi) -ya que el denominador es una constante (el tamaño de la muestra n)- con lo cual este Teorema se generaliza a cualquier otro caso en que un estimador esté constituido por una suma muestral, y se encuentre o no multiplicado por una constante. a. Estimación de la forma de distribución de la media para muestras grandes (n>100) - Aplicación del TCL Ejemplo: Guía Conceptual página 45 En cierto momento de la campaña agrícola 2012/2013, se desea evaluar el desarrollo de las plantas de maíz de un campo del sur de Santa fe. Para hacerlo se decide medir la altura de 900 plantas elegidas por métodolo aleatorio (n), sabiendo que el año anterior en ese mismo momento de la campaña, la altura de las mismas tenía un promedio de 85cm (µx̄ ), con un desvío estándar de 6cm (σx̄ ). Suponiendo que las medidas del año anterior se mantienen vigentes, se nos pide: a. Determinar cuál sería la forma de la distribución de los promedios de muestras de 900 plantas elegidas al azar. En principio, sólo tenemos información sobre el tamaño de la muestra (n = 900), la estimación de la media poblacional del año pasado (µx̄ = 85) y su desvío estándar (σx̄ = 6). Sin embargo, al partir de la TCL podemos asumir que como la muestra es grande (n = 900), y µx̄ y σx̄ conocidos: mu_x_2011 = 85 #estimación del año anterior de_x_2011 = 6 #estimación del desvío estándar del año anterior n_2012 = 900 #muestra actual #esperamos que, por el tamaño muestral, x_raya_2012 = x_raya_2011 x_raya_2012 = mu_x_2011 #calculamos el desvío estandar muestral s s_2012 = de_x_2011/sqrt(n_2012) print(paste("Siguiendo la TCL, debido a que el tamaño de la muestra es grande (",n_2012,") pu ede considerarse que la forma de distribución de las alturas de las plantas de maíz es de un a normal con media muestral", x_raya_2012, "y desvío estandar muestral", s_2012)) ## [1] "Siguiendo la TCL, debido a que el tamaño de la muestra es grande ( 900 ) puede consid erarse que la forma de distribución de las alturas de las plantas de maíz es de una normal c on media muestral 85 y desvío estandar muestral 0.2" b. ¿Cuál es la probabilidad de que la media de la muestra sea inferior a 84,6 cm? Para eso utilizo la función de probabilidad normal para calcular el valor estándar (z score), de la variable a evaluar (x) en la tabla… o utilizo unas líneas de código. Lo que estoy buscando es si la probabilidad de que x < µx̄ dado que x=84,6 y µx̄ =85 en una muestra de 900 plantas (n) con una σx̄ =0,2. ##Estimación media poblacional con funcion de probabilidad normal x_raya = 84.6 mu = 85 de = 0.2 prob_x = pnorm(x_raya, mean= mu, sd=de, lower.tail=TRUE) #Se coloca TRUE porque se busca un v alor de x_raya menor a la media dada (lower); si se busca comprobar si el valor es mayor que la media se coloca FALSE print(paste("La probabilidad de que la media sea inferior a", x_raya, " es de", round(prob_x* 100, 2), "%")) ## [1] "La probabilidad de que la media sea inferior a 84.6 es de 2.28 %" c. Bueno, y ahora te tira: “Determinar el valor de altura de las plantas que sería superado por el 10% de los promedios de muestras de esas características”. Quién formuló eso, Robocop? Qué se yo. En fin. Tenemos que hacer la operación contraria, convertir la probabilidad de robocop_raya = 0,1 ´con la tabla estandarizada del z score a un valor poblacional y ver cuál es el valor de la altura que en vez de estar abajo estaría un 10% arriba de =85, en una muestra de 900 plantas (n) con una σx̄ =0,2 ##Estimación media poblacional con funcion de probabilidad normal robocop_raya = 0.1 mu = 85 de = 0.2 robocop_valor = qnorm(robocop_raya, mean= mu, sd=de, lower.tail=FALSE) #Se coloca FALSE porqu e se busca un valor de x_raya mayor a la media dada (lower=FALSE); si se busca comprobar si e l valor es menor que la media Se coloca TRUE print(paste("La altura que tendría que tener una planta para estar un 10% arriba de la media es de", round(robocop_valor, 2), "cm")) ## [1] "La altura que tendría que tener una planta para estar un 10% arriba de la media es de 85.26 cm" b. Estimación de la forma de distribución de la media para muestras pequeñas (n<100) con variable (x) distribuída normalmente y varianza/desvío estandar conocidos En los casos en que la muestra n no es grande (y no se puede aplicar el Teorema Central del Límite), pero sí se conoce o se puede comprobar que la distribución de la variable original x (la que se analiza en la población) tiene distribución Normal, se dispone de desarrollos teóricos que demuestran que hay dos alternativas para estimar la media, según conozcamos o no la varianza (σ2 ) o el desvío estándar (σ)de la población: i) Si se conoce la varianza (σ2 ) o el desvío estándar (σ) de la población, la media muestral (x̄ ) se distribuye normalmente con las mismas características del caso anterior (cuando n ~ ∞). Ejemplo Guía Conceptual. Página: 46 Se tiene una máquina para el llenado de cajas de cereal, cuyas especificaciones de fábrica dicen que la cantidad que coloca en cada caja (x) es una variable aleatoria que se distribuye normalmente con media µ = 500 gr. y σ desviación estándar de 20gr. Para verificar si el peso medio de las cajas se mantiene en 500 gr., se toma una muestra aleatoria de 25 cajas (n) en forma periódica, pesándose el contenido de las mismas y calculando el peso promedio de la muestra. El responsable de la planta ha decidido detener el proceso y encontrar la falla cada vez que el promedio de la muestra sea mayor a 508 gr. o menor a 492 gr. a. Determinar la probabilidad de que el proceso se detenga. Todo re serio. O sea, queremos que x̄ se mantenga entre 492gr y 508 gr (492<x̄ <508), y si bien nuestra muestra de cajas es pequeña (n=25), como ya nos fijeron que x es pequeña podemos utilizar la función de probabilidad normal. Sabemos que la media µ = 500 gr. y σ desviación estándar de 20gr. Primero, debemos calcular el desvío de nuestra muestra. ##Estimación con funcion de probabilidad normal mu = 500 de = 20 n = 25 s = de/sqrt(n) x_raya_menor = 492 x_raya_mayor = 508 prob_x_menor = pnorm(x_raya_menor, mean= mu, sd=s, lower.tail=TRUE) #Calculo la probabilidad de que el proceso se detenga por ser menor a 492 prob_x_mayor = pnorm(x_raya_mayor, mean= mu, sd=s, lower.tail=FALSE) #Calculo la probabilidad de que el proceso se detenga por ser mayor a 508 #sumo sus probabilidades prob_detencion = prob_x_mayor + prob_x_menor print(paste("La probabilidad de que el proceso se detenga es de ", round(prob_detencion*100, 2), "%")) ## [1] "La probabilidad de que el proceso se detenga es de 4.55 %" b. Determinar el contenido (x) de las cajas que superaría al 5 % (robocop_raya = 0.05) de los promedios de las 25 que se tomen como muestra (n). ##Estimación media poblacional con funcion de probabilidad normal robocop_raya = 0.05 mu = 500 de = 20 n = 25 s = de/sqrt(n) robocop_valor = qnorm(robocop_raya, mean= mu, sd=s, lower.tail=TRUE) #Se coloca TRUE porque s e busca un valor de x_raya menor a la media dada (lower); si se busca comprobar si el valor e s mayor que la media se coloca FALSE print(paste("La cajas contendrían un total de", round(robocop_valor, 2), "gr. de cereal")) ## [1] "La cajas contendrían un total de 493.42 gr. de cereal" ii) Si no se conoce la Variancia poblacional, y se debe trabajar con una estimación que provea la misma muestra (S2), Gosset demostró que la media muestral tiene una distribución de características similares a la Normal, pero cuya forma depende del tamaño de la muestra n. La denominó “t de Student”. La descripción y manejo de esta función de probabilidad se mencionó anteriormente. Bueno, aca en el apunte no había nada. Pero sé que todes queremos trabajar con la t de student. Así que para cumplir ese sueño: Ejemplo 2: Cuando fui a la fábrica de cereales, me robé 8 paquetes de papas fritas (n) que hacía la misma compañía. Soy amigo de un pibe que trabaja ahí y me dijo que entre esos paquetes hay un promedio de 125 gr de papas por paquete y que el peso sigue una distribución normal. Además el chabón tiene rayos x y me dijo que el desvío estandar (s) de los paquetes (muestral) es de 1.5gr. a. ¿Qué posibilidad tengo de que me toque un paquete de entre 126.5 gr. y 128 gr. de papas? ###Estimación de probabilidad de variable x con t de student x = 126.5 x_raya = 125 n = 8 s= 1.5 t = (x-x_raya)/((s/sqrt(n))) t ## [1] 2.828427 prob_t = pt(t, df = n-1, lower.tail = FALSE) print(paste("la probabilidad de que me toque un paquete con 126.5 gr. de papas o más es de ", round(prob_t*100,2), "%")) ## [1] "la probabilidad de que me toque un paquete con 126.5 gr. de papas o más es de %" 1.27 2. Estimador del Total (X̂ ): forma de la distribución Ya se enumeraron algunos de los Parámetros que pueden llegar a estimarse a partir de datos muestrales. Entre ellos figuraba el “Total” X̂ ), presentándose en ese momento las fórmulas correspondientes al parámetro (X) y su estimador (X̂ ): Total Poblacional : X = ∑xi = N.μ y su estimador muestral: X̂ = N.x̄ Es decir que en este caso el estimador del Total Poblacional se construye a partir del estimador de la media, el cual ya se mencionó bajo qué condiciones puede aceptarse que se distribuye normalmente, en particular cuando la muestra es grande y puede aplicarse el Teorema Central del Límite. Ahora podemos entonces generalizar la manera de identificar un estadístico muestral: Puede observarse que si la variable es cuantitativa, con k = 1/n, esa expresión es un promedio (x̄ ), mientras que con k = N/n representa un Total (X̂ ).8 Por otro lado, la expresión de la varianza σ2/ n solo vale para la media (μ), ya que para un total (X) de una variable (x), aplicando las propiedades arriba mencionadas para la media y la varianza σ2 , será: N2.(σ2/n). Nota: Esto sólo principalmente a fines de entender mejor las fórmulas que serán utilizadas a continuación para trabajar (en vez de utilizar las de definición). En resumen: para los casos en que deban resolverse problemas de Totales de una Población, inferidos a partir de datos muestrales, se podrá utilizar la Normal en los mismos casos vistos para la Distribución de la Media Muestral, y la t de Student para el caso allí indicado. Ejemplo Guía Conceptial. Página 50: En una finca situada en el Partido de Balcarce (Provincia de Buenos Aires), se desea estimar la producción de papas que aún no ha sido recogida. La finca dedica a ese producto una extensión de 3 km2 ( N = 3.000.000 m2), de los cuales para realizar la estimación solicitada se eligen al azar 400 unidades de 1m2 cada una (n = 400). Los resultados de la muestra (n) indican que el total de papas recogidas en ella alcanzan a los 1.000 kg. (∑xi), con una dispersión entre unidades de 0,4 kg (s). En base a esa muestra se debe estimar la cantidad de papas a recoger en toda la finca (N.x̄ ), como así también realizar una estimación de la dispersión de esa estimación (sNx̄ ). Manos a la obra (?) options(scipen = 999) N= 3000000 n=400 sum_xi = 1000 s= 0.4 x_raya = sum_xi/n N_x_raya = N*x_raya print(paste('la estimación de la producción total de papa de la finca será', N_x_raya,'kilos de papas')) ## [1] "la estimación de la producción total de papa de la finca será 7500000 kilos de papas" Y ahora vamos con la dispersión del estimador del total, para el cual utilizaremos el factor de correción para poblaciones finitas ya que conocemos el N poblacional. s_nx = N*(s/sqrt(n) )*sqrt((N-n)/(N-1)) #Este es el factor de corrección de poblaciones finitas s_nx ## [1] 59996.01 print(paste('la estimación de la dispersión del estimador del total es de ', s_nx,'kilos de p apas')) ## [1] "la estimación de la dispersión del estimador del total es de de papas" 59996.0098659936 kilos 3 y 4. Estimador de la proporción (p̂ ) y del total de casos favorables (A ó N.p̂ ): su forma de la distribución. La Proporción (P) y el Total de Casos Favorables (NA) son otros de los parámetros sobre los que analizaremos su forma de distribución. Previamente, se presentaron las fórmulas correspondientes a los parámetros (P y NA) y sus estimadores (p̂ y N.p̂ ). Ambos estimadores (p̂ y N.p̂ ) se construyen (aunque en forma más indirecta) a partir del estimador de la media poblacional (𝝻 sombrerito). Como se vio en el apartado anterior, existen una serie de consideraciones en las cuales puede aceptarse que la media poblacional se distribuye normalmente; en particular, en el caso en que la muestra es considerada grande (n>100) y puede aplicarse el TCL. Por lo taaanto, la distribución de los Estimadores Proporción y Cantidad de Casos Favorables Muestrales, pueden ser considerados “casos particulares” del Teorema Central del Límite, con lo cual si n es grande se distribuirán normalmente. En álgebra esto se diría así: Retomando la forma genérica de identificar un “estadístico” muestral (k.∑xi), ya que para el caso de las proporciones la variable xi sólo puede tomar los valores cero o uno (es dicotómica), si reemplazamos k = 1/n, esa expresión algebraica se convierte en el estimador de la proporciónl (p̂ ); si reemplazamos k = N/n, nuestra fórmula representa el estimador de total de una clase o cantidad de casos favorables (N.p̂ ). Y nuevamente, visualizamos, en la formulación algebraica estos estimadores, que el tamaño muestral (n) es una variable determinante, por lo que se reafirma más arriba dicho sobre su forma de distribución y el TCL. Como si fuera poco, Bernoulli además se encargo de demostrar que su función binomial (perdoná Bernoulli, “tu función”, daaale) al crecer el n tendía a distribuirse como una normal, lo que luego fue generalizado para otras funciones de variables discretas. Acá dejo un video de ejemplo de esa demostración: aproximación de la binomial a la normal (https://www.youtube.com/watch?v=-oZytZODwSM). Como sabemos que la binomial, gracias a la TCL, se distribuye como una normal cuando el tamaño de la muestra (n) es grande, podemos ahora utilizar la función de probabilidad normal para inferir probabilidades sobre el estimador de la proporción (p̂ ) y la cantidad de casos favorables (N.p̂ ). Remarcamos entonces: si n no es grande no es posible aceptar que el estimador p̂ se distribuye normallmente, y no puede utilizarse esta función para los trabajos de inferencia estadística. Para poder utilizar la función de probabilidad normal (cuando se cumple el TCL), debemos estandarizar p̂ , como en los casos anteriores. Sin embargo, para estandrizar es necesario hacer una consideración particular en lo que respecta a la varianza σ2 , ya que para calcular la misma sí debemos basarnos en la función binomial. En forma algebraica, recordemos que: p̂ = na/n, donde na es la sumatoria de la aparición de la categoría a en nuestra muestra (también puede definirse como p̂ = ∑xi/n, si consideramos cada aparición de a como 1 para cada xi y su ausencia como 0 para cada xi) Por lo que si la Esperanza de p̂ = P, se espera una Varianza de(p̂ ) = P.Q9/n. Es decir, la dispersión de p̂ surgirá de la multiplicación de las chances de ocurrencia de nuestro suceso (P entre 0 y 1) y las chances de no ocurrencia del suceso (Q, que es 1-P), sobre el tamaño de la muestra (n). Si puede aplicarse el TCL porque la muestra es grande, se asume que la distribución de p̂ sigue una forma normal, por lo que p̂ ~ N[P; √(P.Q/n)] Entonces, la varianza de p̂ (σp̂ 2) sería σp̂ 2 = p̂ .q̂ /n y su desviación estándar σp̂ = √(p̂ .q̂ /n) Si se desconoce P,puede ser estimado con p̂ , estandarizando el estimador a su z score: z = (p̂ -P)/√(p̂ .q̂ /n) Todo esto mismo se aplica para el estimador total de casos favorables (N.p̂ ), siempre que se pueda aplicar el TCL y se asuma una distribución normal. La única diferencia que entra en juego el total poblacional (N). Por lo que la fórmula para la el desvío estándar de N.p̂ , resultaría: σNp̂ = √[N2.(p̂ .q̂ /n)]. Y ahora sí, vamos con unos lindos ejemplos. Ejemplo Guía Conceptual. Página 52: a. En el caso anterior de la finca donde se producen papas, se desea también estimar el porcentaje de las que presentan defectos como para ser descartadas de la producción total (p̂ .100), y la cantidad que son defectuosas (N.p̂ ). De un total de 37.500.000 papas (N), en una muestra observada de 5.000 (n), el total de papas con defectos fue de 600 (na, recordar que esta es mi categoría a de casos favorables). n= 5000 n_a = 600 p_hat = n_a/n print(paste("El",p_hat*100,"%de las papas son unidades defectuosas" )) ## [1] "El 12 %de las papas son unidades defectuosas" Y el total de casos favorables (si nos parece que una papa en mal estado es favorable, claro): options(scipen=999) #para que no me aparezca el resultado en notación científica N = 37500000 A = p_hat*N print(paste(A, "de las papas son unidades defectuosas" )) ## [1] "4500000 de las papas son unidades defectuosas" Y de yapa calculamos la dispersión de ambos estimadores: s_p_hat = sqrt((p_hat)*(1-p_hat)/n) #entiendase (p_hat)*(1-p_hat) como p*q s_A= N*s_p_hat #lo miso que arriba pero multiplicado por el total poblacional N print(paste('el porcentaje de dispersión de la estimación de papas defectuosas es de', round (s_p_hat*100,2),'%, lo que representa en el total de casos unas',round(s_A,2), 'papas defectu osas.')) ## [1] "el porcentaje de dispersión de la estimación de papas defectuosas es de 0.46 %, lo qu e representa en el total de casos unas 172336.88 papas defectuosas." b. ¿ Qué probabilidad hay que si la proporción de papas defectuosas fuera del 15% (la voy a llamar p̂ b = 0.15, para diferenciar), la estimación de papas defectuosas (N.p̂ b) hubiese dado 4.500.000 o menos (A<4.500.000)? N = 37500000 #este dato ya lo teníamos p_hat_b = 0.15 A_b = p_hat_b*N print(paste("Con una proporción de 15%, se hubiese esperado un total de", A_b ,"papas defectu osas")) ## [1] "Con una proporción de 15%, se hubiese esperado un total de 5625000 papas defectuosas" O sea, lo que tengo que ver es cuál es la probabilidad de que NA<4.500.000 (tener menos de 4.500.000 de papas defectuosas) sabiendo que, en base a mi muestra de 5000 unidades (n=5000) con un 15% de proporción de papas en mal estado, debo esperar 5.625.000 de papas feas (Ab). Para poder hacer esto tengo que calcular el valor z, por lo que debo en primera instancia hallar la dispersión estándar (s) de mi p̂ b n= 5000 p_hat_b = 0.15 s_p_hat_b = sqrt((p_hat_b)*(1-p_hat_b)/n) #desío estandar muestral s_A_b= N*(s_p_hat_b) #lo miso que arriba pero multiplicado por el total poblacional N print(paste('Con un porcentaje de dispersión en la estimación de papas defectuosas del', roun d(p_hat_b*100,2),'%, la dispersión del total de casos sería de',round(s_A_b,2), 'papas defect uosas.')) ## [1] "Con un porcentaje de dispersión en la estimación de papas defectuosas del 15 %, la di spersión del total de casos sería de 189365.72 papas defectuosas." Entonces ahora, por ser una muestra grande (n=5000) puedo usar la función de probabilidad normal (pnorm) para calcular mi z score y ver la probabilidad de que mi estimación de papas defectuosas hubiera dado 4.500.000 o menos. N_a = 4500000 A_b = 5625000 s_A_b = 189365.72 prob_N_a = pnorm(N_a, A_b, s_A_b, lower.tail= TRUE) print(paste('La probabilidad de que mi estimación de papas defecuosas hubiera dado', N_a, 'es casi 0 (',prob_N_a*100, '%)')) ## [1] "La probabilidad de que mi estimación de papas defecuosas hubiera dado 4500000 es casi 0 ( 0.000000141743561789831 %)" También puede hacerse considerando la distribución del estimador p̂ (o de la variable nA), considerando que el valor esperado es 0,15 (o sea 750 papas), y que el que se debe comprobar es 600/5.000 = 0,12 (o 600). Bueno, y ahora el último, que es lo mismo pero al revés: c. ¿ Y cuál es la probabilidad de que en ese caso (o sea, p̂ b = 0,15) la estimación de la cantidad de papas defectuosas (NA) hubiese dado 5.625.000 unidades o más? N_a = 5625000 p_hat_b = 0.15 A_b = 5625000 s_A_b = 189365.72 prob_N_a = pnorm(N_a, A_b, s_A_b, lower.tail= FALSE) print(paste('La probabilidad de que mi estimación de papas defecuosas hubiera dado', N_a, 'se ría de (',prob_N_a*100, '%)')) ## [1] "La probabilidad de que mi estimación de papas defecuosas hubiera dado 5625000 sería d e ( 50 %)" 5. Estimador de la varianza (S2) (y del desvío estandar S): su forma de la distribución. Con relación al estimador de la varianza (el estadístico S2), sólo se adelantará en este momento (… saraaaan…) que dada una variable aleatoria xi que presenta una distribución normal en la población, con media μ y variancia σ2 , es decir xi ~ N(μ; σ2); Si se extrae de la misma población una muestra de tamaño n (x1, x2, … , xi ; siendo i variables aleatorias independientes), y se calcula con la misma la varianza muestral (S2) para estimar la varianza poblacional (σ2): S2 = [1/(n-1)] ∑(xi - x̄ )2 La varianza sigue una distribución denominada Chi Cuadrado (χ2), con (n-1, es decir el tamaño de la muestra menos 1) grados de libertad, modificada por el parámetro y sus grados de libertad (meme de si vos ente. En símbolos: (n-1).S2/σ2 se distribuye como χ2 n-1 (función de Chi Cuadrado con un total de grados de libertad igual al de la muestra menos uno) Esta función de probabilidad “Chi Cuadrado” fue presentada como una de las distribuciones muestrales. Estimación por Intervalos de Confianza (IC) ##Estimación de la media poblacional por intervalos de confianza con t de student #Ejemplo con ejercicio página 57 confianza = 0.95 x_raya <- 0.85 s <- 0.3 #dispersion muestral n <- 16 sx<-s/sqrt(n) #dispersion de x_raya en la muestra prob_k= 1-((1-(confianza))/2) limite <- qt(prob_k,df=n-1)*sx li <- x_raya-limite ls <- x_raya+limite print(paste("la media poblacional se encuentra entre", li, "y", ls, "con un nivel de confianz a del", confianza*100, "%")) ## [1] "la media poblacional se encuentra entre 0.690141284083017 y 1.00985871591698 con un n ivel de confianza del 95 %" ##Estimación varianza/desvio estandar por intervalos de confianza con chi cuadrado confianza = 0.9 x_raya <- 14 #no es relevante para este estimador s <- 1.5 #dispersion muestral n <- 50 #determina grados de libertad de chi cuadrado sx<-s/sqrt(n) #dispersion de x_raya en la muestra prob_k= 1-((1-(confianza))/2) li <- s^2*(n-1)/qchisq(prob_k, df=(n-1), lower.tail=TRUE) ls <- s^2*(n-1)/qchisq(prob_k, df=(n-1), lower.tail=FALSE) print(paste("la varianza poblacional se encuentra entre", li, "y", ls, "con un nivel de confi anza del", confianza*100, "%")) ## [1] "la varianza poblacional se encuentra entre 1.66192712528312 y 3.24930760245783 con un nivel de confianza del 90 %" print(paste("la desviacion estandar poblacional se encuentra entre", sqrt(li), "y", sqrt(ls), "con un nivel de confianza del", confianza*100, "%")) ## [1] "la desviacion estandar poblacional se encuentra entre 1.28915752539522 y 1.8025835909 7653 con un nivel de confianza del 90 %" 1. Moore, XXXX.↩︎ 2. El número muestras, sin reposición, no es caprichoso. Surge del numero combinatorio “4 tomado de a 2”, que es 6.↩︎ 3. Moore, XXXX, p. 298↩︎ 4. Moore, XXXX, 306↩︎ 5. Para algunos problemas de este tipo a veces puede recurrirse a un Teorema o Regla del cálculo de probabilidades: la Desigualdad de Tchebycheff, que no será abordada en este curso.↩︎ 6. En elTCL se toma grande como n tendiendo a infinito.↩︎ 7. Moore, XXXX, p. 311↩︎ 8. Lo que está haciendo, en realidad, es utilizar las propiedades matemáticas de la sumatoria para sacar la k de la misma.↩︎ 9. Donde Q=“no P” ó “1-p”↩︎