ESTIMACIÓN DE PARÁMETRO HAMLET MATA MATA PROF. DE LA UNIVERSIDAD POLITÉCNICA DE EL TIGRE-VENEZUELA INTRODUCCIÓN Es muy interesante conocer las características de las muestras. El cálculo de los estadísticos o índices que las definen y describen son netos y muy rentable. Pero en ocasiones nos preguntamos por las características de la población de origen de donde proceden las muestras. El objetivo parece ambicioso: se trata de conocer lo que por definición es inalcanzable. Normalmente las poblaciones son inabarcables puesto que son infinitas, o en el mejor de los casos cuasi-infinitas, lo cual nos deja como estábamos. Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los estadísticos o estadígrafos en las muestras. Un estadístico es una función de la muestra, esto es, depende sola y exclusivamente de nuestra muestra. Varía y está sometido al error (variabilidad) del muestreo. Los parámetros no varían, son constantes y además desconocidos. Contienen las características de la población. En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa. La inferencia estadística se ocupa, entre otras cuestiones, de los procedimientos de estimación de parámetros desconocidos de la distribución de una variable aleatoria o de la población, a partir de la información suministrada por una muestra de tamaño reducido, extraída al azar. La estimación de parámetros por intervalos, permite construir un intervalo que contendrá el parámetro a estimar con una confianza fijada a priori por el experimentador. El objetivo más importante de la Estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población. Se han estudiado, hasta el momento, las nociones fundamentales de distribución de probabilidades; se está en condiciones, entonces, de tratar los métodos de inferencia estadística, los cuales comprenden los procedimientos para estimar parámetros de poblaciones y probar (contrastar) si una afirmación provisional sobre un parámetro poblacional se ve apoyada o desaprobada ante la evidencia de la muestra. Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia deductiva es un juicio o generalización que se basa en un razonamiento o proceso dialéctico a priori. Por ejemplo, se supone que dos monedas están perfectamente equilibradas y que entonces la probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o número esperado de "caras" en la jugada de las monedas deber ser 1 (conclusión). Si las premisas son ciertas, las conclusiones no pueden ser falsas. Una inferencia inductiva, por otra parte, es un juicio o generalización derivado de observaciones empíricas o experimentales; la conclusión sobre el número promedio de "caras" con base en los resultados de una muestra de prueba. Si los resultados de las pruebas son diferentes, la conclusión también será diferente. No se requiere una suposición a priori sobre la naturaleza de las monedas. La inferencia estadística es primordialmente de naturaleza inductiva y llega a generalizaciones respecto de las características de una población al valerse de observaciones empíricas de la muestra. Es muy probable que una estadística muestral sea diferente del parámetro de la población y sólo por coincidencia sería el uno exactamente igual al otro. La diferencia entre el valor de una esta dística muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Sólo se sabría cuál es el error si se conociera el parámetro poblacional, pero éste por lo general se desconoce. La única manera de tener alguna certeza al respecto es hacer todas las observaciones posibles del total de la población en la mayoría de las aplicaciones prácticas, lo cual, desde luego, es imposible o impracticable. Y en efecto, la razón de ser de la inferencia estadística es la falta de conocimientos acerca de las características de la población. Pero que tales características se desconozcan no impide el que se actúe. Las inferencias estadísticas se hacen por posibilidades o probabilidades. De la media de la muestra se hacen inferencias sobre la media de la población. No se sabe exactamente cuál es la diferencia entre estas dos medias, ya que la última es desconocida en la mayoría de los casos. No obstante, si se sabe que es más bien poca la probabilidad de que esta diferencia sea mayor que, por ejemplo, tres a aún dos errores estándares. Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos clases: los problemas de estimación y los de prueba de hipótesis. Como al estimar un parámetro poblacional desconocido se suele hacer una afirmación o juicio este último ofrece solamente una estimación. Es un valor particular obtenido de observaciones de la muestra. No hay que confundir este concepto con el de estimador, que se refiere a la regla o método de estimar un parámetro poblacional. Por ejemplo, se dice que X es un estimador de porque la media muestral proporciona un método para estimar la media de la población. Un estimador es por naturaleza un estadístico y como tal tiene una distribución. El procedimiento mediante el cual se llega a la obtención y se analizan los estimadores se llama estimación estadística, que a su vez se divide en estimación puntual y estimación por intervalos. En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa. Uno de los principales objetivos de la estadística inferencial es estimar parámetros poblacionales. Desde el punto de vista matemático, los parámetros son valores que definen la forma y localización de un modelo probabilístico. Los parámetros poblacionales son constantes que caracterizan una población. Estos parámetros pueden ser de ubicación (como la media, mediana, proporción) o de dispersión (como la varianza o coeficiente de variación). Los parámetros se estiman mediante el muestreo de la población. Los valores que se calculan a partir de muestras para estimar parametros se llaman estimadores. Los estimadores se calculan mediante reglas matemáticas (fórmulas) a partir de los elementos de la muestra. Por ejemplo, la media muestral, un estimador de la media poblacional se calcula como: La selección de elementos en una muestra se puede hacer de distintas formas, El muestreo aleatorio es la selección al azar de los elementos que constituyen una población. El muestreo puede ser sin reemplazo, en este caso, los elementos que se extraen no son devueltos. El muestreo con reemplazo ocurre cuando el elemento extraído es devuelto a la población. En el caso de que el tamaño de la población sea muy grande, el muestreo sin reemplazo no afecta las estimaciones, de lo contrario debe considerarse el efecto de la extracción de los elementos de la población. La selección y extracción aleatoria de los elementos de la población para realizar inferencias sobre atributos poblacionales es necesaria para evitar sesgos, lograr independencia entre las observaciones y mantener objetividad en las inferencias realizadas. Puesto que los elementos de la muestra varían de manera impredecible (si la extracción es aleatoria), los estimadores también varían. Por lo tanto, los estimadores son variables aleatorias. Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas (padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición, medianas o cuartiles. Esto es lógico cuando hablamos de dinero. La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es recomendable presentar también el error estándar y tamaño de muestra 2 Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media poblacional, la proporción observada en la muestra es un estimador de la proporción en la población. Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y la desviación típica, también denominada error típico de estimación, que indica la desviación promedio que podemos esperar entre el estimador y el valor del parámetro. Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará el parámetro, con un nivel de confianza fijado de antemano. Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parámetro que se está estimando. Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del parámetro. Se indica por 1 habitualmente se da en porcentaje (1- )100%. Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1- )% de los intervalos así construidos contendría al verdadero valor del parámetro. Por lo general los nivele de confianza más utilizados son: 99, 95 y 90 %, a estos se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo contenga el valor desconocido del parámetro; estos son simplemente convencionales. Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza (LSC). Esos limites se encuentran calculando primero la media muestral, X . Luego se suma una cierta cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC, estos valores que se suman y restan a la media muestral se les denominan errores de estimación. Confianza e Intervalos de confianza La estimación de parámetros mediante un solo valor se conoce como estimación puntual. Es bastante arriesgada puesto que no conocemos ni la imprecisión ni se establece el grado de confianza que nos merece el resultado. Estos dos inconvenientes se obvian con la estimación por intervalos confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza. Por otro proporcionan un valor de la fiabilidad que nos debería merecer nuestra estimación, o nivel de confianza. Afortunadamente algo tan sutil como la confianza se puede cuantificar, y no sólo eso sino que se mueve en unos límites tan cómodos para el pensamiento como son entre el cero y el cien por ciento. Por convenio, y nadie parece en desacuerdo, para la mayoría de las ocasiones una confianza del 95% parece suficiente. Este es el valor que gobierna la longitud del intervalo de confianza. ¿Como se interpreta una confianza del 95%?. Si llevamos a cabo un experimento 100 veces obtendríamos 100 distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100 intervalos, 95 de ellos cubrirían el valor del verdadero parámetro poblacional. Desgraciada o afortunadamente, nosotros solo realizamos el experimento una sola vez. Con lo que nunca sabremos si nuestro intervalo es uno de esos 95 que contienen el parámetro de estudio. Técnicamente, aunque esto suene a una sofisticación innecesaria, no podemos asociar el concepto de nivel de confianza con el concepto de probabilidad. Así no se puede establecer que tenemos una probabilidad del 95% de que el parámetro buscado este dentro de nuestro intervalo. Las técnicas de estimación de parámetros poblacionales se incluyen dentro de la estadística inferencial. Un Teorema Importante Todos los parámetros poblacionales pueden ser estimados a partir de técnicas de estimación. La mayoría de los estimadores se basan en la distribución de los estadísticos en el muestreo y toman como base algunas propiedades deseables del teorema del límite central. Este teorema tiene unas propiedades tan deseables que es la base de la estadística analítica. Viene a decir fundamentalmente dos cosas: 3 1.- Que las muestras individualmente son diferentes de las poblaciones pero en conjunto son muy parecidas 2. Que las muestras no son gobernadas por el azar, sino que en conjunto siguen, no importa de lo que estemos tratando, las leyes universales de las funciones teóricas de probabilidad. La función de probabilidad normal rige, en la mayoría de las ocasiones cuando las muestras son mayores de 30, estas distribuciones muestrales. Otro Enfoque Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas (padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición, medianas o cuartiles. Esto es lógico cuando hablamos de dinero. La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es recomendable presentar también el error estándar y tamaño de muestra. ESTIMACIÓN DE PARÁMETROS La teoría clásica de la Inferencia Estadística trata de los métodos por los cuales se selecciona una muestra de una población y, basándose en las pruebas de las muestras, se trata de: * Estimar el valor de un parámetro desconocido, por ejemplo θ. * Verificar si θ es o no igual a cierto valor predeterminado, por ejemplo θ 0. El primero de estos dos procedimientos, de inferir de una muestra a una población, se llama estimación de un parámetro; el segundo, prueba de una hipótesis acerca de un parámetro. Dentro del primer procedimiento, la estimación de un parámetro puede tener por resultado un solo punto (estimación puntual), o un intervalo dentro del cual exista cierta probabilidad de encontrarlo (estimación por intervalos). Un estimador puntual es un único punto o valor, el cual se considera va a estimar a un parámetro. La expresión E( ) = sugiere que el único valor de es un estimador puntual insesgado o no viciado de . Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero además, proporciona algún grado de exactitud del estimador. Como el término lo sugiere, un estimador por intervalo es un rango o banda dentro de la cual el parámetro se supone va a caer. Las técnicas estadísticas de estimación intentan conocer el valor de estos parámetros. La media de edad de un conjunto de personas es fácilmente calculable y no está sometido a ninguna clase de imprecisión. La media de edad de la población de donde proviene esa muestra es desconocida. Si la muestra cumple la condición de ser aleatoria, es posible intentar calcular la media poblacional. El cálculo de los parámetros se basa en la información suministrada por la muestra. En el proceso de ir de la información de la muestra (estadísticos) al estimado de los parámetros poblacionales ocurren dos cosas, una buena y otra mala: a.- Ganamos en generalización. Esto es, pasamos de la parte al todo. De las muestras a las poblaciones b.- Perdemos precisión o lo que es lo mismo, ganamos en imprecisión. La estimación de parámetros poblacionales se realiza construyendo intervalos (segmentos) que suponemos cubren o contienen el parámetro buscado. 4 ESTIMACIÓN CON Y SIN SESGO Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente parámetro de la población, el estadístico se llama un estimador sin sesgo del parámetro; si no, se denomina un estimador sesgado. Los correspondiente valores de tales estadísticos se llaman estimaciones sin sesgo y sesgadas, respectivamente. ESTIMACIÓN EFICIENTE Si las distribuciones de muestreo de los estadísticos tienen las mismas medias (o esperanza matemática), el de menor varianza se llama un estimador eficiente de la media, mientras que el otro se llama un estimador ineficiente. Los valores correspondientes de esos estadísticos se llaman estimación eficiente e estimación ineficiente, respectivamente. Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tienen la misma media, aquel de varianza mínima se llama a veces el estimador de máxima eficiencia, o sea el mejor estimador. ESTIMACIÓN - GENERALIDADES El uso principal de la inferencia estadística en la investigación empírica, es lograr conocimiento de una gran clase de unidades estadísticas (seres humanos, plantas, parcelas de tierra), de un número relativamente pequeño de los mismos elementos. Los métodos de inferencia estadística emplean el razonamiento inductivo, razonamiento de lo particular a lo general y de lo observado a lo no observado. Cualquier colección o agregación grande de cosas que deseamos estudiar o de las cuales deseamos hacer inferencias, se llama población. El término población tiene más significado cuando se lo junta con la definición de muestra de una población: una muestra es una parte o subconjunto de una población. Una muestra de n elementos de la población de N elementos, debería ser seleccionada de forma tal que las características de la población puedan ser estimadas con un margen de error conocido. Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros. Para las muestras, estas mismas medidas descriptivas se llaman estadísticos o estadígrafos. Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, mediana, moda y desviación estándar. Cuando estos términos describen las características de una muestra se denominan estadísticos o estadígrafos y cuando describen las de una población se denominan parámetros, con lo que podemos decir que:" Un estadístico es una característica de una muestra y un parámetro es una característica de una población." Un parámetro describe una población de la misma manera que un estadígrafo describe a una muestra. Los investigadores de la estadística usan la palabra población para referirse no sólo a personas sino a todo los elementos que han sido escogidos para su estudio; mientras que emplean la palabra muestra par describir una porción escogida de la población. La notación utilizada empleada para denotar estadísticos de muestra es de letras latinas minúsculas y para representar parámetros de una población se utilizan letras griegas o latinas mayúsculas. MUESTRA ESTADÍSTICO POBLACIÓN PARÁMETRO Media Aritmética Variancia S² 2 Desvío Estándar S r n Coeficiente Correlación Tamaño de Un estadígrafo o estadístico calculado a partir de una muestra es un estimador del parámetro en la población. Una estimación es alguna función de los resultados de una muestra que produce un valor, llamado estimador. El estimador da alguna información respecto al parámetro. Por ejemplo, la media de la muestra, , es un estimador de la media en la población. Las poblaciones pueden ser infinitas o finitas. Para la mayoría de los propósitos de investigación, se supone que las poblaciones son infinitas, no finitas, en tamaño, las cuales son algo artificial o imaginario. Una población finita puede ser extremadamente grande. Es posible concebir un proceso de conteo de los elementos de la 5 población, el cual puede ser computado; luego la población es técnicamente finita. Afortunadamente no es necesario crear problemas en cuanto a la distinción entre poblaciones infinitas y finitas. El método usado para seleccionar la muestra es muy importante al juzgar la validez de la inferencia que se hace de la nuestra a la población. Para que una muestra sirva adecuadamente como base para obtener estimadores de parámetros poblacionales, debe ser representativa de la población. El muestreo al azar de una población producirá muestras que "a la larga" son representativas de la población. Si una muestra se extrae aleatoriamente, es representativa de la población en todos los aspectos, esto es, el estadígrafo diferirá del parámetro solo por azar. La habilidad para estimar el grado de error debido al azar (error de muestreo), es un rasgo importante de una muestra al azar. PROPIEDADES DE UN BUEN ESTIMADOR Para poder utilizar la información que se tenga de la mejor manera posible, se necesita identificar los estadígrafos que sean buenos estimadores, cuyas propiedades son: Insesgabilidad: , estimador de es una variable aleatoria y por lo tanto tiene una distribución de probabilidad con una cierta media y variancia. Se puede definir estimador insesgado diciendo: Si se utiliza un estadístico muestral para estimar el parámetro de la población , se dice que es un estimador insesgado de , si la esperanza matemática de coincide con el parámetro que desea estimar. En símbolos: es insesgado E ( ) O sea que es de esperar que si se toman muchas muestras de igual tamaño partiendo de la misma distribución y si de cada una se obtiene un valor , la media de todos los valores de ha de estar muy cerca de . * La media muestral es un estimador insesgado de la media poblacional, o sea que E( ) = * La variancia muestral, ¿es un estimador insesgado de la variancia poblacional? La respuesta depende de como se defina la variancia muestral. Si S 2 ( xi X 2 ) 2 , entonces S² es un estimador sesgado de E (S 2 ) n 2 pues . Mas aún, n 1 2 . Pero el sesgo se puede corregir alterando la definición de variancia muestral. n En efecto, si S*2 ( xi X ) 2 n 1 es la variancia muestral corregida, entonces ( E ) S*2 2 y S² es un estimador insesgado de 2 . Eficiencia: si se utilizan dos estadísticos o estadígrafos como estimadores del mismo parámetro, entonces aquel cuya distribución muestral tenga menor variancia, es un estimador más eficiente o más eficaz que el otro. Es decir: es eficiente mínima. Consistencia: Si es un estimador muestral calculado a partir de una muestra de tamaño n y si es el parámetro de población que se va a estimar, entonces es un estimador consistente de si la probabilidad de que el valor absoluto de la diferencia entre y su esperanza iguale o supere a e (error admitido que tiende a cero, o sea que es tan pequeño como se quiera), tienda a cero cuando el número de elementos de la muestra tienda a infinito. Es decir, la consistencia se refiere a que al aumentar el tamaño de muestra, el estimador se aproxima al parámetro. Suficiencia: La suficiencia se refiere a que el estimador haga uso de toda la información de la muestra para estimar al parámetro. La media muestral hace uso de todas las observaciones. Un estimador suficiente del parámetro es aquel que agota toda la información pertinente sobre que se puede disponer en la muestra. Por ejemplo, si se toma una muestra de n = 30 valores con el fin de estimar , pueden utilizarse como estimadores la primera, la décimo quinta o la última observación, o el promedio 6 entre la primera y la quinta observación. Pero estos estimadores no son suficientes pues no contienen toda la información disponible de la muestra. La media aritmética calculada con las 30 observaciones sí lo es pues tiene en cuenta todas las observaciones. En definitiva, por ejemplo la media aritmética muestral y la forma corregida de la variancia muestral, son estadísticas que satisfacen los criterios o propiedades de "buenos" estimadores. Evaluación de la bondad de un Estimador Para evaluar si un estadístico es mejor estimador que otro, se evalúan cuatro criterios: Imparcialidad: Se dice que un estadístico es un estimador imparcial si, en promedio, tiende a tomar valores que están por encima del parámetro de la población que se está estimando con la misma frecuencia y la misma extensión con la que tiende a asumir valores por debajo del parámetro que se está estimando. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la media de la población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando. Eficiencia: Esta característica se refiere al tamaño del error estándar del estadístico, mientras más pequeño sea el error estándar, en más eficiente el estimador. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando. Coherencia: Un estadístico es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes. Suficiencia: Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población. ESTIMACIÓN POR INTERVALOS DE CONFIANZA Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de un único valor. Esta estimación no es muy conveniente pues con ella no se puede determinar el error de muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Existen otros métodos para estimar parámetros poblacionales que son mucho más precisos. Por ejemplo: * Método de los mínimos cuadrados. * Método de los momentos. * Método de la máxima verosimilitud se basa en el principio de que generalmente ocurre lo más probable. * Método de estimación por intervalos de confianza, este será el que se desarrollara en este curso. El procedimiento de determinar un intervalo (a, b) que comprenda un parámetro de población con cierta probabilidad 1 , se llama estimación por intervalos. Se verán los casos paramétricos, es decir, aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial, Normal, etc.). DISTRIBUCIONES MUESTRALES Este concepto se relaciona con la idea de variación o fluctuaciones al azar, para lo cual todas las posibles muestras de un tamaño N en una población dada (con o sin reposición). Para cada muestra, podemos calcular un estadístico (tal como la media o la desviación típica) que variará de muestra a muestra. De esta manera obtendremos una distribución del estadístico que se llama su distribución de 7 muestreo. Si, por ejemplo, el estadístico utilizado es la media muestral, entonces la distribución se llama la distribución de muestreo de medias, o, distribución de muestreo de la media. Análogamente, podríamos tener distribuciones de muestreo de la desviación típica, de la varianza, de la mediana, de las proporciones, etc. Para cada distribución de muestreo podemos calcular la media, la desviación típica, etc. Así pues, podremos hablar de la media y la desviación típica de la distribución de muestreo de medias, etc. DISTRIBUCIÓN DE MUESTREO DE MEDIAS Es una distribución probabilística que consta de una lista de todas las medias muestrales posibles de un tamaño dado de una población y la probabilidad de ocurrencia asociada con cada media muestral. Si tomamos varias muestras de una población con el objetivo de obtener la media poblacional, observaríamos que cada una de ellas posiblemente nos dan diferentes valores de dicha media. Si se organizaran las medias de todas las muestras posibles de un tamaño específico tomadas de una población se obtendría lo que se conoce como una distribución muestral de medias. Para muestras de tamaño N, sin reposición, de una población finita de tamaño Np>N tenemos, X y X n NP N NP 1 Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a: X y X n Para valores grandes de N (N30), la distribución de muestreo de medias, es aproximadamente normal con media X y desviación típica X , independientemente de la población (en tanto en cuanto la media poblacional y la varianza sean finitas y el tamaño de la población sea al menos doble que el de la muestra). Este resultado para una población infinita es un caso especial del teorema del límite central de teoría avanzada de probabilidades, que afirma que la precisión de la aproximación mejora al crecer N. Esto se indica en ocasiones diciendo que la distribución de muestreo es asintóticamente normal. Debemos anotar que las características de la población serán las mismas que tendrán las diferentes muestras de la misma: Si la población no tiene distribución normal, la distribución muestral de medias de cualquier manera tenderá a aproximarse a la forma normal. La dispersión en la distribución de las medias muestrales es siempre menor que la dispersión de la población y será mucho más pequeña mientras más grande sea el tamaño de la muestra. ESTIMACIONES DE INTERVALO DE CONFIANZA PARA PARÁMETROS DE POBLACIÓN Sean x la media y la desviación típica (error típico) de la distribución de muestreo de un estadístico S. Entonces, si la distribución de S es aproximadamente normal (que como hemos visto es cierto para mucho estadísticos si el tamaño de la muestra N30), podemos esperar hallar un estadístico real S que esté en los intervalos s -s a s +s, s -2s a s+s, o s -s a s +3s alrededor del 68.27 %, 95,45 % y 99.73 % de la curva normal, respectivamente. Equivalentemente, podemos esperar hallar (o sea, podemos estar confiados en encontrar) s en los intervalos S - s a S + s, S - 2s a S + 2s, o S - 3s a S + 3s alrededor del 68.27%, 95.45% y 99.73% , de la curva normal, respectivamente. Por esta razón, llamamos a ese respectivos intervalos los intervalos de confianza 68.27%, 95.45% y 99.73% para estimar s. Los números extremoso de estos intervalos se llaman entonces los límites de confianza 68.27%, 95.45% y 99.73%. Análogamente, S ± 1.96s. y S ± 2.58s son los límites de confianza 95% y 99% (o sea 0.95 y 0.99) para S. El porcentaje de confianza se suele llamar nivel de confianza. Los números 1.96 y 2.58, etc. en los límites de confianza se llaman coeficientes de confianza o valores críticos, y se denotan por z c. De 8 los niveles de confianza que no aparecen en la tabla, los valores de z c se pueden encontrar gracias a las tablas de áreas bajo la curva normal. NIVELES DE CONFIANZA NIVEL DE 99.73% 99% CONFIANZA 3.00 2.58 ZC 98% 96% 95.45% 95% 90% 80% 68.27% 50% 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.6745 Una normal de media y desviación se transforma en una z. De acuerdo a las siguientes figuras. Llamando z al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de , es decir, que la probabilidad que la variable sea mayor que ese valor es (estos son los valores que X ofrece la tabla de la normal). Podremos construir intervalos de la forma Z1 2 Z 2 , n para los que la probabilidad es 1 - . ERRORES TÍPICOS: La desviación típica de una una distribución de muestreo de un estadístico se suele llamar su error típico. En la siguiente tabla, se presentan errores típicos de distribución de muestreo para varios estadísticos bajo las condiciones de muestreo aleatorio de una población infinita (o muy grande) o de muestreo con reposición de una finita. También recoge observaciones particulares que garantizan la validez de estos resultados y otras notas pertinentes. Se debe tomar en cuenta que si el tamaño de la muestra es lo bastante grande, las distribuciones de muestreo son normales o casi normales. Por ellos, los métodos se conocen como métodos de grandes muestras. Cuando N30, las muestras se llaman pequeñas. Cuando los parámetros de la población, tales como ro, son desconocidos, pueden ser estimados con precisión por sus correspondientes estadísticos muestrales, a saber, s, X , y r, si las muestras son suficientemente grandes. 9 DISTRIBUCIÓN DE MUESTREO ERROR TÍPICO OBSERVACIONES Esto es cierto para muestras grandes y pequeñas. La distribución muestral de medias es casi normal para 30, incluso cuando la población no es normal. Medias x , la media de la población, en todos lo casos. La nota precedente para las medias se aplica aquí también Proporciones p p , en todos los casos. Desviaciones Típicas (1) (2) Varianzas (1) Para 100, la distribución muestral de s es casi normal. s viene dada por (1) sólo si la población es normal (o aproximadamente normal). Si la población no es normal, se puede usar (2). Note, que (2) se reduce a (1) cuando 2=2 y 4=4, lo cual es cierto para poblaciones normales. Para 100, s= muy aproximadamente Las observaciones hechas sobre la desviación típica son aplicables también aquí. Debemos notar que (2) da (1) en el caso de poblaciones normales. s2=2(N-1)/N, que es casi igual a 2 para N grandes. (2) Intervalo de Confianza para μ; con σ Conocida Si X es la media de una muestra aleatoria de tamaño n de una población con varianza conocida 2 , un intervalo de confianza de (1 )100% para esta dado por X Z 2 X Z 2 , n n donde Z 2 es el valor de z que delimita un area de 2 a su derecha. Este teorema se cumple en el caso de muestras de tamaño n ≥ 30. Es la probabilidad de que el intervalo no incluya al verdadero valor del parámetro. 1 es el nivel de confianza, es una medida de la fiabilidad de la estimación. Por ejemplo, si se toma = 10%, entonces 1 = 90% y se dice que se tiene un intervalo de confianza del 90% y que la probabilidad de que el intervalo contenga al verdadero valor del parámetro es del 90%. Es decir, que si repetidamente se muestra y se construye tal intervalo una y otra vez, 90 de cada 100 de estos intervalos, contendrá al parámetro y 10 de ellos no. Se puede pensar que 1 significa certeza, seguridad y significa riesgo. La seguridad menos el riesgo, es decir 1 da, por lo tanto, el coeficiente de confianza de nuestras afirmaciones. En general, es posible construir intervalos de confianza para cualquier coeficiente de confianza (1 )100% para basado en una muestra grande X Z 2 n , es decir: 10 X Z 2 X Z 2 n n , es el límite inferior del intervalo de confianza y , el límite superior del intervalo de confianza. Una vez determinado el intervalo, es decir, una vez calculados numéricamente los limites inferiores y superiores, ya no debe hablarse en términos de confiabilidad ni en términos probabilísticos, pues la situación pasa a ser completamente determinística. De tal manera, asociado a un intervalo de confianza ya calculado, se tiene una probabilidad 0 ó 1 de que contenga al parámetro a estimar y no hay otra opción, ya que lo contiene o no lo contiene. Resumiendo, los extremos del intervalo son variables aleatorias, mientras que el parámetro a determinar es constante. Muestras diferentes originaran valores distintos de X y, consecuentemente originaran diferentes estimaciones por intervalos del parámetro . Mientras mayor sea el valor que se elija para Z 2 , más amplio serán los intervalos y abra mayor confianza de que la muestra seleccionada en particular dará un intervalo que contenga al parámetro desconocido . Figura: Intervalo de confianza para la media. En general, los pasos a seguir para estimar un parámetro por el método de los intervalos de confianza, son: * Fijar el coeficiente de confianza que se desea en la estimación. * Extraer la muestra y calcular el o los estadísticos necesarios. * Determinar la distribución en el muestreo que tiene el estadístico empleado. CASO 1 Con conocido: Sea X .., N ( , ) donde es desconocido y conocido. Sea x1 , x2, ... , xn una muestra aleatoria de la variable aleatoria X y sea la media muestral. Se sabe que X .., N , independientemente del valor de n, por el teorema central del límite. n 11 Z X , N (0,1) n Luego, tipificando: Z Z 2 1 2 Se plantea: entonces: P X Z 2 X Z 2 1 n n Observaciones: Si las muestras se toman sin reposición de una población finita de tamaño N, debe emplearse el factor de corrección por finitud y el intervalo será: X Z 2 n N n ; X Z 2 n 1 n N n n 1 Si la población es sólo aproximadamente normal, la igualdad sigue siendo válida en forma aproximada. Figura: La distribución N (0,1) y el intervalo más pequeño posible cuya probabilidad es 1 . Por simetría, los cuartiles Z 2 y Z1 2 sólo difieren en el signo. Ejemplo 1: Un grupo de investigadores en Medicina desea estimar el cambio medio de presión sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar de 30 pacientes y se 12 halló que puls/seg. Los investigadores saben que la desviación estándar de los cambios de presión sanguínea para todos los pacientes es σ = 3 puls/seg según estudios anteriores. Ellos desean estimar el cambio medio de la presión sanguínea por paciente con un intervalo del 95% de confianza, suponiendo que la variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución normal de probabilidad. Respuesta: X = cambio en la presión sanguínea por paciente del sanatorio (en pulsaciones por segundo) , = 3, 1 - = 0.95 n = 30, Por tabla: Z 2 1.96 Entonces: 3 Límite inferior (LIC) = 5 1.96 30 Límite superior (LSC) = 5 1.96 5 1,073 3.9 3 30 5 1,073 6.1 Por lo tanto resulta el Intervalo del 95% de confianza para la media: (3,9; 6,1). Entonces, se puede afirmar que el cambio medio en la presión sanguínea por paciente, pertenece al intervalo (3,9; 6,1) pulsaciones, con un nivel de confianza del 95%. En cuanto al tamaño óptimo de muestra, e Z determina el error máximo admitido de muestreo n e indica la precisión de la estimación. Lógicamente se pretende que sea lo más pequeño posible. Por otra parte, (1 - ) es el coeficiente de confianza y se pretende que sea lo más grande posible. Pero Z 2 depende del valor de y al hacer mayor el coeficiente de confianza (1 - ), el valor Z 2 será mayor y por lo tanto el error aumentará. Esto se puede regular aumentando el tamaño de la muestra con lo que el error disminuirá. Para el ejemplo 1, e 1.96 3 30 1,073 puls / seg con un nivel de confianza del 95%. Si se utiliza X como una estimación de , se puede tener una confianza de (1 )100% de que el error será menor que una cantidad especificada e cuando el tamaño de la muestra es Z2 2 * 2 Z 2 * Z 2 * Z 2 * e n n n e e n e2 2 . Si se desea elevar el nivel de confianza a 99% en el problema anterior, pero sin aumentar el error e de estimación, el tamaño de la muestra debería ser: Z 2 * n e 2 Z 2 2,575..; 3..; e 1,073..; Entonces , n (2,575) 2 32 (1,073) 2 n 51.8 52.0 Es decir, que se debe tomar una muestra de aproximadamente 52 pacientes en lugar de 30. Por el contrario, si el investigador deseara un error de estimación menor, por ejemplo 1 puls/seg, manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido será: 13 n (1,96) 2 (3) 2 (1) 2 34.6 35.0 Pacientes. EJEMPLO 1A.-Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de 167 cm. Por estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm. Construye un intervalo de confianza para la estatura media de la población al 95%. Datos: 8,....n 81,...Z 2 1.96(95%),...X 167 P X Z 2 X Z 2 1 n n 167 1.96 8 81 167 1.96 8 81 167 1.96 x0.89 167 1.96 x0.89 167 1.74 167 1.74 (165,26;..168,74) Entonces el intervalo de confianza buscado es: (165.26; 168.74) Por lo tanto resulta el Intervalo del 95% de confianza para la media: (165.26, 168.74). Entonces, se puede afirmar que el cambio medio en la estura de esa población, pertenece al intervalo (165.26, 168.74), con un nivel de confianza del 95%. El estudiante debe calcular los intervalos para los niveles de confianza de 90% y de 99%. EJEMPLO: La media y la desviación estándar para los promedios de puntuación de una muestra aleatoria de 36 estudiantes de un Tecnológico son 2.6 y 0.3, respectivamente. ¿De qué tamaño debería ser la muestra si se desea tener una confianza de 95 % de que la estimación de es menor que0.05? SOLUCIÓN: Puesto que el tamaño de la muestra es grande, la desviación estándar puede aproximarse mediante s 0.3 , Z 2 1.96 y e = 0.05. Aplicando la siguiente formula se tiene: Z 2 * n e 2 2 n (1.96)(0.3) n 138 0.05 Por lo tanto, se puede tener una confianza de 95 % de que una muestra aleatoria de tamaño 138 proporcionará una estimación de la media aritmética de la muestra que será diferente de la media aritmética de la población en una cantidad menor que 0.05. EJEMPLO: La desviación típica de la altura de los habitantes de un país es de 8 cm. Calcular el tamaño mínimo que ha de tener una muestra de habitantes de dicho país para que el error cometido al estimar la altura media sea inferior a 1 cm. con un nivel de confianza del 90%. Z 2 * SOLUCIÓN: Se aplica la formula para calcular el tamaño de la muestra n e Z 2 1,645 de acuerdo con la tabla; e =1; 8 , entonces 2 , donde 2 (13.16) 2 (1,645)(8) n 173. 1 12 Por lo tanto, se puede tener una confianza de 90 % de que una muestra aleatoria de tamaño 173 proporcionará una estimación de la media aritmética de la muestra que será diferente de la media aritmética de la población de ese país en una cantidad menor que 1 cm. 14 Para estimar se debe utilizar el desvío estándar muestral corregido así: S ( xi X ) 2 , ya que n 1 según se ha visto, es un estimador insesgado del correspondiente parámetro poblacional . S Reemplazando en la variable tipificada por S X resulta el siguiente teorema: n Intervalo de Confianza de Muestras Pequeñas para μ; con σ desconocida Si X y S son la media y la desviación estándar de una muestra aleatoria de tamaño n < 30, tomada de una población aproximadamente normal con varianza desconocida 2 , un intervalo de confianza S S , donde t 2 es el valor X t 2 (1 )100% para viene expresada por, X t 2 n n t con v = n – 1 grados de libertad, que delimitan un área de x / 2 a su derecha. Por lo tanto: P [ X t 2 S n X t 2 S n ] 1 Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad probabilística: X P t 2 t 2 1 , donde S n verificando P(T t 2 ) 2. t 2 es el valor critico dela variable T de Student La expresión anterior es equivalente a: P( X t 2 S n X t 2 a que con una probabilidad 1- el intervalo aleatorio ( X t 2 S S n ) 1 que hace referencia , X t 2 S ) contendrá el valor n n medio . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media muestral y desviación típica muestral, tratándose de variables aleatorias. La probabilidad a que se refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizás más clara: "Si 15 consideramos todas las muestras distintas de tamaño n que puedan ser extraídas de la población X, y con las observaciones de cada una construimos los correspondientes intervalos, según la estructura anterior, el (1- de estos intervalos contendrán el parámetro " Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2 ,..., xn , calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el S S parámetro ( X t 2 , X t 2 ) que, en función de la interpretación informal anterior, n n contendrá dicho parámetro con una confianza (1- Observación: el nivel de confianza establece en alguna medida la longitud del correspondiente intervalo de confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud (menor precisión). Figura: La distribución de Student tiene las mismas propiedades de simetría que la normal tipificada Ejemplo 2: Una muestra de 15 pollos tomadas al azar en un galpón con 5000 pollos, (que elabora alimentos balanceados), permitió establecer un aumento de peso promedio de 90 g por semana y por pollo, y un desvío típico de 10 g. Se busca estimar el incremento de peso promedio para los 5000 pollos del establecimiento con un intervalo de confianza del 90%. Respuesta: X = aumento de peso por ave n = 15; = 90g; S = 10 g. Por tabla: t 2 1,761 X t 2 S n y el intervalo resultante será: 90 1,761 10 15 90 4,55 (85,5;..94,6) Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento está entre 85,5 y 94,6 gramos, con un 90% de confianza. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS ESTIMACIÓN DE LA DIFERENCIA DE DOS MEDIAS CASO 1: Poblaciones normales y μ1 y μ2 con σ1 y σ2 conocidos. Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 22 respectivamente, un estimador puntual de la diferencia entre 1 y 2 esta dado por el estadístico X 1 X 2 . Por lo cual, 1 2 , se seleccionaran dos muestras aleatorias para obtener una estimación puntual de 16 independientes, una de cada población, de tamaño n1 y n2 , y se calculara la diferencia X 1 X 2 de las medias maestrales. Si la selección de las muestras se realizaron independientemente a partir de poblaciones normales o en caso contrario, n1 y n2 son mayores que 30, se puede establecer un intervalo de confianza para 1 2 considerando la distribución muestral de X 1 X 2 . De acuerdo con este planteamiento puede esperarse que la distribución muestral de X 1 X 2 tenga una distribución aparentemente normal con 2 2 . De acuerdo con media X X 1 2 y desviación estándar X X 1 2 n1 n2 1 2 1 2 este planteamiento se puede afirmar con una probabilidad de 1 que la variable normal estándar es: Z ( X 1 X 2 ) ( 1 2 ) y caerá entre Z 2 y Z 2 , entonces , P(Z 2 Z Z 2 ) 1 12 22 n1 n2 y ahora sustituyendo Z por su valor, se expresa en forma equivalente que ( X 1 X 2 ) ( 1 2 ) 1 P Z 2 2 2 1 2 n1 n1 Intervalo de Confianza para μ1 – μ2; con σ2 1 y σ 2 2Conocidas Si X 1 y X 2 son las medias de muestras aleatorias independientes del tamaño de n 1 y n2 a partir de poblaciones con varianzas conocidas 12 .. y.. 22 , respectivamente, un intervalo de confianza de (1 )100% para 1 2 esta dada por la formula matemática siguiente: ( X 1 X 2 ) Z 2 12 2 2 2 2 1 2 ( X 1 X 2 ) Z 2 1 2 , donde Z 2 es el valor Z n1 n2 n1 n2 que delimita un área de 2 a su derecha. En forma general se tiene: ( X 1 X 2 ) Z 2 12 2 . n1 n2 2 Observación: En la fórmula también puede utilizarse 2 1 X 2 X 1 en lugar de X 1 X 2 . y en ese caso debe considerarse El grado de confianza es exacto cuando se seleccionan muestras a partir de poblaciones normales. Cuando las poblaciones no son normales, se obtienen un intervalo de confianza aproximado muy aceptable cuando n1..y..n2 30 .Cuando se desconocen 12 y 22 y las muestras son suficientemente grandes, se puede reemplazar 12 por intervalo de confianza. S12 y 22 ... por...S 22 sin que se afecte en forma alguna el Ejemplo 3: Al determinar la superficie en miles de hectáreas de las explotaciones agrícola-ganaderas de cierta zona, una muestra de 40 explotaciones dio una superficie media de 900 ha, con una desviación típica de 300 ha. En otra zona, al muestrear también 40 explotaciones, la superficie media fue de 600 ha con una desviación típica de 150 ha. Suponiendo que en ambas zonas la variable "superficie en ha por explotación" se distribuye normalmente, estimar por un intervalo de confianza del 90%, la diferencia entre las superficies medias de las explotaciones de ambas zonas. 17 Respuesta: X1 = superficie de cada explotación agropecuaria de la primera zona X2 = superficie de cada explotación agropecuaria de la segunda zona , n = 40; S12 300.., S 22 150 , por ser una muestra grande se , puede remplazar S 2 .. por.. 2 sin que se afecte el intervalo de confianza. Por tabla: Z 2 1,645 Luego aplicando la formula se tiene: 300 2 150 2 IC0.90 (900 600) 1,645 IC0.90 300 1,645 x53,033 IC0.90 300 87.24. 40 40 Entonces, IC0.90 = (212,8; 387,2) Interpretando este resultado, se puede afirmar que la diferencia entre las superficies medias de las explotaciones agrícola-ganaderas de ambas zonas, se encuentra entre 212,8 y 387,2 ha, con un 90% de confianza. EJEMPLO 4. Cincuenta alumnas y setenta y cinco alumnos del IUJAA presentan una prueba de Estadística. Las muchachas obtuvieron una calificación promedio de 76 puntos, con una desviación típica de 6, mientras que los muchachos lograron un promedio de 82, con una desviación estándar de 8. Encuentre el intervalo de confianza de 96 % para la diferencia de 1 2 , donde 1 es la puntuación media de todos los alumnos y 2 es la puntuación promedio de todas las alumnas que presentaron esa prueba. SOLUCIÓN: La estimación puntual de 1 2 es X1 X 2 82 76 6. Puesto que n1...y...n2 son grandes, se puede sustituir 1.. por..S1 8.. y.. 2.. por..S 2 6 . Por tabla Z 2 2.05 , por lo tanto, sustituyendo en la formula estos datos, el intervalo de confianza de 96 % es: ( X 1 X 2 ) Z 2 6 2.05 12 n1 22 n2 , ( X 1 X 2 ) 6.., 12 8,..n1 75,.. 22 6,..n2 50. . 64 36 6 2.05 x1,254 6 2.57 (3.43,..8.57) , luego el intervalo buscado es: 75 50 (3.43; 8.57), o también, 3.43 1 2 8.57 DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras la probabilidad de que no ocurra es q =1 – p. Por ejemplo, la población puede ser la de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p = ½. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas determinemos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de caras en N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media p y cuya desviación típica p viene dada por p p y p pq n p(1 p) n Para valores grandes de N (N30), la distribución de muestreo está, muy aproximadamente, normalmente distribuida, Nótese que la población está binomialmente distribuida. Las ecuaciones anteriores son válidas también para una población en la que se hace muestreo con reposición. Para 18 poblaciones finitas en que se haga muestreo sin reposición, dichas ecuaciones quedan sustituidas por y . Intervalo de confianza para p, a partir de una muestra grande Si p Es la proporción de éxito en una muestra aleatoria de tamaño n, y q 1 p , un intervalo de confianza aproximado de (1 )100% para el parámetro binomial p esta dado por la siguiente formula matemática: pq pq , donde p p Z 2 n n general la formula se puede expresar así: p Z 2 p Z 2 Z 2 es el valor de x / 2 a su derecha. En forma pq . n La proporción p de la muestra se utiliza como estimación de p en... pq porque se desconoce el n valor de p y se trata de la cantidad que se debe estimar. Para estar seguro de su confiabilidad, se requiere que los productos np... y...nq sean mayores o iguales a 5. EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. Obtenga un intervalo de confianza de 95 % para estimar la proporción real de familias en la ciudad mencionada que se suscribieron a Cables El Tigre. SOLUCIÓN: La estimación puntual de p..es.. p 340 / 500 0.68. Por tabla se sabe que Z 2 1.96 ; p 0.68;...q 1 p 0.32, luego el intervalo de confianza aplicando la formula general será: 0.68 1.96 (0.68)(0.32) 0.68 1.96 x0.021 068 0.04 El .. int ervalo..de..confianza ..es : 500 (0.64 p 0.72) Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento. 80 p 0.80;..q 1 p q 0.20;..Z 2 1.96;..n 100 . 100 Intervalo de confianza al 95 %: 0.80 1.96 (0.80)(0.20) 0.80 1.96(0.04) 0.80 0.0784 100 Luego el intervalo de confianza al 95 % es:(0.72; 0.88) ¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad. ¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos. EJEMPLO: Una máquina fabrica piezas de precisión y en una caja de 200 piezas, recibida por un cliente han aparecido 7 piezas defectuosas, a un nivel de confianza del 99% ¿entre qué valores se puede esperar que esté la verdadera proporción de piezas defectuosas fabricadas por la máquina? 19 7 SOLUCIÓN: Se calcula la proporción de de piezas defectuosas en la muestra: p 0.035 , luego 200 pq , q 1 p q 0.965 , por tabla Z 2 2,575 , ahora aplicando la formula general p Z 2 n se tiene: (0.035)(0.965) (0.035) 2,575(0.013) (0.035) (0.033) , 200 buscado es: (0.002; 0.068). (0.035) 2,575 luego el intervalo Se deja al estudiante que calcule los intervalos para los niveles de confianza de 90% y 95% Si p es valor central de un intervalo de confianza de (1 )100% , entonces p estimará sin error el valor de p. Sin embargo, la mayoría de las veces p no será exactamente igual a p, y la estimación puntual será errónea. El tamaño de ese error será la diferencia positiva que separa p y p , y puede pq tenerse una confianza de (1 )100% de que esa diferencia no excederá de Z 2 . De acuerdo n con este planteamiento se afirma que: Si p se utiliza como una estimación de p, puede tenerse una confianza de (1 )100% de que el error pq no excederá de Z 2 . Por lo tanto, se puede afirmar que: n Si p se utiliza como una estimación de p, puede tenerse una confianza de (1 )100% de que el error será menor que una cantidad especificada e cuando el tamaño de la muestra es Z2 2 pq aproximadamente de n . e2 EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro de 0.02? SOLUCIÓN: Se tomarán las 500 familias como una muestra preliminar que proporcionará una Z2 2 pq 340 0.68 ; por tabla Z 2 1.96 ; e = 0.02. Luego se aplica la formula n muestra p 500 e2 n (1.96) 2 (0.68)(0.32) (0.02) 2 2090. Por lo tanto, si la estimación de p se basa en una muestra aleatoria de tamaño 2090, se puede tener una confianza de 95 % de que la proporción de la muestra no será diferente de la proporción real en más de 0.02. Algunas veces será poco práctico obtener una estimación de p que habrá de utilizarse al determinar el tamaño de la muestra para un grado de confianza especificado. Si esto ocurre, se establece un límite superior para n, observando que pq p(1 p), lo cual debe ser por lo menos igual a ¼, ya que p debe estar entre 0 y 1. De acuerdo con este planteamiento se puede enunciar lo siguiente: Si p se utiliza como una estimación de p, se puede tener por lo menos una confianza de (1 )100% de que el error no excederá de una cantidad especificada e cuando el tamaño de la muestra sea Z2 2 Z 2 n 4e 2 2e 2 20 EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro de un 2 %? SOLUCIÓN: En este caso a diferencia del ejemplo anterior, se supondrá ahora que no se ha tomado ninguna muestra preliminar para tener una estimación de p. Por lo tanto, puede tenerse por lo menos 95 % de confianza de que la proporción en la muestra no será diferente de la proporción verdadera en más 2 Z 2 así: de 0.02 si se elige una muestra de tamaño aplicando la formula n 2e Datos: Z 2 1.96,..e 0.02 y como se desconoce p esta se toma como p = 05. 2 1.96 2401. n (2)(0.02) EJEMPLO: Imagina que queremos estimar con un error máximo del 3%, el porcentaje de audiencia de un programa de TV, y queremos un 95% de confianza para nuestros resultados. No disponemos de información previa sobre el posible valor de p. ¿Cuántos teleespectadores deberán ser encuestados? SOLUCIÓN: Puesto que desconocemos p, tomaremos p = 0,5. Para un nivel de confianza del 95% deberemos tomar Z 2 =1,96. Aplicando la formula Z 2 n 2 e 2 , entonces se tiene: 1.96 2 3,8416 3,8416 1067 n 2(0.03) 2 4(0.0009) 0.0036 Con lo que n =1067. Tenemos pues un 95% de confianza en que el porcentaje que encontremos se halle a menos de tres puntos porcentuales de la proporción exacta. Estimación de la diferencia entre dos proporciones Considérese el problema en el que se desea estimar la diferencia entre dos parámetros binomiales, p1 y p2. Por ejemplo, se puede considerar que p1 es la proporción de fumadores con cáncer pulmonar y p2 la de los que no fuman y tienen también cáncer pulmonar. El problema, entonces, es estimar la diferencia entre estas dos proporciones. En prímer lugar, se seleccionan muestras aleatorias independientes de tamaño n1 y n2 a partir de las dos poblaciones binomiales con medías n1 p1 y n2 p2, y variancia n1p1 q1 y n2p2q2 , respectivamente; luego se determinan los números x1 y x2 de personas de cada muestra con padecimiento de cáncer pulmonar y se forman las proporciones p x1 n1 y p x2 n2 . Un estimador puntual de la diferencia entre las dos proporciones p1 p2 está dado por el estadístico p1 p2 . Así la diferencia de las proporciones de muestra, p1 p2 será utilizada como estimación puntual de p1 p2 . Un intervalo de confianza para p1 p 2 puede establecerse considerando la distribución muestral de p1 p2 . Se sabe que p1 y p 2 están distribuidos aproximadamente en forma normal cada uno, con medias p1 y p2 y variancias p1q1/n1 y p2q2 /n2, respectivamente. Eligiendo muestras independientes a partir de las dos poblaciones, las variables p1 y p 2 serán independientes; luego, por la propiedad de la distribución normal, se concluye que p1 y p 2 está distribuida de modo aproximadamente normal, pq p q con media p1 p 2 p1 p2 y varianza 2p p 1 1 2 2 , por lo tanto, se puede aseverar 1 2 n1 n2 21 P( z 2 Z z 2 ) 1 que , donde ( p1 p 2 ) ( p1 p 2 ) Z p1q1 p 2 q 2 n1 n2 después de realizar las simplificaciones algebraicas usuales, se reemplazan p1, p2, q1, . y.q2 en el radical por sus estimaciones p1 x1 n1 ; p2 x2 n2 , q1 1 p1. y..q2 1 p2. Siempre que p1q1 p 2 q 2 mayores o iguales a 5, obteniéndose . n1 n2 n1 p1, n1q1, n2 p2,.y.n2 q2 sean todos Intervalo de Confianza para p1 – p2, a Partir de Muestras Grandes Si p1 y p2 son las proporciones de éxitos en muestras aleatorias de tamaño n 1 y n2 respectivamente, y además q1 1 p1 y q2 1 p2 , entonces un intervalo de confianza p 1 – p2 , esta dado la formula: ( p1 p2 ) Z x 2 p1q1 p2 q2 p1 p2 ( p1 p2 ) Z x 2 n1 n2 p1q1 p2 q2 , donde n1 n2 Z x 2 es el valor que delimita un área de x 2 a su derecha. EJEMPLOS: Un fabricante de insecticida en presentación aerosol desea comparar desea comparar dos productos nuevos, A y B. En el experimento se emplean dos habitaciones del mismo tamaño, cada una con 1000 mosquitos. En uno de los cuartos se rocía el insecticida A y en el otro se rocía el insecticida B en igual cantidad. Después del experimento se obtiene un total de 825 y 760 mosquitos muertos por acción de los insecticidas A y B respectivamente. Se desea estimar la diferencia de la proporción de éxito para los dos insecticidas cuando se usan en condiciones similares a las experimentadas. Resuelva el caso. 825 760 ( p1 p2 0.065 . Por tabla 1000 1000 825 760 Z x 2 1.96 , p1 0.825,..q1 0.175;.. p2 0.76;..q2 0.24;..n 1000 1000 1000 SOLUCIÓN: El estimador puntual de (p1 – p2) es El intervalo de confianza del 95 % es: (0.825)(0.175) (0.76)(0.24) ( p1 p2 ) 1.96 (0.065) 1.96(0.018) (0.065) (0.035) 1000 1000 El intervalo resultante es: 0.03 p1 p2 0.1 . Por lo tanto se estima que la diferencia ( p1 p2 ) de proporciones de éxito esta entre 0.03 y 0.100. Es decir, se estima que p1 excede de p2 por al menos 0.03 y a lo más por 0.100, entonces se puede tener buena confianza en esta estimación. CONCEPTOS BÁSICOS Estimación: valor específico de un estimador, calculado en base a una muestra dada. Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población desconocido. Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos mediante el empleo de estadísticos muestrales. Estimación puntual: un solo número que se utiliza para estimar un parámetro de población desconocido. Estimador: estadístico de muestra utilizada para estimar un parámetro de población. Conceptualmente es una variable aleatoria. 22 Estimador coherente: estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra. Estimador eficiente: estimador con un menor error estándar que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será ese estimador. Estimador imparcial: estimador de un parámetro de población que, en promedio, asume valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parámetro de la población. Estimador suficiente: estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro. Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población. Límites de confianza: límites inferior y superior de un intervalo de confianza. Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido. Propiedades de un buen estimador: características deseables de un estimador, para lograr la mejor aproximación posible de un parámetro poblacional. 23