ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo INTRODUCCIÓN A principios del siglo XIX la estadística se ocupa de las características del estado. Posteriormente adelantos en la teoría de la probabilidad permiten el desarrollo en la teoría estadística, que hace posible la generalización científica a partir de información incompleta, inferencia estadística. Partes de la estadística: Descriptiva Inferencial El procedimiento esencial en la inferencia estadística es tomar una muestra representativa de la población y con base en la información obtenida de la muestra hacer una información útil sobre una característica de la población. Dicha muestra debe ser representativa de la población y elegida de forma aleatoria. La aleatoriedad puede darse de distintas formas. Esto da lugar a los diversos procedimientos de selección de la muestra que tienen como fin fundamental proporcionar distintas alternativas para que con cierto grado de confianza la muestra escogida sea representativa. En muchas circunstancias hay que tomar decisiones basándose sólo en la información contenida en una muestra. Un gerente de marketing debe determinar si una nueva estrategia de mercado aumentará las ventas. Para ello se basará fundamentalmente en encuestas realizadas a unos cuantos clientes potenciales, etc. Para adoptar decisiones se toma toda la información posible de la muestra seleccionada y se estudia, en términos de probabilidad el grado de fiabilidad de las decisiones adoptadas. Se puede distinguir de modo general dos grandes métodos dentro de la Inferencia Estadística: Métodos Paramétricos: se supone que los datos provienen de una familia de distribuciones conocida (Normal, Poisson,…) y que lo único que se desconoce es el valor concreto de alguno de los parámetros que la definen ( y para la normal, para la Poisson,…). Se pueden hacer inferencias acerca de los parámetros poblacionales de dos maneras. Dando valores aproximados para los parámetros (Estimación), o tomando decisiones con respecto a ellos (Contraste de Hipótesis). Métodos No Paramétricos: no suponen conocida la distribución, y solamente suponen hipótesis muy generales respecto a las mismas. Estos métodos se aplican en los test de bondad de ajuste, que prueban la adecuación de los datos a ciertos modelos de distribuciones teóricas, los test de indepencia, etc. Las conclusiones que se obtengan y que se generalizarán dependerán de los valores concretos que se hayan observado en la muestra. VENTAJAS DEL MUESTREO 1 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo Población finita: el número de sus elementos es una cantidad finita aunque ésta sea muy grande. Población infinita: no se puede poner en correspondencia con ningún subconjunto de los números naturales. Si la población es infinita es imposible tomar una muestra tan grande como la población. Si la población es finita se pueden tomar muestras del tamaño de la población, pero carece de sentido. VENTAJAS : Coste reducido. Mayor rapidez. Mayores posibilidades. Mayor exactitud. ETAPAS PRINCIPALES EN UNA ENCUESTA POR MUESTREO. 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11) Objetivos de la encuesta. Población bajo muestreo. Datos que deben ser recolectados. Nivel de precisión deseado. Métodos de medición. El marco. Selección de la muestra. Encuesta piloto. Organización del trabajo de campo. Resumen y análisis de los resultados. Información ganada para futuras encuestas. DISEÑO DE MUESTREO Diseño de muestreo: plan que se llevará a cabo para escoger la muestra, de modo que exista un convencimiento bien fundado de que la muestra sea representativa. Criterios de evaluación de un diseño de muestreo: fiabilidad y efectividad. Error de muestreo: diferencia entre el valor de una estadística obtenido mediante los datos muestrales y el valor del correspondiente parámetro debido a variaciones fortuitas en la selección de las unidades. Error no muestral o sistemático: es debido a instrumentos de medición incorrectos, cuestionarios mal elaborados... Fiabilidad: está determinada por la varianza del estimador. Cuanto mayor sea, menor es la fiabilidad. 2 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo Efectividad: un diseño de muestreo se considera más efectivo que otro si tiene menor costo con el mismo grado de fiabilidad. TIPOS DE MUESTREO. Si un mismo dato puede darse o no, tantas veces como sea posible en la muestra. - Con repetición. - Sin repetición. Forma en la que se recolectan los datos. - No probabilístico: Intencional, por criterio o subjetivo. Por cuotas. Sin norma o circunstancial. - Probabilístico: Irrestricto: Muestreo aleatorio simple. Restringidos: Sistemáticos. Estratificado. Por conglomerados. Muestreo con repetición. Cada unidad que forma parte de la población, una vez analizada se retorna a la población. Es el muestreo que debe usarse para poblaciones infinitas. Cuando se utiliza en una población finita, se la considera como infinita. Es fundamental en el estudio de problemas estadísticos mediante simulación. Muestreo sin repetición. Cada unidad una vez observada no se retorna a la población. Solo puede usarse en poblaciones finitas. Muestreo no probabilístico. Muestreo intencional, por criterio o subjetivo. El modo de escoger la muestra se basa en la experiencia personal que tenga el investigador, quien por su propio criterio decide qué muestra es representativa. Influida por las preferencias o tendencias del seleccionador. Carece de bases teóricas que nos permitan evaluar su efectividad y fiabilidad. Se emplea con bastante regularidad en estudios estadísticos de auditoria de muestreo. 3 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo Muestreo por cuotas. Se recoge información de personas en número proporcional al de las que cumplen determinadas condiciones en la población y puede elegirlas a su arbitrio dentro de grupos establecidos de sexo, edad y ciertos niveles socioeconómicos. Muestreo sin norma o circunstancial. La muestra se toma según lo que salga bien, por razones de comodidad, circunstancia y aun de capricho. Si la población es homogénea, la representatividad puede ser satisfactoria. Muestreo probabilístico. Se puede calcular previamente la probabilidad de obtener cada una de las muestras que sea posible calcular. IRRESTRICTO. Muestreo aleatorio simple Cada una de las muestras de tamaño n tiene la misma probabilidad de ser seleccionada, 1 . N n Se puede utilizar si las unidades de muestreo pueden identificarse fácilmente y si la población es homogénea y pequeña. Método costoso y lleva tiempo. Es necesario numerar todos los elementos. Si los elementos próximos entre sí son más homogéneos que los que están apartados, una muestra aleatoria simple puede no ser representativa de la población. RESTRINGIDOS. Muestreo sistemático Es de los más utilizados. Consiste en particionar la población en n(tamaño de la muestra) grupos de tamaño m. Del primer grupo se toma al azar un elemento, p.e. el numerado con k. Del segundo grupo tomamos el elemento k+m, y así sucesivamente hasta completar la muestra. Se recomienda siempre que se den las condiciones ya que hay mayor probabilidad de que la muestra resulte repartida en toda la población. 4 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo Se debe disponer de una lista de las unidades de la población lo cual representa una gran desventaja. Se puede utilizar para control de la calidad. Selecciona una muestra más representativa que el muestreo aleatorio simple si los elementos cercanos de la población se asemejan más entre sí de lo que se parecen los que quedan distantes. Es menos representativa que el muestreo aleatorio simple si existe periodicidad oculta en la población y el periodo coincide con m. Muestreo estratificado. Puede resultar más efectivo que el anterior. Exige tener un conocimiento previo de la población. Consiste en dividir la población en subpoblaciones agrupando los elementos más parecidos entre sí. Cada subpoblación se llama estrato y en cada uno de ellos se lleva a cabo un muestreo aleatorio simple para escoger la muestra. La muestra global se obtiene al combinar las submuestras de todos los estratos. El reparto del tamaño de la muestra en los distintos estratos se denomina afijación. Si la muestra se divide por partes iguales en los estratos la afijación se dice igual o uniforme. Si se hace proporcional al número de elementos de cada estrato se denomina afijación proporcional. Si se hace proporcional al número de elementos y a la varianza de cada estrato tenemos la afijación óptima. Es el más efectivo cuando se trata de poblaciones heterogéneas. Al hacerse la estratificación, las clases se establecen de modo que las unidades de muestreo tiendan a ser uniformes dentro de cada clase y las clases tiendan a ser diferentes entre sí. Así se puede controlar la proporción de cada estrato en la muestra global y al no dejarla al azar queda asegurado el carácter representativo de la muestra. Si la varianza de la característica observada de cada estrato es menor que la de toda la población, se aumentará la fiabilidad para un tamaño de muestra dado o bien la efectividad para un grado dado de fiabilidad. El aumento de la fiabilidad y de la efectividad puede aumentarse al clasificar aún más los estratos en subestratos. Dicho procedimiento de doble clasificación se denomina doble estratificación. Para definir los estratos se pueden emplear datos anteriores, la intuición, un criterio sólido o bien, resultados preliminares procedentes de otros estudios. Muestreo por conglomerados. Se eligen los individuos de la muestra por grupos llamados conglomerados. Cada conglomerado que resulte de la muestra se revisa total o parcialmente. Los mejores 5 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo resultados se obtienen cuando la diferencia entre los conglomerados, respecto a la característica de interés, es mínima y las diferencias entre los elementos individuales dentro de cada conglomerado se hace tan grande como sea posible. Lo ideal es que cada conglomerado constituyera una miniatura de la población y así un solo conglomerado sería una muestra satisfactoria. Los conglomerados se denominan unidades de muestreo primario. Si todos los elementos del conglomerado se incluyen en la muestra, el procedimiento se denomina muestreo de una etapa. Si se saca una submuestra aleatoria de elementos de cada conglomerado seleccionado , se denomina muestreo bietápico. Si intervienen más de dos etapas se denomina polietápico. Cuando se hacen muestreos de una población distribuida geográficamente se toman como unidades primarias de muestreo las regiones geográficas, muestreo por zonas. Se utiliza en el control estadístico de la calidad. Desventaja: relativa ausencia de fiabilidad para un tamaño de muestra dado. La ventaja principal es la gran reducción de costos para un grado dado de fiabilidad. Este hecho es el que lleva con frecuencia a la elección de este método frente a otros. DISTRIBUCIONES EN EL MUESTREO PARÁMETROS POBLACIONALES Y ESTADÍSTICOS MUESTRALES En general los parámetros poblacionales son las características numéricas de la población. El conocimiento del parámetro permite describir parcial o totalmente la función de probabilidad de la característica que estamos investigando. Por ejemplo si la característica a investigar sigue una distribución normal, se necesita conocer y para describir totalmente su función de densidad. En la mayoría de los modelos probabilísticos se encuentran parámetros cuyos valores tendremos que fijar para especificar completamente el modelo y poder calcular las probabilidades deseadas. Uno de los problemas centrales en estadística se plantea cuando se desea estudiar una población con función de distribución F(x, ), donde la forma de la función de distribución es conocida, pero depende de un parámetro desconocido. En este caso se selecciona una muestra de la población y se calcula para las observaciones de la muestra el valor de alguna función que representa o estima el parámetro desconocido, . Un estadístico es cualquier función real de las variables aleatorias que integran la muestra, es decir, es una función de las observaciones muestrales, la cual no contiene ningún valor o parámetro desconocido. Si tenemos una muestra (X1, X2, …, Xn), constituida por n variables aleatorias independientes e idénticamente distribuidas, podemos definir algunos estadísticos como por ejemplo: 6 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo X 1 X 2 ... X n n 2 2 X 1 X 2 ... X n2 n 2 ( X 1 X ) ( X 2 X ) 2 ... ( X n X ) 2 n Estos estadísticos se determinan totalmente a partir de las observaciones muestrales. En general un estadístico T los representaremos como T=g(X1, X2, …, Xn), es decir una función de las observaciones muestrales, que es a su vez también una variable aleatoria, pues para cada muestra tomará un valor diferente. Como a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadístico, éste es también una variable aleatoria y por consiguiente tendrá su correspondiente distribución, a la que llamaremos distribución muestral del estadístico. Parámetro y estadístico son dos conceptos diferentes, el parámetro es una constante y cuando se conoce determina completamente el modelo probabilístico, el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones muestrales. Vamos a distinguir entre medidas numéricas calculadas con conjuntos de datos poblacionales y las calculadas con datos muestrales. Si la medida numérica se calcula para el conjunto de datos poblacionales le llamaremos valor del parámetro poblacional y si se calcula para el conjunto de datos muestrales, le llamaremos valor del estadístico muestral. Parámetros media, varianza y proporción poblacional En una población finita de tamaño N vienen dados por: 1 N - Media (poblacional): X i N i 1 1 n 2 - Varianza (poblacional): 2 X i N i 1 X nº de éxitos en N pruebas - Proporción (poblacional): p= N núm erode pruebas Estadístico media, varianza y proporción muestral Para una muestra aleatoria simple de tamaño n, (X1, X2, …, Xn) se definen como: 1 n - Media muestral: X X i n i 1 1 n X i X 2 - Varianza muestral: S 2 n 1 i 1 X nº de éxitos en n pruebas - Proporción muestral: PX= n núm erode pruebas 7 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo DISTRIBUCIÓN DE LA MEDIA MUESTRAL. La media muestral, X , al ser una estadística es una variable aleatoria y por lo tanto tiene una función de distribución, una media y una varianza. TEOREMA: Sea X1, X2,…, Xn una muestra aleatoria proveniente de una población de media x y 2 varianza . Si X es la media muestral entonces E( X )= x y V( X )= x . La desviación 2 x n típica de la media muestral se conoce con el nombre de error estándar de la media y viene dado por la siguiente expresión x n El error estándar es inversamente proporcional al tamaño de la muestra. Por lo tanto al controlar el tamaño de la muestra controlamos el error. Hasta ahora no hemos tenido en cuenta la distribución de la variable aleatoria en cuestión. Distribución de la media muestral en una población normal con media y varianza conocidas. TEOREMA: Sea X1, X2… Xn una muestra aleatoria proveniente de una población normal de media n 2 x y varianza x .Entonces la variable Y= ai X i tiene distribución normal con media i 1 n n i 1 i 1 ai y varianza ai 2 2 TEOREMA: Si X1, X2,… Xn es una muestra aleatoria proveniente de una población normal de media y varianza 2 entonces la media muestral tiene distribución normal con media y varianza . 2 n Teorema central del límite TEOREMA: Si X es la media de una muestra aleatoria de tamaño n que se toma de una población n X 2 con media y varianza finita , entonces la variable Zn= tiende a la normal estándar a medida que n tiende a infinito. La importancia de este resultado radica en que nos proporciona un medio para trabajar con la media muestral aunque desconozcamos la distribución de la población. 8 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo Otro enunciado del teorema del límite central más fácil de interpretar es: “Si X es una variable aleatoria de media y varianza 2 La distribución muestral de la media de una muestra aleatoria de tamaño n es aproximadamente normal de media 2, y varianza si n es suficientemente grande”. n N se considera suficientemente grande si es mayor o igual que 30. Distribución de la proporción para muestras grandes. TEOREMA: Sea p la proporción muestral asociada a una característica, la cual se presenta en la población en una proporción . Entonces p sigue una normal de media y desviación típica 1 n Hay que señalar que la aproximación a la normal sólo se puede utilizar para muestras de tamaño grande (en el mismo sentido del teorema del límite central), para muestras pequeñas se utilizará la binomial o la hipergeométrica. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL. DISTRIBUCIÓN JI CUADRADO. A veces lo que nos interesa es estudiar la variabilidad de las medidas. La variabilidad se suele medir con la varianza o con la desviación típica y la estadística empleada es la varianza muestral: n S2 i 1 ( xi x ) 2 n 1 . Para poder trabajar con ella necesitamos conocer la función de distribución asociada, para esto estudiaremos la distribución ji cuadrado. Se dice que una variable aleatoria X sigue una distribución ji cuadrado con k grados de libertad, cuando su función de densidad está dada por la fórmula: 1 (1 / 2) x k / 21e (1/ 2) x six 0 f x ( x) (k / 2) 0 en cualquierotro caso Dado lo complicado de la expresión utilizaremos una tabla para conocer los valores que nos interesen. Propiedades de esta distribución: 1. Si X es una variable con distribución ji cuadrado con k grados de libertad, su media es k y su varianza 2k. 2. Una variable ji cuadrado no toma valores negativos. 3. Su gráfica es de las de tipo de curvas sesgadas a la derecha. 9 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo 4. A medida que aumentan los grados de libertad la curva se va haciendo más simétrica y su cola derecha se va extendiendo. 5. Por cada valor de k hay una distribución distinta. 6. K es el único parámetro asociado a la distribución. La tabla que vamos a utilizar es la tabla III que nos da los valores 2 que determinan la cola superior (derecha) de la distribución especificada por los grados de libertad. En la fila superior da los valores de cola derecha y en la primera columna encontramos los respectivos grado de libertad. El número que se encuentra en la intersección de la horizontal imaginaria que parte del número dado por los grados de libertad con la vertical que sale del valor de cola derecha es el número que determina dicha cola con los grados de libertad dados. Se denota 2k ,q en donde k son los grados de libertad y q la medida de la cola derecha. Si lo que deseamos es valores ji cuadrado que definan regiones al extremo izquierdo de la distribución(cola izquierda), debemos tener en cuenta que una región a la izquierda determina otra a la derecha(no simétrica en este caso) y tenemos que la cola izquierda del 5% corresponde a una región al lado derecho del 95% . Para valores de k superiores a 100 se puede utilizar la siguiente fórmula: 2k ; q 1 / 2 z q 2k 1 2 La distribución chi cuadrado se puede utilizar para hacer inferencias sobre la varianza muestral. Para ello utilizaremos n 1S , que si las variables siguen una distribución 2 2 n 1 2 normal, sigue una ji cuadrado con n-1 grados de libertad. DISTRIBUCIÓN t DE STUDENT. Si al hacer inferencia sobre la media no conocemos el valor de la varianza sino que también tenemos que estimarlo tendremos que utilizar otra expresión para estimar la media: T= n x que tiene una distribución t de Student con (n-1) grados de libertad. S Una variable T tiene distribución t de Student con k grados de libertad si su función de densidad está dada por n 1 ( n 1) / 2 2 t2 n 1 n f T t 1 t , n n 2 2 n 2 Para trabajar con esta distribución dado lo complejo de la expresión de su función de densidad utilizaremos una tabla. Antes de aprender a manejarla estudiaremos las propiedades de la distribución t: k 1. La media de T es 0 y su varianza k 2 , k>2. 2. Toma teóricamente cualquier valor real. 3. La gráfica de la función de densidad es en forma de campana. 10 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo 4. La gráfica es muy parecida a la de la normal estándar diferenciandose en que las colas de t están por encima de la normal, y el centro se encuentra por debajo del de la normal. 5. Cuando los grados de libertad son altos, los valores de t coinciden con los de la normal. Para obtener valores de área(probabilidad) de la distribución t emplearemos la tabla de la distribución. Tenemos que tener en cuenta que cada una de las probabilidades que aparecen en la segunda fila es igual a la suma de las áreas de las dos colas, y las que aparecen en la fila Q es el área de una de las colas. Para cada valor de k que aparece en la columna izquierda de la tabla, la partida de la tabla en una columna particular es el valor t por encima del cual queda la probabilidad que aparece en la fila Q. Aunque solo aparecen valores positivos de t quedan implícitos los negativos, ya que la distribución es simétrica respecto de 0. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS EN POBLACIONES NORMALES INDEPENDIENTES. Es frecuente interesarse por la diferencia entre dos medias (para compararlas). Para ello utilizaremos la variable D= x y . TEOREMA: Tomemos de una población normal X de media x y varianza x2 una n1. Tomemos de una población Y normal de media y y varianza muestra de tamaño y2 una muestra de tamaño n2. Si X e Y son independientes entonces ( x y ) sigue una normal de media x - y y varianza x2 n1 y2 n2 El siguiente teorema lo utilizaremos cuando las varianzas sean desconocidas pero se consideran iguales. TEOREMA: Supongamos que de una población normal X con media x y varianza desconocida tomamos una muestra de tamaño n1 y que de una población normal, Y con media y y varianza desconocida tomamos una muestra de tamaño n2. Si X e Y son independientes y la varianza de x y la varianza de y son iguales entonces T= x y x y tiene una Sp 1 1 n1 n2 distribución t con (n1+n2-2) grados de libertad. Sp= n 1S n 1S . Donde Si son las desviaciones típicas muestrales. Sp2 se llama 1 2 1 2 n1 n2 2 2 2 varianza ponderada. DISTRIBUCIÓN DEL COCIENTE DE DOS VARIANZAS. DISTRIBUCIÓN F. 11 ESTADÍSTICA EMPRESARIAL Tema 12: Teoría de Muestras. Distribuciones en el muestreo Algunas veces tendremos que comparar dos varianzas; es decir determinar si la 2 variabilidad de una población difiere de otra. Para ello utilizaremos la estadística F= S x S y2 que sigue una distribución F. La distribución F está caracterizada por su función de densidad: m n / 2 m m / 2 x ( mn ) / 2 (m / 2)(n / 2) n 1 (m / n) x( m n ) / 2 0 en cualquierotro caso Fx(x)= x0 F no toma valores negativos y tiene asociados grados de libertad que constituyen sus parámetros. Su representación gráfica depende de los grados de libertad. Para trabajar con ella utilizaremos la tabla V. Dado un valor de área q la fila superior enumera los valores n1 llamados grados de libertad en el numerador; la primera columna enumera los valores n2, llamados grados de libertad en el denominador y la partida de la tabla es el valor F que separa la parte q superior de la distribución F con n 1 y n2 grados de libertad, a dicho valor de F se le denota F(q; n1;n2). La tabla se ha construido suponiendo que la varianza más grande está en el numerador de la ecuación y la más pequeña en el denominador. MUESTREO EN POBLACIONES FINITAS. Cuando se da el muestreo con repetición en poblaciones finitas e infinitas, la media muestral presenta una distribución de igual media que la población y la varianza igual a la de la población dividida por el tamaño de la muestra. ¿Qué ocurrirá cuando el muestreo es sin repetición? En general se puede demostrar que la varianza muestral en el caso del muestreo sin repetición es igual a la varianza de la población dividida por el tamaño de la muestra 12