TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA TEMA 5 INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 1. INTRODUCCIÓN 1.1 CONCEPTOS BÁSICOS 2. DISTRIBUCIONES EN EL MUESTREO 2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL MUESTREO 2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON. 2.1.2 DISTRIBUCIÓN t DE STUDENT 2.1.3 DISTRIBUCIÓN F DE SNEDECOR 2.1.4 TEOREMA CENTRAL DEL LÍMITE 2.2 DISTRIBUCIONES ESTADÍSTICOS MUESTRALES DE 2.2.1 EN UNA POBLACIÓN CUALQUIERA 2.2.2 EN UNA POBLACIÓN NORMAL Curso 02-03 2 LOS PRINCIPALES TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA TEMA 5 INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 1. INTRODUCCIÓN Inferir es, en general, establecer un nuevo conocimiento a partir de uno ya dado. En nuestro contexto, nos interesa, basándonos en la información contenida en una muestra, inferir información sobre una población. La Inferencia Estadística es la parte de la Estadística que incluye los métodos utilizados para tomar decisiones o para obtener conclusiones sobre una característica desconocida de la población a partir de la información contenida en una o más muestras representativas de esa población. La herramienta teórica que utiliza es la teoría de la probabilidad. Ejemplo: Un ingeniero ha diseñado un nuevo tipo de CPU y desea obtener conclusiones sobre la forma en que funcionará una vez que se produzca a gran escala. Para ello toma una muestra de 40 CPU, y de las conclusiones que obtenga podrá inferir el funcionamiento de toda la producción prevista. La Inferencia Estadística, estudia principalmente dos tipos de problemas: a) La Estimación: consiste en determinar una característica desconocida de la población. Ejemplo: Averiguar la velocidad media de las CPU. Puede ser: puntual: determinar el valor concreto. por intervalos: determinar un intervalo en el que esté contenida con cierto grado de probabilidad. b) El Contraste de hipótesis: determinar si es aceptable, a partir de los datos muestrales, que la característica estudiada tome un valor predeterminado o pertenezca a un intervalo concreto. Ejemplo: ¿Es la velocidad media mayor que 5 millones de flops? ¿La velocidad media de las CPU tiene una distribución normal? 1.1 CONCEPTOS BÁSICOS a) Población: es el conjunto de todos los individuos sujetos a estudio. b) Muestra: es el subconjunto finito de elementos selecionados de la población. Para que las inferencias sean válidas, las muestras deben ser representativas de la población. c) Muestreo: procedimiento de obtención de una muestra. Podemos describir los sigientes tipos: Curso 02-03 3 TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Muestreo Opinático: la selección de los elementos muestrales se realiza según el criterio del investigador. la muestra no es representativa de la población. Muestreo Aleatorio: se seleciona de forma que cada elemento de la población tiene una probabilidad positiva de ser elegido. Muestreo Aleatorio Simple: Cada elemento de la población tiene la misma probabilidad de ser elegido y esta probabilidad se mantiene constante a lo largo del proceso. La técnica del muestreo puede asimilarse a un modelo de extracción con reemplazamiento. Un mismo dato puede ser muestreado más de una vez. Los datos muestrales serán estocasticamente independientes . Muestreo Aleatorio Irrestricto: Cada elemento de la población tiene en un principio la misma probabilidad de ser elegido, pero posteriormente, la probabilidad de obtener un valor en cada selección viene influida por los resultados anteriores. Se corresponde con un modelo de extracción sin reemplazamiento. Muestreo Estratificado: Se divide a la población en estratos, niveles o grupos según criterios prefijados y la muestra se toma asignando una proporción de miembros a cada estrato y escogiendo los elementos dentro de cada estrato por muestreo aleatorio simple (m.a.s.) El muestreo aleatorio debe utilizarse cuando los elementos de la población son homogéneos respecto a la característica a estudiar. Cuando dispongamos de información sobre la población conviene tenerla en cuenta al seleccionar la muestra. Un ejemplo son las encuestas de opinión, donde los elementos (personas) son hetereogéneos en razón a su sexo, edad, profesión,etc. Interesa en estos casos que la muestra tenga composición análoga a la población y esto se consigue con un muestreo estratificado. Muestreo por conglomerados: cuando los elementos de la población se encuentran "de manera natural" agrupados en conglomerados, cuyo número se conoce, y podamos suponer que cada uno de estos conglemerados es una muestra representativa de la población respecto de la variable que se estudia. El muestreo consiste en seleccionar uno de estos conglomerados al azar y, dentro de ellos, analizar todos sus elementos o una muestra aleatoria simple. En este curso vamos a suponer que la muestra ha sido obtenida por muestreo aleatorio simple (m.a.s.) puesto que la teoría bajo este tipo de muestreo es la más sencilla. Sin embargo, en la práctica se suele realizar el muestreo irrestricto. De todas formas, si la población tiene un número grande de elementos, la probabilidad de que un elemento salga repetido es muy pequeña y los dos tipos de muestreo serán equivalentes. Si el muestreo es aleatorio, seleccionar un elemento de la población es realizar un experimento aleatorio y cada observación de la muestra es el valor observado de una variable aleatoria. La distribución de probabilidad de cada Curso 02-03 4 TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA una de estas variables aleatorias viene determinada por la distribución de los elementos de la población. Así podemos definir: Muestra aleatoria simple de tamaño n: es una variable aleatoria ndimensional X ( x , x , . . . , x ) donde cada x representa el valor observado en la i-ésima extracción y podrá tomar cualquier valor de la población. Por tanto, una muestra concreta realizada, será un valor particular, una realización de la muestra genérica. En la medida en el que el m.a. cada elemento de la población tiene una probabilidad de ser elegido, cada dato muestral genérico será una variable aleatoria que tendrá asociada una función de probabilidad (de cuantía o de densidad) según una determinada distribución que llamaremos distribución de la población. Si trabajamos con un m.a.s. cada x es estocásticamente independiente y entonces la función de probabilidad o de densidad conjunta de la muestra será: n f ( X ) f ( x , x , . . . , x n ) f ( x ) i 1 2 i 1 Ya hemos mencionado en la introducción que uno de los propósitos del tema es estimar cantidades desconocidas de la población (tales como la media poblacional, la varianza, etc.) llamadas parámetros poblacionales, o más brevemente parámetros, a partir del conocimiento de las correspondientes cantidades muestrales (tales como la media muestral, la varianza muestral, etc.) llamadas estadísticos muestrales, o más brevemente estadísticos. Así pues estadístico es cualquier función de los valores muestrales que depende exclusivamente de éstos. Como los valores muestrales son variables aleatorias, también lo son los estadísticos. Todas las medidas descriptivas que veíamos en el tema 1 son ejemplos de 2 estadísticos como la media muestral x , la varianza muestral s , ó x 2 pero no es estadístico n 2 s porque 2 4 x ; 1 es la varianza poblacional, y por tanto, no depende exclusivamente de los valores muestrales. Consideremos todas las posibles muestras que pueden extraerse de una población dada. Para cada muestra se puede calcular un estadístico, tal como la media, la desviación típica, etc. que variará de una muestra a otra. De esta forma se obtiene una distribución del estadístico que se conoce como distribución muestral o distribuciones en el muestreo. Nuestro objetivo es dedicar el resto del tema al estudio de las distribuciones muestrales de los principales estadísticos: media muestral, varianza muestral, diferencia de medias muestrales y cociente de varianzas muestrales, pues son practicamente los únicos estadísticos que vamos a usar en este curso. Para ello, necesitamos previamente introducir otros modelos de Curso 02-03 5 TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA distribución de probabilidad, que tienen su principal papel en el muestreo. A diferencia de los modelos estudiados en el tema anterior, en este caso definimos cada una de las distribuciones de probabilidad a partir de su relación con una muestra aleatoria simple de una población normal. También damos una idea de su representación gráfica y sus características (medias y varianzas). 2. DISTRIBUCIONES EN EL MUESTREO 2.1 MODELOS MUESTREO. DE DISTRIBUCIÓN DE PROBABILIDAD EN EL 2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON. 2 La distribución de Pearson con n grados de libertad se define como la distribución que sigue la variable definida como suma de los cuadrados de n variables normales tipificadas independientes. Sean Z , Z , . . . , Z n un conjunto de variables aleatorias indepen-dientes 1 2 n 2 2 Z N ( 0 , 1 ) , entonces X Z n i i 1 i Características E X n V ar X 2 n Para el cálculo de probabilidades, en las tablas podremos encontrar el valor de x tal que P ( X x ) p Propiedad (Teorema de adición) Xi i1 2ni k Dadas k 2 independientes X n n ...n i 1 i 1 2 k Relación con la normal 2 Si X n , entonces Y 2 X N ( 2 n 1 ,1 ) si n es grande. 2.1.2. DISTRIBUCIÓN t DE STUDENT Dadas las variables aleatorias independientes X e Y tales que X 2 X N ( 0 ,1 ) e Y n , la nueva variable aleatoria definida como T Y n Curso 02-03 6 TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA sigue una distribución t de Student con n grados de libertad, que denotamos por t n . Características E T 0 para n>2; si n=1 no existe media V ar T n n 2 para n>3 Para el cálculo de probabilidades, en las tablas podremos encontrar el valor de x tal que P ( T x ) p Es una distribución simétrica y por tanto se cumple que f(x)=f(-x). Con lo cual se deduce que P ( T x ) = 1- P ( T x ) La distribución t de Student converge a una normal cuando los grados de libertad tienden a infinito (sirve para n>30). 2.1.3. DISTRIBUCIÓN F DE SNEDECOR Sus principales usos son los de la contrastación de la igualdad de varianzas de dos poblaciones normales y, fundamentalmente, el análisis de la varianza y el diseño de experimentos, técnicas que permiten detectar la existencia o inexistencia de diferencias significativas entre muestras diferentes. Dadas dos variables aleatorias independientes X , X 1 2 distribuciones son X n 1 y X 2 tales que sus 2 2 m , definimos la nueva variable X 1 n F que sigue una distribución F de Snedecor con n grados de libertad en X 2 m el numerador y m grados de libertad en el denominador, que denotamos por F n, m . Para el cálculo de probabilidades, en las tablas podremos encontrar el valor de x tal que P ( F n, m x ) p para p=0.9 y 0.99. Se cumple que P( F x ) P ( F 1 ) 1 P ( F x Un resultado particular interesante es que si X t n X 2.1.4. TEOREMA CENTRAL DEL LÍMITE Curso 02-03 7 1 ) x 2 F 1,n . TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Sean X , X , . . . , X n variables aleatorias independientes con la misma 1 2 distribución y con media y varianza 2 . Entonces X X ... Xn 2 2 X 1 N ( , ) n n n (aprox ) x Un enunciado más riguroso sería: Lim P ( X x ) n n 2.2 DISTRIBUCIONES ESTADÍSTICOS. MUESTRALES DE LOS PRINCIPALES 2.2.1 EN UNA POBLACIÓN CUALQUIERA. Sean X , X , . . . , X una muestra aleatoria de variables aleatorias identicamente distribuidas con E X y Var X . Si no conocemos la distribución de la población, no podemos, en general, calcular la distribución de los estadísticos, pero sí se podrá, en cualquier caso, determinar la esperanza y varianza de los principales estadísticos en función de los parámetros de la distribución de la población. A.Media muestral (tanto para muestreo simple como irrestricto) E X V ar X n (para m.a.s.) V ar X n N n N 1 (para irrestricto) Siempre que n sea muy grande (n>30) podemos aplicar el TCL: n X N , B.Varianza muestral s X X n Los siguientes resultados serán para m.a.s: E s Curso 02-03 8 n 1 n X n X TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Llamando E X tenemos V ar s n 2 2 n 3 n 2.2.2 EN UNA POBLACIÓN NORMAL. A partir de ahora supondremos que la población tiene una distribución normal, ya que los resultados que vamos a obtener por el Teorema Central del Límite, lo requieren. Si ni lo tuviera serían una aproximación cuando la muestra que tomemos sea de tamaño grande. En estas circunstancias, ya no sólo podré averiguar los valores de la esperanza y varianza, sino que podremos hablar de sus modelos de distribución. A. UNA MUESTRA Sean X , X , . . . , X una muestra aleatoria simple de variables aleatorias tales que X N , i a.Media muestral n X N , Podemos ver que E X V ar X n ya que si X N , , por el teorema de la adición del tema anterior se cumple que X X . . . X N n, n , y por las transformaciones lineales X X . . . X n N , n b.Varianza muestral s X X X X n No conocemos exactamente la distribución de s , solamente: n ns pero podemos calcular Curso 02-03 9 TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA E s n 1 n V ar s 2 ( n 1) n Debemos recordar que una distribución chi-cuadrado se definía como una suma de normales tipificadas elevadas al cuadrado. c.Media muestral con varianza desconocida Si no conocemos el valor de , la distribución que hemos deducido anteriormente para el estadístico media muestral no nos sirve, podemos utilizar entonces: X s n 1 t Recordemos que la distribución t de Student se definía como el cociente entre una normal tipificada y la raiz cuadrada de una chi-cuadrado dividida por sus grados de libertad. d.Proporción muestral. Tenemos una población Bernouilli y elegimos una muestra donde X Be p . Consideremos la variable aleatoria X= "nº de éxitos en la muestra", que sigue una distribución Bi(n,p). Definimos P="proporción de éxitos en n extracciones" entonces P=X/n V ar P E P p pq n B. DOS MUESTRAS INDEPENDIENTES Supongamos ahora que queremos comparar dos variables o dos poblaciones. Para ello necesitamos tomar dos muestras y vamos a suponer que estas muestras se toman independientemente. Ejemplo: Velocidad de las CPU del fabricante A y velocidad de las CPU del fabricante B. Seguimos suponiendo que la distribución de las dos poblaciones es Normal. Sean X , X , . . . , X una independientes tales que muestra aleatoria j 1, 2 , . . . , m . de muestra aleatoria de variables aleatorias X N , i 1, 2 , . . . , n e Y1, Y2 ,..., Ym una variables aleatorias tales que a.Diferencia de medias muestrales con varianzas conocidas. Curso 02-03 10 Y N , TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA n X Y N , m Un caso particular sería la diferencia de proporciones pq P P N p p , n p q m b.Diferencia de medias muestrales con varianzas desconocidas pero iguales. X Y ns ms 1 1 n m 2 n m t c.Cociente de varianzas muestrales No conocemos la distribución de s s exactamente, solo: n s ( n 1) m s F ( m 1 ) C. DOS MUESTRAS RELACIONADAS Supongamos ahora que queremos comparar dos variables pero que las dos muestras que se toman no son independientes (los datos están apareados). Ejemplo: Velocidad de las CPU antes y después de añadir una componente. Sean X , X , . . . , X una muestra aleatoria de variables aleatorias tales que una muestra aleatoria de X N , i 1, 2 , . . . , n e Y , Y , . . . , Y variables aleatorias tales que Y N , j 1, 2 , . . . , n . Las muestras están relacionadas. Notar que en este caso n=m. a.Diferencia de medias muestrales. Sea D X Y y sea s su desviación típica muestral. podemos usar el siguiente resultado: Curso 02-03 11 TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA n 1 Curso 02-03 12 X Y ( ) s t