Inferencia. Estadísticos. Distribuciones en el muestreo Estadística aplicada a la empresa II Prof. D. Juan José Pérez Castejón 1 INFERENCIA. ESTADÍSTICOS Los apartados que siguen están dedicados a desarrollar la idea de inferencia estadística: ¿qué es?, ¿qué persigue?, ¿cómo se efectúa?; así como a los elementos fundamentales mediante los que se lleva a efecto: la muestra y los estadísticos muestrales. Se examinan detenidamente estos últimos, citando los más utilizados en general, y los que se manejan cuando la población analizada es normal. Inferencia estadística. Muestra y estadísticos. Los elementos que se han introducido en temas anteriores (probabilidades de sucesos, distribuciones univariantes o multivariantes, características de variables o vectores aleatorios, parámetros de una distribución,...) no son directamente observables y, por ello, no son conocidos. Una vez que un investigador estadístico admite su existencia, lo siguiente que debe de hacer es obtener mayor conocimiento sobre ellos. Como los fenómenos aleatorios afectan a toda una población, esos elementos son propios de todos y cada uno de los individuos que forman la población, y se les califica como poblacionales. La población puede ser muy grande o incluso infinita y debido a eso, entre otras razones, no puede ser observada en su totalidad. Normalmente solo se está en condiciones de observar un grupo extraído de ella, formado por n individuos, grupo que recibe el nombre de muestra. La información sobre los elementos poblacionales de los que se habló en el párrafo anterior ha de ser conseguida observando únicamente esa muestra. El investigador estadístico debe saber pasar de las observaciones o resultados particulares obtenidos con una muestra (resultados muestrales), a conclusiones generales sobre la población. En general, en el ambiente científico, el proceso de pasar de lo particular a lo general se conoce como inferencia inductiva o inducción. Cuando la inducción se hace en el campo estadístico, en relación con los fenómenos aleatorios, se la denomina inducción de tipo estadístico. El trabajo estadístico se centra en las variables aleatorias X o los vectores V. Nosotros, en estos temas, nos restringiremos a considerar el trabajo con variables, quedando para cursos posteriores, el trabajo con vectores. Según todo lo que se ha dicho Prof. D. Juan José Pérez Castejón 2 hasta aquí, para hacer inducción sobre los elementos poblacionales relacionados con las variables, no se pueden observar todos sus valores sobre todos los individuos de la población a la que afectan, sino solo sobre n de ellos. Así, tendremos los individuos 1,....,n y la variable X que se estudia, considerada sobre cada uno de ellos, X1,...,Xn. Todas las Xi se distribuyen como la X, Xi~X, y se dice que constituyen una muestra suya. Se suele usar la expresión “X1,...,Xn es una muestra extraída de la población de X”. A la cantidad n se la conoce como el tamaño muestral. Aunque no es la única posibilidad, los individuos que componen la muestra suelen escogerse de manera que entre sí sean independientes las distintas Xi. Una muestra con esa característica se conoce como una muestra aleatoria simple (m.a.s.) de X. Nuestro trabajo práctico será siempre con mm.aa.ss, aunque el teórico procuraremos que sea aplicable a cualquier tipo de muestra. Aquellos aspectos teóricos que sólo sean ciertos para mm.aa.ss. serán señalados explícitamente si es que ello no es obvio en el propio enunciado del resultado correspondiente. Una vez que los individuos de la muestra sean observados, las correspondientes variables X1,...,Xn tomarán valores concretos que se suelen representar con letras minúsculas x1,...,xn. Al conjunto de esos valores se le denomina ‘realización muestral’. La inferencia estadística se realizará a través de nuevas variables aleatorias que se obtienen a partir de las que componen la muestra, y del valor que esas nuevas variables tomen, valor que dependerá de la realización muestral. Esto es, continuamente manejaremos funciones ‘deterministas’, T(x1,...,xn):Rn→Rm, que son funciones como las que hasta ahora se han venido manejando en cualquiera curso de matemáticas. Esas funciones dependerán de n variables (tantas como el tamaño de la muestra) y tendrán un número m de componentes que variará según nuestros propósitos – desde m=1 hasta...–. Aplicadas sobre las variables que componen la muestra, T(X1,...,Xn), darán lugar a una nueva variable o vector aleatorio de dimensión m. Obviamente cuando se conozca la realización de la muestra, x1,...,xn, estaremos también en condiciones de conocer la correspondiente realización de esa nueva variable, T(x1,...,xn)=t. Cualquier variable de esa clase es conocida con el nombre genérico de estadístico muestral, y t será la realización de esa estadístico. Debe quedar claro que un estadístico es una v.a. más, y que, en consecuencia, todo lo que conocemos Prof. D. Juan José Pérez Castejón 3 acerca de ese concepto le será aplicable: tendrá su propia función de distribución, se podrá hablar de sus características como por ejemplo de su media, función generatriz, ... Todo resultado inductivo o inferencial adolece de un defecto que lo dota de una particularidad específica. Por tratarse de un resultado obtenido pasando de lo particular a lo general, no puede pretender ser cierto con rotundidad. A lo más puede ser un resultado más o menos creíble en el que depositaremos cierto grado de confianza. Ello obliga a que cada vez que desarrollemos un método de obtención de algún resultado inductivo, parte de sus procedimientos estarán dedicados a medir de alguna manera su grado de confianza. Estadísticos importantes. más usuales y sus características más Sin justificarlos, citaremos a continuación cuáles son los estadísticos más habitualmente manejados al hacer inferencia de tipo estadístico. Igualmente en cada caso, y también sin justificación, mencionaremos sobre qué elemento relacionado con la variable X en estudio es aquel sobre el que se hace inducción empleando cada uno de los estadísticos que se expongan. El análisis de los estadísticos se completará razonando algunas de las características que tengan como vv.aa. MEDIA MUESTRAL. Dada un muestra X1,...,Xn de la v.a. X, el estadístico media muestral es igual a X =ΣXi/n. Este estadístico es empleado normalmente cuando hay que hacer inducción sobre la media o esperanza de la población o media ‘poblacional’, E(X). La esperanza de la media muestral, E( X ), es siempre igual a la propia E(X). Cuando la muestra sea aleatoria simple, la varianza de X es var(X)/n (varianza ‘poblacional’ dividida por n). El alumno puede revisar resultados de temas anteriores para establecer a qué sería igual esa misma varianza si la muestra no fuera aleatoria. Resulta bastante útil recordar en este punto el TCL de Lindeberg–Lévy, para disponer de condiciones bajo las que la Prof. D. Juan José Pérez Castejón 4 distribución del estadístico X es, al menos aproximadamente, una normal. VARIANZA Y CUASIVARIANZA MUESTRALES. La varianza muestral, S2=Σ(Xi– X )2/n=(ΣX2i/n)– X 2, es uno de los estadísticos usados para realizar inducción sobre la varianza poblacional, var(X). Otro estadístico que también se usa con esos fines es la cuasivarianza muestral, Sc2=Σ(Xi– X )2/(n–1)=nS2/(n–1). Aunque laborioso, resulta fácil demostrar que si la muestra manejada es aleatoria, E(S2)=(n–1)var(X)/n. De ahí se deduce que E(Sc2)= var(X). Para ese mismo tipo de muestra también es posible obtener la varianza tanto de la varianza muestral como de la cuasivarianza, aunque la expresión que ambas tienen en función de los momentos de la variable poblacional X es más complicada que la que tienen las esperanzas. MOMENTOS ORDINARIOS Y CENTRALES MUESTRALES. En general, para hacer inferencia sobre los momentos ordinarios y centrales poblacionales, E(Xk) y E(X–E(X))k, se emplean los respectivos momentos ordinarios y centrales muestrales, Ok=ΣXik/n y Ck=Σ(Xi– X )k/n. COVARIANZA Y CUASICOVARIANZA MUESTRALES. Aunque el tratamiento de la inferencia sobre vectores la hemos pospuesto a cursos posteriores, podemos citar aquí a modo testimonial, el caso en el que el vector estudiado sea bidimensional, V=(X,Y), y la cantidad poblacional de interés sea cov(X,Y). En este caso la muestra estaría compuesta por n vectores V1=(X1,Y1), ..., Vn=(Xn,Yn) todos distribuidos Vi~V. Esa muestra también podrá ser aleatoria simple –los Vi independientes entre sí– o no. Para hacer inferencia sobre la covarianza, se emplea la covarianza muestral, SX,Y=Σ(Xi– X )(Yi– Y )/n=Σ(XiYi)/n– X Y , o el estadístico alternativo, Sc,X,Y=Σ(Xi– X )(Yi– Y )/(n–1)=nSX,Y/(n–1), que se conoce como cuasicovarianza muestral. Prof. D. Juan José Pérez Castejón 5 Si la muestra es aleatoria, se puede demostrar que E(SX,Y)= (n–1)cov(X,Y)/n y que E(Sc,X,Y)=cov(X,Y). Resultados muestrales más usuales cuando la población es normal. La presentación que se ha hecho de algunos de los estadísticos muestrales más importantes, se puede completar con algunos resultados adicionales en el caso en el que la variable X muestreada sea una v.a. normal. Únicamente imponiendo un tipo de distribución específica para esa variable, se pueden obtener resultados más avanzados. Afortunadamente, la hipótesis de normalidad no es una hipótesis demasiado restrictiva. Ya hemos visto en otros temas anteriores, que la distribución normal es un tipo de distribución de uso bastante general. Los resultados que se van a presentar estarán organizados de la manera siguiente. Primero se presentará un resultado (el lema de Fisher) de uso general en cualquier proceso de inferencia acerca de la distribución de X. Después nos centraremos en el proceso de realización de inferencia acerca de los parámetros de los que la distribución de X depende (µ y σ). Distinguiremos los casos en los que la inferencia a realizar es sobre uno de ellos, de los casos en lo que es sobre el otro. Y a su vez, dentro de cada una de esas dos opciones, diferenciaremos entre los casos en los que el parámetro no afectado por la inferencia es conocido o no. Siempre se trabajará bajo la hipótesis de que se dispone de una m.a.s. de X Lema (de Fisher–Cochran): Si las Xi forman una m.a.s. de tamaño n de X~N(µ,σ2), entonces S2 y X son independientes, X ~N(µ,σ2/n) y nS2/σ2~χ2n–1. Expongamos ahora el resto de resultados. Téngase en cuenta que aquí se trata solo de presentarlos y no de justificar porqué son empleados o cómo se utilizan: INFERENCIA SOBRE µ SIENDO σ CONOCIDA. El siguiente resultado, que ya se ha demostrado y enunciado varias veces en clase, además de estar incluido en el propio Lema Prof. D. Juan José Pérez Castejón 6 de Fisher, será empleado continuamente en esta situación: X ~ N(µ, σ 2 / n) . INFERENCIA SOBRE µ SIENDO σ DESCONOCIDA. En este caso, el resultado al que se recurre es el que afirma X−µ que: ~ t n −1. Su demostración es fácil a partir del Lema de S / n −1 Fisher. INFERENCIA SOBRE σ SIENDO µ CONOCIDA. El resultado al que se recurre en este caso es el siguiente, de demostración muy sencilla: Σ(Xi–µ)2/σ2~χ2n. INFERENCIA SOBRE σ SIENDO µ DESCONOCIDA. El propio lema de Fisher provee del resultado que se empleará en este caso: S2~σ2χ2n–1/n. Nótese que lo que hemos hecho es sustituir en el estadístico del apartado anterior, el parámetro µ desconocido y molesto porque sobre él no queremos realizar ningún tipo de inferencia, por su ‘estimación natural’ que es la media muestral –mas adelante se justificará esa idea de estimar parámetros por estadísticos–. Las consecuencias de ello es una pérdida de un grado de libertad en la distribución correspondiente. Este proceso de ‘pérdida de tantos grados de libertad’ como parámetros molestos tengamos que estimar, se repetirá en muchas situaciones de inferencia y, como veremos, provoca siempre resultados más imprecisos. COMPARACION CONOCIDAS. DE MEDIAS SIENDO LAS VARIANZAS Una situación en la que es preciso hacer inferencia y a la que aún no hemos hecho referencia es la siguiente. A veces existen dos poblaciones independientes, con variables X e Y, y se precisa comparar cantidades análogas de una y de otra. La inferencia a realizar se refiere a una magnitud que sirva para efectuar tal comparación. Para llevar a cabo la comparación se dispone de dos muestras independientes entre sí, una de X, X1,...,Xn, y otra de Y, Prof. D. Juan José Pérez Castejón 7 Y1,...,Ym, que no tienen porqué tener el mismo tamaño (no es necesario que m=n). Cuando las variables X e Y son normales, N(µX,σ2X) y N(µY,σ2Y), las comparaciones habituales deben hacerse entre las correspondientes medias o las varianzas (desviaciones típicas). Comencemos por tratar la comparación entre medias, en cuyo caso, la magnitud de interés es µX–µY. Analizaremos primero ese caso si las varianzas (o las desviaciones típicas) σ2X y σ2Y son conocidas. El resultado que se empleará para comparar medias si las varianzas se conocen, es un resultado sencillo y fácil de demostrar: X − Y ~ N(µ X − µ Y , (σ 2X / n) + (σ 2Y / m) ) COMPARACION DE DESCONOCIDAS. MEDIAS SIENDO LAS VARIANZAS Para comparar las medias en el caso en el que σ2X y σ2Y sean desconocidas, el resultado que se emplea es más o menos complejo según que se sepa que esas varianzas son iguales o no: 1.– Varianzas desconocidas de las que se sabe que son iguales. En este caso es cierto que el siguiente estadístico tiene la n + m − 2 ( X − Y ) − (µ X − µ Y ) . distribución indicada, nm ~t n+m−2 2 2 n+m nS X + mS Y La demostración de ese resultado se obtiene aplicando sucesivamente el Lema de Fisher a una y otra muestra. 2.– Varianzas desconocidas sin ninguna otra información. Si no se dispone de ninguna información sobre las varianzas, el resultado que se usa, únicamente establece una distribución ( X − Y ) − (µ X − µ Y ) aproximada para cierto estadístico: ≈ t ν , siendo S c2, X / n + S c2, Y / m ν=entero más cercano a ( (S 2 c, X S c2, X n n −1 Prof. D. Juan José Pérez Castejón n + S c2, Y m ) +( 2 8 S c2, Y ) 2 m m −1 ) 2 . Nótese que para n y m grandes, la distribución tν se puede aproximar, a su vez, por una N(0,1). COMPARACION CONOCIDAS. DE VARIANZAS SIENDO LAS MEDIAS Para comparar las varianzas, la magnitud sobre la que se hace inferencia es el cociente entre ellas, σ2X/σ2Y. Para el caso en el que se conozcan las medias, µX y µY, el siguiente resultado es muy sencillo de demostrar y con él se obtienen los diferentes resultados ( Xi − µ X )2 /(nσ 2X ) ∑ ~ Fn,m . inductivos reuqueridos: 2 2 ( Y − µ ) /( m σ ) ∑ i Y Y COMPARACION DE DESCONOCIDAS. VARIANZAS SIENDO LAS MEDIAS Para comparar las varianzas cuando no se dispone de información sobre las medias, el resultado que se utilizará se deriva directamente de las conclusiones del Lema de Fisher: 2 2 nS 2X /((n − 1)σ 2X ) S c, X / σ X ~ Fn −1,m −1 . = mS 2Y /((m − 1)σ 2Y ) S c2, Y / σ 2Y Prof. D. Juan José Pérez Castejón 9