Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística INFERENCIA ESTADÍSTICA Pensemos en los tres siguientes ejemplos: • Hacemos una encuesta entre los clientes de una tienda para preguntarles su opinión sobre cambios generales que pretendemos hacer en diversas áreas de la tienda. Después de realizados los cambios, queremos hacer una segunda encuesta para saber cómo se modificó la opinión sobre los cambios una vez hechos. Nos interesa la DIFERENCIA. • Revisamos varias de nuestras ventas para ver los problemas que se presenten en la facturación de las mismas. Esto lo realizamos antes de imponer algunas mejoras en el procedimiento de facturación. Tenemos la intención de realizar la misma investigación después de hechos los cambios para medir la DIFERENCIA. • Queremos establecer estándares para el desempeño de los trabajadores a fin de poder ver como es el desempeño actual. De lo que encontremos se van a derivar varias acciones: o se va a otorgar un estímulo para los trabajadores, o se va a establecer una tabla comparativa de desempeño entre las diferentes unidades de la empresa y en base a ella se va a otorgar un estímulo a los gerentes, o se va a comparar el desempeño contra el desempeño en los últimos tres períodos anteriores. Para establecer los estándares se van a seleccionar varios operarios de cada uno de los dos turnos y se va a medir su rendimiento durante tres días específicos de una semana. Estamos interesados en conocer un VALOR general. En los tres ejemplos anteriores se tienen muestras obtenidas, quizá al azar, y se trata de conocer valores de la población en base a los de la muestra. • La decisión de si a los clientes les gustaron los cambios la vamos a tomar sobre los valores en la muestra. • La mejora en las facturas la vamos a constatar en base a las que observamos. • El estándar de desempeño lo vamos a fijar en base a los trabajadores estudiados. Pero en los tres casos vamos a extender el valor de la muestra o las muestras a la población. Este proceso se llama inferencia. Errores en la inferencia y qué hace la estadística con ellos En todo caso el proceso de inferencia está sujeto a errores. No existe magia alguna que haga que el valor de la muestra coincida con el de la población y si afirmásemos lo contrario seríamos unos charlatanes. La diferencia entre los valores de la muestra y los de la población crea incertidumbre acerca de los valores muestrales. Se necesita una manera de establecer las limitaciones del proceso de inferencia. Los procedimientos estadísticos no eliminan los errores en la inferencia. Lo que hacen es que los valores de los errores sean cuantificables mediante afirmaciones de probabilidad. Se dice que los procedimientos estadísticos son medibles porque es posible medir (en términos de probabilidad) la magnitud del error que cometen. – Tipos de Inferencia – 1 Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística En el ejemplo de los clientes del establecimiento, si obtuvimos una muestra estadística, podemos decir no sólo cuál es el porcentaje de clientes indiferente a los cambios (por ejemplo 20%, valor en la muestra) sino, además, cuál es la probabilidad de que el porcentaje real sea menor que alguna cantidad (por ejemplo la probabilidad de que sea menor que 25%) o mayor que alguna otra cantidad (por ejemplo mayor que 10%) o que se encuentre entre dos valores (entre 18% y 23%, por ejemplo). Afirmaciones como las anteriores se basan en el hecho de que por haber seleccionado al azar, hay un mecanismo objetivo de generación de la incertidumbre y mediante deducciones matemáticas es posible encontrar las probabilidades mencionadas. Si la selección se hubiese hecho ``a juicio'', dependería del buen juicio y no de las matemáticas el tamaño del error en la inferencia. La medición de la incertidumbre sería muy complicada y nada confiable. En la mayoría de las veces que hacemos inferencia, las probabilidades las calculamos con el modelo normal. En algunos casos este modelo normal es el modelo exacto para la inferencia, pero muy frecuentemente es sólo un modelo aproximado. Estimación y Prueba de Hipótesis En la estadística hay dos formas principales de inferir: Estimación y Prueba de hipótesis La estimación parte desde suponer un modelo estadístico para la distribución de la característica que nos interesa en la población. Esta característica es, generalmente, numérica y distinguimos a las variables en continuas y discretas. Si nos interesa el rendimiento o eficiencia de los trabajadores, como en el tercer ejemplo, tendremos el tiempo de realización de una tarea específica (variable continua). En el segundo ejemplo nos interesará el número y tipo de errores cometidos en la factura (variable discreta). En el primero nos interesa la opinión que mediremos como favorable o desfavorable (variable discreta = número de personas a favor o en contra). Si tiene Ud. inclinaciones más poéticas, recuerde a la reina de las hadas y su problema de enamorarse del primero que vea al despertar; ahí tenemos el mismo tipo de situación: el amado será guapo o no guapo, y el parámetro desconocido es la ``densidad'' de guapos alrededor de la reina dormida. I – Estimación Para estimar partimos de un modelo probabilístico de cómo se distribuye la característica en la población o de cómo se realizó el muestreo. Este modelo incluye cantidades que desconocemos y que llamamos parámetros Por ejemplo, en la encuesta para saber la opinión de los clientes, el número de clientes a favor es un parámetro, y la probabilidad de que obtengamos al azar a una persona que – Tipos de Inferencia – 2 Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística está a favor es la proporción de personas a favor en la población (que desconocemos). Esto se parece al lío de la reina de las hadas. Para los tiempos de realización de la tarea, en el tercer ejemplo, podemos suponer una distribución normal con una media y una desviación estándar desconocidas; nuestro interés se centraría en el valor del promedio de la población. De la muestra estimamos los valores de los parámetros en la población y esto lo hacemos: • mediante un valor fijo y entonces decimos que tenemos un estimador puntual o • mediante un intervalo de posibles valores y le llamamos estimación por intervalo o intervalo de confianza. Los métodos de estimación puntual pueden tener varias características estadísticas entre las que sobresalen: 1. Insesgamiento. Que el valor del parámetro coincida con el valor promedio del estimador. Esta propiedad la tienen la mayoría de los estimadores usados en la práctica. 2. Consistencia. Que el valor de la muestra se acerque al valor del parámetro al aumentar el tamaño de la muestra. 3. Suficiencia. Que el estimador use toda la información que la muestra contiene respecto al parámetro de interés. 4. Eficiencia. Que el estimador tenga menor variabilidad que otro posible. Estimación puntual y por intervalo Los estimadores puntuales más comunes son: • (A) La media de la muestra para estimar el valor promedio en la población. • (B) La proporción en la muestra para estimar la proporción en la población. • (C) La desviación estándar de la muestra como estimación de la desviación estándar de la población. Es práctica común hablar de 2 veces la desviación estándar de un estimador como el error de estimación. Este error usualmente depende del tamaño de la población de donde se saca la muestra, sin embargo esta dependencia es muy moderada para muestras pequeñas en relación al tamaño de la población. Algo de esto ya lo experimentamos cuando hablamos de muestreo. Es costumbre no hacer caso de esta corrección por población finita. La otra forma de estimar es más realista en cierto sentido. Estimamos usando un intervalo. Analicemos el siguiente ejemplo. De 400 entrevistados 220 están a favor. ¿Qué tan probable es tener 220 o más a favor cuando las opiniones están divididas igualmente entre a favor o en contra? Resulta 2.28% o 2.56% dependiendo de la fórmula usada. Pero si hubieran sido 1100 de 2000 la probabilidad cambiaría a cero (aunque la proporción: 220 de 400 sea la – Tipos de Inferencia – 3 Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística misma que 1100 de 2000). Si hubieran sido 55 de 100 la proporción permanece pero la probabilidad aumenta a 15.87%. En estos ejemplos la estimación puntual permanece igual, pero las probabilidades dan tantos tumbos que concluimos que no es posible que reportemos sólo la estimación puntual, Debemos mencionar el error de estimación. Una manera muy compacta de hacerlo es un intervalo de confianza. Éste consta de dos valores que encierran al parámetro con una probabilidad preestablecida arbitrariamente por nosotros. Lo común es usar 90% ó 95% ó 99%. A esta probabilidad la llamamos confianza. Las fórmulas para calcular los intervalos de confianza más comunes las encontrará en el texto. II – Prueba de hipótesis Veamos otra forma de hacer la inferencia. La forma de inferir a la que nos referimos se llama genéricamente prueba de hipótesis. La palabra prueba aquí se debe entender como una puesta a prueba de la hipótesis para ver si la declaramos falsa o verdadera. Una prueba de hipótesis estadística es una prueba fundamentalmente empírica. Se trata de confrontar la hipótesis con los hechos. La situación es similar a la de la minería donde se ensayan muestras de mineral para determinar el grado de metal que contienen. De acuerdo al resultado de los ensayes, se establece si vale la pena la explotación de la mina. Una hipótesis, de manera abstracta, en el contexto estadístico, es una afirmación sobre el valor de un parámetro. • Para que la prueba tenga interés debe tratarse de un parámetro con un significado muy claro y, de preferencia, debe indicarnos alguna acción a seguir. • La afirmación puede ser falsa o verdadera, al proponer una hipótesis estadística no estamos pensando que esa hipótesis sea verdadera. El objetivo de la prueba es, precisamente, decidir si la muestra indica que la hipótesis es falsa o es verdadera. • Una prueba de hipótesis hace uso sólo de la información que está en la muestra. Si en alguna situación poseyéramos información aparte de la muestra, hay que diseñar un mecanismo específico para usar esa otra información. • De acuerdo al símil con la minería, podemos equivocarnos. Una muestra, por azar, puede resultar alta en contenido de metal y llevarnos a excavar una mina pobre; de la misma forma, una muestra pobre en metal puede hacernos abandonar la idea de excavar en un sitio que sea muy rico. Un ejemplo Las hipótesis Veamos un ejemplo para precisar la idea de una prueba estadística. Supongamos que la compañía, está contemplando una mejora en la rutina de producción que nos va a volver más competitivos porque va a permitir reducir los costos. La nueva rutina ha sido – Tipos de Inferencia – 4 Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística probada en algunas otras partes y ha funcionado; además, hace las cosas de una manera más lógica que la rutina actual. Decidimos ponerla a prueba a ver si lo que esperamos de ella se verifica o no. Para que nos decidamos a implantarla de forma definitiva, requerimos ver resultados de ella. La prueba la vamos a hacer analizando si el costo promedio por artículo producido mejora y para eso, vamos a considerar el promedio de artículos producidos. Pero vamos a adoptar el nuevo método sólo si mejora en un 30% al promedio actual que es de 60.4 artículos, es decir sólo cambiaríamos la rutina si el promedio se eleva a 78.5 o más. Para tener una mejor base de comparación, vamos a repetir la operación cincuenta veces y calcularemos el promedio de estas 50 veces. En el ejemplo tenemos una hipótesis: “la media poblacional bajo el nuevo método será mayor que 78.5”. Note que esta hipótesis puede resultar falsa en los hechos a pesar de los buenos augurios que tiene. Vamos a contrastarla contra otra: “la media no rebasará 78.5”. Al hacer la prueba, en realidad necesitamos las dos hipótesis, a una la llamamos nula y a la otra alternativa. En nuestro ejemplo la hipótesis nula es “la media no pasa de 78.5”. De ser cierta no vamos a hacer nada (por eso se escogió el calificativo NULA). La alternativa es que sea “mayor que 78.5”. La prueba La idea de la prueba es muy simple, en este caso. Vamos a evaluar la hipótesis nula en base a lo que observemos: • Si el rendimiento promedio de las cincuenta repeticiones es muy bajo, no podremos sostener la hipótesis alternativa y tendremos que quedarnos con la nula. • Si el rendimiento promedio supera por mucho los 78.5, concluiremos que la alternativa es la correcta. • Pero si supera por poco los 78.5, tendremos duda al respecto. La región crítica y los errores Vamos a tener que establecer una cota, por encima de los 78.5, y tomar la decisión de rechazar la nula si la media observada rebasa esa cota. En caso contrario diremos que la evidencia empírica no muestra que el nuevo método sea mejor. Llamamos región crítica o región de rechazo a los valores del promedio que nos llevan a la decisión de rechazar la nula. Una consideración importante para la prueba es que cualquiera que sea la decisión que tomemos nos puede acarrear problemas, ya que la decisión tomada puede ser errónea. Hay que recordar que la decisión la tomamos en base al resultado de una muestra y puede estar equivocado. Además, como en realidad, estamos probando un par de hipótesis, podemos errar de dos maneras: 1. Podemos rechazar la nula cuando es cierta – Tipos de Inferencia – 5 Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística 2. Podemos no rechazarla cuando es falsa. La numeración del párrafo anterior no es casual, es convención llamar a los errores por su número: error tipo 1 y error tipo 2. Lo bueno o malo de una prueba se califica en base a la probabilidad de cometer error tipo uno y dos. Llamamos significación o nivel de significación de la prueba a la probabilidad de cometer error tipo 1 y la denotamos con la letra griega alfa. Usamos la letra griega beta para denotar a la probabilidad de error tipo 2. En nuestro ejemplo la región crítica está incompleta, falta especificar la cota de la que hemos hablado, es decir el número a partir del cual nuestra decisión será adoptar el nuevo procedimiento. Para poder especificarla debemos considerar un elemento extraño: ¿qué probabilidad de cometer un error de tipo 1 queremos? Sesgos Hay que reflexionar bien sobre esto ya que es una de las dificultades mayores en el uso de las pruebas de hipótesis. En párrafos anteriores nos hemos referido a la posibilidad de equivocarnos. En el ejemplo, podría pasar que el método nuevo no fuera mejor. Aquí tenemos dos peligros que enfrentar: • El sesgo en la selección de la muestra. • El azar en la selección de la muestra. Primero hablemos sobre el sesgo al seleccionar. Es claro que queremos probar el nuevo sistema en nuestra propia empresa. También es claro que no lo vamos a ensayar con todo el personal. ¿Cómo escoger al personal para llevar a cabo el experimento? ¿Los más capaces? Aquí es donde se puede introducir un sesgo que destruya por completo la validez de la prueba. Pero no para ahí el peligro. El procedimiento es nuevo; siempre hay un efecto de la novedad. Probablemente el personal hará las cosas con más entusiasmo que de costumbre. Además, el personal que está probando el nuevo método está percibiendo atención extra de sus superiores, esto afecta su conducta. En contra se tiene el efecto del aprendizaje. Para poner las cosas de manera más simple, acuérdese lo que sucedió la primera vez que manejó un auto. La manera de evitar los sesgos es mediante el control y la aleatorización. (Al menos eso dicen los enterados en el diseño de experimentos). En nuestro ejemplo esto se traduce en que evitemos los sesgos anteriores seleccionando al azar. Y esto nos lleva a considerar que la prueba puede fallarnos por mala suerte. Volvamos a considerar el error tipo 1. En nuestro ejemplo, este error consiste en que el método nuevo no produzca la mejora esperada y que por casualidad la muestra tenga un promedio muy grande (es decir, que esté en la región crítica). Alfa Naturalmente que quisiéramos que esto no pudiera pasar. Desafortunadamente no hay garantías, sólo podemos lograr que la probabilidad del error tipo 1 sea pequeña. El nivel – Tipos de Inferencia – 6 Univ. Nacional de Entre Ríos Fac. de Ingeniería Probabilidad y Estadística de significación se determina de forma arbitraria (así como el nivel de confianza en un intervalo) y la costumbre es usar 10%, 5% o 1%. Regresando a nuestro ejemplo, después de hacer cuentas y consultar la tabla normal, resulta que si la media de la muestra de 50 rebasa a 78.5 + (0.23)s rechazaremos la nula. Esta región crítica nos da un alfa = 0.05. Llamamos prueba de una cola a aquella cuya región crítica se localiza en un extremo de la distribución muestral ya sea la cola derecha como en nuestro ejemplo o la cola izquierda. No es raro que usemos también pruebas de dos colas, situando la región crítica en ambos extremos de la distribución muestral. Una prueba así sirve para detectar diferencias en cualquier sentido. A modo de ejemplo: El trabajo del Señor H es la enseñanza. Un problema que se le presenta es la gran cantidad de reprobados en las materias que dicta. Revisando los archivos se da cuenta que el porcentaje de reprobados ha sido aproximadamente 60%. Tomó un curso de didáctica y se dió cuenta de varios errores que comete al enseñar. Este semestre espera haberlos corregido. Hace una prueba para saber si la proporción de reprobados disminuyó. La hipótesis nula es que la proporción es 60%, la alterna que la proporción disminuyó. Un error tipo 1 es que su enseñanza haya mejorado pero por azar el grupo elegido para este semestre, haya sido malo. Un error tipo 2 es que no haya mejorado su didáctica (a pesar del curso) y por casualidad su grupo en este semestre haya tenido pocos reprobados. – Tipos de Inferencia – 7