INFERENCIA ESTADÍSTICA

Anuncio
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
INFERENCIA ESTADÍSTICA
Pensemos en los tres siguientes ejemplos:
•
Hacemos una encuesta entre los clientes de una tienda para preguntarles su opinión sobre
cambios generales que pretendemos hacer en diversas áreas de la tienda. Después de realizados
los cambios, queremos hacer una segunda encuesta para saber cómo se modificó la opinión sobre
los cambios una vez hechos. Nos interesa la DIFERENCIA.
•
Revisamos varias de nuestras ventas para ver los problemas que se presenten en la facturación de
las mismas. Esto lo realizamos antes de imponer algunas mejoras en el procedimiento de
facturación. Tenemos la intención de realizar la misma investigación después de hechos los
cambios para medir la DIFERENCIA.
•
Queremos establecer estándares para el desempeño de los trabajadores a fin de poder ver como
es el desempeño actual. De lo que encontremos se van a derivar varias acciones:
o
se va a otorgar un estímulo para los trabajadores,
o
se va a establecer una tabla comparativa de desempeño entre las diferentes unidades de
la empresa y en base a ella se va a otorgar un estímulo a los gerentes,
o
se va a comparar el desempeño contra el desempeño en los últimos tres períodos
anteriores.
Para establecer los estándares se van a seleccionar varios operarios de cada uno de los dos turnos
y se va a medir su rendimiento durante tres días específicos de una semana. Estamos interesados
en conocer un VALOR general.
En los tres ejemplos anteriores se tienen muestras obtenidas, quizá al azar, y se trata de
conocer valores de la población en base a los de la muestra.
•
La decisión de si a los clientes les gustaron los cambios la vamos a tomar sobre los valores en la
muestra.
•
La mejora en las facturas la vamos a constatar en base a las que observamos.
•
El estándar de desempeño lo vamos a fijar en base a los trabajadores estudiados.
Pero en los tres casos vamos a extender el valor de la muestra o las muestras a la
población. Este proceso se llama inferencia.
Errores en la inferencia y qué hace la estadística con ellos
En todo caso el proceso de inferencia está sujeto a errores. No existe magia alguna que
haga que el valor de la muestra coincida con el de la población y si afirmásemos lo
contrario seríamos unos charlatanes.
La diferencia entre los valores de la muestra y los de la población crea incertidumbre
acerca de los valores muestrales. Se necesita una manera de establecer las limitaciones
del proceso de inferencia.
Los procedimientos estadísticos no eliminan los errores en la inferencia. Lo que hacen
es que los valores de los errores sean cuantificables mediante afirmaciones de
probabilidad. Se dice que los procedimientos estadísticos son medibles porque es
posible medir (en términos de probabilidad) la magnitud del error que cometen.
– Tipos de Inferencia –
1
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
En el ejemplo de los clientes del establecimiento, si obtuvimos una muestra estadística,
podemos decir no sólo cuál es el porcentaje de clientes indiferente a los cambios (por
ejemplo 20%, valor en la muestra) sino, además, cuál es la probabilidad de que el
porcentaje real sea menor que alguna cantidad (por ejemplo la probabilidad de que sea
menor que 25%) o mayor que alguna otra cantidad (por ejemplo mayor que 10%) o que
se encuentre entre dos valores (entre 18% y 23%, por ejemplo).
Afirmaciones como las anteriores se basan en el hecho de que por haber seleccionado al
azar, hay un mecanismo objetivo de generación de la incertidumbre y mediante
deducciones matemáticas es posible encontrar las probabilidades mencionadas. Si la
selección se hubiese hecho ``a juicio'', dependería del buen juicio y no de las
matemáticas el tamaño del error en la inferencia. La medición de la incertidumbre sería
muy complicada y nada confiable.
En la mayoría de las veces que hacemos inferencia, las probabilidades las calculamos
con el modelo normal. En algunos casos este modelo normal es el modelo exacto para la
inferencia, pero muy frecuentemente es sólo un modelo aproximado.
Estimación y Prueba de Hipótesis
En la estadística hay dos formas principales de inferir:
Estimación y
Prueba de hipótesis
La estimación parte desde suponer un modelo estadístico para la distribución de la
característica que nos interesa en la población. Esta característica es, generalmente,
numérica y distinguimos a las variables en continuas y discretas.
Si nos interesa el rendimiento o eficiencia de los trabajadores, como en el tercer
ejemplo, tendremos el tiempo de realización de una tarea específica (variable continua).
En el segundo ejemplo nos interesará el número y tipo de errores cometidos en la
factura (variable discreta).
En el primero nos interesa la opinión que mediremos como favorable o desfavorable
(variable discreta = número de personas a favor o en contra).
Si tiene Ud. inclinaciones más poéticas, recuerde a la reina de las hadas y su problema
de enamorarse del primero que vea al despertar; ahí tenemos el mismo tipo de situación:
el amado será guapo o no guapo, y el parámetro desconocido es la ``densidad'' de
guapos alrededor de la reina dormida.
I – Estimación
Para estimar partimos de un modelo probabilístico de cómo se distribuye la
característica en la población o de cómo se realizó el muestreo. Este modelo incluye
cantidades que desconocemos y que llamamos parámetros
Por ejemplo, en la encuesta para saber la opinión de los clientes, el número de clientes a
favor es un parámetro, y la probabilidad de que obtengamos al azar a una persona que
– Tipos de Inferencia –
2
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
está a favor es la proporción de personas a favor en la población (que desconocemos).
Esto se parece al lío de la reina de las hadas.
Para los tiempos de realización de la tarea, en el tercer ejemplo, podemos suponer una
distribución normal con una media y una desviación estándar desconocidas; nuestro
interés se centraría en el valor del promedio de la población.
De la muestra estimamos los valores de los parámetros en la población y esto lo
hacemos:
•
mediante un valor fijo y entonces decimos que tenemos un estimador puntual o
•
mediante un intervalo de posibles valores y le llamamos estimación por intervalo o intervalo de
confianza.
Los métodos de estimación puntual pueden tener varias características estadísticas entre
las que sobresalen:
1.
Insesgamiento. Que el valor del parámetro coincida con el valor promedio del estimador. Esta
propiedad la tienen la mayoría de los estimadores usados en la práctica.
2.
Consistencia. Que el valor de la muestra se acerque al valor del parámetro al aumentar el tamaño
de la muestra.
3.
Suficiencia. Que el estimador use toda la información que la muestra contiene respecto al
parámetro de interés.
4.
Eficiencia. Que el estimador tenga menor variabilidad que otro posible.
Estimación puntual y por intervalo
Los estimadores puntuales más comunes son:
•
(A) La media de la muestra para estimar el valor promedio en la población.
•
(B) La proporción en la muestra para estimar la proporción en la población.
•
(C) La desviación estándar de la muestra como estimación de la desviación estándar de la
población.
Es práctica común hablar de 2 veces la desviación estándar de un estimador como el
error de estimación. Este error usualmente depende del tamaño de la población de
donde se saca la muestra, sin embargo esta dependencia es muy moderada para muestras
pequeñas en relación al tamaño de la población. Algo de esto ya lo experimentamos
cuando hablamos de muestreo. Es costumbre no hacer caso de esta corrección por
población finita.
La otra forma de estimar es más realista en cierto sentido. Estimamos usando un
intervalo. Analicemos el siguiente ejemplo.
De 400 entrevistados 220 están a favor. ¿Qué tan probable es tener 220 o más a favor
cuando las opiniones están divididas igualmente entre a favor o en contra?
Resulta 2.28% o 2.56% dependiendo de la fórmula usada. Pero si hubieran sido 1100 de
2000 la probabilidad cambiaría a cero (aunque la proporción: 220 de 400 sea la
– Tipos de Inferencia –
3
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
misma que 1100 de 2000). Si hubieran sido 55 de 100 la proporción permanece pero la
probabilidad aumenta a 15.87%.
En estos ejemplos la estimación puntual permanece igual, pero las probabilidades dan
tantos tumbos que concluimos que no es posible que reportemos sólo la estimación
puntual, Debemos mencionar el error de estimación. Una manera muy compacta de
hacerlo es un intervalo de confianza.
Éste consta de dos valores que encierran al parámetro con una probabilidad
preestablecida arbitrariamente por nosotros. Lo común es usar 90% ó 95% ó 99%. A
esta probabilidad la llamamos confianza.
Las fórmulas para calcular los intervalos de confianza más comunes las encontrará en el
texto.
II – Prueba de hipótesis
Veamos otra forma de hacer la inferencia.
La forma de inferir a la que nos referimos se llama genéricamente prueba de hipótesis.
La palabra prueba aquí se debe entender como una puesta a prueba de la hipótesis para
ver si la declaramos falsa o verdadera. Una prueba de hipótesis estadística es una prueba
fundamentalmente empírica. Se trata de confrontar la hipótesis con los hechos.
La situación es similar a la de la minería donde se ensayan muestras de mineral para
determinar el grado de metal que contienen. De acuerdo al resultado de los ensayes, se
establece si vale la pena la explotación de la mina.
Una hipótesis, de manera abstracta, en el contexto estadístico, es una afirmación sobre
el valor de un parámetro.
•
Para que la prueba tenga interés debe tratarse de un parámetro con un significado muy claro y,
de preferencia, debe indicarnos alguna acción a seguir.
•
La afirmación puede ser falsa o verdadera, al proponer una hipótesis estadística no estamos
pensando que esa hipótesis sea verdadera. El objetivo de la prueba es, precisamente, decidir si la
muestra indica que la hipótesis es falsa o es verdadera.
•
Una prueba de hipótesis hace uso sólo de la información que está en la muestra. Si en alguna
situación poseyéramos información aparte de la muestra, hay que diseñar un mecanismo
específico para usar esa otra información.
•
De acuerdo al símil con la minería, podemos equivocarnos. Una muestra, por azar, puede
resultar alta en contenido de metal y llevarnos a excavar una mina pobre; de la misma forma, una
muestra pobre en metal puede hacernos abandonar la idea de excavar en un sitio que sea muy
rico.
Un ejemplo
Las hipótesis
Veamos un ejemplo para precisar la idea de una prueba estadística. Supongamos que la
compañía, está contemplando una mejora en la rutina de producción que nos va a volver
más competitivos porque va a permitir reducir los costos. La nueva rutina ha sido
– Tipos de Inferencia –
4
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
probada en algunas otras partes y ha funcionado; además, hace las cosas de una manera
más lógica que la rutina actual. Decidimos ponerla a prueba a ver si lo que esperamos
de ella se verifica o no. Para que nos decidamos a implantarla de forma definitiva,
requerimos ver resultados de ella.
La prueba la vamos a hacer analizando si el costo promedio por artículo producido
mejora y para eso, vamos a considerar el promedio de artículos producidos. Pero vamos
a adoptar el nuevo método sólo si mejora en un 30% al promedio actual que es de 60.4
artículos, es decir sólo cambiaríamos la rutina si el promedio se eleva a 78.5 o más.
Para tener una mejor base de comparación, vamos a repetir la operación cincuenta veces
y calcularemos el promedio de estas 50 veces.
En el ejemplo tenemos una hipótesis: “la media poblacional bajo el nuevo método será
mayor que 78.5”. Note que esta hipótesis puede resultar falsa en los hechos a pesar de
los buenos augurios que tiene. Vamos a contrastarla contra otra: “la media no rebasará
78.5”. Al hacer la prueba, en realidad necesitamos las dos hipótesis, a una la llamamos
nula y a la otra alternativa.
En nuestro ejemplo la hipótesis nula es “la media no pasa de 78.5”. De ser cierta no
vamos a hacer nada (por eso se escogió el calificativo NULA). La alternativa es que sea
“mayor que 78.5”.
La prueba
La idea de la prueba es muy simple, en este caso. Vamos a evaluar la hipótesis nula en
base a lo que observemos:
•
Si el rendimiento promedio de las cincuenta repeticiones es muy bajo, no podremos sostener la
hipótesis alternativa y tendremos que quedarnos con la nula.
•
Si el rendimiento promedio supera por mucho los 78.5, concluiremos que la alternativa es la
correcta.
•
Pero si supera por poco los 78.5, tendremos duda al respecto.
La región crítica y los errores
Vamos a tener que establecer una cota, por encima de los 78.5, y tomar la decisión de
rechazar la nula si la media observada rebasa esa cota. En caso contrario diremos que la
evidencia empírica no muestra que el nuevo método sea mejor. Llamamos región crítica
o región de rechazo a los valores del promedio que nos llevan a la decisión de rechazar
la nula.
Una consideración importante para la prueba es que cualquiera que sea la decisión que
tomemos nos puede acarrear problemas, ya que la decisión tomada puede ser errónea.
Hay que recordar que la decisión la tomamos en base al resultado de una muestra y
puede estar equivocado.
Además, como en realidad, estamos probando un par de hipótesis, podemos errar de dos
maneras:
1.
Podemos rechazar la nula cuando es cierta
– Tipos de Inferencia –
5
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
2.
Podemos no rechazarla cuando es falsa.
La numeración del párrafo anterior no es casual, es convención llamar a los errores por
su número: error tipo 1 y error tipo 2.
Lo bueno o malo de una prueba se califica en base a la probabilidad de cometer error
tipo uno y dos. Llamamos significación o nivel de significación de la prueba a la
probabilidad de cometer error tipo 1 y la denotamos con la letra griega alfa. Usamos la
letra griega beta para denotar a la probabilidad de error tipo 2.
En nuestro ejemplo la región crítica está incompleta, falta especificar la cota de la que
hemos hablado, es decir el número a partir del cual nuestra decisión será adoptar el
nuevo procedimiento.
Para poder especificarla debemos considerar un elemento extraño: ¿qué probabilidad de
cometer un error de tipo 1 queremos?
Sesgos
Hay que reflexionar bien sobre esto ya que es una de las dificultades mayores en el uso
de las pruebas de hipótesis. En párrafos anteriores nos hemos referido a la posibilidad
de equivocarnos. En el ejemplo, podría pasar que el método nuevo no fuera mejor. Aquí
tenemos dos peligros que enfrentar:
•
El sesgo en la selección de la muestra.
•
El azar en la selección de la muestra.
Primero hablemos sobre el sesgo al seleccionar. Es claro que queremos probar el nuevo
sistema en nuestra propia empresa. También es claro que no lo vamos a ensayar con
todo el personal. ¿Cómo escoger al personal para llevar a cabo el experimento? ¿Los
más capaces? Aquí es donde se puede introducir un sesgo que destruya por completo la
validez de la prueba.
Pero no para ahí el peligro. El procedimiento es nuevo; siempre hay un efecto de la
novedad. Probablemente el personal hará las cosas con más entusiasmo que de
costumbre. Además, el personal que está probando el nuevo método está percibiendo
atención extra de sus superiores, esto afecta su conducta. En contra se tiene el efecto del
aprendizaje. Para poner las cosas de manera más simple, acuérdese lo que sucedió la
primera vez que manejó un auto.
La manera de evitar los sesgos es mediante el control y la aleatorización. (Al menos eso
dicen los enterados en el diseño de experimentos). En nuestro ejemplo esto se traduce
en que evitemos los sesgos anteriores seleccionando al azar. Y esto nos lleva a
considerar que la prueba puede fallarnos por mala suerte. Volvamos a considerar el
error tipo 1. En nuestro ejemplo, este error consiste en que el método nuevo no
produzca la mejora esperada y que por casualidad la muestra tenga un promedio muy
grande (es decir, que esté en la región crítica).
Alfa
Naturalmente que quisiéramos que esto no pudiera pasar. Desafortunadamente no hay
garantías, sólo podemos lograr que la probabilidad del error tipo 1 sea pequeña. El nivel
– Tipos de Inferencia –
6
Univ. Nacional de Entre Ríos
Fac. de Ingeniería
Probabilidad y Estadística
de significación se determina de forma arbitraria (así como el nivel de confianza en un
intervalo) y la costumbre es usar 10%, 5% o 1%.
Regresando a nuestro ejemplo, después de hacer cuentas y consultar la tabla normal,
resulta que si la media de la muestra de 50 rebasa a 78.5 + (0.23)s rechazaremos la nula.
Esta región crítica nos da un alfa = 0.05.
Llamamos prueba de una cola a aquella cuya región crítica se localiza en un extremo de
la distribución muestral ya sea la cola derecha como en nuestro ejemplo o la cola
izquierda.
No es raro que usemos también pruebas de dos colas, situando la región crítica en
ambos extremos de la distribución muestral. Una prueba así sirve para detectar
diferencias en cualquier sentido.
A modo de ejemplo: El trabajo del Señor H es la enseñanza. Un problema que se le
presenta es la gran cantidad de reprobados en las materias que dicta. Revisando los
archivos se da cuenta que el porcentaje de reprobados ha sido aproximadamente 60%.
Tomó un curso de didáctica y se dió cuenta de varios errores que comete al enseñar.
Este semestre espera haberlos corregido. Hace una prueba para saber si la proporción de
reprobados disminuyó. La hipótesis nula es que la proporción es 60%, la alterna que la
proporción disminuyó.
Un error tipo 1 es que su enseñanza haya mejorado pero por azar el grupo elegido para
este semestre, haya sido malo. Un error tipo 2 es que no haya mejorado su didáctica (a
pesar del curso) y por casualidad su grupo en este semestre haya tenido pocos
reprobados.
– Tipos de Inferencia –
7
Descargar