TECNOLÓGICO DE ESTUDIOS SUPERIORES DEL ORIENTE DEL ESTADO DE MÉXICO DIVISIÓN DE CONTADURÍA ELABORACIÓN DE CUADERNILLO DE APUNTES: ESTADÍSTICA ADMINISTRATIVA II ELABORADO POR: ING. MIRIAM MEDINA DELGADO LOS REYES, LA PAZ, ESTADO DE MÉXICO AGOSTO 2010 INDICE Unidad 1 Pruebas de la bondad del ajuste y análisis de varianza 1.1 Análisis Ji-Cuadrada . ............................................................................ 1 1.2 Prueba de independencia . .................................................................... 1 1.3 Prueba de la bondad del ajuste . ............................................................ 1 1.4 Tablas de contingencia . ........................................................................ 4 1.4.1 método para obtener el estadístico x2 de una tabla de contingencia con dos renglones. ................................................................................. 4 1.4.2 método para obtener el estadístico x2 de una tabla de contingencia con más de dos renglones. .................................................................... 6 1.5 Análisis de varianza . ............................................................................. 9 1.5.1 Aplicaciones de ANOVA . ................................................................... 9 1.5.2 Inferencia sobre una varianza de población (Anova). . ....................... 14 1.5.3 Inferencia sobre la varianza de dos poblaciones (Anova). . ................ 15 Unidad 2. Análisis de regresión, correlación lineal simple y múltiple 2.1 Estimación mediante la línea de regresión . ......................................... 16 2.1.1 Diagrama de dispersión. ................................................................... 16 2.1.2 Método de mínimos cuadrados. ........................................................ 17 2.1.3 Interpretación del error estándar de la estimación. ............................. 18 2.1.4 Intervalos de predicción aproximados................................................ 19 2.1.5 Análisis de correlación. ..................................................................... 22 2.1.6 Paquete computacional para la solución de problemas. ..................... 22 2.1.7 Regresión múltiple y análisis de correlación. ..................................... 22 2.1.8 Usos de variables ficticias. ................................................................ 25 2.1.9 Residuales y gráficas de residuales. ................................................. 25 Unidad 3. Números índice 3.1 Elaboración de índices simples. ........................................................... 27 3.2 Índices agregados de precio. ............................................................... 27 3.3 Relativos eslabonados . ....................................................................... 28 3.4 Cambio de periodo base. ..................................................................... 28 3.5 Fusión de dos series de números índice. ............................................. 29 3.6 Índice de precios al consumidor (IPC).. ................................................ 29 3.7 Deflación de los valores de series de tiempo. ....................................... 30 3.8 Índice de precios al productor (IPP).. ................................................... 31 3.9 Promedios de precios bursátiles de DowJones. .................................... 31 3.10 Indice de producción insustrial. .......................................................... 31 Unidad 4. Estadística no paramétrica 4.1 Escala de medición. ............................................................................ 33 4.2 Métodos estadísticos contra no paramétricos. ...................................... 33 4.3 Prueba de corridas para aleatoriedad................................................... 35 4.3.1 Concepto de aleatoriedad. ................................................................ 35 4.3.2 Teoría de corridas. ........................................................................... 35 4.3.2.1 Prueba de corridas de una sola muestra. ....................................... 36 4.3.2.2 Distribución de muestreo del estadístico r...................................... 36 4.4 Una muestra: prueba de signos. .......................................................... 38 4.5 Una muestra: prueba de Wilcoxon. ...................................................... 40 4.6 Dos muestras: prueba de Mann-Whitney. ............................................. 42 4.7 Observaciones apareadas: prueba de Wilcoxon. .................................. 45 4.8 Varias muestras independientes: prueba de Krauskal-Wallis. ............... 46 INTRODUCCIÓN La estadística administrativa es una materia importante en contaduría ya que permite recopilar, organizar, representar, analizar datos y tomar decisiones, así mismo nos da las herramientas necesarias para utilizar el método adecuado conforme a la situación que se está analizando y aplicarlo en el área contable. Este cuadernillo de apuntes tiene como finalidad servir de apoyo al estudiante durante el curso de la materia, el cual consta de 4 unidades en donde se proponen algunas prácticas para la aplicación de los temas estudiados y está desarrollado conforme al temario. Sin embargo es importante que el alumno consulte más fuentes de información con el objetivo de retroalimentar. A continuación se hace una breve semblanza de los temas que se tratan en las unidades. Unidad 1. Pruebas de la bondad del ajuste y análisis de varianza. En esta unidad se analizan los siguientes temas: análisis ji-cuadrada, pruebas de independencia, bondad de ajuste, tablas de contingencia y análisis de varianza para hacer inferencias a partir de una o dos poblaciones. Unidad 2. Análisis de regresión correlación lineal simple y múltiple. En esta unidad realiza el diagrama de dispersión, se aplica el método de mínimos cuadrados para interpretar el error estándar y determinar los intervalos de predicción, así como la solución de ejercicios de análisis de correlación en Excel. Asimismo se recaban datos de una empresa para aplicar la regresión lineal y hacer estimaciones futuras. Unidad 3. Números índice. En esta unidad se realizan ejercicios para la elaboración de números índice: simple, precio agregado y precio al consumidor. Asimismo se elaboran índices de precio y cantidad con datos recabados en revistas y otras fuentes. Unidad 4. Estadística no paramétrica. En esta unidad se contrasta la estadística paramétrica contra la no paramétrica, así mismo se analizan temas de prueba de corrida de aleatoriedad, de una o dos muestras y observaciones apareadas. También se recopilan datos para efectuar comparación y análisis entre la estadística y la estadística no paramétrica. Estadística Administrativa II 1 Unidad 1. Pruebas de la bondad del ajuste y análisis de varianza 1.1Análisis Ji-Cuadrada Las pruebas Ji-Cuadrada nos permite probar si más de dos proporciones de población pueden ser consideradas iguales. Si clasificamos una población en diferentes categorías respecto a dos atributos (por ejemplo, edad y desempeño en el trabajo), entonces podemos utilizar una prueba Ji-Cuadrada para los dos atributos son independientes entre sí. 1.2 Prueba de independencia Los administradores necesitan saber si las diferencias que observan entre varias proporciones de la muestra son significativas o sólo se deben al azar. 1.3 Prueba de la bondad del ajuste La prueba ji- cuadrada puede utilizarse también para decidir si una distribución de probabilidad en particular, como la binomial, la de Poisson o la normal, es la apropiada. Esta es una habilidad importante, porque como tomadores de decisiones que utilizamos la estadística, necesitamos escoger cierta distribución de probabilidad para representar la distribución de los datos que tengamos que analizar. La prueba ji- cuadrada nos permite hacernos la pregunta de cuál distribución podemos utilizar, y probar si existe una diferencia significativa entre una distribución de frecuencias observadas y una distribución de frecuencias teórica. Cálculo de frecuencias observadas y esperadas Ejemplo La compañía “x” requiere que los estudiantes del último año de la universidad que buscan trabajo sean entrevistados por tres ejecutivos diferentes. Esto permite a la compañía obtener una evaluación por consenso de candidatos. Cada ejecutivo califica al candidato como positivo o negativo. Con el propósito de planear la contratación, el director de selección del personal de la compañía piensa que el proceso de entrevistas puede ser aproximado por una distribución binomial con p= 0.40, es decir del 40 % de de posibilidad de que cualquier candidato obtenga una calificación positiva en cualquiera de las entrevistas. Si el director desea probar una hipótesis a un nivel de significancia de 0.20. ¿Cómo debe proceder? Estadística Administrativa II 2 Ho: una distribución binomial con p= 0.40 proceso de entrevista. Hi: una distribución binomial con p= 0.40 proceso de entrevista. Es una buena descripción del No es una buena descripción del α= 0.20 nivel de significancia para probar la hipótesis Calificaciones positivas posibles en las tres entrevistas Número de candidatos que obtienen cada calificación 0 1 2 3 18 47 24 11 100 Calificaciones positivas posibles en las tres entrevistas Probabilidades binomiales para esos resultados 0 1 2 3 .2160 .4320 .2880 .0640 1.0000 Resultados de las entrevistas de 100 candidatos Posibilidad binomial Frecuencias observadas, Probabilidades binomiales adecuadas y frecuencias esperada Calificaciones positivas posibles en las tres entrevistas Frecuencia observada de candidatos que obtienen estas calificaciones Probabilidades binomiales de resultados posibles Número de candidatos entrevistados Frecuencia esperada de candidatos que obtienen estas calificaciones 0 1 2 3 18 47 24 11 100 .2160 .4320 .2880 .0640 1.0000 100 100 100 100 21.6 43.2 28.8 6.4 100.0 Estadístico ji- cuadrada x2 = Σ(fo-fe)2 fe fo= frecuencia observada fe= frecuencia esperada Estadística Administrativa II 3 Calculo del estadístico x2 2 Frecuencia observada fo Frecuencia esperada fe fo-fe (fo-fe) 18 47 24 11 21.6 43.2 28.8 6.4 -3.6 3.8 -4.8 4.6 12.96 14.44 23.04 21.16 (fo-fe) fe 2 0.6000 0.3343 0.8000 3.3063 2 X =5.0406 Determinación de los grados de libertad Antes de calcular el número adecuado de grados de libertad para una prueba jicuadrada de bondad de ajuste, es necesario contar el número de clases (denotado por K) para las que se compararon las frecuencias observadas y esperadas. Grados de libertad = k-1 K= 0,1,2,3 k= 4 gl= 4-1 gl= 3 Región de aceptación Distribución x2 0.20 del área Región de rechazo 4.642 5.0406 Valor de tabla Valor x2 Rechazamos la hipótesis nula y llegamos a la conclusión de que la distribución binomial con p=0.40 no proporciona una buena descripción de nuestras frecuencias observadas Realizar los siguientes ejercicios del libro: 1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall. Número Página 11-16 11-17 11-18 466 466 466 Estadística Administrativa II 4 1.4Tablas de contingencia Describimos las dimensiones de una tabla de contingencia estableciendo primero el número de renglones y luego el número de columnas. La columna y el renglón con el total no cuentan como parte de las dimensiones. Los renglones corren de manera horizontal y las columnas de manera vertical. Tabla de contingencia de 2 x 4( 2 renglones, 4 columnas) 1.4.1 Método para obtener el estadístico x2 de una tabla de contingencia con 2 renglones. Ejemplo En cuatro regiones se muestrean las actitudes de los empleados respecto a la evaluación del desempeño en el trabajo. Los trabajadores eligen entre el método actual (dos evaluaciones al año) y un método propuesto (evaluaciones trimestrales). A continuación se presentan los datos. Tabla de contingencia de 2x4 Respuesta de la muestra concerniente a los programas de evaluación de empleados Número de empleados que prefieren el método actual Número de empleados que prefieren el método nuevo Total de empleados muestreados en cada región Noreste Sureste Central Costa oeste Total 68 75 57 79 279 32 45 33 31 141 100 56 90 110 420 Planteamiento del problema Hipótesis nula Ho: PN=PS=PC=PW Hipótesis alternativa Hi: PN, PS, PC, PW no son iguales PN= proporción de empleados en el noreste que prefieren el plan actual PS= proporción de empleados en el sureste que prefieren el plan actual PC= proporción de empleados en la región central que prefieren el plan actual PW= proporción de empleados de la región de la costa que prefieren el plan actual. Estadística Administrativa II 5 Frecuencias observadas y esperadas Proporción de empleados muestreados en cada región que se espera prefieren los dos métodos de evaluación Comparación de las frecuencias observadas y esperadas de trabajadores muestreados Número total muestreado Proporción estimada que prefieren el método actual Número que se espera prefiera el método actual Número total muestreado Proporción estimada que prefieren el método nuevo Número que se espera prefiera el método nuevo Frecuencia con que prefieren el método actual: Frecuencia observada (real) Frecuencia esperada (teórica) Frecuencia con que prefieren el método nuevo: Frecuencia observada (real) Frecuencia esperada (teórica) Noreste Sureste Central Costa oeste 100 x 0.6643 120 x 0.6643 90 x 0.6643 110 x 0.6643 66.43 79.72 59.79 73.07 100 x 0.3357 120 x 0.3357 90 x 0.3357 110 x 0.3357 33.57 40.28 30.21 36.93 Noreste Sureste Central Costa oeste 68 75 57 79 66.43 79.72 59.79 73.07 32 45 33 31 33.57 40.28 30.21 36.93 Estadístico ji- cuadrada 𝒙𝟐 = 𝜮 (𝒇𝒐 − 𝒇𝒆)𝟐 𝒇𝒆 fo= frecuencia observada fe= frecuencia esperada Calculo del estadístico 2 x fo 68 75 57 79 32 45 33 31 fe 66.43 79.72 59.79 73.07 33.57 40.28 30.21 36.93 Paso 1 fo-fe Paso 2 2 (fo-fe) 1.57 -4.72 -2.79 5.93 -1.57 4.72 2.79 -5.93 2.46 22.28 7.78 35.16 2.46 22.28 7.78 35.16 2 X= Paso 3 2 (fo-fe) fe 0.0370 0.2795 0.1301 0.4812 0.0733 0.5531 0.2575 0.9521 2.7638 Estadística Administrativa II 6 Determinación de los grados de libertad Grados de libertad en una prueba ji- cuadrada Número grados libertad de de = (número de renglones -1 )(número de columnas -1) Tabla de 2x4 (2-1)(4-1)= (1)(3) = 3 grados de libertad Nivel de significancia de .10 Buscar en tablas x2 3 grados de libertad con un nivel de significancia de .10 y graficar Región de aceptación Distribución x2 con 3 grados de libertad 0.10 del área Región de rechazo 2.764 Valor x2 6.251 Valor de tabla Interpretación de los resultados y la gráfica. 1.4.2 Método para obtener el estadístico x2 de una tabla de contingencia con más de 2 renglones. Estadístico ji- cuadrada x2 = Σ(fo-fe)2 fe fo= frecuencia observada fe= frecuencia esperada Determinación de los grados de libertad de una tabla de contingencia de más de tres renglones Grados de libertad en una prueba ji- cuadrada Número de grados de libertad de una tabla de más de tres renglones = (número de renglones -1 )(número de columnas -1) Estadística Administrativa II 7 Tabla de contingencia Número de renglones Número de columnas r-1 c-1 A B C 3 5 6 4 7 9 3-1=2 5-1=4 6-1=5 4-1=3 7-1=6 9-1=8 Grados de libertad (r-1)(c-1) (2)(3)=6 (4)(6)=24 (5)(8)=40 El presidente de una compañía de seguros de salud, se opone al seguro nacional. Argumenta que su implementación sería muy costosa, en particular, debido a que la existencia de este sistema tendería a fomentar permanencias hospitalarias más prolongadas, además de otros efectos. El presidente piensa que el tiempo de hospitalización depende del tipo de seguro de salud que tengan las personas. Los siguientes datos se obtuvieron de una muestra aleatoria de 660 hospitalizaciones. Datos de hospitalizaciones Calificados según el tipo de cobertura del seguro y el tiempo de estancia Fracción de costos cubiertos por el seguro <25% 25 -50% >50% Total Días en el hospital <5 5-10 40 75 30 45 40 100 >10 65 75 190 Total 180 150 330 110 330 660 220 Planteamiento del problema Hipótesis nula Ho: el tiempo de estancia y tipo de seguro son independientes Hipótesis alternativa Hi: el tiempo de estancia depende del tipo de seguro α= 0.01 nivel de significancia para probar la hipótesis Calculo de la frecuencia esperada Frecuencia esperada para cualquier celda fe= RT X CT n fe= frecuencia esperada en una celda dada RT= total por renglón para el renglón que contiene esa celda CT= total por columna para la columna que contiene esa celda. n= número total de observaciones Estadística Administrativa II 8 Estadístico ji- cuadrada fo= frecuencia observada fe= frecuencia esperada x2 = Σ(fo-fe)2 fe Calculo de las frecuencia s esperadas y jicuadrada 2 (fo-fe) fe 2 Renglón Columna fo fe = RT X CT n fo-fe (fo-fe) 1 1 40 30 10 100 3.333 1 2 75 60 15 225 3.750 1 3 65 90 -25 625 6.944 2 1 30 25 5 25 1.000 2 2 45 50 -5 25 0.500 2 3 75 75 0 0 0.000 3 1 40 55 -15 225 4.091 3 2 100 110 -10 100 0.909 3 3 190 165 180 X 110 660 180 X 220 660 180 X 330 660 150 X 110 660 150 X 220 660 150 X 330 660 330 X 110 660 330 X 220 660 330 X 330 660 25 625 3.788 2 X =24.315 Buscar en tablas x2 4grados de libertad con un nivel de significancia de .10 y graficar Región de aceptación Distribución x2 0.10 del área Región de rechazo 13.277 Valor de tabla Interpretación de resultados x2= 24.315 Estadística Administrativa II 9 Ejercicios Realizar los siguientes ejercicios del libro: 1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall. Número Página 11-1 11-2 11-7 11-8 11-9 11-10 11-11 11-12 11-13 459 460 460 460 460 460 461 461 461 1.5 Análisis de varianza El análisis de varianza nos permite probar si más de dos medias de población pueden considerarse iguales. A menudo se abrevia ANOVA: analysis of variance. ANOVA Es un método de prueba de igualdad de tres o más medias poblacionales. 1 Hipótesis nula típica HO= μ1= μ2= μ3 El método ANOVA nos sirve para evitar el error tipo I (rechazar una hipótesis nula verdadera,), si utilizamos una prueba de igualdad de varias medias. 1.5.1 Aplicaciones de ANOVA Se utiliza cuando: Se asevera que los supermercados colocan los cereales con alto contenido de azúcar en estantes que están a la altura De los ojos de los niños, de manera que eso nos permite probar la aseveración de que los cereales en los estantes tienen el mismo contenido de azúcar. 1 Mario F. Triola, Estadística, Pearson, México,2006 Estadística Administrativa II 10 También en casos como: la comparación del kilometraje logrado por cinco clases diferentes de gasolina, la prueba de cuál de cuatro métodos de capacitación produce el aprendizaje más rápido, etc. Los métodos de ANOVA requieren de la distribución F. Propiedades de la distribución F: 1. Es no simétrica; se sesga hacia la derecha 2. Los valores F son 0 o positivo, pero no negativos 3. Hay una distribución F para cada par de grados de libertad para el numerador y el denominador. Figura 1. Fuente: (Triola, 2006:605) Ejemplo Muestra 1 15 18 19 22 11 Muestra 2 22 27 18 21 17 Muestra 3 18 24 19 16 22 15 Planteamiento de la hipótesis Ho: μ1= μ2= μ3 H1: μ1, μ2 y μ3 no son todas iguales Estadística Administrativa II 11 Cálculo de la media Método 1 Método 2 Método 3 15 18 19 22 11 22 27 18 21 17 85 ÷5 17 105 ÷5 21 18 24 19 16 22 15 114 ÷6 n1=5 n2=5 n3=6 Producción diaria 1= 17 2= 21 3= Sumatoria Tamaño de la muestra Media muestral 19 19 Cálculo de la gran media = 15 +18+ 19+ 22+ 11+22 +27+ 18+ 21+ 17+18 +24+ 19+ 16+ 22+ 15 = 19 16 Cálculo de la varianza entre columnas σ2b = Σnj ( n Cálculo de la varianza entre columnas σ2b = Σnj ( 5 5 6 )2 = k-1 17 21 19 - )2 = 40= k-1 3-1 19 19 19 40 2 ( 17-19=-2 21-19=2 19-19=0 = 20 2 )2 (-2) =4 (2)2=4 (0)2=0 Σnj( - )2 n( - ) 5x4=20 5x4=20 6x0 = 0 =40 varianza entre columnas Estadística Administrativa II 12 Estimación de la varianza dentro de columnas Método de capacitación 1 Media muestral =17 Estimación de la varianza dentro de columnas s21= Σ( - )2 n-1 = 70 5-1 = 17.5 15-17=-2 18-17=1 19-17=2 22-17=5 11-17=-6 Σ( - )2 ( - )2 (-2)2=4 (1)2=1 (2)2=4 (5)2=25 (-6)2=36 =70 varianza de la muestra Método de capacitación 2 Media muestral =21 Estimación de la varianza dentro de columnas s22= Σ( - )2 n-1 = 62 5-1 = 15.5 22-21=1 27-21=6 18-21=-3 21-21=0 17-21=-4 Σ( - )2 ( - )2 (1)2=1 (6)2=36 (-3)2=9 (0)2=0 (-4)2=16 =62 varianza de la muestra Método de capacitación 3 Media muestral =19 Estimación de la varianza dentro de columnas 18-19=-1 24-19=5 19-19=0 16-19=-3 22-19=3 15-19=-4 Σ( - )2 ( - )2 (-1)2=1 (5)2=25 (0)2=0 (-3)2=9 (-32=9 (-4)2=16 =60 Estadística Administrativa II 13 s23= Σ( σ2w = Σ - )2 n-1 = 60 6-1 = 12.0 varianza de la muestra nj - 1 s2j = (4/13)(17.5) + (4/13)(15.5) + (5/13)(12.0) = 193 = 14.769 nt - k 13 Estadístico F F = varianza entre columnas = σ2b Varianza dentro de columnas σ2w F= 20 = 14.769 1.354 cociente F Determinación de los grados de libertad Grados de libertad del numerador Número de grados de libertad en el = (número de muestras-1) numerador del cociente F Grados de libertad del denominador Número de grados de libertad en el = Σ (nj-1)= nt-k denominador del cociente F Gráfica Región de aceptación Distribución f 0.05 del área Región de rechazo F= 1.354 3.81 Valor de tabla Se acepta la hipótesis nula. Estadística Administrativa II 14 Ejercicios Realizar los siguientes ejercicios del libro: 1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall. Número Página 11-5 11-6 11-26 11-27 11-28 11-29 11-30 479 479 480 480 480 480 480 1.5.2 Inferencia sobre una varianza de población (Anova). Estadístico ji- cuadrada para inferencias sobre una varianza X2=(n-1)s2 σ2 Intervalo de confianza para σ2 Límite inferior de confianza σ2L=(n-1)s2 Límite superior de confianza σ2U=(n-1)s2 X2U X2L Estadística Administrativa II 15 Ejercicio. Con los siguientes datos obtener el estadístico ji- cuadrada Y el intervalo de confianza del 95% Tiempo x 50 45 27 66 43 96 45 90 69 1.5.3 Inferencia sobre la varianza de dos poblaciones (Anova). Además de comparar la varianza de dos poblaciones, el principal objetivo de este tema es analizar el cociente que se obtiene al aplicar la fórmula correspondiente. Coeficiente F para inferencias acerca de dos varianzas. F=S21 S22 Estadística Administrativa II 16 Unidad 2. Análisis de regresión, correlación lineal simple y múltiple 2.1 Estimación mediante la línea de regresión El análisis de regresión y correlación permiten determinar tanto la naturaleza como la fuerza de una relación entre dos variables. En el análisis de regresión se desarrollará una ecuación de estimación, a través de una fórmula matemática que relaciona las variables conocidas con la variable desconocida. La variable conocida.- variable independiente X La variable que tratamos de predecir se llama variable dependiente Y Y Y Pendiente negativa Pendiente positiva Emisor de contaminación Ventas X X Publicidad Gastos contra la contaminación a) Relación directa b) Relación directa Figura 2. Fuente: (Levin, 2004:511) 2.1.1 Diagrama de dispersión El primer paso para determinar si existe una relación entre dos variables es examinar la gráfica de datos observados. A esta gráfica se le llama diagrama de dispersión. Un diagrama de dispersión se puede identificar visualmente patrones que indique si las variables están relacionadas. Estadística Administrativa II 17 Figura 3. Fuente: (Levin, 2004:503) 2.1.2 Método de mínimos cuadrados Línea de estimación Y= a+bx Y= variable dependiente a=variable ordenada y b=pendiente de la recta x=variable independiente Pendiente de la recta de regresión de mejor ajuste b = Σ XY - n X Y Σ X2 - n X2 b=pendiente de la línea de estimación de mejor ajuste X= valores de la variable independiente Y= variable valores de la variable dependiente X= media de los valores de la variable independiente Y= media de los valores de la variable dependiente n= número de puntos Estadística Administrativa II 18 Línea de estimación a = Y - bX a= ordenada Y b= pendiente de la ecuación X= media de los valores de la variable independiente Y= media de los valores de la variable dependiente Error estándar de la estimación Se= Σ(Y-Y)2 n-2 Y= valores de la variable dependiente Y=valores estimados con la ecuación de estimación que corresponden a cada valor de Y n= número de puntos utilizados para ajustar la línea de regresión Para medir la confiabilidad de la ecuación de estimación, los especialistas en estadística han desarrollado el error estándar de estimación. Este error estándar se simboliza por Se y es similar a la desviación estándar, en cuanto a que ambas son medidas de dispersión. El error estándar de la estimación, por otra parte, mide la variabilidad, o dispersión de los valores observados alrededor de la recta de regresión. 2.1.3 Interpretación del error estándar de la estimación Como ocurriría en el caso de la desviación estándar, mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión. De manera inversa, si Se= 0, esperamos que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente. En este caso, todos los puntos caerían directamente sobre la línea de regresión y no habría puntos dispersos alrededor. Usaremos el error estándar de la estimación como una herramienta, de la misma forma que podemos usar la desviación estándar. Esto es, suponiendo que los puntos observados siguen una distribución normal alrededor de la recta de regresión, podemos esperar encontrar el 68% de los puntos dentro de ±1Se, el 95.5 % de los puntos dentro de ±2Se, y el 99.7 % de los puntos dentro de ±3Se. Estadística Administrativa II 19 Figura 4. Fuente: (Levin, 2004:529) Debemos observar que el error estándar de la estimación se mide a lo largo del eje Y, y no perpendicularmente desde la recta de regresión. 2.1.4 Intervalos de predicción aproximados Podemos concebir al error estándar de la estimación como una herramienta estadística que podemos usar para hacer afirmaciones de probabilidad acerca del intervalo alrededor del valor estimado de Y, dentro del cual cae el valor real de Y. Ejemplo Y= 3.75 + 0.75 X Sustituyendo 4 en X Y= 3.75 + 0.75 (4) = 3.75 + 3.00 = 6.75 Estadística Administrativa II 20 Intervalo 1 error 2 errores 3 errores Y ±2 Se. Y ±1 Se. Y ±3 Se. En donde Se = 86.60 Sustitución Y +1 Se = Y +2 Se = 675 + (1) (86.60) = 761.40 675 + (2) (86.60) = 848.20 Límite superior del intervalo de predicción Límite superior del intervalo de predicción Y -1 Se = Y - 2 Se = 675 - (1) (86.60) = 588.40 675 - (2) (86.60) = 501.80 Límite inferior del intervalo de predicción Límite inferior del intervalo de predicción Ejemplo A menudo quienes hacen la contabilidad de costos estiman los gastos generales con base en el nivel de producción. Se ha reunido información acerca de los gastos generales y las unidades producidas en diferentes plantas, y ahora desean estimar una ecuación de regresión para predecir los gastos generales futuros. Gastos generales Unidades a) b) c) d) 191 40 170 42 272 53 155 35 280 56 173 39 234 48 116 30 153 37 Determine la variable dependiente e independiente Desarrolle una ecuación de regresión para contabilidad de costos Pronostique los gastos generales cuando se producen 50 unidades Calcule el error estándar de estimación 178 40 Estadística Administrativa II 21 ΣX= X Y XY X2 Y2 40 42 53 35 56 39 48 30 37 40 420 191 170 272 155 280 173 234 116 153 178 1922 7640 7140 14416 5425 15680 6747 11232 3480 5661 7120 84541 1600 1764 2809 1225 3136 1521 2304 900 1369 1600 18228 36481 28900 73984 24025 78400 29929 54756 13456 23409 31684 395024 ΣY= ΣXY= ΣX2= ΣY2= b = Σ XY - n X Y = 84541 - 10(42)(192.2) = 6.4915 Σ X2 - n X2 18228 - 10(42)2 a = Y – bX = 192.2 – 6.4915 (42) = - 80.4430 Y= a+bx = -80.4430 + 6.4915 (50) = 244.1320 Se= ΣY2 –aΣY – b ΣXY = n-2 Ejercicios Realizar los siguientes ejercicios del libro: 1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall. Número Página 12-2 12-3 12-13 12-14 12-15 531 531 531 531 531 Estadística Administrativa II 22 2.1.5 Análisis de correlación El análisis de correlación es la herramienta estadística que podemos usar para describir el grado en el que una variable está linealmente relacionada con otra. El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de la asociación que existe entre dos variables, X y Y. debido a que usamos una muestra de puntos para desarrollar rectas de regresión. Coeficiente de determinación de la muestra r2= aΣY+bΣXY-nY2 ΣY2 – n Y2 Coeficiente de correlación de la muestra r= r2 Ejercicio Con los datos de los ejercicios anteriores obtén el coeficiente de determinación y el coeficiente de correlación. 2.1.6 Paquete computacional para la solución de problemas Resolver ejercicios en excel 2.1.7 Regresión múltiple y análisis de correlación Podemos utilizar más de una variable independiente para estimar la variable dependiente e intentar, aumentar la precisión de la estimación. Este proceso se conoce como análisis de regresión múltiple y correlación. La principal ventaja de la regresión múltiple es que nos permite utilizar más información disponible para estimar la variable dependiente. En algunas ocasiones la correlación entre dos variables puede resultar insuficiente para determinar una ecuación de estimación confiable; sin embargo, si agregamos los datos de más variables independientes, podemos determinar una ecuación de estimación que describa la relación con mayor precisión. Estadística Administrativa II 23 Ecuación de estimación que describe la relación entre tres variables Y= a + b1 X1 + b2 X2 Ecuación na + b1 ΣX1 + b2 ΣX2 = ΣY aΣX1 + b1 ΣX21 + b2 Σ X1X2 = Σ X1Y aΣX2 + b1 Σ X1X2 + b2 ΣX22 = Σ X2Y Ejemplo a) Calcular el plano de regresión múltiple b) Prediga Y cuando X1=28 y x2=10 Y 10 177 18 26 35 8 Sumatoria 114 X1 X2 X1y X2y X1X2 X1 2 X2 2 8 21 14 17 36 9 105 4 9 11 20 13 28 85 80 357 252 442 1260 72 2463 40 153 198 520 455 224 1590 32 189 154 340 468 252 1435 64 441 196 289 1296 81 2367 166 81 121 400 169 784 1571 Matriz 6 105 85 105 2367 1435 85 1435 1571 114 2463 1590 1 0 0 17.5 14.167 529.5 -52.535 -52.5 366.805 19 468 -25 1 0 0 17.5 14.167 1 -.099 0 361.608 19 .884 21.410 361.608 b2 b2 = = b2 = 21.410 21.410 361.608 .059 Estadística Administrativa II 24 1 b1 1 b1 1a 1a -.099 b2 -.099 (.059) -.006 1b1 b1 = .884 = .884 .884 = .884 +.006 = .890 +17.5b1 +14.167b2 +17.5(.890) +14.167 (.059) 1a +16.411 1a = = = = 19 19 19 19-16.411 a = 2.589 Y= a + b1 X1 + b2 X2 y=2.589+.890(28)+.059(10)=28.099 Estadística Administrativa II 25 2.1.8 Usos de variables ficticias La regresión múltiple nos permitirá también ajustar tanto curvas como rectas. Usando las técnicas de variables ficticias, podemos incluir factores cualitativos en la regresión múltiple. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas técnicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de las ecuaciones de estimación. 2.1.9 Residuales y gráficas de residuales Residuo es la diferencia entre el valor de Y y el valor pronosticado de Y, es decir (Y - Y’) Cuando los residuos permanecen constantes para todos los valores de Y’, esta condición se llama homoscedasticidad La homocedasticidad es una propiedad fundamental del modelo de regresión lineal general y está dentro de sus supuestos clásicos básicos. Se dice que existe homocedasticidad cuando la varianza de los errores estocásticos de la regresión es la misma para cada observación i (de 1 a n observaciones), es decir: donde es un escalar constante para todo i. Lo que significaría que habría una distribución de probabilidad de idéntica amplitud para cada variable aleatoria. Esta cualidad es necesaria, según el Teorema de Gauss-Márkov, para que en un modelo los coeficientes estimados sean los mejores o eficientes, lineales e insesgados. Cuando no se cumple esta situación, decimos que existe heterocedasticidad, que es cuando la varianza de cada termino de perturbación (ui) no es un número constante . Este fenómeno suele ser muy común en datos de Corte Transversal y también se presenta, menos frecuentemente, en series de tiempo. Estadística Administrativa II 26 Figura 5. Distribución Homocedástica. Figura 6. Distribución Heterocedástica. Práctica 1 Con los datos históricos de ventas de una empresa, aplicará la regresión lineal, para hacer estimaciones futuras. Estadística Administrativa II 27 Unidad 3. Números índice Un número índice mide cuánto ha cambiado una variable con el tiempo. Se calcula encontrando el cociente del valor actual entre el valor base, luego se multiplica el número resultante por cien, por lo tanto se expresa en porcentaje. Tipos de números índice Existen tres tipos principales de números índice: índice de precios, índice de cantidad e índice de valor. Índice de precios Compara niveles de precio de un periodo a otro. El índice de precios al consumidor (IPC) clasificado por los gobiernos de los países, mide los cambios globales de precios de un conjunto de bienes y servicios al consumidor, y se usa para definir el costo de vida. Índice de cantidad Mide cuánto cambia el número o la cantidad de una variable con el tiempo. Índice de valor Mide los cambios del valor monetario total, es decir, mide el cambio del valor en dinero de una variable. El índice de valor combina los cambios de precio y cantidad para presentar un índice con más información. Los números índice, como el IPC, a menudo se citan en informes noticiosos como indicadores generales de la condición económica de un país. Factores que pueden distorsionar los números índice. • Número limitado de datos o dificultad para encontrar datos adecuados. • Falta de comparación de índices. • Ponderación no apropiada de los factores. • Selección de una base no apropiada. Estadística Administrativa II 28 3.1 Elaboración de índices simples 3.2 Índices agregados de precio El índice de agregados no ponderados es un índice compuesto. No ponderado significa que todos los valores considerados tienen la misma importancia de agregados quiere decir que sumamos todos los valores. Índice de cantidad de agregados no ponderados ΣQi x 100 ΣQo Qi=cantidad de cada elemento del compuesto en el año para el que se desea el índice. Qo= cantidad de cada elemento del compuesto en el año base. Ejemplo El vicepresidente de ventas de la empresa “X” está examinando la tasa de comisión para lños empleados durante los últimos 3 años. En la siguiente tabla se muestran las ganancias por comisiones de los cinco mejores vendedores de la compañía. Empleado A Empleado B Empleado C Empleado D Empleado E 1993 48,500 41,900 38,750 36,300 33,850 1994 55,100 46,200 43,500 45,400 38,300 1995 63,800 60,150 46,700 39,900 50,200 Considerando a 1993 como el periodo base, exprese las ganancias por comisiones de 1994 y 1995 en términos de un índice de agregado no ponderado. Empleado A Empleado B Empleado C Empleado D Empleado E 1993 1994 1995 Qo Q1 Q2 48,500 41,900 38,750 36,300 33,850 199,300 55,100 46,200 43,500 45,400 38,300 228,500 63,800 60,150 46,700 39,900 50,200 260,750 19,930,000 199,300 22,850,000 199,300 26,075,000 199,300 =100% =114.7% =130.8% Estadística Administrativa II 29 Índice de agregados ponderado Cuando se calcula un índice se tiene que asignar una importancia mayor a los cambios en algunas variables que en otras. Esta ponderación permite mejorar la precisión de la estimación del nivel general de precios basado en una muestra. Índice de precios de agregados ponderados ΣPiQ x 100 ΣPoQ Pi=precio de cada elemento del compuesto en del año actual Po= precio de cada elemento del compuesto en del año actual año base. Q= factor de ponderación de cantidad seleccionado 3.3 Relativos eslabonados "Son índices cuya base es siempre periodo anterior. En consecuencia, respecto de un conjunto de relativos eslabonados de valores anuales de ventas, cada numero índice representa una comparación porcentual con el año anterior. Estos relativos son útiles para destacar comparaciones entre un año y otro, pero resultan inconvenientes como base de comparaciones a largo plazo" 3.4 Cambio de periodo base "La base de una serie establecida de números índices suele cambiarse a un año más reciente para que las comparaciones actuales sean más significativas. Partiendo del supuesto de que no se dispone de las cantidades originales en las que se apoya la serie de números índices, el periodo base de un numero índice puede cambiarse dividiendo cada índice (original) entre el índice del año base recién determinado y multiplicando el resultado por 100:" Cambio de periodo base I nuevo = Índice antiguo Índice antiguo de la nueva base x100 Estadística Administrativa II 30 3.5 Fusión de dos series de números índice "Es frecuente que un número índice sufra cambios a causa de la adicción de ciertos productos nuevos o de la exclusión de ciertos productos antiguos, así como de cambios en el año base. Sin embargo, para efectos de continuidad histórica es deseable contar con una serie uniforme de números índices. Para fusionar dos diferentes series de tiempo de esta clase a fin de tomar una serie continua de números índices, debe haber un año de empalme de las dos series en relación con el cual se hayan calculado ambos números índices. Generalmente el año de empalme es también la nueva base, porque es el año en que se ha añadido y/o eliminado productos del índice agregado. Los números índices que deben modificarse en el proceso de fusión son los índices de la antigua serie. Este cambio se realiza dividiendo el nuevo numero índice del año de empalme, entre el antiguo índice de ese año y multiplicando después por este cociente cada uno de los números índices de la antigua serie de los números índices." 3.6 Índice de precios al consumidor (IPC). "Es el índice más conocido de los que se han publicado, dada su utilidad como indicador de la tasa de inflación y del costo de vida… se trata de un índice agregado de precios sobre una canasta básica de varios cientos de bienes y servicios, cuya ponderaciones son reflejo de los patrones de compra de los consumidores urbanos." Para que las variaciones en el índice se deban sólo a modificaciones en los precios y no a otros factores, como por ejemplo el cambio en los hábitos de compra de los consumidores, es necesario que las ponderaciones de los bienes y servicios sean las mismas en los períodos cuyos precios se comparan y, a su vez, que las especificaciones de esos bienes y servicios de la canasta deben ser comparables. Aislar la evolución de los precios es una tarea complicada. La variación temporal en el gasto que un hogar destina para la compra de determinado bien o servicio se origina conjuntamente por factores de precio y por factores de volumen físico. Los índices de precios tratan de medir el efecto de los factores de precio, esto es, la cantidad de dinero pagada por una unidad de bien o servicio, de determinada calidad. Sería óptimo, entonces, que los índices de precios no estuvieran distorsionados por cambios en la calidad de los productos o servicios. El proceso de elaboración de un índice puro de precios conlleva mucho trabajo, debido a la dificultad que implica separar los factores que no se deben en forma exclusiva a los precios pero que también inciden en el valor de los bienes y servicios (cantidad, volumen, características físicas y funcionales, durabilidad, calidad, prestigio que otorga su consumo, lugar de adquisición, momento y volumen de la adquisición, etcétera). Estadística Administrativa II 31 Por otra parte, debido a los cambios en los patrones de consumo de la población de referencia existe la necesidad de revisar, y modificar si fuera necesario, la canasta de consumo, así como la población de referencia y los negocios informantes, para que el índice se mantenga actualizado, sea representativo y útil en la práctica. 3.7 Deflación de los valores de series de tiempo Situación opuesta a la inflación en la que aumenta el valor de la unidad monetaria como resultante de la baja de los precios. Se produce deflación cuando la masa monetaria crece a un ritmo menor que la oferta total de bienes y servicios. En la práctica esto casi nunca sucede, pues los gobiernos aumentan la oferta monetaria a un ritmo suficiente como para compensar ese crecimiento: de no hacerlo podrían darse bajas en los salarios nominales, con el consiguiente malestar social que esto produciría. La deflación de series monetarias consiste en eliminar el efecto que los cambios en los precios de los bienes tienen sobre las series de valores. Cuando queremos conocer la evolución de una serie de valores a lo largo del tiempo, por ejemplo, beneficios de una empresa, producción de una industria, salarios de los empleados de una empresa, ingresos de los hogares, etc., nos encontramos habitualmente con los valores están en unidades monetarias de cada periodo, esto es, los valores se refieren a unidades monetarias corrientes. Esto va a hacer que los valores no sean directamente comparables puesto que las alteraciones de los precios de un periodo a otro confieren distinto poder adquisitivo a las unidades monetarias. En otras palabras, el efecto de la inflación (o deflación) modifica la capacidad de compra del dinero. Para conocer los cambios reales experimentados por la serie a lo largo del periodo de interés tendremos que expresar todos los valores de dicha serie en unidades monetarias de un mismo periodo, es decir, en unidades monetarias constantes. Los valores expresados en unidades monetarias corrientes se conocen como valores nominales. Los valores expresados en unidades monetarias constantes se conocen como valores reales. Estadística Administrativa II 32 3.8 Índice de precios al productor (IPP). "Incluye tres índices diferentes: de materias primas, materias intermedias y bienes terminados. Se le considera un importante indicador líder de la tasa de inflación, debido a la probabilidad de que incrementos en los precios de los bienes terminados den origen a subsecuentes incrementos en precios al consumidor." Es el producto resultante de una investigación estadística de carácter estratégico, que permite medir la variación porcentual promedio de los precios al por menor de un conjunto de bienes y servicios. Para entender mejor la naturaleza del IPP, se debe pensar en el índice como una medida del porcentaje de cambio, a través del tiempo, del costo promedio de una gran canasta de bienes y servicios comprados por los hogares de Colombia, manteniendo constante la calidad y la cantidad de los bienes. La diferencia con el IPC radica en las agrupaciones en las que está dividido el índice. El IPP tiene en cuenta las siguientes agrupaciones Alimentos y animales vivos, bebidas y tabaco, materias primas no combustibles y lubricantes, aceites y grasas vegetales y animales, productos químicos, artículos manufacturados, maquinaria y equipo de transporte, artículos manufacturados diversos. 3.9 Promedios de precios bursátiles de DowJones "Los promedios de precios bursátiles de Dow Jones, muestra los promedios de las acciones en el ramo de la industria, el transporte y de servicios públicos, toma como muestra 30 mercados. Se trata de un promedio ponderado cuyas ponderaciones ha sido revisadas varias veces a causa de cambios en el valor nominal de las acciones y modificaciones en las compañías incluidas en el índice." Este índice es representativo de las 30 mayores compañías industriales de Estados Unidos y se compila sumando los precios de sus acciones y luego dividiéndolos por una constante. El divisor del Dow Jones se ajusta periódicamente a fin de reflejar el fraccionamiento o división de las acciones (ver Split). Este promedio empezó a compilarse en 1896 con los títulos de 12 firmas, entre ellas las entonces American Tobaco, Tennessee Coal and Iron, Chicago Gas, American Sugar, y la única sobreviviente hoy: General Electric. En 1916 ya eran 20. Y a partir de 1928 pasaron a ser 30, sin que hasta ahora haya variado esa cantidad. A continuación las compañías comprendidas en el Dow Jones y los símbolos bajos los cuales se cotizan en la Bolsa de Nueva York (NYSE): Estadística Administrativa II 33 Símbolo AA Nombre de la compañía Alcoa ALD Allied Signal AXP American Express BA Boeing CAT Caterpillar CHV Chevron C CitiGroup DIS Disney DD Dupont EK Eastman Kodak GE General Electric GM General Motors GT Goodyear Tire HWP Hewlett-Packard IBM International Business Machines IP International Paper JNJ Johnson & Johnson JPM JP Morgan Bank KO Coca Cola Figura 5. Compañías comprendidas en el Dow Jones 3.10 Índice de producción industrial "Es un índice agregado de cantidad… y es una medida de la producción de fábricas, minas y plantas eléctricas y gaseras del país. Por lo tanto, es un indicador importante del estado de la economía. Se trata de un promedio ponderado de relativos de cantidad." El Índice de Producción Industrial (IPI) es un indicador coyuntural que mide la evolución mensual de la actividad productiva de las ramas industriales, excluida la construcción, contenidas en la Clasificación Nacional de Actividades Económicas 2009 (CNAE-2009). Mide, por tanto, la evolución conjunta de la cantidad y de la calidad, eliminando la influencia de los precios. Para su obtención se realiza una encuesta continua de periodicidad mensual que investiga todos los meses más de 13.200 establecimientos. Práctica 2 Con datos investigados en revistas al consumidor o del Banco de México, elaborará los índices simples de precio y cantidad, así como agregado de precios. Estadística Administrativa II 34 Unidad 4. Estadística no paramétrica 4.1 Escala de medición Las escalas de medición son una sucesión de medidas que permiten organizar datos en orden jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una degradación de las características de las variables. Estas escalas son: nominales, ordinales o racionales. Según pasa de una escala a otra el atributo o la cualidad aumenta. Las escalas de medición ofrecen información sobre la clasificación de variables discretas o continuas. Toda vez que dicha clasificación determina la selección de la gráfica adecuada. En la estadística descriptiva y con el fin de realizar pruebas de significancia, las variables se clasifican de la siguiente manera de acuerdo con su nivel de medida: • • • • Nominal (también categórica o discreta) Ordinal De intervalo (continua) De razón o racional (continua) 4.2 Métodos estadísticos contra no paramétricos Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y son aplicadas básicamente a variables contínuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de los datos. En estadística paramétrica se asume que la población de la cual la muestra es extraída es normal o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea válida. Sin embargo, en un gran número de casos no se puede determinar la distribución original ni la distribución de los estadísticos por lo que en realidad no tenemos parámetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama estadística no-paramétrica. Las hipótesis de una prueba no paramétrica se refiere a algo distinto del valor de un parámetro de la población. Las principales pruebas no paramétricas son las siguientes: • • • • • • Prueba χ² de Pearson Prueba binomial Prueba de Anderson-Darling Prueba de Cochran Prueba de Cohen kappa Prueba de Fisher Estadística Administrativa II 35 • • • • • • • • • • • • • Prueba de Friedman Prueba de Kendall Prueba de Kolmogórov-Smirnov Prueba de Kruskal-Wallis Prueba de Kuiper Prueba de Mann-Whitney o prueba de Wilcoxon Prueba de McNemar Prueba de la mediana Prueba de Siegel-Tukey Coeficiente de correlación de Spearman Tablas de contingencia Prueba de Wald-Wolfowitz Prueba de los signos de Wilcoxon Características de algunas pruebas no paramétricas. 1. Prueba de signo para datos pares: los signos positivo o negativo sustituyen a valores cuantitativos. 2. Prueba de suma de rangos: también llamada prueba U de MannWhitney, que puede usarse para determinar si dos muestras independientes de sacaron de la misma población. 3. Prueba de suma de rangos Kruskal – Wallis: generaliza el análisis de varianza para poder prescindir de la suposición de que las poblaciones tienen distribución normal. 4. Prueba de corridas de una sola muestra: es un método para determinar la aleatoriedad con la que se han seleccionado los elementos muestreados. 5. Correlación de rango: método para hacer el análisis de correlación cuando no se dispone de los datos para usar la forma numérica, pero cuando la información es suficiente para clasificar los datos como primero, segundo, tercero, etc. 6. Prueba de Kolmogorov: método para determinar la bondad de ajuste entre una muestra observada y una distribución de probabilidad teórica. Prueba Característica Mann- Whitney. 2 muestras independientes. Wilcoxon. 2 muestras asociadas. Kruskal-Wallis. + de 2 muestras independientes Friedman. + de 2 muestras asociadas. Tabla1. Características de pruebas no paramétricas. Estadística Administrativa II 36 Las pruebas no paramétricas, no requieren asumir normalidad de la población y la mayoría se basan en el ordenamiento de los datos. El parámetro que se usa para hacer las pruebas estadísticas es la Mediana y Media. • • Ventajas y desventajas de los métodos paramétricos Desventajas Ventajas Ignoran cierta cantidad de • No requieren la suposición de que información. una población está distribuida en forma de curva normal u otra forma específica. A menudo no son tan eficientes o • Generalmente es más sencillo claras como las pruebas realizarlas y entenderlas. paramétricas. • Algunas veces no se requiere un ordenamiento o clasificación formal. Tabla1. Ventajas y desventajas de los métodos no paramétricas. 4.3 Prueba de corridas para aleatoriedad 4.3.1 Concepto de aleatoriedad. Aleatorio se asocia a todo proceso cuyo resultado no es previsible más que en razón de la intervención del azar. El término aleatoriedad se usa a menudo como sinónimo con un número de propiedades estadísticas medibles, tales como la carencia de tendencias o correlación. El resultado de todo suceso aleatorio no puede determinarse en ningún caso antes de que este se produzca. El estudio de los fenómenos aleatorios queda dentro del ámbito de la teoría de la probabilidad y, en un marco más amplio, en el de la estadística. 4.3.2 Teoría de corridas. Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas de ocurrencias diferentes. Ejemplo M,H,H,H,H,M, 1ra. 2ra. 3ra. Estadística Administrativa II 37 Una prueba de corridas con dos tipos de ocurrencias tiene los siguientes símbolos: n1= número de ocurrencias del tipo 1 n2= número de ocurrencias del tipo 2 r= número de corridas 4.3.2.1 Prueba de corridas de una sola muestra Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de los dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usado los símbolos A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue: B,A,B,B,B,A,A,A,B,B,A,B,B,B,B,A,A,A,A,B,A,B,A,A,B,B,B,A,A,B,A,A,A,A,B,B,A, B,B,A,A,A,A,B,B,A,B,B,B,B,A,A,B,B,A,B,A,A,B,B Valores de la prueba: n1= 29 n2= 31 r= 29 4.3.2.2 Distribución de muestreo del estadístico r El número de corridas r es un estadístico con su propia distribución de muestreo especial y su propia prueba. Una prueba de corridas de una sola muestra, está basada en la idea de que muy pocas o demasiadas corridas muestran que los elementos no fueron elegidos aleatoriamente. Media de la distribución muestral del estadístico r μr=2n1n2 +1 n1+n2 Estadística Administrativa II 38 μr = 2(29)(31) +1 29+31 μr = 1798 +1 60 μr = 29.97 +1 μr = 30.97 Error estándar del estadístico r σr= 2n1n2(2n1n2- n1- n2) (n1+n2)2(n1+n2-1) σr= 2(29)(31) ( 2(29)(31) - 29- 31) (29+31)2(29+31-1) σr= (1798) (1738) (60)2(59) σr= 14.71 σr= 3.84 Ejercicios Realizar los siguientes ejercicios del libro: 1) Levin I. Richard. Estadística para administradores. Editorial: PrenticeHall. Número Página 14-24 14-25 14-26 14-27 14-28 643 643 643 644 644 Estadística Administrativa II 39 4.4 Una muestra: prueba de signos Una de las pruebas no paramétricas más fáciles es la de prueba de signos. Su nombre se debe a que está basada en la dirección (o signo de más o menos) de un par de observaciones y no en su magnitud numérica. Ejemplo Se considera un panel de prueba de 40 estudiantes que evalúa la efectividad de dos tipos de clases. Conferencias grandes de profesores de tiempo completo sesiones pequeñas con ayudantes de posgrado. Miembro del panel Evaluación de los dos tipos de clases 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Calificación para conferencias grandes 2 1 4 4 3 3 4 2 4 1 3 3 4 4 4 1 1 2 2 4 Calificación para sesiones pequeñas. 3 2 2 3 4 2 2 1 3 1 2 3 4 4 3 2 3 2 3 3 Signo de la calificación + + + + + + 0 + 0 0 0 + 0 + La calificación 4 es excelente y la 1 es mala. El signo + significa que el estudiante prefiere las conferencias grandes, un signo menos indica una preferencia por sesiones pequeñas un 0 representa un empate (sin preferencia) Número de signos + Número de signos Número de ceros Tamaño total de la muestra 9 6 5 20 Estadística Administrativa II 40 Establecimiento de las hipótesis Ho: p = 0.5 H1: p ≠ 0.5 Se consideran la posibilidades solamente de signos + y - (9+6 =15) p Ho: = 0.5 q H0: = 0.5 n= 15 p= 0.600 (9/15) q= 0.400 (6/15) Prueba de hipótesis de que no hay diferencia. Región de aceptación Valor crítico Z=-1.96 Valor crítico Z=1.96 0.025 0.025 0.475 del área 0.475 del área 0 Error estándar del la proporción σp= σp= pq n (0.5)(0.5) 15 σp= 0.129 Estadística Administrativa II 41 4.5 Una muestra: prueba de Wilcoxon Puesto que la prueba de rangos con signo de Wilcoxon incorpora y utiliza más información que la prueba de signos, tiende a proporcionar conclusiones que reflejan mejor la verdadera naturaleza de los datos. La prueba de rangos con signo de Wilcoxon es una prueba no paramétrica que utiliza rangos ordenaos de datos maestrales consistentes en datos apareados. Se usa para probar las diferencias en las distribuciones poblacionales, por lo que la hipótesis nula y alternativa son las siguientes: Ho: las dos muestras provienen de poblaciones con la misma distribución. H1: las dos muestras provienen de poblaciones con la misma distribución. Procedimiento de la prueba de rangos con signo de Wilcoxon Paso1. Para cada par de datos, calcule la diferencia d restando, el segundo valor del primero. Guarde los signos, pero descarte cualquier par para el que d=0 Paso 2. Ignore los signos de las diferencias, luego acomode las diferencias de la más baja a la más alta y remplace las diferencias por el valor del rango correspondiente. Cuando las diferencias tengan el mismo valor numérico, asígneles la media de los rangos implicados en el empate. Paso 3. Adjunte a cada rango el si el signo de la diferencia de la que provino. Esto es, inserte aquellos signos que se ignoraron e el paso dos. Paso 4. Calcule la suma de los valores absolutos de los rangos negativos. También la suma de los rangos positivos. Paso 5. Permita que T sea la más pequeña de las dos sumas que se calcularon en el paso 4. Es posible utilizar cualquier suma, aunque para simplificar el procedimiento seleccionamos arbitrariamente la más pequeña de las dos sumas. Paso 6. Permita que n sea el número de pares de datos para los que la diferencia d no es 0. Estadística Administrativa II 42 Paso 7. Determine el estadístico de prueba y los valores críticos con base en el tamaño muestral. Paso 8. Cundo Plantee la conclusión rechace la hipótesis nula si los datos muestrales le llevan a un estadístico de prueba que está en la región crítica, esto es, cuando el estadístico de prueba es menor que o igual al valor crítico. 1. 2. Supuestos Los datos consisten en datos apareados que se seleccionaron aleatoriamente. La población de las diferencias (calculadas de los pares de datos) tiene una distribución que es aproximadamente simétrica, lo que quiere decir que la mitad izquierda de su histograma es aproximadamente una imagen de espejo de la mitad derecha. Notación T= la más pequeña de las siguientes dos sumas: 1. La suma de los valores absolutos de los rangos negativos de las diferencias d que no sean 0. La suma de los rangos positivos de las diferencias d que no sean 0. Estadístico de prueba Si n < o igual a 30, el estadístico de prueba es T. Estadística Administrativa II 43 4.6 Dos muestras: prueba de Mann-Whitney A esta prueba se le llama suma de rangos porque depende de los rangos o clasificaciones de las observaciones de muestra. La prueba de Mann-Whitney se usa cuando se tienen dos poblaciones. El uso de esta prueba permite determinar si las muestras independientes se obtuvieron de la misma población. Simbología n1= número de elementos de la muestra 1 n2= número de elementos de la muestra 2 R1= suma de los rangos de los elementos de la muestra 1 R2= suma de los rangos de los elementos de la muestra 2 Rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Calificación 500 550 600 650 725 750 775 800 830 850 890 900 920 925 950 1000 1050 1100 1120 1140 1150 1200 1240 1250 1300 1360 1400 1500 1550 Plantel S S A S S A A A S A S S S S A A A A S S A A S A A S A A S Estadística Administrativa II 44 30 1600 S Estadística Administrativa II 45 Nota: no necesariamente el número de muestras debe ser igual. Ejemplo La junta directiva de una gran universidad desea probar la hipótesis de que las calificaciones promedio de una prueba de dos planteles de la universidad son iguales. Se deben clasificar las calificaciones en orden ascendente, indicando junto a cada una el símbolo del plantel. Plantel A B 1000 920 1100 1120 800 830 750 1360 1300 650 950 725 1050 890 1250 1600 1400 900 850 1140 1150 1550 n1= 15 n2= 15 R1= 247 R2= 218 Estadístico U U= n1n2 + n1(n1 +1) -R1 2 U= (15)(15) + (15)(16) -247 2 U= 225+120-247 U= 98 Media de la distribución muestral U μu = μu = (15)(15) 2 μu =112.5 n1n2 2 1200 550 1500 1240 600 925 775 500 Estadística Administrativa II 46 Estadístico U σU = σU = n1n2 + (n1n2 +1) 12 (15)(15)(15+15+1) 12 σU = 6975 12 σU = 581.25 σU = 24.1 Prueba de hipótesis La distribución muestral del estadístico U puede aproximarse por la distribución normal cuando tanto n1 como n2 son mayores que 10, por lo tanto se usará la tabla de la distribución normal estándar para hacer la prueba. La junta de directores desea probar al nivel de significancia de .15 la hipótesis de que estas muestras fueron extraídas de poblaciones idénticas. H0: μ1= μ2 H1: μ1≠ μ2 α= 0.15 Estandarización del estadístico U z= z= U-μu σU 98 - 112.5 24.1 z= -0.602 Región de aceptación Valor estandarizado de la muestra U -1.44 -0.602 0 1.44 Estadística Administrativa II 47 Observaciones apareadas prueba de Wilcoxon La prueba de los signos de Wilcoxon es una prueba no paramétrica para comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la normalidad de dichas muestras. Debe su nombre a Frank Wilcoxon, que la publicó en 1945. Asimismo se utiliza cuando la variable subyacente es continua pero presupone ningún tipo de distribución particular. Prueba de Wilcoxon de los rangos con signo Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0, ..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de forma simétrica en torno a cero. Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande. Prueba de Wilcoxon para contrastar datos pareados El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si fuera cierta los valores de R+ y Rserán parecidos. Estadística Administrativa II 48 4.9 Varias muestras independientes: prueba de Krauskal-Wallis La prueba de Krauskal-Wallis es una extensión de la prueba Mann-Whitney para casos en que están involucradas más de dos poblaciones. Esta prueba también depende de los rangos de las observaciones de la muestra. Ejemplo Rango calificaciones Calificaciones del examen escrito 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 50 55 57 65 68 70 74 77 78 80 81 82 83 84 88 89 91 92 93 94 Estadístico K K= 12 n(n+1) K= 12 20(20+1) Método de capacitación S VC AC AC S VC VC S AC AC S VC S S VC AC S S VC S Σ nR 2 j -3 (n+1) j + (42) + (107) -3(20+1) [ (61) ] 6 5 9 2 2 K = 1.143 2 Estadística Administrativa II 49 Prueba de hipótesis La distribución muestral del estadístico K puede aproximarse por una distribución ji-cuadrada cuando los tamaños de todas las muestras son al menos 5. Grados de libertad k-1 (3-1)= 2 H0: μ1= μ2= μ3 H1: μ1, μ2, μ3 no todas son iguales α= 0.10 Región de aceptación 0.10 de área 4.605 Valor de la muestra K= 1.143 Ejercicios Realizar los siguientes ejercicios del libro: 1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall. Número Página 14-14 14-55 14-16 14-17 14-18 637 637 637 637 637 Estadística Administrativa II 50 Práctica 3 Recopilar datos económicos, de diversas fuentes, para efectuar comparación y análisis entre la estadística y la estadístico no paramétrica, efectuando además una prueba de hipótesis. BIBLIOGRAFIA • Levin, Richard I. y Rubin, David S. (2004). Estadística para administración y economía (7a.ed.). México: 2004 • Levin, Richard I. y Rubin, David S. (2004). Ji-cuadrada y análisis de varianza. En estadística para administración y economía (pp. 447-508). México: Pearson educación. • Triola, Mario F. (2004). Estadística. México: Pearson educación • Mongomery, Douglas C. (2007). Probabilidad y estadística aplicadas a la ingeniería. México: Limusa Wiley. Referencias de internet. http:// math.uprm edu ~edgar uprm/edu/ http://es.wikipedia.org/wiki/Nivel_de_medida#Escalas_de_medici.C3.B3n http://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9trica http://www.estadisticafacil.com/ StAta