DIRECCIÓN DE EDUCACIÓN ABIERTA Y A DISTANCIA Y VIRTUALIDAD PROGRAMA ADMINISTRACIÓN DE EMPRESAS ESTADÌSTICA INFERENCIAL MÓDULO EN REVISIÓN DIRECCIÓN DE EDUCACIÓN ABIERTA Y A DISTANCIA Y VIRTUALIDAD PROGRAMA A DISTANCIA DE ADMINITRACION DE EMPRESAS. ESTADÌSTICA INFERENCIAL COMPILADOR: REDISEÑO: EVER ANAYA COHEN ROBINSON MORALES MEDINA SINCELEJO 2014 TABLA DE CONTENIDO INTRODUCCIÓN JUSTIFICACIÓN FORMAS DE ABORDAR LA LECTURA DEL MODULO PROPÓSITOS DE FORMACIÓN REFERENTE TEÓRICO ESTRUCTURA DEL MODULO ESTADÌSTICA INFERENCIAL COMPETECIAS TRANSVERSALES A DESARROLLAR SABERES 1 1.1 1.2 2.3 UNIDAD UNO: DISTRIBUCIONES FUNDAMENTALES DE MUESTREO Distribución muestral Distribución en el muestreo de la media muestral Distribución en el muestreo de una proporción muestral 2 2.1 2.2 2.3 2.4 UNIDAD DOS: ESTIMACIONES POR INTERVALOS Intervalos de confianza Intervalos de confianza para la media poblacional Intervalos de confianza para proporciones poblacionales Intervalos de confianza para la media de dos poblaciones 3 3.1 3.2 3.3 3.4 UNIDAD TRES: CONTRASTE DE HIPÓTESIS Concepto del contraste de hipótesis. Prueba de hipótesis para la media poblacional Prueba de hipótesis para la proporción poblacional Prueba de hipótesis para la diferencia de dos medias poblacionales 4 4.1 4.2 4.3 lineal. UNIDAD CUATRO: REGRESIÓN LINEAL SIMPLE Y MULTIPLE Interpretación de la regresión, terminología y notación Estimación por mínimos cuadrados Verificación de hipótesis, capacidad explicativa de una función de regresión 1. INTRODUCCIÓN Para el administrador de empresas es esencial la compresión de la Estadística inferencial dado que los diversos métodos de estimación, predicción y contraste de hipótesis son las herramientas fundamentales en la toma de decisiones en condiciones de incertidumbre. Generalmente las poblaciones suelen ser demasiado grandes para estudiarlas en su totalidad, por tanto se hace necesario la selección de una muestra representativa que tenga un tamaño más manejable, la cual se utiliza para obtener conclusiones generalizadas sobre la población. Este tema se aborda en la primera unidad. Dada la utilidad de los intervalos de confianza en la toma de decisiones sobre numerosas situaciones relacionadas con la empresa, en la unidad 2 se explica el modo de construirlos e interpretarlos. La unidad 3 desarrolla la forma como determinar la validez de una hipótesis o conjetura sobre una situación presentada en el ámbito empresarial. En esta unidad se estudian los contrastes de hipótesis para una o dos poblaciones. El conocimiento del tipo de función que liga a determinadas variables económicas permitirá descubrir la relación que existe entre las mismas para ser utilizadas en la toma de decisiones de política económica o política empresarial. Por ello es importante determinar la forma analítica y concreta de esta relación recurriendo al análisis de regresión, y en especial al de regresión lineal, tema de la última unidad del módulo. 2. JUSTIFICACIÓN La inferencia estadística, como parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades de una población a partir del estudio de una parte de ésta, es esencial para el administrador de empresas, el contador y el economista dado que los diversos métodos de estimación, predicción y contraste de hipótesis son las herramientas fundamentales en la toma de decisiones en condiciones de incertidumbre, de tal manera que les permita ir más allá de solo reportar y describir datos. 3. FORMAS DE ABORDAR LA LECTURA DEL MODULO Estimado(a) estudiante: Formarse como profesional en administración de empresas en un programa a distancia, requiere dedicación, responsabilidad y de un buen método de estudio para cada uno de los módulos que conforman el pensum académico. Respondiendo a los propósitos del nivel de Estadística Inferencial, éste módulo ha sido diseñado para el trabajo auto dirigido, de modo que Usted pueda responsabilizarse de su propio aprendizaje y enfrentar con éxito la formación Estadística requerida por la carrera profesional que ha elegido. Un aprendizaje afectivo y duradero del Módulo exige, de su parte: Mantener una actitud de superación para que con su esfuerzo personal logre el desarrollo concienzudo de cada una de las actividades propuestas. Tener un conocimiento profundo de su CIPAS, consiguiendo así que el trabajo de equipo adquiera una intención seria y metódica, para compartir logros, ampliar experiencias, resolver dudas y afianzar aprendizajes adquiridos. Utilización adecuada de todos los apoyos institucionales, como el servicio de tutoría, la biblioteca, los materiales y medios audiovisuales, así como la consulta en Internet, Con tal propósito le recomendamos el siguiente procedimiento: 1. Realice una lectura atenta de cada una de las unidades, señalando y anotando las ideas centrales, los conceptos básicos y sus relaciones. 2. Desarrolle cada actividad, siguiendo las orientaciones que se le dan, sin omitir ninguna por elemental que le parezca. 3. Una vez termine el desarrollo de los talleres, compare las soluciones con las obtenidas por sus compañeros de grupo. 4. Anote las dudas e inquietudes para llevarlas al tutor y demás compañeros en la sesión presencial. 5. Complemente la actividad con la consulta de textos, documentos, revistas, páginas web, ect. Para fortalecer sus conocimientos sobre los temas desarrollados en el módulo. Con la repetición de éste procedimiento se pretende que cada uno de Ustedes construya su propio método de estudio, teniendo claro el tiempo que debe dedicarle, el lugar de estudio más adecuado, y la disciplina personal para cumplir con la distribución que haga de su tiempo y con los compromisos que demanda el hecho de ser estudiante a distancia. 4. PROPÓSITOS DE FORMACIÓN Al final del curso el alumno será capaz de utilizar los métodos y modelos estadísticos apropiados para el tratamiento de la información numérica fundamental para la toma de decisiones cuando existan condiciones de incertidumbre, de formular y solucionar problemas propios de las ciencias administrativas 5. REFERENTE TEÓRICO El Ministerio de Educación Nacional en su documento serie lineamientos curriculares (1998) en cumplimiento del artículo 78 de la Ley 115 de 1994 consideran que las matemáticas en la escuela tienen un papel esencialmente instrumental, que por una parte se refleja en el desarrollo de habilidades y destrezas para resolver problemas de la vida práctica, para usar ágilmente el lenguaje simbólico, los procedimientos y algoritmos y, por otra, en el desarrollo del pensamiento lógico-formal, así como el pensamiento variacional. José Chacón en su libro, Una Introducción a la Estadística Inferencial concluye que ésta es necesaria cuando queremos hacer alguna afirmación sobre más elementos de los que vamos a medir. La estadística inferencial hace que ese salto de la parte al todo se haga de una manera “controlada”. Aunque nunca nos ofrece rá seguridad absoluta, sí nos ofrecerá una respuesta probabilística. Esto es import ante: la estadística no decide; sólo ofrece elementos para que el investigador o el lector decidan. En muchos casos, distintas personas perciben diferentes conclusi ones de los mismos datos. Ciro Martinez B, en el libro Estadística y Muestreo, opina que la estadística facilita una serie de instrumentos o técnicas que, al ser utilizadas correctamente, permiten determinar el grado de validez y confiabilidad, ya sea en las predicciones o las conclusiones obtenidas a partir de la muestra. PAUL NEWBOLD en el libro, Estadística para los Negocios y la economía, realiza un estudio completo sobre las distribuciones muestrales, los intervalos de confianza, las pruebas de hipótesis y la regresión lineal; temas del presente modulo Mohammed A. Shayib, en el libro, Applied Statistics, aporta en otro idioma un estudio completo sobre los temas tratados, aplicación. así como algunos problemas de 6. ESTRUCTURA DEL MODULO DISTRIBUCIONES FUNDAMENTALES DE MUESTREO Distribución en el muestreo de la media muestral Distribución en el muestreo de una proporción muestral Intervalos de confianza para la media poblacional ESTIMACIONES POR INTERVALOS Intervalos de confianza para la proporciòn poblacional Intervalos de confianza para la diferencia de media de dos poblaciones ESTADÍSTICA INFERENCIAL Prueba de hipòtesis para la media poblacional CONTRASTE DE HIPÓTESIS Prueba de hipòtesis para la proporciòn poblacional Prueba de hipòtesis para la difrencia de media de dos poblacioones Estimaciòn por mìnimos cuadrados REGRESIÓN LINEAL SIMPLE Verificación de hipótesis y capacidad explicativa de una función de regresión lineal. 7. COMPETECIAS TRANSVERSALES A DESARROLLAR Competencias del Saber Comprende las distribuciones muéstrales de medias y proporciones. Interpreta intervalos de confianza para le media poblacionales. y para proporciones Comprende el contraste de hipótesis para la media y proporción poblacional. Comprende el método de los mínimos cuadrados para determinar la ecuación de regresión lineal. Competencias del Saber Hacer Aplica las distribuciones muéstrales de medias y proporciones en situaciones concretas de la Administración, para el cálculo de probabilidades Estima intervalos de confianza para le media poblacionales. y para proporciones Formula y contrasta hipótesis en situaciones específicas de Administración, tanto para la media muestral como para proporciones Utilizar el método de mínimos cuadrados ordinarios, para la estimación de parámetros del modelo de regresión en dos variables y establecer inferencias a cerca de estos. la http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal PRESENTACION La rama de la estadística dedicada a la inferencia trata básicamente con las generalizaciones y predicciones, por ejemplo, se puede estar interesado en averiguar acerca de la media o varianza de la distribución poblacional de las rentas familiares en una ciudad de la Costa Atlántica, o sobre la proporción de familias de esta ciudad que tienen unos ingresos inferiores a $450.000. Para hacer este tipo de afirmaciones las poblaciones suelen ser demasiado grandes para estudiarlas en su totalidad, por lo tanto se hace necesario elegir una muestra representativa que tenga un tamaño más manejable, sobre la base de la información muestral; nuestro objetivo será hacer inferencia acerca de la población de la que procede la muestra. PREGUNTA PROBLEMA ¿Cómo se puede aplicar las distribuciones muestrales en la solución de situaciones concretas de una empresa? COMPETENCIAS ESPECÍFICAS 1. Define que es una distribución muestral. 2. Utiliza información para crear una distribución muestral. 3. Aplica las distribuciones muéstrales de medias y proporciones para el cálculo de probabilidades en situaciones concretas de empresas SABERES Distribución muestral Distribución en el muestreo de la media muestral Distribución en el muestreo de una proporción muestral DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO ACTIVIDAD PREVIA (Trabajo Individual) Supongamos una población de 6 familias cuyos gastos mensuales en educación, en miles de pesos, son: 120, 100, 90, 95, 115, 110. Con base en esta información responde: 1. ¿Cuantas muestras diferentes de 3 familias pueden obtenerse? 2. ¿Cuantas muestras diferentes de 4 familias pueden obtenerse? 3. ¿La media muestral del gasto es igual para cada muestra? 4. ¿La media de las medias muestrales es igual para las muestras de tres familias que para las de cuatro? 5. ¿La media para la población es igual a la media de las medias muestrales para las muestras de tres familias o para las de cuatro familia. 6. ¿La desviación estándar de la media de medias es igual para cualquier tamaño de muestra? 7. ¿La desviación estándar de la media de medias muestrales es igual a la de la población? ACTIVIDAD GRUPAL 1 Socialice los resultados obtenidos individualmente y escriba sus conclusiones al respecto. 2 Justifique el uso del factor de corrección para poblaciones finitas al calcular el error típico. 3 Haga un listado de las dudas e inquietudes presentadas en la socialización de las actividades anteriores. SABERES Y ACTIVIDADES 1 DISTRIBUCIONES MUESTRALES 1.1 DISTRIBUCION MUESTRAL Quienes toman decisiones lo hacen con solo tomar una muestra.Por ejemplo, considérese un fabricante que desea saber los tiempos que requieren en promedio los trabajadores para terminar un trabajo dado, o la cantidad promedio de combustible necesario para enviar un camión a cierta distancia, o la edad promedio de quienes utilizan un producto, o la porción de mercado para un producto, o el porcentaje de unidades defectuosas en un lote de producción o sobre la proporción de personas que ven un determinado programa de televisión. En todos estos casos el estadístico está interesado en saber algo sobre una población estadística. A falta de un censo, el conocimiento deseado sobre parámetros como la media de la población ( ), la desviación estándar de la población ( ) o la proporción de una población ( ), sólo se puede adquirir si se saca una muestra representativa de la población, se calcula los estadísticos como la media muestral ( X ), la desviación estándar (S) o la proporción muestral (P), y se hace inferencia sobre los parámetros a partir del ellos. El proceso de inferir los valores de parámetros desconocidos de una población, a partir del estadístico de una muestra conocida se denomina estimación. Para comprender la naturaleza de una estimación estadística es necesario entender bien el concepto de la distribución muestral, ésta proporciona un enlace importante entre la muestra individual que por lo general se toma y la población sobre la cual se hace inferencia. Es importante distinguir entre las características poblacionales y sus correspondientes cantidades muéstrales, por ejemplo la media ( ), que es un atributo de la población, es un número fijo desconocido. Para hacer inferencia sobre tal atributo, se extrae una muestra de la población y se calcula la media muestral. Dado que para cada muestra que se extraiga se obtendrá,posiblemente, un valor diferente de la media, se puede pensar en esta cantidad como una variable aleatoria con una cierta distribución de probabilidad. La distribución de probabilidad de los posibles resultados muéstrales proporcionan una base para realizar inferencia sobre la población. Para ilustrar el concepto consideremos que de una gran empresa que tiene 300 empleados se desea tomar una muestra, por ejemplo de 25 empleados, y a partir de esta muestra calcular el salario medio, y la proporción P, de hombres que laboran en la empresa. Esta media muestral sirve después como estimación de , media aritmética del salario de los 300 trabajadores. Como es posible extraer 300 C 25 1,95 x10 36 muestras diferentes de tamaño 25, para hacer más didáctico el ejemplo, supóngase que se tiene una población de N=5 empleados cuyo salario y sexo se muestran a continuación: TABLA 1.1 Población hipotética de salarios y sexo de empleados. EMPLEADO SALARIO MENSUAL ( Miles de peso) SEXO Alejandro 400 M Berena 300 F Carlos 350 M Sandra 500 F Eliecer 450 M Con esta información completa al alcance es fácil calcular las medidas de resumen de dicha población como es el salario mensual medio ( ), junto con su varianza ( 2 ) y desviación estándar ( ), así como la proporción de hombres ( h ) en las filas de empleados. Medidas de resumen: a). Salario. b) Sexo. x 2000 400 2 N 5 (x ) N h 3 0,6 (Proporción de hombres) 5 2 5000 , 5000 70,71 Supóngase que no se dispone de esta información tipo censo, por lo tanto se decide hacer la estimación con una muestra aleatoria de n = 3 empleados con el fin de estimar los parámetros desconocidos, entonces se elige al azar una de las muestras posibles, (véase tabla 1.2), por ejemplo, la muestra conformada por los empleados: Berena, Sandra, Eliecer. (B,S,E) con los cuales se tiene que: ̅ = 416.666 pesos, da una estimación del salario mensual medio de 416.666 pesos y una proporción de hombres en la empresa del 33.3%. TABLA 1.2 Estimaciones para cada una de las muestras seleccionadas Media muestral ( ̅ ) Proporcion de Número de la Unidades en la muestra muestra (miles de pesos) hombres (Ph) 1 ABC 350 2/3 2 ABS 400 1/3 3 ABE 383,333 2/3 4 ACS 416,667 2/3 5 ACE 400 3/3 6 ASE 450 2/3 7 BCS 383,333 1/3 8 BCE 366,667 2/3 9 BSE 416,667 1/3 10 CSE 433,333 2/3 Si se supone que la probabilidad de elegir cualquier muestra es la misma, la probabilidad de elegir una muestra que dé una de 350 mil es: ( ̅ 5 ) C3 Como = 400 mil, la probabilidad de elegir al azar una muestra que de una estimación exacta de es solamente de: ( ̅ ) 8 de las 10 muestra darán por resultado una cantidad errónea en el proceso de estimación de . Esta cantidad se llama ERROR MUESTRAL, y es la diferencia entre y la media muestral que se utilizó para estimarla. La diferencia se debe al azar; si el azar dicta que se extraigan unas cuantas observaciones muy grandes, la media aritmética dará estimaciones excesivas de , por ejemplo: Si por azar sucede que se elija la muestra 9 en la tabla 1.2, la estimación de sería ̅ que es superior al valor de la media aritmética en la población, si por el contrario el azar hace que se extraiga la muestra 1, la muestra dará una estimación insuficiente de ( ̅ ) ERROR MUESTRAL: Es la diferencia entre el parámetro y el estadístico de la muestra utilizado para estimarlo. Es evidente que nunca se podrá calcular el tamaño real del error muestral, puesto que la media poblacional sigue siendo desconocida, pero hay que ser consciente de la probabilidad de incurrir en este error. Con una población de N = 5 se puede listar todas las medias muéstrales posibles, junto con su probabilidad. Dicha lista se llama DISTRIBUCIÓN MUSTRAL y se refleja en la tabla 1.3 TABLA 1.3 Distribución muestral de la media Media Muestral Número de muestras que Poseen Probabilidad 350 1 1/10 366,667 1 1/10 383,333 2 2/10 400 2 2/10 416,667 2 2/10 433,333 1 1/10 450 1 1/10 Una posible interpretación de la tabla 1.3 es: Si han de seleccionarse, por ejemplo 1.000 muestras aleatorias simples de tamaño n=3, de la población de N = 5, podría esperarse calcular 100 veces un salario medio de 350 mil pesos o 200 veces un salario medio de 400 mil pesos. ESTADIGRAFOS Y DISTRBUCION MUESTRAL Supongamos que se ha extraído una muestra aleatoria de una población y que se desea hacer inferencia sobre ciertas características de la distribución de la población, esta inferencia está basada en algún estadígrafo, es decir, alguna función particular de la información muestral. La lista de todos los valores posibles de un estadístico y la probabilidad asociada a cada valor se denomina distribución muestral. 1.2 DISTRIBUCION EN EL MUESTREO DE LA MEDIA MUESTRAL Supóngase que se ha extraído una muestra de n observaciones de una población con una media µ y varianza 2 , si se representan los elementos de la muestra por , antes de que la muestra haya sido seleccionada, habrá incertidumbre sobre los resultados. Esta incertidumbre es consecuencia del hecho de que cada uno de los miembros de la muestra es una variable aleatoria con media y varianza x2 . Si el interés es hacer inferencia sobre la media poblacional, un punto de partida es el promedio de los valores muéstrales, es decir, el análisis de la distribución muestral de la variable aleatoria ̅ . En primer lugar se determina la media de esta distribución. Como para variables aleatorias discretas y continuas, la esperanza matemática de una suma es la suma de las esperanzas matemáticas, se tiene que: (∑ (∑ (∑ ) (∑ )y como cada variable aleatoria ) (∑ ) tiene media , entonces, ) Pero la media muestral es la suma de los valores de la muestra multiplicada por 1/n, por lo tanto, (∑ ̅ ) ( ∑ ) (∑ ) En consecuencia, la media de la distribución en el muestreo de la media muestral es la media poblacional (∑ ̅ ) Esto quiere decir, que la media de las medias muéstrales, conocida como la media general, es igual a la media poblacional. ̿ ∑̅ , K numero de muestras ACTIVIDAD: Verifica estos valores con los datos de la tabla 1.3 1.2.1 ERROR TIPICO DE LA DISTRIBUCION MUESTRAL DE MEDIAS La distribución muestral de las medias muéstrales tienen también una varianza. Esta varianza de la distribución de todas las medias muéstrales mide la dispersión de las observaciones individuales (medias muéstrales) en torno a su media (media general). Se calcula como cualquier otra varianza, es la media aritmética de los cuadrados de las desviaciones respecto a la media. Es decir, si ̅ es la varianza de la distribución muestral de las medias muéstrales, entonces: ∑( ̅ ̿) ̅ ,Knúmero de muestras. Con los salarios de los 5 ejecutivos del ejemplo se tiene: ( ) ( ( ) ( ) ) ( ) ( ( ) ) ̅ Pesos al cuadrado. Si se extrae la raíz cuadrada de la varianza de la distribución de estas medias muéstrales se tiene el error típico de la distribución muestral. Error típico de la distribución muestral en medias muéstrales. ̅ Para el ejemplo: √ ̅ pesos ̅ ERROR TIPICO: Es la medida de la variación de las medias muéstrales en torno a la media general. Por tanto, mide la tendencia a incurrir en error de muestreo en el intento de estimar el parámetro. Si el tamaño de la población es muy grande con respecto al tamaño muestral, entonces, una consecuencia del muestreo aleatorio simple es que la distribución de cada uno de los valores de la muestra es independiente de la de los otros, en tal caso la varianza de la suma es la suma de las varianzas y por tanto: (∑ Como cada ) tiene varianza ( ) ( , entonces: ) ( (∑ ) ) ( ) ( ̅) Luego ( ∑ (∑ ) ) Esto implica que la varianza de la distribución muestral de ̅ decrece a medida que aumenta el tamaño de la muestra. Así, cuantas más observaciones tenga la muestra, más concentrada estará la distribución muestral de la media muestral alrededor de la media poblacional. En otras palabras cuanto mayor sea la muestra, más segura será nuestra inferencia acerca de la media poblacional. Se puede encontrar una aproximación suficiente de la varianza y del error típico con mucha más facilidad mediante las expresiones: ̅ , ̅ √ Es evidente que estos formatos suponen conocer la varianza de la población. 1.2.2 ERROR TIPICO Y NORMALIDAD. Si los datos de una población siguen una distribución normal, la distribución muestral de las medias muéstrales también será normal, es decir, si de una población que sigue una distribución normal se toman todas las muestras posibles de tamaño determinado y después se calculan las medias de todas esas muestras, las medias muéstrales seguirán una distribución normal. Supóngase que se tienen los ingresos de varios millares de estudiantes que dan una media de 500 mil pesos y que dichos ingresos siguen una distribución normal. Si se eligen todas las muestras de tamaño n de esa población normal de ingreso de los estudiantes, la distribución muestral de las medias muéstrales también será normal. Como el error típico de la media muestral es ̅ √ , entonces, ̅ Esto quiere decir que las ̅ están menos dispersas que los datos originales. De la expresión ̅ √ también se puede concluir que a medida que aumenta el tamaño de la muestra el error típico será menor. 1.3 TEOREMA CENTRAL DEL LÍMITE Una distribución de medias muéstrales sigue una distribución normal si las muestras se toman de una población normal, pero en muchos casos la población no sigue una distribución normal, entonces debemos recurrir al teorema central del límite. Esta proposición esencial afirma que para cualquier población sea normal o no, la distribución de las medias muestralesse aproximará a la normalidad si el tamaño de la nuestra es grande, (n≥30) TEOREMA CENTRAL DEL LIMITE: desviación típica a Para una población con media µ y medida que el tamaño de la muestra n aumenta, la distribución muestral de medias muéstrales se aproxima a una distribución normal con ̿ ̅ √ 1. 4 FACTOR DE CORRECCION CON POBLACIONES FINITAS. El teorema central del límite y la hipótesis de una distribución normal de las medias muéstrales sólo se aplica si el muestreo se realiza con remplazamiento o la extracción se hace de una población infinita. Si la población es finita y el número n de miembros de la muestra no es una fracción muy pequeña del número N (supera el 10%) de la población, no se puede asumir que los valores individuales de la muestra se distribuyan independientemente. Si la extracción se hace sin sustitución el proceso de muestreo queda alterado, la probabilidad de elegir un elemento dado en cualquier extracción depende de la selección previa realizada anteriormente. Si se quiere compensar esta modificación de probabilidades es preciso utilizar el factor de corrección para poblaciones finitas al calcular el error típico. En concreto, se deduce que si la extracción se hace sin sustitución de una población finita, la * +* varianza es: ̅ + * + [√ ̅ ] √ EJEMPLO 1.1 La oficina del DANE desea estimar el índice de natalidad por 100.000 habitantes en las 100 localidades más grandes del país. Se sabe que la desviación típica de los índices de natalidad de estos 100 centros urbanos es de 12 nacimientos por cada 100.000 habitantes. a. Calcular la varianza y la desviación típica de la distribución muestral de n= 8 localidades. b. Calcular la varianza y la desviación típica de la distribución muestral de n= 15 localidades. SOLUCION: a. Como la fracción se puede considerar pequeña, no se necesita el factor de corrección. La varianza y el error típico son: ( ) ; ̅ b. Como ̅ √ √ , no es una fracción pequeña (mayor que el 10%) es preciso aplicar el factor de corrección, por tanto, La varianza y el error típico son: ̅ * +* + ( * ) +* + y ̅ * √ + [√ ] 1.5 DISTRIBUCIÓN EN EL MUESTREO DE UNA PROPORCIÓN MUESTRAL Si se repite un experimento que tiene probabilidad de éxito π, entonces la variable aleatoria X , que recoge el número total de éxitos en n repeticiones, sigue una distribución binomial. Un problema común consiste en que el parámetro π sea desconocido. Por ejemplo: una corporación financiera interesada en determinar cuál es la proporción de clientes que pagan puntualmente sus obligaciones crediticias o un gerente interesado en la proporción de artículos defectuosos que se producen en un turno determinado en una factoría. En situaciones de este tipo es natural basar nuestra inferencia en la proporción de éxitos en una muestra tomada de la población que nos interese. PROPORCION MUESTRAL Sea X el número de éxitos en una muestra binomial, de n observaciones, donde la probabilidad de éxito es π, entonces, la proporción de éxito en la muestra Recibe el nombre de proporción muestral. La media y la varianza de la distribución muestral de la proporción muestral puede deducirse fácilmente a partir de la media y la varianza del número de éxitos que viene dado por: ( ) ( ) y ( ) ( ), luego: ( ) ( ) .Es decir, la media de la proporción muestral es la proporción π de éxitos en la población. Su varianza es : ( ) ( ) ( ) ( ) La desviación típica de la proporción muestral, es la raíz cuadrada de la varianza y recibe el nombre de error estándar y está dada por: √ ( ) Se utiliza el factor de corrección si la proporción de la muestra con respecto a la población supera el 10%. En tal caso la desviación típica de la distribución de proporciones muestrales queda: √ ( ) √ Si se resta a la proporción muestral su media π y se divide por el error estándar, se obtiene una variable aleatoria con distribución normal estándar. 1.6 APLICACIONES DE LAS DISTRIBUCIONES MUÉSTRALES. La importancia de las distribuciones muéstrales estriba en que muchas decisiones se toman a partir de resultados muéstrales, por ejemplo: El director de una empresa elige una muestra de un producto para determinar si se cumplen determinadas especificaciones de producción. Un organismo oficial toma una muestra de vecinos de una población para decidir si un determinado programa de Bienestar producirá los resultados deseados. El gerente de una compañía de seguro elige una muestra para determinar la proporción de clientes que utilizan el seguro por accidente de sus vehículos. Una aplicación muy corriente de la distribución muestral es determinar la probabilidad de que la media de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral seguirá una distribución normal porque: 1. La muestra se toma de una población normal y 2. El teorema Central del Límite garantiza la normalidad si se seleccionan muestras grandes, y además, muchas decisiones empresariales dependen de una muestra completa y no solo de una observación, entonces la fórmula de transformación ha de ser modificada para que se tenga en cuenta que no estamos interesados en una observación X sino en la media ̅ y la fórmula Z se convierte en: ̅ Variable tipificada de la distribución muestral. ̅ EJEMPLO 1.2 La desviación típica de las compras realizadas por los clientes de una tienda concreta es de 18 dólares. Si se toma una muestra al azar de 100 consumidores. a. ¿Cuál es el error típico de la distribución muestral? b. ¿Cuál es la probabilidad de que la media muestral supere la media poblacional en más de 5 dólares? SOLUCION: a. ̅ √ √ b. Como la diferencia entre ̅ se establece en ̅ se tiene: o un área de 0,4973. Luego: ( ̅ ) ( ) Es decir, la probabilidad de que la media muestral supere la media poblacionalen más de 5 dólares es de 0,27% EJEMPLO 1.3 La duración de las bombillas producidas por un cierto fabricante tiene una media de 1.200 horas y una desviación típica de 400 horas. La población sigue una distribución normal. Suponga que se han comprado 49 bombillas que pueden ser consideradas como una muestra aleatoria de la producción del fabricante. a. ¿Cuál es la media de la media muestral de la duración de estas bombillas? b. ¿Cuál es la varianza de la media muestral? c. ¿Cuál es el error estándar de la media muestral? d. ¿Cuál es la probabilidad de que el tiempo medio de la duración de las 49 bombillas sea de menos a 1050 horas? SOLUCIÓN: a. Como ̿ b. ̅ c. ̅ d. √ ̿ √ Se calcula el valor de Z asì: La probabilidad pedida es : ( ̅ ̅ ̅ ) ( ) La probabilidad que una variable aleatoria sea menor que -2,63 según la tabla 1 del apéndice es: 0,5 – 0,4957 = 0,0043, luego la probabilidad de que el tiempo medio de duración de las 49 bombillas sea menor de 1.050 horas es del 0,43%. EJEMPLO 1.4 En un curso de administración de empresas hay 250 estudiantes. Cada uno de los integrantes de una muestra aleatoria de 50 estudiantes es interrogado con el fin de estimar la cantidad de tiempo que gasta semanalmente en resolver los problemas de estadísticas. Supóngase que la desviación típica de la población es de 30 minutos. a. ¿Cuál es la probabilidad de que la media muestral exceda a la media poblacional en más de 2,5 minutos? b. ¿Cuál es la probabilidad de que la media muestral este más de 5 minutos por debajo de la media poblacional? c. ¿Cuál es la probabilidad de que la media muestral difiera de la media poblacional en más de 10 minutos? SOLUCIÓN: a. Como la diferencia entre ̅ se establece en ̅ y además la fracción , entonces se debe utilizar el factor de corrección para poblaciones finitas en el cálculo el error estándar, es decir: ̅ Luego: ( ̅ √ √ ) [√ √ ( ( ] ) La probabilidad de que la media muestral exceda a la media poblacional en más de 2,5 minutos es del 25,46% b. La expresión que la media muestral este más de 5 minutos por debajo de la media poblacional se puede escribir como ̅ Luego: ( ̅ ) ( ( ) : ) La probabilidad de que la media muestraleste más de 5 minutos por debajo de la media poblacional es de 9,51% c. La expresión que la media muestral difiera de la media poblacional en más de 10 minutos se puede escribir así: ̅ o ̅ Luego la probabilidad de que la media muestral difiera en mas de 10 minutos de la media poblacional está dada por: ( ̅ ) ( ) ( ) EJEMPLO 1.5 Una empresa empacadora de cereales asegura que la media del peso que contienen las cajas de estos cereales es de 200 gramos y sus desviación típica de 6 gramos. La distribución en los pesos es normal. Se eligen 4 cajas que pueden ser consideradas como una muestra aleatoria del total de la producción. a. ¿Cuál es el error estándar de la media muestral del peso de estas 4 cajas? b. ¿Cuál es la probabilidad de que, como media, el peso de estas 4 cajas sea menor que 197 gramos? c. ¿Cuál es la probabilidad de que, como media, el peso de estas 4 cajas sea mayor que 206 gramos? d. ¿Cuál es la probabilidad de que, como media, el peso de estas cuatro cajas este entre 195 y 205 gramos? SOLUCION: a. ̅ √ √ b. Se calcula el valor de Z: Luego: (̅ ) ( ) La probabilidad pedida es del 15,87%. c. Se calcula el valor de Z: Luego: (̅ ) ( ) La probabilidad pedida es del 2,28% ̅ Ahora se pide calcular ( ) y ( ̅ ) ( ) ( ) EJEMPLO 1.6 El dueño de una tienda de discos ha comprobado que el 20% de los clientes que entran a su tienda realizan alguna compra. Un día entran a la tienda 180 personas, que pueden ser considerados como una muestra aleatoria de todos los clientes: a. ¿Cuál será la media de la proporción muestral de clientes que realizaron alguna compra? b. ¿Cuál es la varianza de la proporción muestral? c. ¿Cuál es el error estándar de la proporción muestral? d. ¿Cuál es la probabilidad de que la proporción muestral sea menor que 0,15? SOLUCION: a. ( ) ( ) b. La distribución muestral de ( tiene varianza ) El error muestral de la distribución de ( es: ) √ ( ) √ =0,0298 c. La variable tipificada es: Por lo tanto ( ) ( ) (ver grafica) La probabilidad de que la proporción muestral sea menor que 0,15 es de 4,75% EJEMPLO 1.7 Un proceso industrial genera el 8% de unidades defectuosas. Usted compra 100 unidades, cual es la probabilidad de que sean defectuosas menos del 10%. SOLUCION: √ ( ( ) ) ( ) La probabilidad de que sean defectuosos menos del 10% es del 77%. EJEMPLO 1.8 Un proceso de producción en curso produce un 10% de artículos defectuosos. Un inspector de calidad toma una muestra aleatoria simple de 70 artículos y rechazará toda la producción si más de un 5% de la muestra está defectuosa. ¿Cuál es la probabilidad de rechazo? SOLUCION: √ ( ) ( ( ) ) La probabilidad de que sea rechazada toda la producción es del 91,77% Consulte las siguientes páginas en intenet: http://ftp.utalca.cl/profesores/gicaza/Clases/7Distribuciones%20Muestrales.pdf http://www.geociencias.unam.mx/~ramon/EstInf/Clase4.pdf http://www.educatina.com/matematicas/probabilidad-y-estadistica/estadistica/poblacionestadistica/diferencias-en-la-distribucion-de-medias-muestrales-video 1.5 RESUMEN La DISTRIBUCIÓN MUESTRAL proporciona un enlace importante entre la muestra individual que por lo general se toma y la población sobre la cual se hace inferencia y se define como La lista de todos los valores posibles de un estadístico y la probabilidad asociada a cada valor. ERROR MUESTRAL: Es la diferencia entre el parámetro y el estadístico de la muestra utilizado para estimarlo. ERROR TIPICO: Es la medida de la variación de las medias muéstrales en torno a la media general. Por tanto, mide la tendencia a incurrir en error de muestreo en el intento de estimar el parámetro y está dado por TEOREMA CENTRAL DEL LIMITE: ̅ √ ̅ A medida que el tamaño de la muestra n aumenta, la distribución muestral de medias muéstrales se aproxima a una distribución normal con ̿ ̅ √ Si la población es finita y el número n de miembros de la muestra no es una fracción muy pequeña del número N de la población, no se puede asumir que los valores individuales de la muestra se distribuyan independientemente, la probabilidad de elegir un elemento dado en cualquier extracción depende de la selección previa realizada anteriormente. Para compensar esta modificación de probabilidades es preciso utilizar el factor de corrección para poblaciones finitas al calcular la varianza y el error típico. Si la extracción se hace sin sustitución de una población finita, la varianza es: ̅ * +* + ̅ * + [√ √ ] PROPORCION MUESTRAL: Sea X el número de éxitos en una muestra binomial, de n observaciones, donde la probabilidad de éxito es π entonces, la proporción de éxito en la muestra La media y , Recibe el nombre de proporción muestral. la varianza de la lasproporcionesmuestralesestán ( ) distribución dadas ( ( ) muestral de por: ) La desviación típica de la proporción muestral, es la raíz cuadrada de la varianza y recibe el nombre de error estándar. √ ̅ ̅ ( ) y √ ( ) √ si Variable tipificada de la distribución muestral de medias. Variable tipificada de la proporción muestral. Taller 1 1. Los gastos semanales (en dólares) en publicidad hechos por N = 5 competidores se indican en la siguiente tabla. Establezca la distribución muestral para el promedio de gastos, para una muestra aleatoria simple de 3 competidores. COMPETIDOR DOLÁRES A 100 B 92 C 118 D 70 E 135 2. Un banco reporta que la población de sus saldos de depósito a la vista están normalmente distribuidos con una media de 1.200 y una desviación estándar de 250. Un auditor rechaza certificar el reporte del banco y toma una muestra aleatoria de 36 estados de cuentas. El certificará el reporte solo si la media muestral se encuentra a 50 dólares de la supuesta media poblacional. ¿Cuál es la probabilidad de dicho hallazgo? 3. Una fábrica produce pistones cuyos diámetros se encuentran adecuadamente clasificados por una distribución normal con un diámetro promedio de 20 centímetros y una desviación estándar igual a 0,004 centímetros. Para que un pistón sirva, su diámetro debe encontrarse entre 4,998 y 5,002 centímetros. Si el diámetro del pistón es menor que 4,998 se desecha; si es mayor que 5,002 el pistón puede reprocesarse. Se selecciona una muestra de 8 pistones. ¿Qué porcentaje será desechado? ¿Qué porcentaje será reprocesado? 4. Cuando un cierto proceso de producción está funcionando correctamente, la resistencia en ohmios de los componentes producidos sigue una distribución normal con media 92 y desviación típica 3,6. Se toma una muestra aleatoria de cuatro componentes a. Hallar la media de la distribución muestral de la media muestral de la resistencia. b. Hallar la varianza de la media muestral. c. Hallar el error estándar de la media muestral d. ¿Cuál es la probabilidad de que la media muestral resulte ser mayor que 93 ohmios. 5. Supongamos que la desviación típica de la cuota pagada mensualmente por los estudiantes de cierta ciudad americana es de 40 dólares. Se toma una muestra de 100 estudiantes con el fin de estimar la renta media pagada mensualmente por el total de la población de estudiantes. a. ¿Cuál será el error estándar de la media muestral de la cuota mensual? b. ¿Cuál es la probabilidad de que la media muestral exceda a la media poblacional en más de cinco dólares? c. ¿Cuál es la probabilidad de que la media muestral este más de 4 dólares por debajo de la media poblacional? d. ¿Cuál es la probabilidad de que la media muestral difiera de la media poblacional en más de tres dólares 6. Una compañía quiere estimar la proporción de personas que son posibles compradores de afeitadoras eléctricas y que ven los partidos de fútbol del campeonato nacional. Se toma una muestra de 120 individuos que se identificaron como posibles compradores de afeitadoras eléctricas.Suponga que la proporción de posibles compradores de afeitadoras eléctricas en la población que ven las transmisiones es del25%. a. 0.10 es la probabilidad de que la proporción muestral exceda a la proporción poblacional ¿en qué valor? b. 0,05 es la probabilidad de que la proporción muestral este por debajo de la proporción poblacional ¿en qué cantidad? c. 0,30 es la probabilidad de que la proporción muestral difiera de la proporción poblacional ¿en qué cantidad? 7. Una fábrica tiene a 439 obreros contratados. De ellos 239 están preocupados sobre sus futuras pensiones. Se toma una muestra de 80 obreros y se les interroga con el fin de estimar la proporción de la población que está preocupada sobre el futuro de su pensión. a. ¿Cuál será el error estándar de la proporción muestral de obreros preocupados? b. ¿Cuál es la probabilidad de que la proporción muestral sea menor que 0.5? c. ¿Cuál es la probabilidad de que la proporción muestral se encuentre entre 0.5 y 0,6? 8. El incremento porcentual del salario de los directores ejecutivos de medianas corporaciones sigue una distribución normal con una media del 12.2% y una desviación típica del 3.6%. Se toma una muestra aleatoria de 81 de estos directores ejecutivos. ¿Cuál es la probabilidad de que, en promedio, los individuos de la muestra tengan incrementos salariales menores del 10%? 9. Un proceso de fabricación produce unidades de longitud media igual a 10 pulgadas, con una desviación típica de 3.2 pulgadas. Si solo se pueden utilizar unidades que midan entre 9.5 y 10.5 pulgadas, ¿cuántas de las muestras de la muestra de 100 habrá que desechar? 10. El alcalde una ciudad de 950 vecinos piensa que la renta media de éstos es de por lo menos $625.000, con una desviación típica de $85.900. Si se toma una muestra aleatoria de 150 personas. ¿Cuál es la probabilidad de la renta media de estos sea mayor que $640.000? 11. La desviación típica del tiempo empleado para formar a un trabajador en la realización de una tarea es de 40 minutos. Se toma una muestra aleatoria de 64 trabajadores: 1. ¿Cuál es la probabilidad de que la media muestral supere a la media poblacional en más de 5 minutos? a. ¿Cuál es la probabilidad de que la media muestral sea inferior en b. ¿Cuál es la probabilidad de que la media muestral sea inferior en mas de 4 minutos a la media poblacional. c. ¿Cuál es la probabilidad de que la media muestral difiera de la media poblacional en más de 3 minutos? 12. Una compañía farmacéutica sabe que un 5% de todos los usuarios de cierto medicamento experimentan graves efectos colaterales. Si se examina una muestra aleatoria simple de 120 usuarios, calcule cuál es la probabilidad de hallar: a. Qué no hay efectos colaterales. b. Entre 5 y 10 casos con efectos colaterales. c. Más de 10 casos con efectos colaterales. http://www.educandus.cl/estadistica/ejercicios/bases_teoricas/Distribucion/ResueltosDistribucio nesMuestrales.pdf Evaluación Con base en la información responda las preguntas 1 a 4 “Supongamos que la desviación típica de la cuota pagada mensualmente por los estudiantes de cierta ciudad americana es de 40 dólares y se toma una muestra de 100 estudiantes con el fin de estimar la renta media pagada mensualmente por el total de la población de estudiantes”. 1. El error estándar, en dólares, de la media muestral de la cuota mensual es: A. 0,40 B. 40,0 C. 4,00 D. 400 2. La probabilidad de que la media muestral exceda a la media poblacional en más de cinco dólares es: A. 0,1056 B. 0,3944 C. 0,50 D. 0,8944 3. La probabilidad de que la media muestral este más de 4 dólares por debajo de la media poblacional es: A. 0,3413 B. 0,8413 C. 0,1587 D. 0,1857 4. La probabilidad de que la media muestral difiera de la media poblacional en más de tres dólares es: A. 54,68% B. 77,34% C. 45,32% D. 27,34% Con base en la información responda las preguntas 5 a 8 “En un curso de administración de empresas hay 250 estudiantes. Cada uno de los integrantes de una muestra aleatoria de 50 estudiantes es interrogado con el fin de estimar la cantidad de tiempo que gasta semanalmente en resolver los problemas de estadísticas. Supóngase que la desviación típica de la población es de 30 minutos” 5. El error estándar, minutos, de la media muestral del tiempo que se gasta semanalmente en resolver los problemas de estadísticas, es: A. 3,80 B.4,24 C.0,60 D.9,13 6. La probabilidad de que la media muestral exceda a la media poblacional en más de 2,5 minutos es: A. 74,54% B. 24,54% C. 30,85% D. 25,46% 7. La probabilidad de que la media muestral este más de 5 minutos por debajo de la media poblacional es: A. 0,8413 B. 0,0934 C. 0,1857 D. 0,1587 8. La probabilidad de que la media muestral difiera de la media poblacional en más de 7 minutos es: A. 0,0658 B. 0,8384 C. 0,0808 D. 0,9192 35 30 25 20 15 10 5 0 1 2 3 4 5 PRESENTACION 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Se estudió anteriormente la estimación de un parámetro desconocido de la población, es decir, el cálculo de un único número que fuera una buena aproximación para dicho parámetro. En la gran mayoría de los casos prácticos, un estimador puntual por si solo no es adecuado. Por ejemplo, supongamos que un control realizado sobre una muestra aleatoria de piezas procedentes de un gran lote de producción nos lleva a estimar que un 10% de todas las piezas son defectuosas. Un gerente que se enfrente a este dato posiblemente se hará preguntas del tipo: ¿puedo estar totalmente seguro de que el verdadero porcentaje de piezas defectuosas está entre el 5% y el 15%? o ¿es muy posible que entre el 8% y el 12% de las piezas sean defectuosas? Esta clase de preguntas va más allá de la contenida en una simple estimación puntual; son preguntas que buscan conocer la fiabilidad de dicho estimador. En otras palabras se trata de la búsqueda de un estimador por intervalos, un rango de valores entre los que posiblemente se encuentre la cantidad que se estima. PREGUNTA PROBLEMA ¿Cómo se pueden aplicar los intervalos de confianza en la toma de decisiones empresariales? COMPETENCIAS ESPECÍFICAS 1. Estima e interpreta intervalos de confianza para la media poblacional 2. Estima e interpreta intervalos de confianza para la proporción poblacional 3. Estima e interpreta intervalos de confianza para la diferencia de dos media poblacionales SABERES Intervalos de confianza Intervalos de confianza para la media poblacional Intervalos de confianza para proporciones poblacionales Intervalos de confianza para la diferencia de media de dos poblaciones DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO ACTIVIDAD PREVIA (Trabajo Individual) . Clasifica los siguientes intervalos en Abiertos, Cerrados o semi abierto: A. x R / x 5 B. x R / x 2 C. x R / 1 x 5 D. x R / 0 x 7 E. x R / 4 x 5 F. x R / x 3 2. Estimar un parámetro por intervalo consiste en: A. Hallar el máximo valor que puede tomar el parámetro. B. Calcular el valor mínimo del parámetro. C. Calcular entre que valores está el parámetro. D. Calcular entre que valores está, posiblemente, el parámetro. 3. Al estimar un intervalo de confianza para un parámetro, se cumple que: A. La amplitud es independiente del tamaño de la muestra. B. La amplitud es independiente del nivel de confianza. C. A mayor nivel de confianza, mayor amplitud para una misma muestra. D. A menor nivel de confianza, mayor amplitud para una misma muestra. ACTIVIDAD GRUPAL 1 Socialice los resultados obtenidos individualmente y escriba sus conclusiones al respecto. 2 Haga un listado de las dudas e inquietudes presentadas en la socialización de las actividades anteriores. 3 Realice diferentes redacciones para la interpretación de los intervalos de confianza. Seleccione la que considere más adecuada y que presente mayor claridad. SABERES Y ACTIVIDADES 2. ESTIMACION POR INTERVALOS 2.1 INTERVALOS DE CONFIANZA Se puede partir del hecho que cualquier parámetro que se estime es igual al estadístico que se utilice como estimación puntual más el error muestrale (negativo o positivo). Para el caso de la media muestral se tiene: X + e Si tomamos como ejemplo los datos de la tabla 1.2 y se selecciona la muestra (1), X = 350.000, aquí se manifiesta un error muestral de e = 50.000 por lo tanto 350.000 50.000 400.000 Al seleccionar la muestra (6) X = 450.000, se manifiesta un error muestral negativo de e = - 50.000, por lo tanto: = 450.000 + (-50.000) = 400.000 La inevitable incertidumbre sujeta a cualquier estimación puntual se puede hacer explícita si se presenta una estimación por intervalos y se indica por ejemplo que I S , en donde I es el límite inferior y S es el límite superior. Se acostumbra a construir dichos intervalos al hacer que la estimación puntual sea el centro del intervalo y creando un rango abajo y arriba del centro con ayuda del error estándar del estimador (error típico). Entonces el parámetro desconocido se supone que se encuentra dentro del intervalo pero no necesariamente en su centro. Sin embargo, los límites del intervalo no necesitan estar precisamente en el error estándar abajo o arriba de la estimación puntual. Al definir un coeficiente C como cualquier valor positivo de fracción o entorno se puede hacer la afirmación I.C = Estimación puntual C.(error típico) INTERVALO DE CONFIANZA: Si de una población dada se toman repetidamente muestras aleatorias de tamaño n, se encontraran muchos valores diferentes de un estadístico muestral dado. Si a este valor se suma y se resta una cierta cantidad, el estadístico muestral se convierte en un rango de valores entre los que presumiblemente se puede encontrar el parámetro poblacional desconocido. A este rango de valores se le llama intervalo de confianza EJEMPLO 2.1 Una muestra de salarios ha determinado X = $ 396.670 que podría servir como estimación puntual de , el error típico es X = 35.250. Crear varias estimaciones posibles de intervalos de con base en error estándar de 0.5, 1.0, 2.0 SOLUCIÓN: I .C para X C . X a) Si C se toma como 0.5, se estima que se encuentre entre los límites: 396.670 .05 (32.250) Luego 380545 412.795 b) Si C se toma como 1, se estima que se encuentra entre los límites 396670 (1) (32250) Luego 364420 428920 c) Si C se toma como 2.0, se estima que se encuentra entre los límites 396670 (2) (32250) Luego 332170 461170 El ejemplo nos muestra claramente que valores más grande de C producen intervalos más anchos y, por tanto, estimaciones menos precisas. El ancho del intervalo está relacionado con el grado de confianza con el que se puede indicar que el parámetro de la población en procesos de estimación se encuentra entre los límites del intervalo. Si la distribución muestral del estimador utilizado es aproximadamente normal, el coeficiente C de la expresión: I.C = Estimación puntual C (error típico) Se puede tratar como un valor Z tal que I.C = Estimación puntual Z (error típico) La tabla 1 del apéndice se puede utilizar para calcular las áreas bajo la curva normal que se encuentra dentro de los límites así calculados. Considere una distribución normalmente distribuida de X , y sea X 40 y X 4,66. Para hacer estimaciones de intervalos de la media poblacional, se puede ver a tanto comprendido en el intervalo X ( Z . ) X (Z. ) X X Z . X , por lo X Si la muestra aleatoria seleccionada de la tabla 1.2 produce una X 350 ¿qué puede concluirse? Al igual que en el ejemplo 2.1 la respuesta depende del valor de Z. a) Si Z = 0.5, se tiene que el área bajo la curva normal estándar entre el centro y Z = 0.5 es 0,1915, por lo tanto el área entre Z = - 0.5 y Z = 0.5 es igual a 2(0,1915) = 0.383. Debido a que el centro de la distribución muestral se encuentra en X , se puede tener un 38% de confianza en que nuestro método de construcción del intervalo producirá un intervalo que en realidad contiene a . En efecto 350 0.5( 28,87) 350 0,5(28,87) ; 335,57 364,44 Este intervalo no contiene a X 400 b) Si Z = 1.0, se tiene que el 68% de todos los valores de X caen dentro del intervalo de X 1 X . Se puede tener un 68,28 % de confianza en que nuestro método de construcción de intervalo producirá un intervalo que contendrá a . 321,13 378,87 Este intervalo no contiene a X 400 c) Si Z = 2.0, entonces 95,44% de todos los valores de X caen dentro del intervalo de X 2 X . Por lo tanto se puede tener un 95,44% de confianza en que nuestro método de construcción de intervalo producirá un intervalo que contendrá a . 292,26 407,74 Este intervalo contiene a X 400 Se nota que un valor de Z más pequeño significa una mayor precisión en la estimación (un intervalo más angosto), pero también implica un menor grado de confianza en la estimación. Un valor de Z mayor quiere decir menos precisión (un intervalo más ancho) pero implica un mayor grado de confianza. Si de una población dada se toman repetidamente muestras aleatorias simples de tamaño n, se encontraran muchos valores diferentes de un estadístico muestral dado y se podrá construir muchos intervalos de confianza diferentes; algunos de ellos contendrán el parámetro poblacional desconocido pero otros no. El porcentaje de intervalos que se puede esperar contengan el valor real del parámetro, cuando se utilice una y otra vez el mismo procedimiento de construcción, se denomina Nivel de confianza. El porcentaje de intervalos que se espera no contengan el valor real del parámetro, se denomina Nivel de significancia (α) 2.1.1 INTERPRETACION DE LOS INTERVALOS DE CONFIANZA. Un intervalo de confianza se puede interpretar de dos maneras diferente. Consideremos el ejemplo 2.1 parte c; en él se tiene un nivel de significancia del 95,44%, entonces este intervalo se puede interpretar así: 1. Confía al 95,44% en que la media de salarios se encuentra entre $292.260 y $ 407.740. 2. Si se construyen todos los intervalos de confianza posible ( n C N ), el 95,44% de ellos incluirá el parámetro desconocido, media de los salarios. 2.3 INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL. MUESTRAS GRANDES. Una de las aplicaciones más corrientes de los intervalos de confianza es la de estimar la media poblacional. Por ejemplo: La estimación del nivel medio de producción, estimación del nivel medio de ventas trimestrales, estimación del nivel medio salarial de una empresa. Para la construcción del intervalo de confianza se utilizan las fórmulas: I .C para X Z . X cuando se conoce I .C para X Z .S X cuando es desconocido. EJEMPLO 2.2 La operadora de una central telefónica está conciente de que la población de duración de llamadas está normalmente distribuida con una desviación estándar de cuatro minutos. Una muestra aleatoria de 50 llamadas produce una duración media de 9.1 minutos. Construya e interprete un intervalo de confianza del 95% para la duración media de todas las llamadas. SOLUCION: 4 minutos. n 50 llamadas X 9,1 minutos Nivel de confianza 95% Se tiene una población grande, con conocido, luego: X n 4 0,5657 50 Para un nivel de confianza del 95%; Z = 1,96 Luego I.C Para X Z . X I.C Para 9,1 (1,96) (0.5657 ) I.C Para 9.1 1,1085 Luego: 7,99 10.21 Esto quiere decir que con una confianza del 95% se puede afirmar que la duración media de las llamadas que entran a la central telefónica esta entre 7,99 y 10,21 minutos. EJEMPLO 2.3 Se sabe que la población normalmente distribuida de inversiones en acciones hechas por 75 empleados de una firma tiene una desviación estándar de 99 dólares. Una muestra aleatoria de 36 empleados demuestra una inversión media de 736 dólares, construya e interprete un intervalo de confianza del 99,8% para la inversión media de todos los empleados SOLUCION: N 75 99 n 36 X 736 Nivel de confianza 99,8 Como la fracción de muestreo n/N es mayor del 10% se aplica el factor de corrección para calcular X Luego X n 99 X 36 N n N 1 75 36 75 1 11,98 Luego I.C para X Z . X el valor de Z requerido es de 3,08 Así I.C para 736 ( 3.08) (11,98) 699,1 772,9 Lo cual indica que la inversión media de los empleados de la firma en estudio está comprendida entre 699,1 y 772,9 dólares. EJEMPLO 2.4 En una ciudad donde hay 200 gasolineras, un economista toma una muestra aleatoria de 50 de ellas, cuyo precio promedio de gasolina es de 5.839 pesos por galón, con una desviación estándar muestral de 68 pesos por galón. Determine e interprete un intervalo de confianza del 80% para el precio promedio en la ciudad, si se supone que la distribución poblacional es normal. SOLUCION: N = 200 gasolineras n= 50 X = 5.839 pesos por galón S = 68 Nivel de confianza = 80% Se tiene una muestra grande, con una fracción de muestreo n/N mayor del 10%, luego se hace necesario aplicar el factor de corrección. es desconocido. X S N n 68 . N 1 n 50 200 50 8,35 200 1 El valor de Z requerido es de 1,28 I .C para X Z .S X Luego I .C para 5839 (1,28) ( 8,35) I .C para 5839 10,688 5828,31 5849,69 Esto nos indica que el precio promedio de la gasolina por galón en la ciudad esta entre 5828,31 y 5849,69 pesos. 2.4 INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONALMUESTRAS PEQUEÑAS. Existe un número infinito de situaciones prácticas donde no es posible obtener una muestra grande, las razones sobran, incluyendo el alto costo de muestreo. Un ejemplo común es el de las compañías de seguro que comprueban la resistencia de los automóviles a las colisiones. Destruir 30 vehículos o más puede ser muy costoso. Cuando se toma una muestra pequeña (n< 30) la distribución normal puede ser inadecuada. Es decir, cuando la muestra es pequeña y es desconocida, no se deberá aplicar la distribución Z. En este caso de muestras pequeñas, los errores estándar de la media y la proporción X y P se estiman solo en forma deficiente con la ayuda de desviaciones estándar muéstrales, S y Px Como primero lo demostró William S Gosset, cervecero inglés, que escribía bajo el seudónimo de “student” (estudiante), en las circunstancias especificadas, se puede derivar mejores estimaciones de intervalos si se usa una función de densidad de probabilidad algo diferente de la curva normal. Gosset, describió una distribución muestral para una variable aleatoria, t, derivada de una población normalmente distribuida y definida en analogía a la desviación normal estándar Z. Esto se ilustra en la figura 2.1 FIGURA 2.1 Comparación de la distribución Z y la distribución t FIGURA 2.2 Familia de distribuciones t Como la curva normal estándar, la función de densidad de probabilidad de Gosset, ahora llamada distribución t de student, es: 1. De un solo pico sobre la media de la variable aleatoria. La media, la mediana y la moda son cero. 2. Perfectamente simétrica alrededor de su valor central. 3. Caracterizada por colas que se extienden indefinidamente en ambos direcciones desde el centro y se aproximan pero nunca tocan al eje horizontal. La única diferencia es que la variable aleatoria es t y no Z; como resultado de esto la varianza de la distribución no es igual a 1, sino que es igual a 2 n 1 n 3 Esta varianza de t implica que existe una distribución t diferente para cada tamaño muestral n, y también que la distribución t se aproxima a la distribución Z a medida que aumenta el tamaño muestral. La distribución t para n = tiene una varianza igual a uno (1) y es indistinguible de la normal (véase figura 2.2). EL valor adecuado de t se puede encontrar en la tabla 2 del apéndice. Dicha tabla muestra el área bajo una curva específica, definida por un número dado de grados de libertad, que se encuentran a la derecha de un valor específico de t (df), esta área de cola superior se denomina y este valor de t se designa como t . Con frecuencia los grados de libertad (df) aplicables se agregan al subíndice ya sea en paréntesis o después de una coma: t ( df ) o t , df Por ejemplo, para 10 grados de libertad y un área de cola superior de 0.1 , t1 (10) 1,372. En otras palabras, 0.1 del área bajo la curva t apropiada para una muestra de n = 11 está asociada con t > 1,372. Debido a la simetría de la curva 0.1 del área bajo esta curva también esta asociada con t < - 1,372. En consecuencia, 0.8 del área bajo la curva esta asociada con valores de t entre –1,372 y 1,372; la probabilidad para dicho valor t es igual a 0.8 . Para construir una estimación de intervalos con un nivel de confianza de 0.8, o sea del 80% se debe usar t = 1,372. Luego los intervalos de confianza se pueden construir con ayuda de los valores t de la tabla 2 del apéndice así: EJEMPLO 2.5 Una empresa de alquiler de coches está interesada en conocer el tiempo medio que sus vehículos permanecen en el taller de reparaciones. Una muestra aleatoria de 9 coches indicó que el pasado año el número de días que cada uno de estos coches había permanecido fuera de servicio fue: 16 10 21 22 8 17 19 14 19 Especificando las hipótesis necesarias, calcular e interpretar intervalos de confianza del 90% para el número medio de días que la totalidad de los vehículos de la empresa se encuentran fuera de servicio. SOLUCION: Se debe suponer que la distribución de la población es normal, como un primer paso, se tiene que hallar la media y la varianza muestral (con la ayuda de una calculadora). X 16,22 S X 4,79 Luego SX I .C para X t S X 4,79 1,5967 9 con donde t 0.10, 8 1,860 I .C para 16,22 (1,860) (1,5967 ) Así: I .C para 16,22 2,9696 13,25 19,19 Con un nivel de confianza del 90% se estima que,en promedio, los vehículos de la empresa se encuentran fuera de servicio entre 13 y 19 días. EJEMPLO 2.6 El convenio colectivo entre el sindicato de una empresa y la administración de la misma exigía que la producción media de una sección de la fábrica se mantuviera en 112 unidades por empleado y mes. Surgieron desacuerdos entre las partes sobre el cumplimiento de esta norma. El convenio colectivo especificaba que si la producción media descendía por debajo de la cantidad estipulada de = 112, estaba autorizada a tomar medidas correctivas. Para ahorrar costo se decidió inspeccionar solamente 20 obreros que dieron una media de 106 unidades. Supóngase que se halló una desviación típica de 8,5 unidades y que los niveles de producción siguen una distribución normal ¿sugiere un intervalo de confianza del 90% que ha habido violación del convenio y que está justificado, por lo tanto, tomar medidas correctivas? SOLUCION: Para un intervalo de confianza del 90% y 19 grados de libertad, el valor de t adecuado es de 1,729. Luego: I .C para X t S n 8.5 I .C para 106 (1,729) 20 I .C para 106 3,29 así 102,71 109,29 Se observa que la producción media especificada en el convenio colectivo no se encuentra en el intervalo. Se puede concluir, con un nivel de confianza del 90% de que se está violando el convenio. Por lo tanto los directivos de la fábrica están en su derecho de emprender acciones contra el descenso de la productividad de la empresa. 2.5 INTERVALOS DE CONFIANZA PARA PROPORCIONES POBLACIONALES. Supongamos ahora que estamos interesados en la proporción de miembros de la población que poseen un determinado atributo. Por ejemplo: una empresa quiere saber qué proporción de clientes pagan a crédito frente a quien lo hacen de contado o puede estar interesada en conocer el porcentaje de sus productos que son defectuosos frente al de unidades no defectuosas. En cada uno de estos casos solo hay dos resultados posibles.El interés se centra en la proporción de respuestas que se clasifican en uno de estos dos resultados. En el capítulo anterior se dedujo el error típico de la distribución muestral de proporciones muéstrales con parámetro π p (1 ) n , esta fórmula contiene el que se pretende estimar, por lo tanto se utiliza la proporción muestralPx como estimador del error y se tiene S P Px (1 Px ) n , así: “Si Px es la proporción observada de éxitos en una muestra aleatoria de n observaciones procedentes de una población con una proporción de éxito π, entonces, si n es grande, un intervalo de confianza para del 1 % para la proporciono poblacional viene dado por I .C para Px Z S p Es decir Px Z 2 Px (1 Px ) Px (1 Px ) , donde la variable Z se Px Z 2 n n distribuye normalmente.”1 EJEMPLO 2.7 En una encuesta a 673 grandes almacenes, 521 declaraban tener problemas con los robos de los empleados ¿se puede llegar a la conclusión, con una confianza del 99% de que estos datos indican que el 78% de todas las tiendas tiene dificultades similares? 1 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p253 SOLUCION: I .C para Px Z S P ; SP 0,774 0,226 673 I .C para P 0,774 (2,58) (0,016) I .C para P 0,774 0,0412 0,732 P 0,815 Con una confianza del 99% se puede concluir que el 78% de todas las tiendas tienen problemas con los robos de los empleados. EJEMPLO 2.8 Un almacén de la ciudad quiere estimar la proporción de clientes que pagan con tarjetas de créditos. Una muestra de 79 clientes indicó que 12 utilizaban el plástico. Construir e interpretar el intervalo de confianza para el almacén. SOLUCION: Px SP 12 0,1519 79 0,1519 0,8481 79 0,040 I .C para Px Z . S P I .C para 0,15189 2,580,040 I .C para 0,15189 0,1042 0,05 0,26 Esto quiere decir que la proporción de clientes que pagan con tarjeta de crédito esta entre el 5% y el26%. EJEMPLO 2.9 En una compañía de autobuses, cada mes, miles de sus autobuses llegan a cierta terminal. Con ayuda de una muestra aleatoria de 49 autobuses, sin remplazamiento, ha de construirse un intervalo de confianza del 99,9% para la proporción de todos los que llegan a tiempo. La proporción muestral de llegada exacta es de 0,64. SOLUCION: SP 0,640,36 0,0686 49 Un nivel de confianza del 99,9% requiere un Z = 3,27 I .C para Px Z S P Luego: I .C para 0,64 3,27 0,0686 0,42 0,86 Con un confianza del 99.9% se puede afirmar que el porcentaje de autobuses que llegan a tiempo a la terminal está entre 42% y 86% Consulte las páginas: http://www.slideshare.net/yohanabonillagutierrez/taller-intervalos-de-confianza http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf Resumen INTERVALO DE CONFIANZA: Si de una población dada se toman repetidamente muestras aleatorias de tamaño n, se encontraran muchos valores diferentes de un estadístico muestral dado. Si a este valor se suma y se resta una cierta cantidad, el estadístico muestral se convierte en un rango de valores entre los que presumiblemente se puede encontrar el parámetro poblacional desconocido. A este rango de valores se le llama intervalo de confianza. Nivel de confianza (NC): Porcentaje de intervalos que se espera contengan el valor real de un parámetro, cuando se utilice una y otra vez el mismo procedimiento de construcción. Nivel de significanciaα: Porcentaje de intervalos que se espera no contengan el valor real de un parámetro, cuando se utilice una y otra vez el mismo procedimiento de construcción, (α= 1-NC). Para la construcción del intervalo de confianza para la media poblacional se utilizan las fórmulas: I .C para X Z . X cuando se conoce I .C para X Z .S X cuando es desconocido. Para el cálculo cuando la muestra es pequeña, se utiliza I .C para X (t ) (S X ) , Donde S X S , n t X S n Para la construcción del intervalo de confianza para la proporción poblacional se utiliza la proporción muestralPx como estimador SP del error y se tiene Px (1 Px ) N n . Utilizando el factor de corrección . N 1 n cuando sea requerido. “Si Px es la proporción observada de éxitos en una muestra aleatoria de n observaciones procedentes de una población con una proporción de éxito P, entonces, si n es grande, un intervalo de confianza para del 1 % para la proporciono poblacional viene dado por I .C para P Px Z S p Es decir Px Z 2 Px (1 Px ) Px (1 Px ) , donde la variable Z se Px Z 2 n n distribuye normalmente.”2 2 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p253 Taller 2 1. Una muestra de 155 usuarios del tren suburbano emplean en este medio de transporte una hora y 37 minutos en promedio, con una desviación típica de 42 minutos. ¿Cuál es el intervalo del 90% para el tiempo medio de todos los usuarios? 2. El propietario de una pequeña empresa desea estimar el tiempo medio necesario para realizar una tarea determinada. Tiene que asegurarse al 90% de confianza de que el error es inferior a 0.5 minutos. Se sabe que la desviación típica es de 3.2 minutos. ¿Cuántas observaciones de tiempos de ejecución tiene que hacer? Z n e 2 3. El director de una tienda de animales de compañía está preocupado por el aumento del número de cachorros que enferman antes de ser vendidos. De 53 cachorros estudiados, 35 mostraban algún signo de problema sanitario. Elaborar e interpretar el intervalo del 95% 4. En la calificación de su eficacia, 312 empleados recibieron una puntuación media del 73,9 con s = 15.6. Si un intervalo de confianza del 95% indica que la media de todos los empleados es menor que 65, la dirección pretende implantar un nuevo programa de formación. Calcular e interpretar el intervalo correcto. ¿Se llevará a cabo el programa? 5. Suponga que como experto en control de calidad quiere estimar el espesor medio de las lentes ópticas fabricadas por su empresa. Una muestra de 120 lentes da una media de 0.52mm .Se sabe que la desviación típica de la población es de 0,17mm. Usted piensa que puede arriesgarse a una probabilidad de error de sólo el 1%. Construya el intervalo de confianza adecuado. 6. Un proceso produce bolsas de azúcar refinada. El peso del contenido de estas bolsas tienen una distribución normal con desviación típica 15gr. Los contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de 100gr. Calcular un intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de azúcar producidas por el proceso. 7. Una muestra aleatoria de 10 autos americano de un determinado modelo consumen las siguientes cantidades en kilómetros por litro. 17,9 19,8 18,6 18,4 19,2 20,8 19,4 20,5 21,4 20,6 Calcular un intervalo de confianza del 90% para el consumo de gasolina medio poblacional de los automóviles de este modelo, suponiendo que la distribución de la población es normal. 8. De una muestra aleatoria de 95 pequeñas empresas fabricantes, 29 señalaron las mejoras en la calidad como la más importante iniciativa para incrementar la competitividad de sus productos. a) Calcular un intervalo de confianza del 99% para la proporción poblacional b) Sin hacer los cálculos, determinar si un intervalo de confianza del 90% tendrá una longitud mayor, menor o igual a la del intervalo calculado en la parte a). 9. De una muestra aleatoria de 198 estudiantes de marketing, 98 consideraron como poco ético “inflar” las calificaciones académicas. Utilizando esta información, un experto en estadística calculó un intervalo de confianza de 0,435 a 0,554 para la proporción poblacional. ¿Cuál es el contenido probabilístico de dicho intervalo? 10. Un ingeniero de control de calidad está inspeccionando la maquinaria que se supone verterá 20 onzas de detergente liquido en un recipiente. Una muestra de 12 recipientes deja ver que la cantidad media dosificada es de 18,9 onzas, siendo la desviación estándar de 3.1 onzas. Construya un intervalo de confianza del 90% para la cantidad media dosificada por la maquinaria, suponiendo que dichas cantidades están normalmente distribuidas. ¿funciona bien la maquinaria? 11. Al muestrear en forma aleatoria 60 de los 900 empleados de la compañía, el gerente de personal encuentra que un 25% prefieren el plan recientemente propuesto de trabajar sólo cuatro días de la semana, pero más horas cada día. Construya un intervalo de confianza para la proporción de todos los empleados que nose inclinaron por la propuesta. 12. En una muestra aleatoria de 100 familias, se encuentra que 59 prefieren la marca “KEMA” de un determinado producto. Construya un intervalo de confianza del 98% para la proporción de todas las familias con esa preferencia. 13. “In a simple random sample of 500 employees, 160 preferred to take training classes in the morning rather than in the afternoon. Construct a 95% C.I. on the true proportion of employees who favor morning training classes 14. Human beings vary in the time it takes them to respond to driving hazards. In one experiment in which 100 healthy adults between age 21 and 30 years were subjected to a certain driving hazard, and the sample variance of the observed times it took them to respond was 0.0196 second squared. Assuming that the times to respond are normally distributed, estimate the variability in the time response of the given age group using a 95% C.I 15. Suppose you want to estimate the average weight of chickens in a laboratory. You like to be 95% certain that the error is at most 0.1lbs. How many chickens you should include in your sample? 16. A certain change in a manufacturing procedure for component parts is being considered. Samples are taken using the existing procedure and the new one. If 75 items out of 1500 items, from the existing procedure, were found to be defective, while 80 items out of 2000 items for the new procedure were found defective. Find a 90% confidence interval for the true difference in the fraction defective between the existing and the new procedures.”3 3 Mohammed A. Shayib, Applied Statistics, bookboon.com, 2013 p129,133,135, 154 Evaluación Con base en la información responda las preguntas 1 y 2 “La calificación que obtienen los vendedores de una firma comercial en una prueba de aptitud, sigue una distribución normal. Se extrae una muestra de 25 25 calificaciones que dan lugar a los siguientes estadísticos: x i 1 25 x i 1 2 i i 1.508 95.628 ”4 1. La varianza muestral estará dada por: A. 95.628 1508 25 (1508) 2 25 25 B. 95.628 C. 4 95.628 1508 24 (1508) 2 25 24 95.628 D. PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p52 2. Un intervalo de confianza del 90% para la media tendrá: 1. una longitud mayor que uno del 80% 2. una longitud menor que uno del 80% 3. una longitud igual que uno del 95% 4. una longitud mayor que uno del 95% 3. Un proceso produce bolsas de azúcar refinado. El peso del contenido sigue una distribución normal con desviación típica 15 gramos. Los contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gramos. El intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de azúcar producidas por el proceso está dado por: A. 95,05 104,95 B. 94,12 105,88 C. 99,01 100,99 D. 98,82 101,18 4. “Como parte de un estudio de mercado, en una muestra de 125personas se encontró que 84 de ellas tenían conocimiento de cierto producto” 5 . El intervalo de confianza del 90% para la proporción de personas de la población que tienen conocimiento del producto, tiene respectivamente los siguientes limites inferior y superior: A. 0,589 y 0,754 B. 0,602 y 0,741 C. 0,589 y 0,602 D. 0,602 y 0,754 HILDEBRAND Y OTT. Estadística aplicada a la administración y a la Economía. U.S.A, Addison – Wesley Iberoamericana 1997, p307. 5 PRESENTACION “Cuando se extrae una muestra aleatoria, de una población, la evidencia obtenida puede usarse para realizar inferencia sobre las características de la población. Como hemos visto, una posibilidad es estimar los parámetros desconocidos de la población mediante el cálculo de estimadores puntuales o intervalos de confianza. Alternativamente, la información muestral puede emplearse para verificar la validez de una conjetura o hipótesis, que se haya formulado sobre la población”.6 . PREGUNTA PROBLEMA ¿Son las pruebas de hipótesis una herramienta fundamental en la toma de decisiones en la empresa? COMPETENCIAS ESPECÍFICAS 6 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p281 1. Formula y contrastar hipótesis para la media poblacional, para situaciones específicas de la empresa. 2. Formula y contrasta hipótesis para una proporción poblacional. 3. Identifica cuando una hipótesis es unilateral o bilateral. 4. Formular y contrastar hipótesis para la diferencia de medias dos poblaciones. SABERES Concepto del contraste de hipótesis. Prueba de hipótesis para la media poblacional Prueba de hipótesis para la proporción poblacional Prueba de hipótesis para la diferencia de dos medias poblacionales DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO ACTIVIDAD PREVIA (Trabajo Individual) De las siguientes afirmaciones, ¿cuáles son verdaderas y cuáles falsas? 1. En un sistema de hipótesis, la hipótesis nula es la que se contrasta. 2. La hipótesis nula siempre es aceptada. 3. Si la hipótesis nula se acepta, entonces la alternativa también es válida. 4. La expresión X c X Z X se puede utilizar para calcular el valor crítico en una prueba unilateral de cola derecha para la media poblacional. 5. En una prueba bilateral, se puede rechazar la hipótesis nula si la media muestral resulta mayor que el valor critico calculado. 6. El procedimiento para contrastar hipótesis para la proporción poblacional, es el mismo utilizado en el contraste de hipótesis para la media. 7. Se puede realizar contraste de hipótesis para comparar dos medias poblacionales. 8. En algunos problemas de contraste de hipótesis se requiere el uso del factor de corrección ACTIVIDAD GRUPAL 1. Socialice los resultados obtenidos individualmente y escriba sus conclusiones al respecto. 2. Indique los criterios que se deben tener en cuenta para aplicar una prueba t o una prueba Z. 3. Indique los criterios que se deben tener en cuenta para determinar si una prueba de hipótesis es bilateral o unilateral. 4. Haga un listado de las dudas e inquietudes presentadas en la socialización de las actividades anteriores. SABERES Y ACTIVIDADES 3. CONTRASTE DE HIPOTESIS 3.1 CONCEPTO DEL CONTRASTE DE HIPOTESIS Veamos el concepto con base en algunos ejemplos ilustrativos: 1. Un fabricante de baterías podría afirmar que la duración promedio de las baterías tipo A es de 150 horas. 2. Una compañía recibe un gran cargamento de piezas. Sólo puede aceptar el envío si no hay más de un 5% de piezas defectuosas. La decisión de aceptar o no el envío se puede basar en el análisis de una muestra aleatoria de piezas. 3. Un fabricante de detergentes afirma que, en promedio, el contenido de cada bolsa pesa al menos 500 gramos, Para verificar esta afirmación, se pesa el contenido de una muestra aleatoria y se infiere el resultado a partir de los datos muéstrales. 4. Una factoría puede afirmar que la producción de la máquina A contiene menos unidades defectuosas que los de la máquina B, para verificar esta afirmación no es necesario revisar toda la producción de las dos máquinas, basta con tomar muestras aleatorias en ambas y hacer la inferencia a toda la producción. De estos ejemplos se concluye que la hipótesis se formula sobre la población, y las conclusiones sobre la validez de esta hipótesis se basa en la información muestral. La hipótesis que se contrasta se llama Hipótesis nula (Ho) y con la que se contrasta, hipótesis alternativa (Ha). Después, a partir de los resultados obtenidos en una muestra, o bien rechazamos la hipótesis nula y se acepta como verdadera la alternativa, o bien, aceptamos la hipótesis nula y se supone que la alternativa es falsa. El hecho de no rechazar la hipótesis nula no implica que esta sea correcta, significa simplemente que los datos de la muestra no son suficientes para inducir el rechazo. 3.2 FORMULACION DE DOS HIPOTESIS OPUESTAS “Una hipótesis, nula o alternativa, puede designar un único valor, llamado 0 , para el parámetro poblacional . En este caso se dice que la hipótesis es simple. La notación simbólica para una hipótesis de este tipo es H 0 : 0 Que se lee “La hipótesis nula es que el parámetro poblacional es igual al valor específico 0 ”7. La hipótesis alternativa es H A : 0 . 7 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p282 La situación descrita en (1) es un ejemplo de este tipo, aquí el fabricante afirma que la duración promedio de las baterías tipo A que él fabrica es de 150 horas. H0 : 150 H A : 150 La hipótesis alternativa en cada caso sugiere que el promedio es mayor o menor que 0 ; Siempre que una hipótesis alternativa contenga desviaciones desde la hipótesis nula en cualquier dirección se denomina HIPOTESIS DE DOS COLAS. Este tipo de hipótesis se establece cuando la precisión es de gran importancia y las desviaciones en cualquier dirección son inaceptables por igual. “Una hipótesis también puede designar un rango de valores para el parámetro poblacional desconocido. Una hipótesis de este tipo se denomina compuesta y será cierta para más de un valor del parámetro poblacional.”8 Un ejemplo de este caso es la situación (3) descrita por el fabricante de detergentes donde afirma que en promedio el contenido de cada bolsa pesa al menos 500 gramos, aquí la hipótesis nula se puede escribir así: H 0 : 0 , especifica mente H 0 : 500 gr H A : 500 gr 8 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p282 Si en cambio el fabricante asegura que las bolsas de detergentes contienen una media de más de 500 gramos, entonces el sistema queda así: H 0 : 500 H A : 500 Se nota que en cualquiera de los sistemas planteados, la hipótesis alternativa se indica siempre como inexacta, la nula puede ser indicada como , , . En todo caso se acostumbra que la H0 contenga el signo de igualdad. En el sistema: H 0 : 0 , la hipótesis nula dice que el parámetro es mayor o H A : 0 igual que un valor específico, en tanto que en la alternativa dice que es menor que ese valor, este sistema de hipótesis se plantea cuando algo puede ser con seguridad mayor que un cierto valor, pero donde valores menores serían inaceptables. Por ejemplo, si de una batería se garantiza que tendría una duración de 100 horas, nadie se preocupará si dura más; pero la alternativa de que dure menos podría ser verdad y exigiría una acción correctiva rápida. En el sistema H 0 : 0 , la hipótesis nula dice que el parámetro es menor o H A : 0 igual que un valor específico, en tanto que la alternativa dice que es mayor que ese valor. La hipótesis alternativa sugiere que el promedio es mayor que 0 . Este tipo de hipótesis se establece cuando algo puede ser con seguridad menor o igual que un cierto valor, pero donde valores mayores serían inaceptables, por ejemplo, si se considera la hipótesis nula “el tiempo promedio de entrega de una compañía de transporte es igual o menor que tres días”, nadie se quejaría si es menor, pero si es mayor sería causa de alarma. El sistema de hipótesis sobre el valor de una media poblacional , se indica por lo general en una de estas tres formas con referencia a un valor específico 0 . FORMA 1 FORMA 2 FORMA 3 H 0 : 0 H A : 0 H 0 : 0 H A : 0 H 0 : 0 H A : 0 Puede darse el caso que se necesite comparar entre si dos poblaciones separadas, como por ejemplo: la duración comparativa de dos productos, la fiabilidad relativa de dos procesos de fabricación o el nivel de eficacia de dos esquemas publicitarios. Las hipótesis opuestas sobre la diferencia entre dos medias poblacionales A y B se indican del mismo modo señalado. FORMA 1 FORMA 2 FORMA 3 H 0 : A B H A : A B H 0 : A B H A : A B H 0 : A B H A : A B Por lo tanto, la hipótesis nula puede decir, forma 1, que dos medias poblacionales son las mismas, por ejemplo, que la duración promedio de dos tipos de llantas son idénticas. O puede decir forma 2, que una media poblacional es mayor o igual que otra, por ejemplo que los sueldos promedios de la industria de la construcción en Bogotá son al menos iguales pero posiblemente mayores que los de Barranquilla. O puede decir forma 3, que una media poblacional es menor o igual que otra, por ejemplo que la producción promedio de la fábrica A es al menos igual o posiblemente menor que la producción en la fábrica B. Las hipótesis sobre una proporción de la población , tal como la proporción de unidades defectuosas producidas en un proceso, se formulan de una manera análoga a aquellas sobre una media poblacional, simplemente por se sustituye , dejando todo lo demás sin cambios, incluyendo las hipótesis sobre la diferencia entre las proporciones de la población. 3.3 SELECCIÓN DE UN ESTADISTICO DE PRUEBA. Después de haber diseñado el sistema de hipótesis adecuado, el segundo paso para contrastarla es la selección de un estadístico de prueba. Un ESTADÍSTICO DE PRUEBA es aquel valor calculado a partir de los datos muéstrales en una prueba de hipótesis para establecer si se rechaza o no se rechaza la hipótesis nula. Cada estadístico muestral tiene una distribución muestral propia que puede aproximarse muchas veces por la distribución normal para muestras grandes, o por una distribución t de student para muestras pequeñas. Es así como el estadístico de prueba se puede convertir en un valor Z o un valor t al dividir la diferencia entre el estadístico muestral y el valor extremo del parámetro poblacional postulado en la hipótesis nula entre el error estándar del estadístico muestral. Z x 0 X Para una media poblacional Muestras grandes t Z X 0 Para una media poblacional Muestras pequeñas SX Px P Para una proporción de la población 3.4 DERIVACION DE UNA REGLA DE DECISIÓN Una vez establecido el sistema de hipótesis y el estadístico de prueba adecuado, se debe determinar una regla de decisión que nos indique si se rechaza o no la hipótesis nula. Esta regla de decisión especifica un valor del estadístico tan diferente del valor del parámetro contenido en la hipótesis, que excluya atribuir la diferencia al error muestral. Supóngase que se desea contrastar la hipótesis para la situación planteada en (1). “Un fabricante de baterías afirma que la duración promedio de las baterías tipo A es de 150 horas” H0 : 150 ; H A : 150 En este caso, la regla de decisión específica valores críticos de la media muestral X C , demasiado alejados por encima o por debajo de 150 para permitir suponer que = 150. Si se contrasta la hipótesis nula al nivel de significancia del 5%, se deben encontrar valores críticos de la media muestral por encima o por debajo del valor hipotético = 150 que enmarque el 95% del área comprendida bajo la curva normal. El 5% restante se divide por igual en dos colas, como se muestra en la figura 3.1. FIGURA 3.1 Contraste de hipótesis al 95% Los valores de X comprendidos en el intervalo del 95% son lo bastante cercanos al valor hipotético de 150 para que se pueda atribuir la diferencia al error muestral. Esta diferencia se dice que es insignificante estadísticamente al nivel del 5% y se puede explicar por la fluctuación aleatoria de la muestra. Por consiguiente, no se rechaza la hipótesis nula. Si el valor obtenido para X se sitúa más allá de esos valores críticos en una u otra cola, se rechaza la hipótesis nula de que = 150. Estos valores críticos se determinan con la siguiente formula Donde: H SX Valor hipotético de la media poblacional S S ó SX n n N n Error típico de la distribución muestral. N 1 A partir de estos valores se formula la regla de decisión REGLA DE DECISIÓN: La regla de decisión es un enunciado que se emite para determinar si se rechaza o no la hipótesis nula. Específica el valor crítico de los resultados muéstrales. 3.5 PRUEBA DE HPOTESIS PARA UNA MEDIA POBLACIONAL. Son muchos los casos en que interesa contrastar una hipótesis en relación con el valor de una media poblacional, entre los cuales se pueden citar: Un proceso industrial produce partes metálicas de una longitud promedio de 0 = 5 pulgadas, perfora orificios con un diámetro promedio de 1,2 pulgadas o hace mangas de camisa de un largo promedio de 33 pulgadas. La cantidad promedio de detergente puesto en una caja por una máquina llenadora es igual o excede de 0 = 1 libra. El promedio de resistencia a la ruptura de cierto tipo de cable es al menos 5000 libras. El tiempo promedio de entrega de una compañía de transporte es igual o menor de 0 = 3 días El tiempo promedio de secado de una pintura es a lo más de 4 horas. Algunos funcionarios de la administración pueden estar interesados en conocer la renta media de los contribuyentes de un municipio determinado. En definitiva, un gran número de decisiones empresariales, se toman a partir de la media poblacional. Si se pueden recopilar datos en relación con este parámetro, las decisiones serían más fiables y es probable que produzcan resultados favorables. En todo caso para llevar a cabo el contraste de una hipótesis nula es necesario agotar las siguientes cuatro fases: Fase 1: Formular las hipótesis Fase 2: Calcular el valor crítico Fase 3: Formular la regla de decisiónpara decidir si se acepta o rechaza la hipótesis nula Fase 4: Exponer la conclusión en relación con la aceptación o el rechazo de la hipótesis nula y cualquier otra interpretación que pudiera derivarse de dicha conclusión. Esto se ilustra en las siguientes situaciones. EJEMPLO 3.1 Un convenio trabajadores- dirección de una fábrica, exige una producción media diaria de 50 unidades. Una muestra de 150 días revela una media de 47,3unidades con una desviación típica de 5,7 unidades. Poner = 5% y determinar si se cumple esta cláusula del contrato. SOLUCIÓN: Fase 1: Formulación de las hipótesis Como el convenio exige una producción media de 50 unidades, el sistema de hipótesis se establece así: H 0 : 50 H A : 50 Se trata de una prueba bilateral, puesto que la hipótesis nula puede ser rechazada si los resultados de la muestra están muy por encima o por debajo de 50. Aparece una región de rechazo en cada una de las colas de la distribución. Fase 2: Cálculo del valor crítico Para encontrar el valor crítico se debe empezar por encontrar el valor de Z adecuado, según el nivel de significancia seleccionado. Para el ejemplo, se divide el nivel de confianza entre dos, es decir, 0,95/ 2 = 0,475, que corresponde a un valor Z = 1,96. 5,7 0,465 150 Además: X Luego: X C H Z X n X C 50 1,96(0,465) X C 50 0,911 49,1 - - - - - - - - - 50.91 Fase 3 Regla de decisión: No rechazar H 0 si X está comprendida entre 49,1 y 50,91. Rechazar H 0 si X es menor que 49,1 o mayor que 50,91. Esto se ilustra en la figura 3,2 FIGURA 3.2 Fase 4: Conclusión Una X de 47,3 está en la región de rechazo demasiado alejado de H 50 . Debe rechazarse la hipótesis nula lo que indica que no se está cumpliendo la cláusula del contrato. EJEMPLO 3.2 Una compañía láctea utiliza una máquina para llenar sus latas de kumis de 18 onzas. Si la máquina funciona mal, tiene que ser ajustada. Se elige una muestra de 50 latas, que dan una media de 18,9 onzas, con una desviación típica de 4,7 onzas. Si se admite un error del 5%. ¿Deberá reajustarse la máquina? SOLUCION: Fase 1: Formulación de la hipótesis Como el llenado debe ser de 18 onzas, el sistema de hipótesis conveniente es: H 0 : 18 H A : 18 Nuevamente se trata de una prueba bilateral dado que la hipótesis nula puede ser rechazada si los resultados de la muestra están muy por encima o por debajo de 18 onzas. Fase 2: Cálculo del valor crítico El valor de Z se encuentra de forma análoga al ejemplo 3.1 y Z = 1,96 SX S 4,7 0,665 n 50 X C H ZS X X C 18 (1,96) (0,665) X C 18 1,3 16,7 - - - - - - - 19,3 Fase 3: Regla de decisión Aceptar H0 si X está comprendido entre 16,7 y 19,3. Rechazar H0 si X es menor que 16,7 o mayor que 19,3; esto se ilustra en la figura 3.3. FIGURA 3.3 Fase 4: Conclusión Una X de 18,9 está en la zona de aceptación. Por lo tanto no se rechaza la hipótesis nula; es decir no existe suficiente evidencia para rechazar la hipótesis nula. Luego se puede concluir que no es necesario ajustar la máquina. EJEMPLO 3.3 El departamento de policía de una ciudad de la costa ha encontrado que los agentes de tráfico deben imponer una media de 27 multas de tránsito al mes. Si un agente impone más de estas multas, quizás sea demasiado celoso en el cumplimiento de su deber. Si entrega menos multas puede que el agente no esté haciendo un buen trabajo. Para evaluar a sus agentes, el jefe de policía anotó el número de multas impuestas por 15 agentes. Los resultados se muestran a continuación. Al nivel del 5% ¿le parece que la fuerza policial cumple satisfactoriamente su cometido? 28 33 2534 22 3130 32 3131 38 2429 26 25 SOLUCION: El problema plantea que los agentes deben imponer una media de 27 multas, ni más ni menos, entonces el sistema de hipótesis se establece así: H 0 : 27 H A : 27 Se trata de una prueba bilateral, dado que la hipótesis nula puede ser rechazada, si los resultados de la muestra están muy por encima o por debajo de 27. Como sólo se dispone de datos originales, se hace necesario determinar la media y la desviación típica muestral. Los cálculos indican que: X 29,27 S 4,3 S 4,3 SX 1,11 n 15 Dado que la muestra es pequeña el estadístico a utilizar es la prueba t de student, como n = 15, con una nivel de confianza del 95% y 15 - 1 = 14 grados de libertad, el valor de t es 2,145 X C H t S X Así: X C 27 (2,145) (1,11) X C 27 2,38 24,62 --------------29,38 No rechazar la hipótesis nula si la media muestral está entre 24,62 y 29,38 multas. Rechazar la hipótesis nula si la media muestral es inferior a 24,62 o superior a 29,38.Ver figura 3.4 FIGURA 3.4 Como la media muestral es de29,27 no se debe rechazar la hipótesis nula de =27 y se concluye que la fuerza policial cumple satisfactoriamente su cometido. OBSERVACIONES 1. Si la desviación típica de la población es conocida, se utilizará la prueba z, con independencia del tamaño de la muestra, siempre que la población sea normal. 2. Aplicar una prueba t si se cumplen las condiciones siguientes: a. La muestra es pequeña ( n < 30) b. Se sabe que la población es normal. c. es desconocida. 3. Si no se sabe si la población es normal, aplicar una prueba NO PARAMETRICA, sea conocida o desconocida. EJEMPLO 3.4 Como parte de un proceso de ensamblaje, se usa un taladro para hacer agujeros en una lámina de metal. Cuando el taladro funciona adecuadamente, los diámetros de estos agujeros tienen una distribución normal con media 2 centímetros y desviación típica 0,06 centímetros. Periódicamente se miden los diámetros de una muestra aleatoria de agujeros para controlar que el taladro funciona adecuadamente. Asuma que la desviación típica no varía. Una muestra aleatoria de 9 medidas da un diámetro medio de 1,95 centímetros. Contrastar la hipótesis nula de que la media poblacional es de dos centímetros. SOLUCIÓN: A pesar de que el tamaño de la muestra se puede considerar pequeño, el estadístico de prueba a usar es Z dado que se conoce la desviación típica poblacional. Se tiene que: X 1,95 0 2 0,06 X n n 9 0,05 0,06 0,02 9 El sistema de hipótesis a contrastar es: H0 : 2 HA : 2 Los valores críticos están dados por X C H Z X X C 2 (1,96) ( 0,02) X C 2 0,0392 1,96 ------------- 2,039 Aceptar H 0 si X está comprendida entre 1,96 y 2,039. Rechazar H 0 si X es menor que 1.93 o mayor que 2,039. Ver figura 3.5 FIGURA 3.5 Como X = 1,95 < 1,96 se rechaza la hipótesis nula y por lo tanto se concluye que la media poblacional no es de dos centímetros y que el taladro no funciona correctamente. Hasta ahora sólo se han considerado situaciones que conducen a hipótesis bilaterales puesto que la media poblacional era exactamente igual a un determinado valor específico, originándose regiones de rechazo a ambos lados de la curva. Pero también se puede presentar problemas en que interese uno sólo de los extremos. Si este es el caso, entonces se originan los sistemas de hipótesis unilaterales como los tratados al inicio del capítulo. La decisión de cuál de las dos colas es la que debe contener la región de rechazo es algo delicado y depende única y exclusivamente del problema en estudio. Para determinar la manera de identificar y abordar pruebas unilaterales es crucial determinar qué sistema de hipótesis es el correcto. En primer lugar se observa que el signo igual aparece en la hipótesis nula de ambos sistemas; esto es: Sistema 2 H 0 : 0 Sistema 3 H 0 : 0 H A : 0 H A : 0 Esto es así porque se considera que con la hipótesis nula se contrasta la “Ausencia de diferencia”, es decir, la hipótesis nula implica que el valor real del parámetro no difiere de forma significativa de su valor hipotético. Otra explicación de por qué la hipótesis nula debe contener el signo igual se basa en que lo que se contrasta es la hipótesis nula, no la alternativa; además se contrasta a un nivel de significancia concreto, no se puede contrastar la H a un nivel de significancia especifico, por ejemplo 1%. La desigualdad H es ambiguo por que no dice el valor preciso de . afirmación ambigua Por consiguiente, para que la hipótesis nula se pueda contrastar a un nivel de significancia específico ha de contener la precisión que le proporciona el signo igual. Para determinar el sistema de hipótesis adecuado se debe prestar atención a la formulación del problema como se muestra en los siguientes ejemplos. EJEMPLO 3.5 Supóngase que en el ejemplo 3.2 la compañía láctea afirma que las latas de kumis contienen una media de más de 18 onzas, Si se interpreta correctamente, ello significa que 18 , como ésta desigualdad no contiene el signo igual, ha de ser la hipótesis alternativa; mientras que la hipótesis nula será 18 . Luego el sistema de hipótesis se puede formular así: H0 : 18 H A : 18 Pero si la compañía láctea hubiera afirmado que las latas de kumis contienen una media de 18 onzas o más, la interpretación correcta sería 18 , como esta desigualdad contiene el signo igual se convierte en la hipótesis nula y el sistema de hipótesis pasaría a ser: H 0 : 18 H A : 18 Una vez establecido el sistema de hipótesis adecuado, es conveniente determinar en qué extremo de la curva se encuentra la región de rechazo. Para ello basta con responder la pregunta ¿ Qué provocará el rechazo de la hipótesis nula? Considérese el sistema de hipótesis: H 0 : 18 HA : 18 Escrita de esta forma, la hipótesis nula no permite utilizar valores pequeños para la media. Establece claramente que la media es igual o menor que 18 onzas. Los valores menores que 18, apoyarán y no refutarán la hipótesis nula. Los resultados a la izquierda de 18 confirmarán la hipótesis nula de que es igual o menor que 18. Así pues, son sólo valores superiores a 18 los que dan lugar al rechazo de la hipótesis nula. Por lo tanto, la región de rechazo se encuentra en el extremo derecho o superior de la distribución. Esta prueba de cola a la derecha se ilustra en la figura 3.6. FIGURA 3.6 El valor crítico de la media muestral que marca una diferencia significativa con hipotética limita la región de rechazo en la cola derecha. La fórmula de este valor crítico en una prueba de cola a la derecha es: En el caso de que la compañía láctea hubiera indicado que la media fuera 18 o más. El sistema de hipótesis sería entonces: H0 : HA : 18 18 Para determinar que extremo de la curva es el que contiene la región de rechazo habrá que volver a contestar la pregunta ¿Qué podría causar el rechazo de la hipótesis nula? Tal como se ha indicado, la hipótesis nula admite que existen valores grandes de la media muestral mayores de 18 que apoyarán y no refutarán la hipótesis nula. Así pues, son los valores significativamente inferiores a 18 los que provocarían un rechazo de la hipótesis nula. La región de rechazo estará solamente en el extremo inferior o izquierdo de la distribución. Esta prueba de cola a la izquierda se muestra en la figura 3.7 FIGURA 3.7 El valor crítico de la media muestral que marca una diferencia significativa con la hipotética, limita la región de rechazo en la cola izquierda. La fórmula de este valor crítico es: OBSERVACIONES Es bueno recordar que para rechazar una prueba unilateral se deben tener en cuenta las siguientes recomendaciones: 1. Si la interpretación correcta de la formulación tiene el signo igual, esta es la hipótesis nula; si no contiene el signo igual, es la hipótesis alternativa. 2. La cola que contiene la región de rechazo viene indicada por el símbolo de desigualdad de la hipótesis alternativa. EJEMPLO 3.6 Un concesionario de autos afirma que los propietarios de sus coches usados pueden recorrer una media de 10.000 millas como mínimo sin necesidad de ninguna reparación. Con objeto de determinar el grado de honestidad del gerente se eligen 100 clientes y se halla que recorrieron una media de 9.112 millas sin reparación, con una desviación estándar de 207 millas. Se quiere estar seguro al 99% de que el gerente no miente. ¿Cómo podría contrastar su afirmación? SOLUCIÓN Como la media de 10.000 millas como mínimo se puede escribir 10.000 y esta desigualdad contiene el signo de igualdad, se convierte en la hipótesis nula, luego el sistema de hipótesis adecuado es: H 0 : 10.000 H A : 10.000 Según la hipótesis alternativa se requiere una prueba de cola a la izquierda. El valor crítico es entonces: X C H Z S X SX El valor de Z es 0,5 – 0,01 = ; H 10.000 S 207 20,7 n 100 0,4900 al buscar este valor en la tabla 1 del apéndice da un valor de 2,33 luego: XC 10.000 ( 2,33) ( 20,7) X C 10.000 48,23 X C 9.952 millas No rechazar la hipótesis nula si la media muestral es superior a 9.952 millas. Rechazar la hipótesis nula si la media muestral es inferior a 9.952 millas. Ver figura 3.8 FIGURA 3.8 Como X = 9.112 es menor que 9.952 rechazamos la hipótesis nula. Lo que nos indica que la afirmación no es cierta. Por tanto el gerente del concesionario está mintiendo. EJEMPLO 3.7 Si en el ejemplo anterior el gerente en cambio de afirmar que los clientes pueden recorrer 10.000 millas como mínimo, afirma que pueden recorrer más de 10.000 millas por término medio; con la demás información del ejemplo 3.6 y el mismo nivel de significancia contraste la hipótesis para probar la honestidad del empresario. SOLUCIÓN: Más de 10.000 millas por término medio se pueden expresar con la siguiente desigualdad 10.000 que representa la hipótesis alternativa, el sistema de hipótesis es entonces: H 0 : 10.000 H A : 10.000 Ahora la prueba es de cola a la derecha (Ver figura 3.9). Se tiene que: n 100 Luego: X 9.112 S 207 S X 20,7 1% X C H Z S X XC 10.000 ( 2,33) ( 20,7) X C 10.000 48,23 X C 10.048,2 millas FIGURA 3.9 No rechazar la hipótesis nula si la media muestral es menor que 10.048,2 millas. Rechazar la hipótesis nula si la media muestral es superior a 10.048,2 millas. Como X =9.112 es menor que 10.048, no se rechaza la hipótesis nula de 10.000 . Se rechaza la afirmación del gerente de que 10.000 , confirmándose la deshonestidad del empresario. EJEMPLO 3.8 Un Fabricante de detergentes afirma que el contenido de los paquetes que vende pesa, por término medio, al menos 200 gramos. Se sabe que la distribución de los pesos es normal, con desviación típica de 4 gramos. Una muestra aleatoria de 16 paquetes da un peso medio de 198,4 gramos. Con un nivel de significancia del 10% ¿Tiene razón el fabricante? SOLUCION: A pesar de que la muestra es pequeña, se puede utilizar como estadístico de prueba Z dado que la distribución es normal y se conoce la desviación típica poblacional. X 198,4 4 grs x n 10% n 16 4 1 16 La afirmación “al menos 200 gramos” se puede expresar en el lenguaje de las desigualdades así: 200 que es la hipótesis nula, luego el sistema queda: H 0 : 200 H A : 200 De la hipótesis alternativa se deduce que es una prueba de cola a la izquierda (Ver figura 3.10), por tanto, el valor crítico se encuentra utilizando la fórmula X C H Z X X C 200 (1,28) (1) X C 200 1,28 X C 198,72 FIGURA 3.10 Como 198,4 es menor que 198,6 se rechaza la hipótesis nula de que 200 y en consecuencia se puede decir que el fabricante no tiene la razón. Cuando no se dispone de muestras grandes y se sabe que la distribución es normal y se desconoce la desviación típica poblacional, hay que utilizar la prueba t de student. La fórmula de X C se convierte en X C H t S X Pr ueba de cola a la derecha X C H t S X Pr ueba de cola a la izquierda Esto se ilustra en los siguientes ejemplos: EJEMPLO 3.9 Una compañía que recibe cargamento de pilas tiene como política aceptar el envío si el tiempo medio de vida de las pilas del cargamento es como mínimo de 50 horas. Para un cargamento en particular, el tiempo medio de vida en una muestra aleatoria de 9 pilas fue de 48,2 horas con una desviación típica de 3 horas, si se considera un nivel de significancia del 5% qué se podría decir de la aceptación de este lote. SOLUCIÓN: Aquí se tiene una muestra pequeña, por lo que el estadístico t es el adecuado. La frase “como mínimo 50 horas” se puede escribir 50 esta desigualdad que contiene el signo igual se convierte en la hipótesis nula, el sistema es pues: H 0 : 50 H A : 50 La hipótesis alternativa indica que es una prueba de cola a la izquierda por lo que el valor crítico se calcula con el uso de la fórmula: X C H t S X La tabla 2 del apéndice muestra que el valor de t para = 5% y 9 - 1 = 8 grados de libertad es: t 0,05 (8) 1,86 SX Ademas, S n 3 9 1 X C 50 (1,86) (1) Así : X C XC Como 50 1,86 48,14 X = 48,2 es mayor que 48,14 no se rechaza la hipótesis nula. Esto nos indica que no hay suficiente evidencia para rechazar el envío. Ver FIGURA 3.11 FIGURA 3.11 EJEMPLO 3.10 El gerente de una empresa dedicada al transporte de encomiendas teme que el peso medio de sus envíos sea superior a 30 libras. Este supuesto es indeseable porque cualquier peso superior implica costos de envío adicional. Si el contraste de hipótesis sugiere que el peso medio es superior a 30 libras, la empresa revisará su procedimiento de embalaje. Para determinar el peso medio de todos los envíos de la empresa, se eligen al azar 25 órdenes. La media muestral es de 32,1 libras con una desviación típica de 3,1 libras. Formular la hipótesis para la empresa y realizar la prueba con 0.05 SOLUCION: Como “ser superior a 30 libras” se escribe 30 , esta desigualdad se trata de la hipótesis alternativa, puesto que no contiene el signo de igualdad. Entonces: H 0 : 30 H A : 30 Se requiere una prueba de cola a la derecha con 25 -1 = 24 grados de libertad. Para una prueba unilateral t0,05( 24) 1,711 Luego el valor crítico es: X C H t SX X C 30 (1,711) ( 0,62) X C 30 1,06 XC 31,06 libras No rechazar la hipótesis nula si la media muestral es inferior a 31,06. Rechazar la hipótesis nula si la media muestral es superior a 31,06. Ver gráfico 3.12 FIGURA 3.12 Como X = 32,1 es mayor que 31,06, lo probable es que sea mayor que 30 y se rechaza la hipótesis nula de 30 . La empresa deberá tomar medidas para reducir el peso de sus expediciones y evitar costos de envíos excesivos. 3.6 PRUEBA DE HIPÓTESIS PARA PROPORCIONES Cuando se trata de una proporción las observaciones cumplen una determinada especificación, así el interés no se centra en la media de la población, sino en el tanto por ciento de ésta que cumplen o dejan de cumplir dicha especificación. La prueba de proporciones poblacionales sigue el mismo esquema establecido como se muestra en los siguientes ejemplos: EJEMPLO 3.11 ApexCompany supone que el 15% de las mercancías que producen por un nuevo método son defectuosas. En una muestra de 132 unidades hay 22 defectuosas. Con un nivel de significancia del 10% ¿Qué se puede decir de la suposición de ApexCompany? SOLUCION: El sistema de hipótesis es: H 0 : 0.15 H A : 0.15 P (0,15) ( 0.85) 0,031 132 Como 0,90/2 = 0.45 se obtiene de la tabla el valor de Z = 1,65 Luego: PC H Z P PC 0,15 (0,031) (1,65) PC 0,15 0,05 PC 0,1 0.2 No rechazar Ho si la proporción muestralPx está entre 0,10 y 0,20. Rechazar la hipótesis Ho si Px es inferior a 0,10 o superior a 0,20 Px 22 0,17 132 Como Px = 0,17 está entre 0,10 Y 0,20, no se rechaza la hipótesis nula. Puede decirse entonces que efectivamente el 15% de las mercancías producidas por la compañía son defectuosas. EJEMPLO 3.12 Suponga que ha estado trabajando en una empresa de publicidad durante 5 años. Ahora piensa crear su propia empresa, pero le preocupa si perderá muchos de los actuales clientes. Decide que sólo se establecerá por su cuenta si el 30% como mínimo de las cuentas que ahora gestiona le siguen a su nuevo negocio. Para comprobarlo, encuentra que 14 de 54 cuentas que toma como muestra expresan su deseo de acompañarle si funda su empresa. Al nivel del 7%. ¿Deberá fundar su propia empresa? SOLUCION: 14 0.26 n 54 54 H ( 1 H ) (0,30 ) ( 0,70) 0,062 n 54 0.07 P Px PH 0,30 El 30% como mínimo se puede expresar como 0.30 que es la hipótesis nula, luego el sistema a contrastar es: H 0 : 0,30 H A : 0.30 La hipótesis alternativa indica una prueba de cola a la izquierda. El valor crítico se determina al reemplazar en la fórmula PC : H Z P Donde la tabla del apéndice 1 muestra un valor de Z = 1,48 Luego PC 0.30 (1,48) (0,062) PC 0.30 0,092 PC 0.21 No rechazar la hipótesis nula si la proporción muestral es superior a 0,21. FIGURA 3.13 Como 0.26 > 0.21 no se rechaza la hipótesis nula, esto nos indica que puede fundar su propia empresa. EJEMPLO 3.13 En sus funciones de analista de marketing recién contratado por RAMM Industrias se le encarga garantizar que más del 10% de la población conozca su nueva línea de productos. De 300 personas encuestadas 36 manifestaron conocerla. Con un nivel de significancia de = 4%, ¿ha cumplido usted con su trabajo? SOLUCION: “Más del 10%” se puede expresar . Como esta desigualdad no contiene el signo de igualdad se convierte en la hipótesis alternativa, luego el sistema de hipótesis es: H 0 : 0.10 H A : 0.10 La hipótesis alternativa indica que es una prueba de cola a la derecha, por tanto el valor crítico se calcula con la expresión H 0.10 PC H Z P 0.04 Px 36 0,12 300 P H ( 1 H ) n (0.10) (0.9) 0.017 300 El valor de Z para 4%, (0.5 - 0.04 = 0.46) según la tabla 1 del apéndice es igual a 1,75, Así: PC 0.10 (1,75) ( 0,017) PC 0,10 0,030 PC 0,13 Rechazar la hipótesis nula si la proporción muestral es superior a 0,13. Como 0,12 < 0,13 no se rechaza la hipótesis nula, esto nos indica que no se ha cumplido con lo encomendado. 3.7 PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES Hasta ahora se han manejado situaciones en las que interviene una sola muestra. “Examinaremos ahora el caso en que se dispone de muestras aleatorias de dos poblaciones, y en el que el parámetro de interés consiste en la diferencia entre las dos medias poblacionales. En los procedimientos que se desarrollaran para contrastar este tipo hipótesis, la metodología adecuada depende de la manera en la que se tomaron las muestras”9, es así como se necesita considerar separadamente los casos de los pares asociados y las muestras independientes. 3.7.1 CONTRASTE DE HIPOTESIS - MUESTRA PAREADA 9 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p308 Se entiende por muestra pareada, llamada también de pares coincidentes, un procedimiento en el cual se hace coincidir varias parejas de observaciones con la mayor exactitud posible en las características de interés. Los dos conjuntos de observaciones sólo difieren en un aspecto o tratamiento, cualquier diferencia posterior de los dos grupos se atribuye a ese tratamiento. Supóngase que se dispone de una muestra aleatoria de n pares de observaciones xi , yi , de dos poblaciones con medias A y B . Se denota por S d2 la media y la varianza observada para las n diferencias d a y por xi yi , los cuales están dados por: da S 2 d d i Media de las diferencias en observaciones pareadas. n d 2 i nd a n 1 2 Varianza de las diferencias en observaciones pareadas Cuando se hace contraste de hipótesis con muestras pareadas por lo general se trabaja con muestras pequeñas, en este caso el valor crítico está dado por: dC t Sd n Diferencia crítica en la media de observaciones pareadas. Para llevar a cabo un contraste de hipótesis para muestras pares se sigue el mismo procedimiento visto para los contraste de una población. EJEMPLO 3.14 Una corporación ofrece cursos de preparación a los estudiantes para superar exámenes. Como parte de un experimento para evaluar la eficiencia del curso, se elige doce estudiantes y se dividen en 6 parejas, de manera que los dos miembros de cada pareja tengan similares expedientes académicos. Antes de realizar el examen, se elige aleatoriamente un miembro de cada pareja para asistir al curso de preparación. La siguiente tabla muestra las puntuaciones conseguidas en el examen. PAREJA DE ESTUDIANTES ASISTE NO ASISTE 1 2 3 4 5 6 82 73 59 48 69 93 75 71 52 46 70 83 Asumiendo que las diferencias en las puntuaciones sigue una distribución normal, contrastar al nivel de significancia del 5% que la media de los puntajes es mayor para los estudiantes que asisten al curso de preparación. SOLUCION: Fase 1. Formulación de la hipótesis Sea a la media de los estudiantes qu e asisten al curso de preparación B la media de los estudiantes que no asisten asisten al curso de preparación “La media es mayor para los estudiantes que asisten al curso de preparación” se puede escribir como A B . Cómo esta desigualdad no contiene el signo igual, se convierte en la hipótesis alternativa. El sistema a contrastar es: H0 : A B Que corresponde a una prueba unilateral a la derecha. H A : A B Fase 2:Cálculo del valor crítico El valor crítico se obtiene con el uso de la fórmula dC t Parejas de estudiantes Asiste No asiste di di2 1 2 3 4 5 6 SUMATORIA 82 73 59 48 69 93 75 71 52 46 70 83 7 2 7 2 -1 10 27 49 4 49 4 1 100 207 da d i n d 27 4,5 6 2 nd a 207 6 ( 4,5) 2 85,5 S 17,1 n 1 5 5 Sd 17,1 4,13 2 d Sd n 2 i Con 0.05 y 6 -1 = 5 grados de libertad el valor de t es: t0.05 ; 5 2,015 dc t Sd n 4,13 d C 2,015 6 d C 3,4 FIGURA 3.14 Fase 3: Regla de decisión No rechazar H0 si d a 3,39 , rechazar la hipótesis nula si da > 3,39 Fase 4: Conclusión Como d a 4,5 3,39 se rechaza la hipótesis nula y se concluye que la media es mayor para los estudiantes que asisten al curso de preparación. 3.7.2 CONTRASTE DE HIPÓTESIS EN MUESTRAS INDEPENDIENTES Cuando se toman muestras independientes, no es preciso hacer ningún esfuerzo para que coincidan las observaciones de una muestra con las otras. A diferencia de las muestras pareadas, las muestras independientes no tienen por qué ser del mismo tamaño. Las muestras independientes, son muestras aleatorias tomadas de dos poblaciones distintas. Al contrastar hipótesis de dos poblaciones distintas con muestras independientes DIFERENCIA CRÍTICA: Diferencia entre dos medias muéstrales que es demasiado grande para que pueda atribuirse al azar de la extracción. Por el contrario, se puede decir que las medias muéstrales difieren en una cantidad tan grande por que preceden de poblaciones disímiles que tiene medias desiguales. se sigue el mismo procedimiento estudiado hasta ahora teniendo en cuenta los siguientes elementos adicionales. Cuando las varianzas poblacionales son conocidas, la diferencia crítica se halla por medio de la fórmula: dc Z X X A XB A Diferencia crítica entre medias muestrales. XB Es el error típico de la diferencia entre las dos medias muestrales. ERROR TÍPICO DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES Si se toman varios pares de muestras de dos poblaciones, las diferencias entre las medias de los pares de muestra varían. El error típico mide esa variación. La fórmula de cálculo es: X A XB Donde A2 B2 nA nB Error típico de la diferencia entre dos medias muestrales. A2 y B2 son las varianzas de las dos poblaciones y nA y nB Son los dos tamaños muéstrales. Para llevar a cabo la prueba se compara la diferencia real entre las medias muéstrales, da X A X B con la diferencia crítica dC EJEMPLO 3.15 El CITIBANK quiere comparar el nivel medio de las cuentas de ahorro abiertas en Bancos comerciales de América con los de Europa. Muestras de 230 Bancos de América y 302 de Europa tienen medias de X A =1.512 dólares y X E =1.317 dólares, respectivamente. Se sabe que la desviación típica en las cuentas de ahorro son de A 517 dólares y E 485 dólares . Contrastar la hipótesis nula de que no hay diferencia de ahorros medios al nivel del 5%. SOLUCIÓN: “No hay diferencia de ahorros medios” se puede escribir como A E que se convierte en la hipótesis nula, el sistema a contrastar es: H 0 : A E H A : A E La diferencia crítica se calcula con la fórmula dC Z X A X E X A XE A2 nA E2 nE 517 2 4852 230 302 44,06 El valor de Z para 0,05 en una prueba bilateral es 1,96. Luego dC (1,96) (44,05) 86,34 FIGURA 3.15 Regla de decisión: No rechazar la hipótesis nula si: - 86,34 < d a < 86,34 Ahora da X A X E 1.512 1.317 195 Como da dC se rechaza la hipótesis nula. Los datos sugieren que el nivel medio de ahorro en los dos continentes es diferente EJEMPLO 3.16 Una empresa fabricante de camisas para hombres tiene dudas sobre el tiempo medio necesario para fabricar sus dos modelos: clásico e informal. El jefe de producción afirma que lleva más tiempo producir las camisas clásicas que fabricar las informales. Los datos de producción indican que para fabricar 90 camisas clásicas se requirió una media de 140,2 horas con una desviación típica de 22,7 horas, mientras que para fabricar 110 camisas informales se tardó una media de 131,7 horas con una desviación típica de 23,9 horas. Si el jefe de producción tiene razón, abandonarán la producción de las camisas clásicas. ¿Se deberá hacer un cambio en la línea de producción? SOLUCION: Como las varianzas poblacionales son desconocidas, se utilizan las varianzas muéstrales como estimaciones y el error típico de la diferencia entre medias muéstrales se estimará por la fórmula: SX C XI SC2 S I2 nC nI La diferencia crítica se convierte en dC Z S X C XI Como el jefe de producción afirma que lleva más tiempo producir las camisas clásicas C , que las informales I , se puede escribir C I , y como esta desigualdad no contiene el signo igual se toma como hipótesis alternativa y el sistema es: H 0 : C I H A : C I Que exige una prueba de cola a la derecha. El valor de Z correspondiente a una prueba unilateral con 0,05 El valor crítico se obtiene reemplazando en la fórmula d C Z S X C X I SXC X I (22,7)2 (23,9) 2 3,30 90 110 dC (1,65) (3,30) 5,45 es Z 1,65 FIGURA 3.16 Regla de decisión: no rechazar la hipótesis nula si d a 5,45 . Como da X C X I 140,2 131,7 8,5 es mayor que d C 5,45 se rechaza la hipótesis nula y el argumento del jefe de producción queda respaldado, las camisas clásicas deben dejar de fabricarse. Consulte en internet las siguientes páginas: http://www.youtube.com/watch?v=AJcy4eZMwWM http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html Resumen El contraste de hipótesis, es un procedimiento que puede emplearse para verificar, con base en la información muestral, la validez de una conjetura o hipótesis, que se haya formulado sobre la población. La hipótesis que se contrasta se llama Hipótesis nula (Ho) y con la que se contrasta, hipótesis alternativa (Ha). La hipótesis opuesta sobre el valor de una media poblacional, , se indica por lo general en una de tres formas con referencia a un valor específico 0 . FORMA 1 FORMA 2 FORMA 3 H 0 : 0 H A : 0 H 0 : 0 H A : 0 H 0 : 0 H A : 0 Prueba bilateral Prueba unilateral Prueba unilateral Las hipótesis opuestas sobre la diferencia entre dos medias poblacionales A y B se indican del mismo modo señalado. FORMA 1 FORMA 2 FORMA 3 H0 : A B H A : A B H 0 : A B H A : A B Prueba bilateral Prueba unilateral H0 : A B H A : A B Prueba unilateral Las hipótesis opuestas sobre la proporción poblacional se indican del mismo modo señalado. Un estadístico de prueba es aquel valor calculado a partir de los datos muéstrales en una prueba de hipótesis para establecer si se rechaza o no se rechaza la hipótesis nula. Entre ellos tenemos: Z t Z X 0 X Para una media poblacional Muestras grandes X 0 Para una media poblacional Muestras pequeñas SX Px 0 P Para una proporción de la población La regla de decisión es un enunciado que se emite para determinar si se rechaza la hipótesis nula. Específica el valor crítico de los resultados muéstrales; que se determina con las expresiones: Para pruebas bilaterales X C H Z S X X C H t S X PC H Z P Para pruebas unilaterales X C H Z S X XC H Z X X C H t S X X C H t S X PC H Z P PC H Z P Taller 3 1. Un fabricante ha estado recibiendo quejas de sus clientes por que los pedidos llegan 12 o más días después de haber sido enviados. El fabricante selecciona al azar 25 de los pedidos de la semana siguiente y los envía de una manera diferente. Un estadístico ha de probar si el nuevo procedimiento es mejor, a un nivel de significancia de = 0.05. El tiempo medio de entrega en la muestra resulta de X =10, con una desviación estándar muestral de s = 3 días. Haga la prueba. 2. La administración federal de aviación cree que el número de despegues y aterrizajes en aeropuertos en los Estados Unidos el año pasado fue de 50 por día. Elabore una propuesta de hipótesis adecuada de esta creencia en el nivel de significancia de = 0.01, y use estos datos muéstrales: n = 100, X = 71, s = 30 (hay 13.000 aeropuertos en los Estados Unidos). 3. Un gerente desea probar la resistencia a la tensión del hilo que ha de usarse en las nuevas máquinas de su compañía, la cual debe ser de por lo menos 25 libras. Se toma una muestra aleatoria de 16 carretes de varias remesas de entrada al almacén cuya resistencia promedio es de 24 libras, con una desviación estándar de 0.5 libras. Haga una prueba de hipótesis a un nivel de significancia de = 0.10 y diga si el hilo es apropiado. 4. Un economista desea probar si el salario promedio de mecánicos de aviación en EEUU es en realidad de 600 dólares por mes, como se ha estado diciendo. Se toma una muestra aleatoria de n = 100 de los 29.952 mecánicos de aviación del país; el nivel de significancia deseado es de = 0.05. La muestra indica un salario medio de 675 dólares mensuales y una desviación estándar de 32 dólares. Haga la prueba. 5. Cuando funciona correctamente, un proceso produce frascos de champú cuyo contenido pesa, en promedio, 200 gramos. Una muestra aleatoria de 9 frascos de una remesa presentó los siguientes pesos (en gramos) para el contenido: 214 197 197 206 208 201 197 203 209 Asumiendo que la distribución de la población es normal, contrastar al nivel del 5%, la hipótesis nula de que el proceso está funcionando correctamente frente a la alternativa bilateral. 6. Un distribuidor de cerveza afirma que una nueva presentación, que consiste en una fotografía de tamaño real de un atleta muy famoso, incrementará las ventas del producto en los supermercados en una media de 50 cajas semanales. Para una muestra de 20 supermercados, el incremento medio en las ventas fue de 41,3 cajas con una desviación típica de 12,2 cajas. Contrastar, al nivel del 5%, la hipótesis nula de que la media poblacional del incremento en las ventas es al menos de 50 cajas, indicando cualquier supuesto que se haga. 7. Un funcionario que trabaja en el departamento de colocación de una Universidad, quiere determinar si los hombres y las mujeres graduados en Administración de Empresas reciben, en promedio, diferentes ofertas de salarios en su primer trabajo después de graduados. El funcionario seleccionó aleatoriamente 8 pares de egresados en esa disciplina de manera que las calificaciones, intereses e historia de los integrantes de cada pareja fuesen lo más parecido posible. La mayor diferencia fue que un miembro de cada pareja era hombre y el otro mujer. La tabla adjunta recoge la mayor oferta salarial que recibió cada miembro de la muestra al terminar su carrera. Asumiendo que las distribuciones son normales contrastar la hipótesis de que la verdadera media es mayor para los hombres que para las mujeres. PAREJA MAYOR OFERTA SALARIAL (Miles de pesos) HOMBRE MUJER 1 1524 1586 2 1472 1540 3 1568 1566 4 1586 1590 5 1434 1486 6 1446 1596 7 1572 1608 8 1524 1588 8. Su empresa ha determinado en el pasado que el 53% exactamente de la gente de su área de marketing prefieren su producto. Se han gastado varios millones de pesos en una campaña publicitaria para aumentar su participación en el mercado. Una muestra de 622 personas tomada después de la campaña revela que 346 prefieren su producto. Al nivel de significancia del 4%, ¿se podrá concluir que se ha invertido bien el dinero en publicidad? 9. En calidad de nuevo directivo en formación de la empresa KAM, su jefe le ha encomendado que determine si los envíos de la factoría salen a tiempo. Usted decide contrastar la hipótesis de que por lo menos el 95% de los pedidos cumplen con los requisitos de plazo. Para guardar las espaldas, fija un nivel de significancia del 1% y selecciona una muestra de 112 pedidos y encuentra que 8 de ellos se han retrasado. ¿Qué le diría a su jefe? 10. Una revista especializada en computación afirma que la gente tarda máximo34 horas, en promedio, en aprender un nuevo programa informático. ¿Está esta afirmación respaldada al nivel del 10% si 35 personas tardaron en aprender el programa un promedio de 38,6 horas con una desviación estándar de15,8 horas? 11. En un proceso de producción de su empresa tienen que llenarse botellas de agua pura mineral por lo menos con 16,2 onzas. En caso contrario, el proceso se interrumpe mientras se hacen los ajustes necesarios. Como estadístico oficial de la empresa, se le ha asignado la responsabilidad de determinar, con una confianza del 99%, si el proceso funciona como es debido. En una muestra de 24 botellas se halla que el peso medio del contenido es de 15,7 onzas y la desviación estándar de 3,7 onzas. ¿Deberá ordenar que el proceso se detenga para realizar los ajustes? 12. “The government of a wealthy country intends to institute a program to discourage investment in foreign countries by its citizens. It is known that in the past 35% of the country’s adult citizens held investment in foreign countries. The government wishes to determine if the current percentage of adult citizens, who own foreign investment is greater than this long term figure of 35%. A random sample of 800 adults is selected, and it is found that 320 of these citizens hold foreign assets. Is this percentage greater than 35%? Use a 10% significance level for testing this claim”10 10 Mohammed A. Shayib, Applied Statistics, bookboon.com, 2013, 172 Evaluación 1. Un fabricante de detergente afirma que el contenido medio de los paquetes que vende es de al menos 200 gramos. Se sabe que la distribución de los pesos es normal, con desviación típica de cuatro gramos. Una muestra de 16 paquetes da una media de 198,4 gramos. Para realizar el contraste de hipótesis, al nivel del10%, el sistema requerido es: A. H 0 : 200 H A : 200 B. H 0 : 200 H A : 200 D. C. H 0 : 200 H A : 200 H 0 : 200 H A : 200 2. El error típico de la distribución muestral del ejercicio 1 es: 3. A. 12.5 B. 50 C. 0,25 D. 1 De una muestra de 361 propietarios de pequeñas empresas que quebraron, 105 no tuvieron asesoría profesional antes de abrir el negocio. Para contrastar la hipótesis nula de que como mucho el 25% de todas estas pequeñas empresa no tuvo asesoría profesional antes de abrir el negocio, el sistema de hipótesis requerido es: A. H 0 : 0.25 H A : 0,25 H 0 : 0,25 H A : 0,25 B. H 0 : 0,25 H A : 0,25 D. C. H 0 : 25 H A : 25 4. El error típico aproximado de la distribución muestral del ejercicio 2 es: A.0,240 B. 0,024 C. 0,283 D. 0,239 H 0 : 200 y H A : 200 5. En un contraste de hipótesis cuyo sistema a contrastar es __ se ha obtenido una media X y punto crítico X c , se rechaza la hipótesis nula si: __ A. X X c __ C. X X c __ __ B. X cInf X X cSup __ D. X X c http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_08_69.html PRESENTACION Existen muchos casos en la teoría económica y en el campo de la administración en los que se hace indispensable el uso del análisis y correlación como herramienta fundamental para la constatación de teorías relacionadas con la naturaleza de las variables en la verificación de la dependencia de una con respecto a otra, y de esta forma hacer estimaciones y predicciones partiendo de observaciones de la misma empresa. En este capítulo se presentan algunos conceptos fundamentales de análisis de regresión; utilizando como ayuda el modelo de regresión lineal en dos variables, en el cual, la variable dependiente se expresa como una función lineal de una sola variable independiente. PREGUNTA PROBLEMA ¿Cómo crees que el análisis de regresión lineal puede aplicarse en la solución de situaciones específicas de una empresa? COMPETENCIAS ESPECÍFICAS 1. Interpreta correctamente los conceptos básicos del análisis de regresión lineal simple. 2. Utiliza el método de mínimos cuadrados ordinarios (MCO), para la estimación de los parámetros del modelo de regresión en dos variables. 3. Establece inferencia acerca de los parámetros estimados SABERES Interpretación de la regresión, terminología y notación Estimación por mínimos cuadrados Verificación de hipótesis, capacidad explicativa de una función de regresión DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO ACTIVIDAD PREVIA (Trabajo Individual) 1. De las siguientes, es una ecuación lineal: A. 2 x 3 y 2 xy 1 B. 2x 3 y 2 y 2 C. 3x 2 y 3 4 x D. x 3 y 5 2. En la ecuación lineal 2 x 4 y 6 la pendiente es: A. 0,5 B. 1,5 C. -0,5 D. -1,5 3. En una ecuación lineal, la pendiente representa: A. El incremento de la variable independiente con respecto a la variable dependiente. B. El incremento de la variable dependiente con respecto a la variable independiente. C. El intersecto con el eje X. D. El intersecto con el eje Y. 4. Estimar la regresión lineal de Y sobre X, consiste en: A. Determinar el intersecto con el eje Y. B. Determinar el intersecto con el eje X. C. Determinar la pendiente y la constante de regresión. D. Determinar el coeficiente de determinación. ACTIVIDA GRUPAL Socialice los resultados obtenidos individualmente y escriba sus conclusiones al respecto. Redacte un informe sobre la importancia de la aplicación de la regresión lineal en que hacer de su profesión. Escriba un listado de las dudas y dificultades en el desarrollo de la actividad individual. SABERES Y ACTIVIDADES 4. REGRESION LINEAL SIMPLE Es común que los economistas y administradores de empresa estén interesados en la forma en que dos variables estén relacionadas. En general, cualquier estudio económico o empresarial debe comenzar con un conjunto de proposiciones que emanan de la teoría económica y que el analista está interesado en constatar. Las funciones de demanda de producción son ejemplos claros de relaciones sobre las que se puede estar interesado en constatar determinadas propiedades. Se comenzará por la forma más simple de regresión, que es la relación lineal entre dos variables. 4.1 INTERPRETACIÓN DE LA REGRESIÓN En términos generales se puede decir que: El análisis de regresión está relacionado con el estudio de la dependencia de una variable (VARIABLE DEPENDIENTE) de una o más variables adicionales (VARIABLES EXPLICATIVAS) con la perspectiva de estimar y/o predecir el valor (poblacional) medio o promedio de la primera en términos de los valores conocidos o fijos de las segundas. EJEMPLO 4.1 “Un economista puede estar interesado en estudiar la dependencia que existe entre los gastos personales de consumo y el ingreso personal real”. Este tipo de análisis puede ser de gran ayuda para estimar la propensión marginal a consumir, es decir, el cambio promedio en los gastos de consumo ante una variación, de por ejemplo, una unidad en el ingreso real. EJEMPLO 4.2 “Un profesional en economía laboral puede estar interesado en estudiar la relación existente entre el porcentaje de cambios en los salarios monetarios o nominales y la tasa de desempleo”. Dicho conocimiento puede ser de gran ayuda para realizar conjeturas sobre el proceso inflacionario por el cual puede atravesar una determinada economía, puesto que los aumentos en salarios probablemente se refieran en aumento en los precios. EJEMPLO 4.3 “El director de mercado de una empresa puede estar interesado en conocer la manera como se relaciona la demanda de su producto con los gastos en publicidad en que incurre dicha empresa”. Este tipo de estudio sería de gran utilidad para averiguar la elasticidad de la demanda del producto en los gastos de publicidad de la empresa, es decir, la respuesta promedio de la demanda ante un aumento de una unidad, por ejemplo un dólar, en el presupuesto de gastos de publicidad. Este conocimiento a la vez puede ser de mucha utilidad para determinar el presupuesto óptimo de publicidad. De los ejemplos anteriores se puede deducir que dentro del análisis de regresión nos interesa lo que se conoce como la dependencia estadística, y no la dependencia funcional o determinística entre las variables, como aquellas que se representan en la física clásica. En las relaciones estadísticas entre variables tratamos esencialmente con variables ALEATORIAS O ESTOCÁSTICAS, es decir, variables que tienen distribuciones probabilísticas. La mejor forma de ilustrar la regresión lineal, es utilizando los diagramas de dispersión. Supóngase que X es el precio de un determinado bien a lo largo del tiempo e Y la cantidad de demanda del mismo. Si la información disponible se refiere a n observaciones, por ejemplo la cantidad demandada por un grupo de familias, ésta aparece recogida en dos series en la tabla 4.1. Tabla 4.1 Cantidad demandada por un grupo de familias Período Precio 1 2 . . . i . . . n X1 X2 . . . Xi . . . Xn Cantidad demandada Y1 Y2 . . . Yi . . . Yn Si el precio y la cantidad demandada son variables independientes, se moverán una al margen de la otra. En este caso, la representación en un sistema de coordenadas de los pares de la tabla anterior generaría una nube de puntos como las de la figura 4.1. En el caso de que ambas variables no sean independientes, sino que estén relacionadas funcionalmente, y si la relación existente entre ambos es inversa, un valor elevado de Y aparecerá asociado a un valor pequeño de X y viceversa. En términos gráfico, la relación entre demanda y precio podría entonces tomar la forma recogida en el diagrama de puntos de la figura 4.2. La representación gráfica es eficaz para obtener una información intuitiva sobre la evolución de dos variables (y su relación). Esta información, sin embargo, no suele ser suficiente para el empresario o economista, que normalmente pretenderá cuantificar la relación existente entre las variables analizadas. Dos técnicas ampliamente utilizadas con objeto de cuantificar la relación existente entre las variables son el análisis de regresión y el análisis de correlación. Aunque están estrechamente relacionadas conceptualmente las dos son muy diferentes. La regresión es una expresión cuantitativa de la naturaleza básica de la relación entre las variables dependientes e independientes. Por ejemplo, dado un modelo de regresión simple con una variable independiente, el modelo determinará si las dos variables tienden a desplazarse en la misma dirección (las dos crecen o decrecen al mismo tiempo) o en sentido opuesto (una aumenta cuando la otra disminuye). También indicará la cantidad en qué Y cambiará cuando la variable independiente varíe en una unidad. En el análisis de correlación el objetivo fundamental es la medición de la fuerza o grado de asociación lineal entre variables, el coeficiente de correlación mide la solidez de dicha relación. 4. 2 TERMINOLOGIA Y NOTACIÓN Los términos variables dependientes y variable explicativa se definen o describen de varias maneras: Variable Dependiente Variable Independiente Variable Explicada Variable Explicativa Variable Predicha Variable Predictor Variable Regresada Variable Regresor Variable Respuesta Variable de Control. Variable Endógena Variable Exógena Si estamos estudiando la dependencia de una variable en una sola variable explicativa, como en el ejemplo de las ventas y la publicidad, dicho estudio se conoce como Análisis de Regresión Simple o en dos variables 4.3 FUNCIÓN DE REGRESIÓN POBLACIONAL Se ha dicho que el objetivo del análisis de regresión es estimar o predecir el valor medio o promedio de la variable dependiente con base en los valores fijos o conocidos de la variable explicativa. Veamos mediante un ejemplo como se lleva acabo este análisis: Supóngase que se está interesado en estudiar la relación existente entre los gastos de consumo familiar semanal Yy el ingreso familiar disponible semanal X. Es decir, se desea predecir el nivel promedio de gastos de consumo semanales, conociendo el ingreso de la familia en este lapso. Se parte de una población de 60 familias, divididas en 10 grupos con el mismo ingreso aproximadamente. Tabla 4.2 Datos hipotéticos de ingresos familiares por semana Ingreso familiar 80 100 120 140 160 180 200 220 240 260 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 Consumo por 65 74 90 95 110 120 140 140 155 175 semana. 75 80 94 103 116 130 144 152 165 178 70 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 Total 325 462 445 707 678 750 685 1043 966 1211 Valor esperado 65 77 89 101 113 125 137 149 161 173 Esta tabla se puede interpretar así: Para un ingreso semanal de 100 mil pesos, hay 6 familias cuyos gastos de consumo semanales están entre 65 mil y 88 mil pesos. Es decir, cada columna muestra la distribución de los gastos de consumo Y correspondiente a un nivel fijo de Ingreso X, esto es, muestra la distribución condicional de Y dado valores de X. Mediante el uso de la probabilidad condicional se puede calcular el valor esperado de Y dado X, que es simplemente la media o valor promedio de la población. Para los datos hipotéticos del ejemplo la media condicional de Y dado X = 120 se calcula así: E (Y/X= 120) = (1/5) (79) + (1/5) (84) + (1/5)(90) + (1/5) (94) + (1/5) (98) = 89. En la última fila de la tabla 4.2 se muestran los demás valores esperados para Y dado Xi respectivos. Los valores de la tabla 4.2 se muestran en el siguiente diagrama de dispersión. FIGURA 4.3 Distribución de gastos para diferentes niveles de ingreso En el diagrama se muestra claramente que, en promedio, los gastos de consumo aumentan al incrementarse el ingreso. La anterior afirmación puede apreciarse mejor si se concentra la atención en los puntos que representan diferentes valores condicionales medios de Y que aparecen exactamente sobre una línea recta con pendiente positiva. Esta línea se denomina línea de regresión lineal. De aquí se puede concluir que cada media condicional E (Y/Xi) está en función de Xi. Simbólicamente: E(Y/Xi) = f ( Xi) (4.1) En donde f (Xi) denota una función de la variable explicativa X. La ecuación 4.1 se conoce como la función de regresión poblacional (FRP). Dicha función denota únicamente que la media poblacional de la distribución de Y dado Xi está funcionalmente relacionada con Xi. Es decir, dice cómo la respuesta media o promedio de Y varía con X. En situaciones reales no se cuenta con la totalidad de la población para efectuar el análisis. Por tanto la forma funcional de FRP debe ser aproximada de una manera empírica; se puede suponer que la FRP es una función lineal de Xi. E(Y/Xi) = (4.2) En la cual 1 y 2 son parámetros desconocidos pero fijos que se denominan coeficientes de regresión. Esta expresión se conoce como función de regresión lineal poblacional. 4.4 ESPECIFICACIONES ESTADISTICAS DE LA FRP. Como se aprecia en la figura 4.3 a medida que el ingreso familiar aumenta, los gastos de consumo familiar en promedio también aumentan. Pero si observamos la tabla 4.2 se deduce que no necesariamente aumentan con el nivel de ingreso. Por ejemplo: para un nivel de ingreso de $100.000 existe una familia cuyos gastos de consumo de $65.000 son menores que el gasto de consumo de dos familias cuyo ingreso semanal es solo de $80.000. Sin embargo los gastos de consumo promedio de las familias con ingresos semanales de $100.000 son superiores que los de familia con ingresos semanales de $80.000; $77.000 y $65.000 mil respectivamente. De este análisis se concluye que para un nivel de ingreso dado Xi, los gastos de consumo de una familia se concentran alrededor del consumo promedio de todas las familias para ese mismo Xi, esto es, alrededor de su esperanza condicional. Por consiguiente, se puede expresar la desviación de un Yi individual alrededor de su valor esperado así: (4.3) En donde la desviación i es una variable aleatoria no observable que toma valores positivos o negativos y se le conoce como perturbación estocástica o término del error estocástico. La ecuación 4.3 postula que los gastos de una familia, dado su nivel de ingreso, son iguales a los gastos promedios de consumo de todas las familias con ese nivel de ingreso, más una cantidad que es aleatoria. Si se supone que E( Y/Xi) es lineal en Xi como en la ecuación 4.2, entonces: Yi = E( Y/Xi) + i (4.4) Ahora si se toma el valor esperado en la ecuación 4.3 a ambos lados se tiene: E (Yi / Xi ) = E [ E (Yi/Xi)] + E ( i /Xi) = E (Y / Xi ) + E ( i / Xi) Puesto que E ( Yi/ Xi ) = E ( Y/ Xi ), entonces E ( i / Xi) = 0 En otras palabras, el supuesto de que la línea de regresión pasa por los medios condicionales implica que los valores medios condicionales i son iguales a cero. De donde se deduce que: E ( Y/ Xi ) = 1 2 Xi es equivalente a : Yi = 1 2 Xi i si E(Yi / Xi) 0 La especificación estocástica de 4.4 ofrece la ventaja de mostrar que, además del ingreso, existen otras variables que afectan los gastos de consumo de una familia, los cuales no se pueden explicar en su totalidad por la variable incluida en el modelo de regresión. 4.5 FUNCION DE REGRESION MUESTRAL (FRM) Como en la práctica lo que está al alcance del analista es una muestra de valores de Y correspondientes a valores fijos de X, se debe hacer consideraciones de muestreo. Por consiguiente la tarea es la estimación de la Función de Regresión Muestral (FRM) con base en información muestral. Para ello supóngase que se obtienen dos muestras de Y seleccionadas aleatoriamente para valores fijos de X. (véase tabla 4.3). Ahora se cuenta con un solo valor de Y para cada X dado. Al realizar un diagrama de dispersión con los datos de la tablas 4.3 se observa que no es factible estimar con precisión la FRP, debido a las fluctuaciones muéstrales como se ve en la figura 4.4, en donde se grafican dos líneas de regresión muestral que tratan de ajustar lo mejor posible los puntos de dispersión. FRM1 y FRM2 son las resultantes de la primera y segunda muestra respectivamente; aquí no existe modo alguno de afirmar con certeza cuál de las dos líneas representan la verdadera línea de regresión poblacional. Supuestamente, ambas representan la línea de regresión poblacional, pero debido a las fluctuaciones muéstrales son una aproximación de la verdadera FRP. En general se obtendrá N FRMS diferentes para N muestras diferentes y no es factible que estas sean iguales. TABLA 4.3 Muestras de Y para valores fijos de X Muestra aleatoria 1 Muestra aleatoria 2 Y X Y X 70 80 55 80 65 100 88 100 90 120 90 120 95 140 80 140 110 160 118 160 115 180 120 180 120 200 145 200 140 220 135 220 155 240 145 240 150 260 175 260 FIGURA 4.4 Distribución de un solo gasto para diferentes niveles de ingreso. De manera análoga a la FRP en que se fundamenta la regresión lineal poblacional, es posible desarrollar el concepto de función de regresión muestral. Para representar la línea de regresión muestral, la expresión a utilizar es: Yˆi ˆ1 ˆ 2 Xi donde : Yˆi Estimador de E (Y / Xi) ˆ I Estimador de 1 ˆ 2 Estimador de 2 En la forma estocástica la función de regresión poblacional es: Yˆi ˆ1 ˆ2 Xi ei En donde ei denota el término residual (muestral). En síntesis, el objetivo fundamental del análisis de regresión consiste en estimar la FRP Yi 1 2 Xi i Con base en la FRM Yi ˆ1 ˆ2 Xi ei FIGURA 4.5 Comparativo de la FRM con la FRP 4.6 ESTIMACION POR MINIMOS CUADRADOS Supóngase que se dispone de ( x1 , y1 ) , ( x2 , y 2 ) ... ( xn , y n ) n pares de observaciones. El objetivo es encontrar la recta que se ajuste mejor a estos datos, es decir, estimar los coeficientes desconocidos de la recta de regresión poblacional. La manera natural de estimar los parámetros, es encontrar estimadores de que hagan mínimos los errores. 1 y 2 FIGURA 4.6 Estimación minimizando los errores Cualquier estimador razonable de la recta de regresión dejará algunos de los datos observados por debajo y otros por encima de la recta estimada. Por lo tanto alguno de los ei de la ecuación ei Y i ˆ1 ˆ2 Xi , serán positivos y otros negativos. Si se quiere penalizar por igual los valores positivos y los negativos de la misma magnitud, una posibilidad es trabajar con los cuadrados de ei . La suma de las descripciones al cuadrado entre los puntos y la recta es: ei 2 (Yi Yˆi ) 2 (Y i ˆ1 ˆ2 Xi ) 2 El método de mínimos cuadrados selecciona cono estimador de la recta de regresión poblacional, a aquellos valores para los cuales esta suma de cuadrado es menor. Para minimizar, e 2 i respecto a 1 y 2 se tiene: e 2 i 1 ei2 2 2 Yi ˆ 1 ˆ2 X i 0 2 Xi(Yi ˆ1 ˆ2 Xi) 0 Yi ˆ ˆ Xi 0 Xi Yi ˆ ˆ Xi 0 1 Luego: (1) 2 1 (2) 2 Las ecuaciones (1) y (2) se pueden escribir: n Yi i 1 n XiYi i 1 n n ˆ1 ˆ Xi , entonces , Yi n ˆ i 1 i 1 2 1 ˆ1 Xi ˆ2 X 2 i Estas ecuaciones se llaman ˆ1 ˆ1 n (1) Ecuaciones Normales. Este sistema se puede en (1) se tiene: Yi 2 X i Xi (2) resolver por sustitución u otro método. Despejando ˆ2 (*) Sustituyendo * en (2) se obtiene: Yi ˆ2 XiYi n Xi Xi ˆ X XiYi XiYi Xi Yi n 2 2 Xi Xi Yi 2 n Xi Yi X 2 i 2 i 2 X i2 ˆ2 X i2 n Entonces: ˆ2 Xi 2 n Xi Yi n Xi2 n XiYi X 2 i n Xi Yi n.n 2 n Xi n.n EJEMPLO 4.4 Con los siguientes datos relativos a consumo renta (en Dólares) de 15 familias ajuste una regresión: Consumo = 1 2 renta. Los datos se dan en dólares semanales. Consumo 74 98 Renta 80 53 57 81 44 90 72 47 87 50 42 101 44 80 110 90 60 60 65 45 91 78 84 87 92 90 98 Solución: Y 1 2 Xi 56 Yi Xi (Consumo) (Renta) XiYi X i2 74 80 5920 6400 98 110 10780 12100 80 90 7200 8100 53 60 3180 3600 57 60 3420 3600 81 65 5265 4225 44 45 1980 2025 90 91 8190 8281 72 78 5616 6084 47 84 3948 7056 87 87 7569 7569 50 92 4600 8464 42 90 3780 8100 101 98 9898 9604 44 56 2464 3136 Y 68 X 79,06 XiYi 83810 X 2 i 98344 ˆ 2 Xi Yi n X Y X nX ˆ 2 83810 (15) (79,06) (68) 83810 80641,2 3168,8 0,69 2 98344 93757 ,25 4586,75 98344 15 (79,06) 2 i 2 ˆ 2 0,69 ˆ1 Y ˆ 2 X ˆ1 68 (0,69) (79,06) ˆ1 13,38 n 15 Así el modelo estimado queda representado por Y = 13,38 + 0,69X Se puede interpretar la regresión estimada de la siguiente manera: Si la renta semanal aumenta en un dólar, se espera que el consumo promedio diario aumente aproximadamente en 69 centavos de dólar. Si la renta de una familia fuera de cero dólares, se esperaría que el consumo semanal sea de aproximadamente 13,4 dólares. La gráfica 4.7 presenta la recta de regresión estimada junto con los demás puntos. FIGURA 4.7 Estimación Consumo - Renta 4.7 SUPUESTOS FUNDMENTALES PARA EL MODELO DE REGRESION LINEAL Se ha dicho que en el análisis de regresión el objetivo no es solamente obtener 1 y 2 , si no también hacer inferencia acerca de los verdaderos valores de 1 y 2 . Es decir, se puede estar interesado en saber que tan cerca están 1 y 2 de los parámetros poblacionales, así como que tan ajustado está Y i al verdadero E(Y/Xi). Por lo tanto se hace necesario plantear ciertos supuestos sobre la manera como se genera Xi y i , dado que Yi 1 2 X i i . Lo cual muestra que Yi depende tanto de Xi como de i . Así, para hacer cualquier inferencia estadística sobre Yi y sobre 1 y 2 , se deben plantear los siguientes supuestos: SUPUESTO 1 El valor medio o promedio de i es igual a cero, ese decir, E( i /Xi) = 0. Con este supuesto se asegura que aquellos factores que no están explícitamente incluidos en el modelo no afectan sistemáticamente al valor de Y. En otras palabras, se supone que los valores positivos de i se cancelan con los valores negativos de tal forma que sus efectos promedios sobre Y es cero. SUPUESTO 2 Igual varianza para i . Esto quiere decir que el término aleatorio tiene la misma varianza en cada periodo o elemento de la muestra. A esta propiedad se le denomina HOMOCEDASTICIDAD, e implica que las observaciones de Yi que corresponden a diferentes valores de Xi tienen la misma varianza. Varianza de X i E i E ( i ) E ( i ) 2 2 2 SUPUESTO 3 No existe auto correlación entre las i Esto significa que los términos aleatorios de un periodo son independientes de los de cualquier otro periodo o covarianza. ( i , j ) E i E ( i ) j E ( j ) 0 SUPUESTO 4 Cero varianza entre i y Xi Aquí se supone que el término de perturbación es independiente de la variable explicativa. Este supuesto se introduce para poder establecer un efecto individualizado de X y de i sobre la variable Y. Si la variable explicativa y el término aleatorio están correlacionados no es posible establecer su efecto individual sobre la variable explicada. Además, sobre la variable independiente se establece que: Los valores de la variable permanecen fijos de una muestra a otra. La variable se mide sin error de observación. 4.8 VERIFICACIÓN DE HIPÓTESIS Dado que las perturbaciones siguen una distribución para las que se han introducido unos supuestos, la forma de cálculo de los estimadores hace que ellos también sean variables aleatorias con una cierta distribución. Esto implica que el verdadero valor puede cambiar de una muestra a otra y por ello resulta conveniente alguna medida de precisión de estos estimadores. Para ello en estadística se utiliza la desviación estándar o ERROR ESTANDAR DE LOS ESTIMADORES. En este sentido cabe señalar que si a los supuestos anteriores se les añade la hipótesis de que la variable i sigue una distribución normal, con media cero y varianza 2 , se puede demostrar que el cociente entre la diferencia de los estimadores 1 y 2 y los parámetros poblacionales, y sus desviaciones estándar S y S se distribuyen como una t de student con n – 2 grados de 1 2 libertad (numero de observaciones menos numero de parámetros estimados). Esto es: Donde S 1 desviación estándar o representa la error estándar de 1 y se obtiene mediante la fórmula: El error estándar de 2 , S se calcula con la fórmula: 2 En ambas expresiones se representa la varianza residual corregida, estimador insesgado de la varianza del término de perturbación 2 y se define así: ei2 S n2 2 e Dada una muestra y obtenida una estimación de 1 mediante el método de mínimos cuadrados, se puede construir un intervalo de confianza a través de la expresión i S t , n2 , la cual arrojara dos valores entre los cuales se encuentra i el parámetro buscado con nivel de significancia que se desee. Cuanto mas pequeño sea dicho intervalo, mas precisa será la estimación. EJEMPLO 4.5 Con los datos relativos a Consumo – Renta de 15 familias (ejemplo 4.4), construir un intervalo de confianza del 95% para el coeficiente de regresión. SOLUCION: Primero se debe calcular el error estándar de 2 , S 2 S e2 X 2 i nX 2 ei2 S , para este caso n – 2 = 15 – 2 = 13 n2 2 e e 2 i SCE , suma de cuadrados ei Yi Yi , Yi 13,38 0,69 X i Luego reemplazando cada valor de Xi, se obtiene el valor estimado respectivo para Yi, como se muestra en la siguiente tabla. Xi Yi 80 ei2 74 Yi 13,38 0,69 X i 68,58 ei Yi Yi 5,42 29,3764 110 98 89,28 8,72 76,0384 90 80 75,48 4,52 20,4304 60 53 54,78 -1,78 3,1684 60 57 54,78 2,22 4,9284 65 81 58,23 22,77 518,4729 45 44 44,43 -0,43 0,1849 91 90 76,17 13,83 191,2689 78 72 67,20 4,80 23,0400 84 47 71,34 -24,34 592,4356 87 87 73,41 13,59 184,6881 92 50 76,86 -26,86 721,4596 90 42 75,48 -33,48 1120,9104 98 101 81,00 20,00 400,0000 56 44 52,02 -8,02 64,3204 1020 1019,04 0,96 3950,7228 1186 e i e 0 Luego S e2 Así, S 2 2 i 3950,7228 3950,7228 303,90 13 S e2 X 2 i nX 2 303,90 303,90 0,2574 2 4586,746 98344 15(79,06) Al reemplazar los valores S 0,2574 ; n – 2 = 13 y t 0.5,13 2,160 , los límites del 2 intervalo para el coeficiente de regresión son: 2 S t0.5 ,13 0,69 (0,2574 )(2,160) 0,69 0,556 . 2 Así, 2 (0.134 , 1.246) , lo que indica que el parámetro 2 aproximadamente está entre 0,13 y 1,25 con una confianza del 95%. Además si e hace uso de la expresión i i S t , n2 se puede verificar o i contrastar la hipótesis acerca de un parámetro determinado. Esto es, si se quiere verificar que 1 toma un valor concreto h, se platea como sistema de hipótesis: H o : 1 h H A : 1 h Como i i S t n 2 , bajo la hipótesis nula se puede obtener t i i h S t n2 . i Este valor se contrasta con el valor teórico arrojado por las tablas de distribución al nivel de significancia escogido con n – 2 grados de libertad. Debe tenerse en cuenta si la hipótesis es bilateral o unilateral. En el caso de una hipótesis bilateral, si el valor del estadístico es tal que t t c se rechaza Ho. EJEMPLO 4.6 Verificar si la renta es explicativa de las variaciones en el consumo (Ej. 4.4) SOLUCION: Se formula es sistema de hipótesis: Ho : 2 0 H A : 2 0 La elección del test de una sola cola responde al conocimiento que se tiene sobre la teoría de consumo que es función directa de renta. Para un nivel de significancia del 5% y 13 grados de libertad, t c 1,77 Ahora, t 2 2 S 2 2 S 2 0,69 2,68 0,2574 FIGURA 4.8 Prueba de hipótesis, Consumo - Renta Como t t c se rechaza Ho y por lo tanto se puede decir que en la muestra estudiada 2 0,69 es un parámetro significativo, pudiéndose concluir entonces que la renta es explicativa de las variaciones en la cantidad consumida. 4.9 CAPACIDAD EXPLICATIVA DE UNA ECUACION DE REGRESION LINEAL. “Una ecuación de Regresión puede considerase como un intento de emplear la información proporcionada por una variable independiente X para explicar el comportamiento de una variable dependiente Y.”11 Existe una medida de uso muy generalizada en el análisis de regresión que indica el grado de explicación que la variable independiente logra al ajustar los datos mediante una relación lineal que se denomina coeficiente de determinación, R – squared; cuando los datos son arrojados mediante ordenador. 11 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p398 El coeficiente de determinación se representa por R2 y se calcula mediante el cociente entre la varianza explicada por el modelo y la varianza total de la variable dependiente. “Para los valores muestrales, la recta de regresión estimada puede escribirse como Y 1 2 X i ei o también, Y Y ei donde Y 1 2 X i La cantidad Yi es el valor predicho por la recta de regresión para la variable dependiente, y el residuo ei es la diferencia entre los valores observado y predicho. Por tanto, el residuo representa la parte del comportamiento de la variable dependiente que no puede ser explicada por su relación lineal con la variable independiente”12 (Ver figura 4.9) FIGURA 4.9. Partición de los componentes de la variación de Yi 12 PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p399 Ahora si a la ecuación Y Y ei se resta Y a cada lado se obtiene: (Yi Y ) (Yi Y ) ei . Elevando al cuadrado ambos términos de la ecuación y sumando respecto al índice i, se obtiene como resultado: (Y i Y )2 Variabilidad Total SCT (Y Y ) e 2 i Variabiliada exp licada por el mod elo SCR 2 i Variabilidad no exp licada SCE Dónde: SCT = Suma de cuadrados total. SCR = Suma de cuadrados de la regresión. SCE = Suma de cuadrados residual (o del error). Al dividir la ecuación SCT = SCR + SCE entre SCT se tiene: SCT SCR SCE SCT SCT SCT 1 SCR SCE SCT SCT Luego R 2 1 Pero SCR R2 SCT SCE SCT 0 R 2 1 , ya que es imposible explicar más del 100% de la variable Y. Con los valores del ejemplo 4.4 se obtiene la siguiente información: Yi 74 Yi 13,38 0,69 X i 68,58 ei Yi Yi 5,42 98 89,28 80 Yi Y 6 Yi Y 0,58 8,72 30 21,28 75,48 4,52 12 7,48 53 54,78 -1,78 -15 -13,22 57 54,78 2,22 -11 -13,22 81 58,23 22,77 13 -9,77 44 44,43 -0,43 -24 -23,57 90 76,17 13,83 22 8,17 72 67,20 4,80 4 -0,8 47 71,34 -24,34 -21 3,34 87 73,41 13,59 19 5,41 50 76,86 -26,86 -18 8,86 42 75,48 -33,48 -26 7,48 101 81,00 20,00 33 13 44 52,02 -8,02 -24 -15,98 SCE ei2 3950,7228 SCT (Yi Y ) 2 6138 SCR (Yi Y ) 2 2176,2828 El coeficiente de determinación es por tanto: R2 1 3950,7228 0,3563 6138 Este resultado indica que aproximadamente el 36% de la variabilidad muestral del consumo está explicada por su dependencia lineal con la renta por hogar. Otra forma de calcular el coeficiente de determinación R2 es utilizando las formula: ( S XY ) 2 X Y R , donde S XY XY S X SY n 2 SX X X 2 2 Para el ejemplo: n Y Y n 2 SY 2 S XY 83810 (1186 )(1020 ) 3162 15 S X 98344 (1186) 2 4570,93 15 SY 75498 (1020) 2 6138 15 R2 ( S XY ) 2 (3162 ) 2 9998244 0,3563 S X SY (4570,93)(6138) 28056368 ,34 Consulte las siguientes páginas en internet: http://www.uv.es/uriel/material/Morelisi.pdf http://www.youtube.com/watch?v=J1DoRMupI8k http://www.slideshare.net/adangraus/regresion-lineal-simple-13381573 Resumen En términos generales se puede decir que: El análisis de regresión está relacionado con el estudio de la dependencia de una variable (VARIABLE DEPENDIENTE) de una o más variables adicionales (VARIABLES INDEPENDIENTES) con la perspectiva de estimar y/o predecir el valor (poblacional) medio o promedio de la primera en términos de los valores conocidos o fijos de la segunda. En términos gráfico, la relación entre demanda y precio podría entonces tomar la forma recogida en el diagrama de puntos La representación gráfica es eficaz para obtener una información intuitiva sobre la evolución de dos variables (y su relación). Esta información, sin embargo, no suele ser suficiente para el empresario o economista, que normalmente pretenderá cuantificar la relación existente entre las variables analizadas. El método de mínimos cuadrados selecciona cono estimador de la recta de regresión poblacional, a aquellos valores para los cuales esta suma de cuadrado es menor. Para minimizar, ˆ1 e 2 respecto a 1 y 2 se tiene: i Yi 2 Xi n Y 2 X Xi Yi n X Y X nX ˆ 2 2 2 i La recta estimada de regresión queda expresada como Y 1 2 Xi El Coeficiente de determinación R2 indica el grado de explicación que la variable independiente logra al ajustar los datos mediante una relación lineal Es una medida de uso muy generalizada en el análisis de regresión. El coeficiente de determinación se representa por R2 y se calcula mediante el cociente entre la varianza explicada por el modelo y la varianza total de la variable dependiente. (Y i Y )2 Variabilidad Total SCT (Y Y ) 2 i Variabiliada exp licada por el mod elo SCR e 2 i Variabilidad no exp licada SCE Dónde: SCT = Suma de cuadrados total. SCR = Suma de cuadrados de la regresión. SCE = Suma de cuadrados residual (o del error). R2 1 SCE SCT 0 R2 1 Taller 4 1. Una compañía asigna diferentes precios a una radio grabadora particular en 8 ciudades diferente del país, la tabla adjunta muestra el número de unidades vendidas y los precios correspondientes en miles de pesos. Ventas: 420 380 350 400 440 380 450 420 Precio: 55 60 65 60 50 65 45 50 a. realice un gráfico con estos datos y estime la regresión lineal de las ventas sobre el precio. b. ¿Qué efectos se esperaría en las ventas si se produjera un incremento de 10.000 pesos c. Halle un estimador puntual del volumen de venta cuando el precio de radio grabadora en una ciudad dada es de 48. 000 pesos. d. Si el precio de una radio grabadora se fija en 48.000 pesos, hallar intervalos de confianza del 95% para el volumen de ventas reales en una ciudad concreta y para el número esperado de ventas en esa región. 2. Para una muestra de 20 observaciones mensuales, un analista financiero quiere efectuar la regresión de la tasa porcentual del rendimiento (Y) de las acciones de una empresa sobre la tasa porcentual del rendimiento (X) de un índice bursátil. Dispone de la siguiente información: Y X 22,6 i 2 i 145,7 X 25,4 X Y 150,5 i i i a. Estime la regresión lineal de Y sobre X. b. Interprete la pendiente de la recta de regresión muestral c. Interprete la constante de la recta de regresión muestral. 3. Una compañía distribuye un test de aptitud entre todos sus nuevos representantes de venta. La dirección tiene interés en conocer la capacidad del test para predecir el eventual éxito de estos representantes. La tabla adjunta recoge el valor de las ventas semanales medias (en millones de peso) y las puntuaciones obtenidas en el test de aptitud para una muestra aleatoria de 8 representantes Ventas semanales: 10 12 28 24 18 16 15 12 Puntuación en el test: 55 60 85 75 80 85 65 60 Estime la regresión lineal de las ventas semanales sobre las puntuaciones en el test de aptitud. 4. Se conjetura que el número de botellas de una cerveza importada que se vende cada noche en los restaurantes de una ciudad depende linealmente del costo medio de las cenas en esos restaurantes. Los siguientes resultados se obtuvieron de una muestra de 17 restaurantes de aproximadamente de igual tamaño, donde X 2.550 X i X i X n 1 Y 16 2 3.500.000 X Yi Y n 1 18.000 Hallar la recta de regresión muestral 5. Una cadena de restaurantes de comidas rápidas decide llevar a cabo un experimento para medir la influencia del gasto en publicidad sobre las ventas. En 8 ciudades del país, se realizaron diferentes variaciones relativas en el gasto en publicidad, comparado con el del año anterior, y se observaron las variaciones en los niveles de ventas resultantes. La tabla adjunta muestra los resultados. Incremento del gasto en publicidad (%) Incremento en las ventas (%) 0 2,4 4 7,2 14 10,3 10 9,1 9 10,2 8 4,1 6 7,6 1 3,5 a. Estimar la regresión lineal del incremento en las ventas sobre el gasto en publicidad. b. Hallar un intervalo de confianza del 90% para la pendiente de la recta de regresión. 6. Se intentó evaluar el tipo a plazo como predictor del tipo al contado en el mercado de valores. Para una muestra de 79 observaciones trimestrales, se obtuvo la regresión lineal estimada Y = 0.00027 + 0.7916X, donde Y es la Variación real en el tipo al contado y X es la Variación en el tipo a plazo. El coeficiente de determinación fue de 0.097 y la desviación típica estimada de la pendiente de la recta de regresión poblacional fue de 0.2759. a. Interpretar la pendiente de la recta de regresión estimada. b. Interpretar el coeficiente de determinación c. Contrastar la hipótesis de que la pendiente de la recta de regresión es positiva, interprete el resultado. d. Contrastar la hipótesis de que la pendiente de la recta de regresión poblacional es 1. 7. La tabla muestra, para 8 marcas de café instantáneo, el número medio de adquisiciones por comprador (Y) y el porcentaje de compradores en un año (X) Y 3.6 3.3 2.8 2.6 2.7 2.9 2.0 2.6 X 24 21 22 22 18 13 9 6 a. Estimar la regresión de las adquisiciones por comprador sobre el porcentaje de compradores. b. Interpretar la pendiente de la recta de regresión estimada. c. Hallar e interpretar el coeficiente de determinación. d. Hallar e interpretar un intervalo de confianza del 90% para la pendiente de la recta de regresión poblacional. e. Hallar un intervalo de confianza del 90% para las adquisiciones por comprador esperadas en una marca cuyo porcentaje de compradores es 20. 8. Supongamos que el pasado año ocho empresas tuvieron los beneficios y gastos (en millones de pesos) en investigación recogidos en la tabla adjunta. a. Ajuste una línea de regresión tomando los beneficios como variable dependiente y los gastos en investigación como variable independiente. b. Obtenga el coeficiente de terminación y verifique la significación de la pendiente de la recta de regresión. A partir de los resultados obtenidos, ¿podremos concluir que los gastos en investigación originan beneficios? BENEFICIOS GASTOS DE INVESTIGACION 50 60 40 50 30 45 50 50 40 40 30 50 40 45 35 55 9. Los economistas suelen afirmar que las variaciones del PNB real afectan a la rentabilidad de los fondos de inversión. A continuación se presentan los datos recogidos para u periodo de 10 años. Porcentaje de variación del PNB real Rendimiento de los fondos de inversión (%) 1.3 1.5 0.2 -1.1 1.9 2.1 2.6 2.4 3.1 2.7 21.0 25.0 18.0 7.0 25.0 21.0 31.0 29.0 33.0 32.0 a. ¿Qué sugiere el coeficiente de regresión? b. ¿Respalda el coeficiente de determinación esta afirmación? c. Calcular e interpretar el error típico de la estimación. Evaluación RESPONDA LAS PREGUNTAS CON BASE EN LA SIGUIENTE INFORMACION Se prueba una campaña publicitaria para un producto en 10 ciudades. La intensidad X de la publicidad varía de una ciudad a otra. El porcentaje Y de familiaridad con el producto se determina por medio de una encuesta después de la campaña publicitaria; en esta se obtuvo el siguiente resumen numérico: x 62,5 y 23421,27 x 2 2 y 413,7 411,25 xy 2930,45 1. La pendiente de la recta estimada está dada por la expresión: B. (62,5)(413,7) 10 (62,5) 2 411,25 10 D. 2930,45 C. (62,5)(413,7) 10 411,25 (6,25) 2 2930,45 2930,45 10(62,5)(413,7) A. 411,25 10(62,5) 2 2930,45 10(6,25)(41,37) 411,25 10(62,5) 2 2. El valor de la pendiente de regresión indica: A. El incremento en el porcentaje de aceptación del producto por cada punto de aumento en la intensidad de la publicidad. B. El incremento en la intensidad de la publicidad por cada punto de aumento en el porcentaje de aceptación del producto. C. El incremento en el porcentaje de aceptación del producto cuando la intensidad de la publicidad es cero. D. El incremento en la intensidad de la publicidad cuando el aumento en el porcentaje de aceptación del producto es cero. 3. El valor de coeficiente de determinación R2 indica que: A. La intensidad en la publicidad está explicada por su dependencia lineal con el porcentaje de aceptación en un R2x100% B. La intensidad en la publicidad está explicada por su dependencia lineal con el porcentaje de aceptación en un R2% C. El porcentaje de aceptación está explicado en un R2% por su dependencia lineal con La intensidad en la publicidad. D. El porcentaje de aceptación está explicado en un R2x100% por su dependencia lineal con La intensidad en la publicidad. 4. La constante de regresión está dada por la expresión: 413,7 A. 10 B. 413,7 10 C. D. (62,5)(413,7) 10 (62,5) 2 411,25 10 2930,45 (62,5)(413,7) 10 411,25 (6,25) 2 2930,45 413,7 2930,45 10(62,5)(413,7) 10 411,25 10(62,5) 2 413,7 2930,45 10(6,25)(41,37) 10 411,25 10(62,5) 2 TABLA 1 DISTRIBUCION NORMAL13 Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 13 0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.2580 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2611 0.2910 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4987 0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4989 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2517 0.2823 0.3106 0.3365 0.3599 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4990 http://www.disfrutalasmatematicas.com/datos/distribucion-normal-estandar.html 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.4990 TABLA 2 DISTRIBUCION t (Unilateral) TABLA 3 DISTRIBUCION t (Bilateral) BIBLIOGRAFIA GEORGE C. CANAVOS. Probabilidad y Estadística Aplicaciones y métodos. México, Mc Graw Hill 1995. HILDEBRAND Y OTT. Estadística aplicada a la administración y a la Economía. U.S.A, Addison – Wesley Iberoamericana 1997. KEINZ KOHLER. Estadística para negocios y economía, editorial cesca MEYER P. Probabilidad y aplicaciones estadísticas, Fondo educativo Interamericano. MORRIS H GROOT. Probabilidad y estadística, México, Mc Graw Hill 1996. PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997. STEVENSON WILLIAM. Estadística para administración y economía, Editorial Harla. WALPOLE MYERS. Probabilidad y estadística, México, Mc Graw Hill 1995. CIBERGRAFIA Distribuciones muestrales http://ftp.utalca.cl/profesores/gicaza/Clases/7Distribuciones%20Muestrales.pdf http://www.geociencias.unam.mx/~ramon/EstInf/Clase4.pdf http://www.educatina.com/matematicas/probabilidad-y-estadistica/estadistica/poblacionestadistica/diferencias-en-la-distribucion-de-medias-muestrales-video http://www.educandus.cl/estadistica/ejercicios/bases_teoricas/Distribucion/ResueltosDistribucio nesMuestrales.pdf Intervalos de confianza http://www.slideshare.net/yohanabonillagutierrez/taller-intervalos-de-confianza http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf Prueba de hipótesis http://www.youtube.com/watch?v=AJcy4eZMwWM http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html Regresión Lineal http://www.uv.es/uriel/material/Morelisi.pdf http://www.youtube.com/watch?v=J1DoRMupI8k http://www.slideshare.net/adangraus/regresion-lineal-simple-13381573 DIRECCIÓN DE EDUCACIÓN ABIERTA Y A DISTANCIA Y VIRTUALIDAD PROGRAMA ADMINISTRACIÓN DE EMPRESAS ESTADÌSTICA INFERENCIAL Carretera Troncal de Occidente - Vía Corozal - Sincelejo (Sucre) Teléfonos: 2804017 - 2804018 - 2804032, Ext. 126, 122 y 123 Mercadeo: 2806665 Celular: (314) 524 88 16 E- Mail: facultadeducacion@cecar.edu.co