estadìstica inferencial

Anuncio
DIRECCIÓN DE EDUCACIÓN ABIERTA Y A DISTANCIA Y VIRTUALIDAD
PROGRAMA ADMINISTRACIÓN DE EMPRESAS
ESTADÌSTICA INFERENCIAL
MÓDULO EN REVISIÓN
DIRECCIÓN DE EDUCACIÓN ABIERTA Y A
DISTANCIA Y VIRTUALIDAD
PROGRAMA A DISTANCIA DE
ADMINITRACION DE EMPRESAS.
ESTADÌSTICA INFERENCIAL
COMPILADOR:
REDISEÑO:
EVER ANAYA COHEN
ROBINSON MORALES MEDINA
SINCELEJO
2014
TABLA DE CONTENIDO
INTRODUCCIÓN
JUSTIFICACIÓN
FORMAS DE ABORDAR LA LECTURA DEL MODULO
PROPÓSITOS DE FORMACIÓN
REFERENTE TEÓRICO
ESTRUCTURA DEL MODULO ESTADÌSTICA INFERENCIAL
COMPETECIAS TRANSVERSALES A DESARROLLAR
SABERES
1
1.1
1.2
2.3
UNIDAD UNO: DISTRIBUCIONES FUNDAMENTALES DE MUESTREO
Distribución muestral
Distribución en el muestreo de la media muestral
Distribución en el muestreo de una proporción muestral
2
2.1
2.2
2.3
2.4
UNIDAD DOS: ESTIMACIONES POR INTERVALOS
Intervalos de confianza
Intervalos de confianza para la media poblacional
Intervalos de confianza para proporciones poblacionales
Intervalos de confianza para la media de dos poblaciones
3
3.1
3.2
3.3
3.4
UNIDAD TRES: CONTRASTE DE HIPÓTESIS
Concepto del contraste de hipótesis.
Prueba de hipótesis para la media poblacional
Prueba de hipótesis para la proporción poblacional
Prueba de hipótesis para la diferencia de dos medias poblacionales
4
4.1
4.2
4.3
lineal.
UNIDAD CUATRO: REGRESIÓN LINEAL SIMPLE Y MULTIPLE
Interpretación de la regresión, terminología y notación
Estimación por mínimos cuadrados
Verificación de hipótesis, capacidad explicativa de una función de regresión
1. INTRODUCCIÓN
Para el administrador de empresas es esencial la compresión de la Estadística
inferencial dado que los diversos métodos de estimación, predicción y contraste de
hipótesis son las herramientas fundamentales en la toma
de decisiones en
condiciones de incertidumbre.
Generalmente las poblaciones suelen ser demasiado grandes para estudiarlas en
su totalidad, por tanto se hace necesario la selección de una muestra
representativa que tenga un tamaño más manejable, la cual se utiliza para obtener
conclusiones generalizadas sobre la población. Este tema se aborda en la primera
unidad.
Dada la utilidad de los intervalos de confianza en la toma de decisiones sobre
numerosas situaciones relacionadas con la empresa, en la unidad 2 se explica el
modo de construirlos e interpretarlos.
La unidad 3 desarrolla la forma como determinar la validez de una hipótesis o
conjetura sobre una situación presentada en el ámbito empresarial. En esta unidad
se estudian los contrastes de hipótesis para una o dos poblaciones.
El conocimiento del tipo de función que liga a determinadas variables económicas
permitirá descubrir la relación que existe entre las mismas para ser utilizadas en la
toma de decisiones de política económica o política empresarial. Por ello es
importante determinar la forma analítica y concreta de esta relación recurriendo al
análisis de regresión, y en especial al de regresión lineal, tema de la última unidad
del módulo.
2. JUSTIFICACIÓN
La inferencia estadística, como parte de la Estadística que comprende los
métodos y procedimientos para deducir propiedades de una población a partir del
estudio de una parte de ésta, es esencial para el administrador de empresas, el
contador y el economista dado que los diversos métodos de estimación, predicción
y contraste de hipótesis son las herramientas fundamentales en la toma
de
decisiones en condiciones de incertidumbre, de tal manera que les permita ir más
allá de solo reportar y describir datos.
3. FORMAS DE ABORDAR LA LECTURA DEL MODULO
Estimado(a) estudiante:
Formarse como profesional en administración de empresas en un programa a
distancia, requiere dedicación, responsabilidad y de un buen método de estudio
para cada uno de los módulos que conforman el pensum académico.
Respondiendo a los propósitos del nivel de Estadística Inferencial, éste módulo ha
sido diseñado para el trabajo auto dirigido, de modo que Usted pueda
responsabilizarse de su propio aprendizaje y enfrentar con éxito la formación
Estadística requerida por la carrera profesional que ha elegido.
Un aprendizaje afectivo y duradero del Módulo exige, de su parte:
 Mantener una actitud de superación para que con su esfuerzo personal logre
el desarrollo concienzudo de cada una de las actividades propuestas.
 Tener un conocimiento profundo de su CIPAS, consiguiendo así que el
trabajo de equipo adquiera una intención seria y metódica, para compartir
logros, ampliar experiencias, resolver dudas y afianzar aprendizajes
adquiridos.
 Utilización adecuada de todos los apoyos institucionales, como el servicio de
tutoría, la biblioteca, los materiales y medios audiovisuales, así como la
consulta en Internet,
Con tal propósito le recomendamos el siguiente procedimiento:
1. Realice una lectura atenta de cada una de las unidades, señalando y
anotando las ideas centrales, los conceptos básicos y sus relaciones.
2. Desarrolle cada actividad, siguiendo las orientaciones que se le dan, sin
omitir ninguna por elemental que le parezca.
3. Una vez termine el desarrollo de los talleres, compare las soluciones con
las obtenidas por sus compañeros de grupo.
4. Anote las dudas e inquietudes para llevarlas al tutor y demás compañeros
en la sesión presencial.
5. Complemente la actividad con la consulta de textos, documentos, revistas,
páginas web, ect. Para fortalecer sus conocimientos sobre los temas
desarrollados en el módulo.
Con la repetición de éste procedimiento se pretende que cada uno de Ustedes
construya su propio método de estudio, teniendo claro el tiempo que debe
dedicarle, el lugar de estudio más adecuado, y la disciplina personal para
cumplir con la distribución que haga de su tiempo y con los compromisos que
demanda el hecho de ser estudiante a distancia.
4. PROPÓSITOS DE FORMACIÓN
Al final del curso el alumno será capaz de utilizar los métodos y modelos
estadísticos
apropiados
para el tratamiento de la información numérica
fundamental para la toma de decisiones cuando existan condiciones de
incertidumbre, de formular y solucionar problemas propios de las ciencias
administrativas
5. REFERENTE TEÓRICO
El Ministerio de Educación Nacional en su documento serie lineamientos
curriculares (1998) en cumplimiento del artículo 78 de la Ley 115 de 1994
consideran que las matemáticas en la escuela tienen un papel esencialmente
instrumental, que por una parte se refleja en el desarrollo de habilidades y
destrezas para resolver problemas de la vida práctica, para usar ágilmente el
lenguaje simbólico, los procedimientos y algoritmos y, por otra, en el desarrollo del
pensamiento lógico-formal, así como el pensamiento variacional.
José Chacón en su libro, Una Introducción a la Estadística Inferencial concluye
que ésta es necesaria cuando queremos hacer alguna afirmación sobre más
elementos de los que vamos a medir. La estadística inferencial hace que ese salto
de la parte al todo se haga de una manera “controlada”. Aunque nunca nos ofrece
rá seguridad absoluta, sí nos ofrecerá una respuesta probabilística. Esto es import
ante: la estadística no decide; sólo ofrece elementos para que el investigador o el
lector decidan. En muchos casos, distintas personas perciben diferentes conclusi
ones de los mismos datos.
Ciro Martinez B, en el libro Estadística y Muestreo, opina que la estadística facilita
una serie de instrumentos o técnicas que, al ser utilizadas correctamente, permiten
determinar el grado de validez y confiabilidad, ya sea en las predicciones o las
conclusiones obtenidas a partir de la muestra.
PAUL NEWBOLD en el libro, Estadística para los Negocios y la economía, realiza
un estudio completo sobre las distribuciones muestrales, los intervalos de
confianza, las pruebas de hipótesis y la regresión lineal; temas del presente
modulo
Mohammed A. Shayib, en el libro, Applied Statistics, aporta en otro idioma un
estudio completo sobre los temas tratados,
aplicación.
así como algunos problemas de
6. ESTRUCTURA DEL MODULO
DISTRIBUCIONES
FUNDAMENTALES DE
MUESTREO
Distribución en el
muestreo de la media
muestral
Distribución en el
muestreo de una
proporción muestral
Intervalos de confianza
para la media
poblacional
ESTIMACIONES POR
INTERVALOS
Intervalos de confianza
para la proporciòn
poblacional
Intervalos de confianza
para la diferencia de
media de dos
poblaciones
ESTADÍSTICA
INFERENCIAL
Prueba de hipòtesis para
la media poblacional
CONTRASTE DE
HIPÓTESIS
Prueba de hipòtesis para
la proporciòn
poblacional
Prueba de hipòtesis para
la difrencia de media de
dos poblacioones
Estimaciòn por mìnimos
cuadrados
REGRESIÓN LINEAL
SIMPLE
Verificación de hipótesis
y capacidad explicativa
de una función de
regresión lineal.
7. COMPETECIAS TRANSVERSALES A DESARROLLAR
Competencias del Saber
 Comprende las distribuciones muéstrales de medias y proporciones.
 Interpreta intervalos de confianza para le media
poblacionales.
y
para proporciones
 Comprende el contraste de hipótesis para la media y proporción poblacional.
 Comprende el método de los mínimos cuadrados para determinar la
ecuación de regresión lineal.
Competencias del Saber Hacer
 Aplica las distribuciones muéstrales de medias y proporciones en
situaciones concretas de la Administración, para el cálculo de
probabilidades
 Estima intervalos de confianza para le media
poblacionales.
y
para proporciones
 Formula y contrasta hipótesis en situaciones específicas de
Administración, tanto para la media muestral como para proporciones
 Utilizar el método de mínimos cuadrados ordinarios, para la estimación de
parámetros del modelo de regresión en dos variables y establecer
inferencias a cerca de estos.
la
http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal
PRESENTACION
La rama de la estadística dedicada a la inferencia trata básicamente con las
generalizaciones y predicciones, por ejemplo, se puede estar interesado en
averiguar acerca de la media o varianza de la distribución poblacional de las
rentas familiares en una ciudad de la Costa Atlántica, o sobre la proporción de
familias de esta ciudad que tienen unos ingresos inferiores a $450.000.
Para hacer este tipo de afirmaciones las poblaciones suelen ser demasiado
grandes para estudiarlas en su totalidad, por lo tanto se hace necesario elegir una
muestra representativa que tenga un tamaño más manejable, sobre la base de la
información muestral; nuestro objetivo será hacer inferencia acerca de la población
de la que procede la muestra.
PREGUNTA PROBLEMA
¿Cómo se puede aplicar las distribuciones muestrales en la solución de situaciones
concretas de una empresa?
COMPETENCIAS ESPECÍFICAS
1. Define que es una distribución muestral.
2. Utiliza información para crear una distribución muestral.
3. Aplica las distribuciones muéstrales de medias y proporciones para el
cálculo de probabilidades en situaciones concretas de empresas
SABERES



Distribución muestral
Distribución en el muestreo de la media muestral
Distribución en el muestreo de una proporción muestral
DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO
ACTIVIDAD PREVIA (Trabajo Individual)
Supongamos una población de 6 familias cuyos gastos mensuales en educación,
en miles de pesos, son: 120, 100, 90, 95, 115, 110.
Con base en esta información responde:
1. ¿Cuantas muestras diferentes de 3 familias pueden obtenerse?
2. ¿Cuantas muestras diferentes de 4 familias pueden obtenerse?
3. ¿La media muestral del gasto es igual para cada muestra?
4. ¿La media de las medias muestrales es igual para las muestras de tres familias
que para las de cuatro?
5. ¿La media para la población es igual a la media de las medias muestrales para
las muestras de tres familias o para las de cuatro familia.
6. ¿La desviación estándar de la media de medias es igual para cualquier tamaño
de muestra?
7. ¿La desviación estándar de la media de medias muestrales es igual a la de la
población?
ACTIVIDAD GRUPAL
1 Socialice los resultados obtenidos individualmente y escriba sus conclusiones
al respecto.
2 Justifique el uso del factor de corrección para poblaciones finitas al calcular el
error típico.
3 Haga un listado de las dudas e inquietudes presentadas en la socialización de
las actividades anteriores.
SABERES Y ACTIVIDADES
1 DISTRIBUCIONES MUESTRALES
1.1 DISTRIBUCION MUESTRAL
Quienes toman decisiones lo hacen con solo tomar una muestra.Por ejemplo,
considérese un fabricante que desea saber los tiempos que requieren en promedio
los trabajadores para terminar un trabajo dado, o la cantidad promedio de
combustible necesario para enviar un camión a cierta distancia, o la edad
promedio de quienes utilizan un producto, o la porción de mercado para un
producto, o el porcentaje de unidades defectuosas en un lote de producción o
sobre la proporción de personas que ven un determinado programa de televisión.
En todos estos casos el estadístico está interesado en saber algo sobre una
población estadística. A falta de un censo, el conocimiento deseado sobre
parámetros como la media de la población (  ), la desviación estándar de la
población (  ) o la proporción de una población (  ), sólo se puede adquirir si se
saca una muestra representativa de la población, se calcula los estadísticos como
la media muestral ( X ), la desviación estándar (S) o la proporción muestral (P), y
se hace inferencia sobre los parámetros a partir del ellos. El proceso de inferir los
valores de parámetros desconocidos de una población, a partir del estadístico de
una muestra conocida se denomina estimación.
Para comprender la naturaleza de una estimación estadística es necesario
entender bien el concepto de la distribución muestral, ésta proporciona un enlace
importante entre la muestra individual que por lo general se toma y la población
sobre la cual se hace inferencia. Es importante distinguir entre las características
poblacionales y sus correspondientes cantidades muéstrales, por ejemplo la media
(  ), que es un atributo de la población, es un número fijo desconocido. Para hacer
inferencia sobre tal atributo, se extrae una muestra de la población y se calcula la
media muestral.
Dado
que para cada muestra que se extraiga se
obtendrá,posiblemente, un valor diferente de la media, se puede pensar en esta
cantidad
como una variable aleatoria con una cierta distribución de probabilidad.
La distribución de probabilidad de los posibles resultados
muéstrales
proporcionan una base para realizar inferencia sobre la población.
Para ilustrar el concepto consideremos que de una gran empresa que tiene 300
empleados se desea tomar una muestra, por ejemplo de 25 empleados, y a partir
de esta muestra calcular el salario medio, y la proporción P, de hombres que
laboran en la empresa. Esta media muestral sirve después como estimación de  ,
media aritmética del salario de los 300 trabajadores.
Como es posible extraer
300
C 25 1,95 x10 36 muestras diferentes de tamaño 25, para
hacer más didáctico el ejemplo, supóngase que se tiene una población de N=5
empleados cuyo salario y sexo se muestran a continuación:
TABLA 1.1 Población hipotética de salarios y sexo de empleados.
EMPLEADO
SALARIO MENSUAL
( Miles de peso)
SEXO
Alejandro
400
M
Berena
300
F
Carlos
350
M
Sandra
500
F
Eliecer
450
M
Con esta información completa al alcance
es fácil calcular las medidas de
resumen de dicha población como es el salario mensual medio (  ), junto con su
varianza (  2 ) y desviación estándar (  ), así como la proporción de hombres (
 h ) en las filas de empleados.
Medidas de resumen:
a). Salario.

b) Sexo.
 x  2000  400 
2 
N
5
(x  )
N
h

3
 0,6 (Proporción de hombres)
5
2
 5000 ,
  5000  70,71
Supóngase que no se dispone de esta información tipo censo, por lo tanto se
decide hacer la estimación con una muestra aleatoria de n = 3 empleados con el
fin de estimar los parámetros desconocidos, entonces se elige al azar una de las
muestras posibles, (véase tabla 1.2), por ejemplo, la muestra conformada por los
empleados: Berena, Sandra, Eliecer. (B,S,E) con los cuales se tiene que: ̅ =
416.666 pesos, da una estimación del salario mensual medio de 416.666 pesos y
una proporción de hombres en la empresa del 33.3%.
TABLA 1.2 Estimaciones para cada una de las muestras seleccionadas
Media muestral ( ̅ ) Proporcion de
Número de la
Unidades en la
muestra
muestra
(miles de pesos)
hombres (Ph)
1
ABC
350
2/3
2
ABS
400
1/3
3
ABE
383,333
2/3
4
ACS
416,667
2/3
5
ACE
400
3/3
6
ASE
450
2/3
7
BCS
383,333
1/3
8
BCE
366,667
2/3
9
BSE
416,667
1/3
10
CSE
433,333
2/3
Si se supone que la probabilidad de elegir cualquier muestra es la misma, la
probabilidad de elegir una muestra que dé una de 350 mil es: ( ̅
5
)
C3
Como  = 400 mil, la probabilidad de elegir al azar una muestra que de una
estimación exacta de  es solamente de: ( ̅
)
8 de las 10 muestra darán por resultado una cantidad errónea en el proceso de
estimación de  . Esta cantidad se llama ERROR MUESTRAL, y es la diferencia
entre y la media muestral que se utilizó para estimarla. La diferencia se debe al
azar; si el azar dicta que se extraigan unas cuantas observaciones muy grandes,
la media aritmética dará estimaciones excesivas de  , por ejemplo: Si por azar
sucede que se elija la muestra 9 en la tabla 1.2, la estimación de  sería ̅
que es superior al valor de la media aritmética en la población, si por el
contrario el azar hace que se extraiga la muestra 1, la muestra dará una
estimación insuficiente de  ( ̅
)
ERROR MUESTRAL: Es la diferencia entre el parámetro y el estadístico de la
muestra utilizado para estimarlo.
Es evidente que nunca se podrá calcular el tamaño real del error muestral, puesto
que la media poblacional sigue siendo desconocida, pero hay que ser consciente
de la probabilidad de incurrir en este error.
Con una población de N = 5 se puede listar todas las medias muéstrales posibles,
junto con su probabilidad. Dicha lista se llama DISTRIBUCIÓN MUSTRAL y se
refleja en la tabla 1.3
TABLA 1.3 Distribución muestral de la media
Media Muestral
Número de muestras que Poseen
Probabilidad
350
1
1/10
366,667
1
1/10
383,333
2
2/10
400
2
2/10
416,667
2
2/10
433,333
1
1/10
450
1
1/10
Una posible interpretación de la tabla 1.3 es: Si han de seleccionarse, por ejemplo
1.000 muestras aleatorias simples de tamaño n=3, de la población de N = 5,
podría esperarse calcular 100 veces un salario medio de 350 mil pesos o 200
veces un salario medio de 400 mil pesos.
ESTADIGRAFOS Y DISTRBUCION MUESTRAL
Supongamos que se ha extraído una muestra aleatoria de una población y
que se desea hacer inferencia sobre ciertas características de la distribución
de la población, esta inferencia está basada en algún estadígrafo, es decir,
alguna función particular de la información muestral. La lista de todos los
valores posibles de un estadístico y la probabilidad asociada a cada valor se
denomina distribución muestral.
1.2 DISTRIBUCION EN EL MUESTREO DE LA MEDIA MUESTRAL
Supóngase que se ha extraído una muestra de n observaciones de una población
con una media µ y varianza  2 , si se representan los elementos de la muestra por
, antes de que la muestra haya sido seleccionada, habrá
incertidumbre sobre los resultados. Esta incertidumbre es consecuencia del hecho
de que cada uno de los miembros de la muestra es una variable aleatoria con
media
y varianza  x2 . Si el interés es hacer inferencia sobre la media
poblacional, un punto de partida es el promedio de los valores muéstrales, es
decir, el análisis de la distribución muestral de la variable aleatoria ̅ .
En primer lugar se determina la media de esta distribución. Como para variables
aleatorias discretas y continuas, la esperanza matemática de una suma es la
suma de las esperanzas matemáticas, se tiene que: (∑
(∑
(∑
)
(∑
)y como cada variable aleatoria
)
(∑
)
tiene media
, entonces,
)
Pero la media muestral es la suma de los valores de la muestra multiplicada por
1/n, por lo tanto,
(∑ ̅ )
( ∑
)
(∑
)
En consecuencia, la media de la distribución en el muestreo de la media muestral
es la media poblacional
(∑ ̅ )
Esto quiere decir, que la media de las medias muéstrales, conocida como la media
general, es igual a la media poblacional.
̿
∑̅
, K numero de muestras
ACTIVIDAD: Verifica estos valores con los datos de la tabla 1.3
1.2.1 ERROR TIPICO DE LA DISTRIBUCION MUESTRAL DE MEDIAS
La distribución muestral de las medias muéstrales tienen también una varianza.
Esta varianza de la distribución de todas las medias muéstrales mide la dispersión
de las observaciones individuales (medias muéstrales) en torno a su media (media
general). Se calcula como cualquier otra varianza, es la media aritmética de los
cuadrados de las desviaciones respecto a la media. Es decir, si
̅ es la varianza
de la distribución muestral de las medias muéstrales, entonces:
∑( ̅
̿)
̅
,Knúmero de muestras.
Con los salarios de los 5 ejecutivos del ejemplo se tiene:
(
)
(
(
)
(
)
)
(
)
(
(
)
)
̅
Pesos al cuadrado.
Si se extrae la raíz cuadrada de la varianza de la distribución de estas medias
muéstrales se tiene el error típico de la distribución muestral.
Error típico de la distribución muestral en medias muéstrales.
̅
Para el ejemplo:
√
̅
pesos
̅
ERROR TIPICO: Es la medida de la variación de las medias muéstrales en
torno a la media general. Por tanto, mide la tendencia a incurrir en error de
muestreo en el intento de estimar el parámetro.
Si el tamaño de la población es muy grande con respecto al tamaño muestral,
entonces, una consecuencia del muestreo aleatorio simple es que la distribución
de cada uno de los valores de la muestra es independiente de la de los otros, en
tal caso la varianza de la suma es la suma de las varianzas y por tanto:
(∑
Como cada
)
tiene varianza
(
)
(
, entonces:
)
(
(∑
)
)
(
)
( ̅)
Luego
( ∑
(∑
)
)
Esto implica que la varianza de la distribución muestral de ̅ decrece a medida
que aumenta el tamaño de la muestra. Así, cuantas más observaciones tenga la
muestra, más concentrada estará la distribución muestral de la media muestral
alrededor de la media poblacional. En otras palabras cuanto mayor sea la
muestra, más segura será nuestra inferencia acerca de la media poblacional.
Se puede encontrar una aproximación suficiente de la varianza y del error típico
con mucha más facilidad mediante las expresiones:
̅
,
̅
√
Es evidente que estos formatos suponen conocer la varianza de la población.
1.2.2
ERROR TIPICO Y NORMALIDAD.
Si los datos de una población siguen una distribución normal, la distribución
muestral de las medias muéstrales también será normal, es decir, si de una
población que sigue una distribución normal se toman todas las muestras posibles
de tamaño determinado y después se calculan las medias de todas esas
muestras, las medias muéstrales seguirán una distribución normal.
Supóngase que se tienen los ingresos de varios millares de estudiantes que dan
una media de 500 mil pesos y que dichos ingresos siguen una distribución normal.
Si se eligen todas las muestras de tamaño n de esa población normal de ingreso
de los estudiantes, la distribución muestral de las medias muéstrales también será
normal.
Como el error típico de la media muestral es ̅
√
, entonces,
̅
Esto quiere decir que las ̅ están menos dispersas que los datos originales.
De la expresión
̅
√
también se puede concluir que a medida que aumenta el
tamaño de la muestra el error típico será menor.
1.3 TEOREMA CENTRAL DEL LÍMITE
Una distribución de medias muéstrales sigue una distribución normal si las
muestras se toman de una población normal, pero en muchos casos la población
no sigue una distribución normal, entonces debemos recurrir al teorema central del
límite. Esta proposición esencial afirma que para cualquier población sea normal o
no, la distribución de las medias muestralesse aproximará a la normalidad si el
tamaño de la nuestra es grande, (n≥30)
TEOREMA CENTRAL DEL LIMITE:
desviación típica
a
Para una población con media µ y
medida que el tamaño de la muestra n aumenta, la
distribución muestral de medias muéstrales se aproxima a una distribución
normal con
̿
̅
√
1. 4 FACTOR DE CORRECCION CON POBLACIONES FINITAS.
El teorema central del límite y la hipótesis de una distribución normal de las
medias muéstrales sólo se aplica si el muestreo se realiza con remplazamiento o
la extracción se hace de una población infinita. Si la población es finita y el número
n de miembros de la muestra no es una fracción muy pequeña del número N
(supera el 10%) de la población, no se puede asumir que los valores individuales
de la muestra se distribuyan independientemente. Si la extracción se hace sin
sustitución el proceso de muestreo queda alterado, la probabilidad de elegir un
elemento dado en cualquier extracción depende de la selección previa realizada
anteriormente.
Si se quiere compensar esta modificación de probabilidades es preciso utilizar el
factor de corrección para poblaciones finitas al calcular el error típico. En concreto,
se deduce que si la extracción se hace sin sustitución de una población finita, la
* +*
varianza es: ̅
+
* + [√
̅
]
√
EJEMPLO 1.1
La oficina del DANE desea estimar el índice de natalidad por 100.000 habitantes
en las 100 localidades más grandes del país. Se sabe que la desviación típica de
los índices de natalidad de estos 100 centros urbanos es de 12 nacimientos por
cada 100.000 habitantes.
a. Calcular la varianza y la desviación típica de la distribución muestral de
n= 8
localidades.
b. Calcular la varianza y la desviación típica de la distribución muestral de n= 15
localidades.
SOLUCION:
a. Como la fracción
se puede considerar pequeña, no se necesita el
factor de corrección. La varianza y el error típico son:
(
)
;
̅
b. Como
̅
√
√
, no es una fracción pequeña (mayor que el 10%) es preciso
aplicar el factor de corrección, por tanto, La varianza y el error típico son:
̅
* +*
+
(
*
)
+*
+
y
̅
*
√
+ [√
]
1.5
DISTRIBUCIÓN
EN
EL
MUESTREO
DE
UNA
PROPORCIÓN
MUESTRAL
Si se repite un experimento que tiene probabilidad de éxito π, entonces la variable
aleatoria X , que recoge el número total de éxitos en n repeticiones, sigue una
distribución binomial. Un problema común consiste en que el parámetro π sea
desconocido. Por ejemplo: una corporación financiera interesada en determinar
cuál es la proporción de clientes que pagan puntualmente sus obligaciones
crediticias o un gerente interesado en la proporción de artículos defectuosos que
se producen en un turno determinado en una factoría. En situaciones de este tipo
es natural basar nuestra inferencia en la proporción de éxitos en una muestra
tomada de la población que nos interese.
PROPORCION MUESTRAL
Sea X el número de éxitos en una muestra binomial, de n observaciones,
donde la probabilidad de éxito es π, entonces, la proporción de éxito en la
muestra
Recibe el nombre de proporción muestral.
La media y la varianza de la distribución muestral de la proporción muestral puede
deducirse fácilmente a partir de la media y la varianza del número de éxitos que
viene dado por:
( )
( )
y
( )
(
),
luego: (
)
( )
.Es decir, la media de la proporción muestral es la proporción
π de éxitos en la población.
Su varianza es :
( )
( )
( )
(
)
La desviación típica de la proporción muestral, es la raíz cuadrada de la varianza
y recibe el nombre de error estándar y está dada por:
√
(
)
Se utiliza el factor de corrección si la proporción de la muestra con respecto a la
población
supera el 10%. En tal caso la desviación típica de la distribución de
proporciones muestrales queda:
√
(
)
√
Si se resta a la proporción muestral su media π y se divide por el error estándar,
se obtiene una variable aleatoria con distribución normal estándar.
1.6 APLICACIONES DE LAS DISTRIBUCIONES MUÉSTRALES.
La importancia de las distribuciones muéstrales estriba en que muchas decisiones
se toman a partir de resultados muéstrales, por ejemplo:

El director de una empresa elige una muestra de un producto para determinar
si se cumplen determinadas especificaciones de producción.

Un organismo oficial toma una muestra de vecinos de una población para
decidir si un determinado programa de Bienestar producirá los resultados
deseados.

El gerente de una compañía de seguro elige una muestra para determinar la
proporción de clientes que utilizan el seguro por accidente de sus vehículos.
Una aplicación muy corriente de la distribución muestral es determinar la
probabilidad de que la media de una muestra caiga dentro de un intervalo
determinado. Puesto que la distribución muestral seguirá una distribución normal
porque: 1. La muestra se toma de una población normal y 2. El teorema Central
del Límite garantiza la normalidad si se seleccionan muestras grandes, y además,
muchas decisiones empresariales dependen de una muestra completa y no solo
de una observación, entonces la fórmula de transformación ha de ser modificada
para que se tenga en cuenta que no estamos interesados en una observación X
sino en la media ̅ y la fórmula Z se convierte en:
̅
Variable tipificada de la distribución muestral.
̅
EJEMPLO 1.2
La desviación típica de las compras realizadas por los clientes de una tienda
concreta es de 18 dólares. Si se toma una muestra al azar de 100 consumidores.
a. ¿Cuál es el error típico de la distribución muestral?
b. ¿Cuál es la probabilidad de que la media muestral supere la media poblacional
en más de 5 dólares?
SOLUCION:
a.
̅
√
√
b. Como la diferencia entre ̅
se establece en ̅
se tiene:
o un área de 0,4973.
Luego: ( ̅
)
(
)
Es decir, la probabilidad de que la media muestral supere la media poblacionalen
más de 5 dólares es de 0,27%
EJEMPLO 1.3
La duración de las bombillas producidas por un cierto fabricante tiene una media
de 1.200 horas y una desviación típica de 400 horas. La población sigue una
distribución normal. Suponga que se han comprado 49 bombillas que pueden ser
consideradas como una muestra aleatoria de la producción del fabricante.
a. ¿Cuál es la media de la media muestral de la duración de estas bombillas?
b. ¿Cuál es la varianza de la media muestral?
c. ¿Cuál es el error estándar de la media muestral?
d. ¿Cuál es la probabilidad de que el tiempo medio de la duración de las 49
bombillas sea de menos a 1050 horas?
SOLUCIÓN:
a.
Como ̿
b.
̅
c.
̅
d.
√
̿
√
Se calcula el valor de Z asì:
La probabilidad pedida es : ( ̅
̅
̅
)
(
)
La probabilidad que una variable aleatoria sea menor que -2,63 según la tabla 1
del apéndice es: 0,5 – 0,4957 = 0,0043, luego la probabilidad de que el tiempo
medio de duración de las 49 bombillas sea menor de 1.050 horas es del 0,43%.
EJEMPLO 1.4
En un curso de administración de empresas hay 250 estudiantes. Cada uno de los
integrantes de una muestra aleatoria de 50 estudiantes es interrogado con el fin de
estimar la cantidad de tiempo que gasta semanalmente en resolver los problemas
de estadísticas. Supóngase que la desviación típica de la población es de 30
minutos.
a. ¿Cuál es la probabilidad de que la media muestral exceda a la media
poblacional en más de 2,5 minutos?
b. ¿Cuál es la probabilidad de que la media muestral este más de 5 minutos por
debajo de la media poblacional?
c. ¿Cuál es la probabilidad de que la media muestral difiera de la media
poblacional en más de 10 minutos?
SOLUCIÓN:
a. Como la diferencia entre ̅
se establece en ̅
y además la fracción
, entonces se debe utilizar el factor de corrección para
poblaciones finitas en el cálculo el error estándar, es decir:
̅
Luego: ( ̅
√
√
)
[√
√
(
(
]
)
La probabilidad de que la media muestral exceda a la media poblacional en más
de 2,5 minutos es del 25,46%
b. La expresión que la media muestral este más de 5 minutos por debajo de la
media poblacional se puede escribir como ̅
Luego: ( ̅
)
(
(
)
:
)
La probabilidad de que la media muestraleste más de 5 minutos por debajo de la
media poblacional es de 9,51%
c. La expresión que la media muestral difiera de la media poblacional en más de
10 minutos se puede escribir así:
̅
o
̅
Luego la probabilidad de que la media muestral difiera en mas de 10 minutos de la
media poblacional está dada por:
(
̅
)
(
)
(
)
EJEMPLO 1.5
Una empresa empacadora de cereales asegura que la media del peso que
contienen las cajas de estos cereales es de 200 gramos y sus desviación típica de
6 gramos. La distribución en los pesos es normal. Se eligen 4 cajas que pueden
ser consideradas como una muestra aleatoria del total de la producción.
a. ¿Cuál es el error estándar de la media muestral del peso de estas 4 cajas?
b. ¿Cuál es la probabilidad de que, como media, el peso de estas 4 cajas sea
menor que 197 gramos?
c. ¿Cuál es la probabilidad de que, como media, el peso de estas 4 cajas sea
mayor que 206 gramos?
d. ¿Cuál es la probabilidad de que, como media, el peso de estas cuatro cajas
este entre 195 y 205 gramos?
SOLUCION:
a.
̅
√
√
b. Se calcula el valor de Z:
Luego:
(̅
)
(
)
La probabilidad pedida es del 15,87%.
c. Se calcula el valor de Z:
Luego:
(̅
)
(
)
La probabilidad pedida es del 2,28%
̅
Ahora se pide calcular (
)
y
(
̅
)
(
)
(
)
EJEMPLO 1.6
El dueño de una tienda de discos ha comprobado que el 20% de los clientes que
entran a su tienda realizan alguna compra. Un día entran a la tienda 180 personas,
que pueden ser considerados como una muestra aleatoria de todos los clientes:
a. ¿Cuál será la media de la proporción muestral de clientes que realizaron
alguna compra?
b. ¿Cuál es la varianza de la proporción muestral?
c. ¿Cuál es el error estándar de la proporción muestral?
d. ¿Cuál es la probabilidad de que la proporción muestral sea menor que 0,15?
SOLUCION:
a.
( )
( )
b. La distribución muestral de
(
tiene varianza
)
El error muestral de la distribución de
(
es:
)
√
(
)
√
=0,0298
c. La variable tipificada es:
Por lo tanto (
)
(
)
(ver grafica)
La probabilidad de que la proporción muestral sea menor que 0,15 es de 4,75%
EJEMPLO 1.7
Un proceso industrial genera el 8% de unidades defectuosas. Usted compra 100
unidades, cual es la probabilidad de que sean defectuosas menos del 10%.
SOLUCION:
√
(
(
)
)
(
)
La probabilidad de que sean defectuosos menos del 10% es del 77%.
EJEMPLO 1.8
Un proceso de producción en curso produce un 10% de artículos defectuosos. Un
inspector de calidad toma una muestra aleatoria simple de 70 artículos y
rechazará toda la producción si más de un 5% de la muestra está defectuosa.
¿Cuál es la probabilidad de rechazo?
SOLUCION:
√
(
)
(
(
)
)
La probabilidad de que sea rechazada toda la producción es del 91,77%
Consulte las siguientes páginas en intenet:
http://ftp.utalca.cl/profesores/gicaza/Clases/7Distribuciones%20Muestrales.pdf
http://www.geociencias.unam.mx/~ramon/EstInf/Clase4.pdf
http://www.educatina.com/matematicas/probabilidad-y-estadistica/estadistica/poblacionestadistica/diferencias-en-la-distribucion-de-medias-muestrales-video
1.5 RESUMEN
La DISTRIBUCIÓN MUESTRAL proporciona un enlace importante entre la
muestra individual que por lo general se toma y la población sobre la cual se hace
inferencia y se define como La lista
de todos los valores posibles de un
estadístico y la probabilidad asociada a cada valor.
ERROR MUESTRAL: Es la diferencia entre el parámetro y el estadístico de la
muestra utilizado para estimarlo.
ERROR TIPICO: Es la medida de la variación de las medias muéstrales en torno a
la media general. Por tanto, mide la tendencia a incurrir en error de muestreo en el
intento de estimar el parámetro y está dado por
TEOREMA CENTRAL DEL LIMITE:
̅
√
̅
A medida que el tamaño de la muestra n
aumenta, la distribución muestral de medias muéstrales se aproxima a una
distribución normal con
̿
̅
√
Si la población es finita y el número n de miembros de la muestra no es una
fracción muy pequeña del número N de la población, no se puede asumir que los
valores individuales de la muestra se distribuyan independientemente, la
probabilidad de elegir un elemento dado en cualquier extracción depende de la
selección previa realizada anteriormente. Para compensar esta modificación de
probabilidades es preciso utilizar el factor de corrección para poblaciones finitas al
calcular la varianza y el error típico. Si la extracción se hace sin sustitución de una
población finita, la varianza es: ̅
* +*
+
̅
* + [√
√
]
PROPORCION MUESTRAL: Sea X el número de éxitos en una muestra binomial,
de n observaciones, donde la probabilidad de éxito es π entonces, la proporción
de éxito en la muestra
La
media
y
, Recibe el nombre de proporción muestral.
la
varianza
de
la
lasproporcionesmuestralesestán
( )
distribución
dadas
(
( )
muestral
de
por:
)
La desviación típica de la proporción muestral, es la raíz cuadrada de la varianza y
recibe el nombre de error estándar.
√
̅
̅
(
)
y
√
(
)
√
si
Variable tipificada de la distribución muestral de medias.
Variable tipificada de la proporción muestral.
Taller 1
1. Los gastos semanales (en dólares) en publicidad hechos por N = 5
competidores se indican en la siguiente tabla. Establezca la distribución
muestral para el promedio de gastos, para una muestra aleatoria simple de 3
competidores.
COMPETIDOR
DOLÁRES
A
100
B
92
C
118
D
70
E
135
2. Un banco reporta que la población de sus saldos de depósito a la vista están
normalmente distribuidos con una media de 1.200 y una desviación estándar
de 250. Un auditor rechaza certificar el reporte del banco y toma una muestra
aleatoria de 36 estados de cuentas. El certificará el reporte solo si la media
muestral se encuentra a 50 dólares de la supuesta media poblacional. ¿Cuál
es la probabilidad de dicho hallazgo?
3. Una fábrica produce pistones cuyos diámetros se encuentran adecuadamente
clasificados por
una distribución normal con un diámetro promedio de 20
centímetros y una desviación estándar igual a 0,004 centímetros. Para que un
pistón sirva, su diámetro debe encontrarse entre 4,998 y 5,002 centímetros. Si
el diámetro del pistón es menor que 4,998 se desecha; si es mayor que 5,002
el pistón puede reprocesarse. Se selecciona una muestra de 8 pistones. ¿Qué
porcentaje será desechado? ¿Qué porcentaje será reprocesado?
4. Cuando un cierto proceso
de producción está funcionando correctamente,
la resistencia en ohmios de los componentes producidos sigue una distribución
normal con media 92 y desviación típica 3,6. Se toma una muestra aleatoria de
cuatro componentes
a. Hallar la media de la distribución muestral de la media muestral de la
resistencia.
b. Hallar la varianza de la media muestral.
c. Hallar el error estándar de la media muestral
d. ¿Cuál es la probabilidad de que la media muestral resulte ser mayor que 93
ohmios.
5. Supongamos que la desviación típica de la cuota pagada mensualmente por
los estudiantes de cierta ciudad americana es de 40 dólares. Se toma una
muestra de 100 estudiantes
con el fin de estimar la renta media pagada
mensualmente por el total de la población de estudiantes.
a. ¿Cuál será el error estándar de la media muestral de la cuota mensual?
b. ¿Cuál es la probabilidad de que la media muestral exceda a la media
poblacional en más de cinco dólares?
c. ¿Cuál es la probabilidad de que la media muestral este más de 4 dólares por
debajo de la media poblacional?
d. ¿Cuál es la probabilidad de que la media muestral difiera de la media
poblacional en más de tres dólares
6. Una compañía quiere estimar la proporción de personas que son posibles
compradores de afeitadoras eléctricas y que ven los partidos de fútbol del
campeonato nacional. Se toma una muestra de 120 individuos que se
identificaron como posibles compradores de afeitadoras eléctricas.Suponga
que la proporción de posibles compradores de afeitadoras eléctricas en la
población que ven las transmisiones es del25%.
a. 0.10 es la probabilidad de que la proporción muestral exceda a la proporción
poblacional ¿en qué valor?
b. 0,05 es la probabilidad de que la proporción muestral este por debajo de la
proporción poblacional ¿en qué cantidad?
c. 0,30 es la probabilidad de que la proporción muestral difiera de la proporción
poblacional ¿en qué cantidad?
7. Una fábrica tiene a 439 obreros contratados. De ellos 239 están preocupados
sobre sus futuras pensiones. Se toma una muestra de 80 obreros y se les
interroga con el fin de estimar la proporción de la población que está
preocupada sobre el futuro de su pensión.
a. ¿Cuál será el error estándar de la proporción muestral de obreros
preocupados?
b. ¿Cuál es la probabilidad de que la proporción muestral sea menor que 0.5?
c. ¿Cuál es la probabilidad de que la proporción muestral se encuentre entre 0.5
y 0,6?
8. El incremento porcentual del salario de los directores ejecutivos de medianas
corporaciones sigue una distribución normal con una media del 12.2% y una
desviación típica del 3.6%. Se toma una muestra aleatoria de 81 de estos
directores ejecutivos. ¿Cuál es la probabilidad de que, en promedio, los
individuos de la muestra tengan incrementos salariales menores del 10%?
9. Un proceso de fabricación produce unidades de longitud media igual a 10
pulgadas, con una desviación típica de 3.2 pulgadas. Si solo se pueden utilizar
unidades que midan entre 9.5 y 10.5 pulgadas, ¿cuántas de las muestras de la
muestra de 100 habrá que desechar?
10. El alcalde una ciudad de 950 vecinos piensa que la renta media de éstos es de
por lo menos $625.000, con una desviación típica de $85.900. Si se toma una
muestra aleatoria de 150 personas. ¿Cuál es la probabilidad de la renta media
de estos sea mayor que $640.000?
11. La desviación típica del tiempo empleado para formar a un trabajador en la
realización de una tarea es de 40 minutos. Se toma una muestra aleatoria de
64 trabajadores:
1. ¿Cuál es la probabilidad de que la media muestral supere a la media
poblacional en más de 5 minutos?
a. ¿Cuál es la probabilidad de que la media muestral sea inferior en
b. ¿Cuál es la probabilidad de que la media muestral sea inferior en mas de 4
minutos a la media poblacional.
c. ¿Cuál es la probabilidad de que la media muestral difiera de la media
poblacional en más de 3 minutos?
12. Una compañía farmacéutica sabe que un 5% de todos los usuarios de cierto
medicamento experimentan graves efectos colaterales. Si se examina una
muestra aleatoria simple de 120 usuarios, calcule cuál es la probabilidad de
hallar:
a. Qué no hay efectos colaterales.
b. Entre 5 y 10 casos con efectos colaterales.
c. Más de 10 casos con efectos colaterales.
http://www.educandus.cl/estadistica/ejercicios/bases_teoricas/Distribucion/ResueltosDistribucio
nesMuestrales.pdf
Evaluación
Con base en la información responda las preguntas 1 a 4
“Supongamos que la desviación típica de la cuota pagada mensualmente por los
estudiantes de cierta ciudad americana es de 40 dólares y se toma una muestra
de 100 estudiantes con el fin de estimar la renta media pagada mensualmente
por el total de la población de estudiantes”.
1. El error estándar, en dólares, de la media muestral de la cuota mensual es:
A. 0,40
B. 40,0
C. 4,00
D. 400
2. La probabilidad de que la media muestral exceda a la media poblacional
en más de cinco dólares es:
A. 0,1056
B. 0,3944
C. 0,50
D. 0,8944
3. La probabilidad de que la media muestral este más de 4 dólares por debajo
de la media poblacional es:
A. 0,3413
B. 0,8413
C. 0,1587
D. 0,1857
4. La probabilidad de que la media muestral difiera de la media poblacional en
más de tres dólares es:
A. 54,68%
B. 77,34%
C. 45,32%
D. 27,34%
Con base en la información responda las preguntas 5 a 8
“En un curso de administración de empresas hay 250 estudiantes. Cada uno de
los integrantes de una muestra aleatoria de 50 estudiantes es interrogado con el
fin de estimar la cantidad de tiempo que gasta semanalmente en resolver los
problemas de estadísticas. Supóngase que la desviación típica de la población es
de 30 minutos”
5. El error estándar, minutos, de la media muestral del tiempo que se gasta
semanalmente en resolver los problemas de estadísticas, es:
A. 3,80
B.4,24
C.0,60
D.9,13
6. La probabilidad de que la media muestral exceda a la media poblacional en
más de 2,5 minutos es:
A. 74,54%
B. 24,54%
C. 30,85%
D. 25,46%
7. La probabilidad de que la media muestral este más de 5 minutos por debajo
de la media poblacional es:
A. 0,8413
B. 0,0934
C. 0,1857
D. 0,1587
8. La probabilidad de que la media muestral difiera de la media poblacional en
más de 7 minutos es:
A. 0,0658
B. 0,8384
C. 0,0808
D. 0,9192
35
30
25
20
15
10
5
0
1
2
3
4
5
PRESENTACION
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
Se estudió anteriormente la estimación de un parámetro desconocido de la
población, es decir, el cálculo de un único número que fuera una buena
aproximación para dicho parámetro. En la gran mayoría de los casos prácticos, un
estimador puntual por si solo no es adecuado. Por ejemplo, supongamos que un
control realizado sobre una muestra aleatoria de piezas procedentes de un gran
lote de producción nos lleva a estimar que un 10% de todas las piezas son
defectuosas.
Un gerente que se enfrente a este dato posiblemente
se hará
preguntas del tipo: ¿puedo estar totalmente seguro de que el verdadero porcentaje
de piezas defectuosas está entre el 5% y el 15%? o ¿es muy posible que entre el
8% y el 12% de las piezas sean defectuosas? Esta clase de preguntas va más
allá de la contenida en una simple estimación puntual; son preguntas que buscan
conocer la fiabilidad de dicho estimador.
En otras palabras se trata de la
búsqueda de un estimador por intervalos, un rango de valores entre los que
posiblemente se encuentre la cantidad que se estima.
PREGUNTA PROBLEMA
¿Cómo se pueden aplicar los intervalos de confianza en la toma de decisiones
empresariales?
COMPETENCIAS ESPECÍFICAS
1. Estima e interpreta intervalos de confianza para la media poblacional
2. Estima e interpreta intervalos de confianza para la proporción poblacional
3. Estima e interpreta intervalos de confianza para la diferencia de dos media
poblacionales
SABERES

Intervalos de confianza

Intervalos de confianza para la media poblacional

Intervalos de confianza para proporciones poblacionales

Intervalos de confianza para la diferencia de media de dos poblaciones
DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO
ACTIVIDAD PREVIA (Trabajo Individual)
. Clasifica los siguientes intervalos en Abiertos, Cerrados o semi abierto:
A. x  R / x  5
B. x  R / x  2
C. x  R / 1  x  5
D. x  R / 0  x  7
E. x  R / 4  x  5
F. x  R / x  3
2. Estimar un parámetro por intervalo consiste en:
A. Hallar el máximo valor que puede tomar el parámetro.
B. Calcular el valor mínimo del parámetro.
C. Calcular entre que valores está el parámetro.
D. Calcular entre que valores está, posiblemente, el parámetro.
3. Al estimar un intervalo de confianza para un parámetro, se cumple que:
A. La amplitud es independiente del tamaño de la muestra.
B. La amplitud es independiente del nivel de confianza.
C. A mayor nivel de confianza, mayor amplitud para una misma muestra.
D. A menor nivel de confianza, mayor amplitud para una misma muestra.
ACTIVIDAD GRUPAL
1 Socialice
los
resultados
obtenidos
individualmente
y
escriba
sus
conclusiones al respecto.
2 Haga un listado de las dudas e inquietudes presentadas en la socialización
de las actividades anteriores.
3 Realice diferentes redacciones para la interpretación de los intervalos de
confianza. Seleccione la que considere más adecuada y que presente
mayor claridad.
SABERES Y ACTIVIDADES
2. ESTIMACION POR INTERVALOS
2.1 INTERVALOS DE CONFIANZA
Se puede partir del hecho que cualquier parámetro que se estime es igual al estadístico
que se utilice como estimación puntual más el error muestrale (negativo o positivo).
Para el caso de la media muestral se tiene:
 X + e
Si tomamos como ejemplo los datos de la tabla 1.2 y se selecciona la muestra (1), X =
350.000, aquí se manifiesta un error muestral de
e = 50.000 por lo tanto
  350.000  50.000  400.000
Al seleccionar la muestra (6)
X = 450.000, se manifiesta un error muestral
negativo de e = - 50.000, por lo tanto:
 = 450.000 + (-50.000) = 400.000
La inevitable incertidumbre sujeta a cualquier estimación puntual se puede hacer
explícita si se presenta una estimación por intervalos y se indica por ejemplo que
I    S , en donde I es el límite inferior y S es el límite superior. Se acostumbra
a construir dichos intervalos al hacer que la estimación puntual sea el centro del
intervalo y creando un rango abajo y arriba del centro con ayuda del error estándar
del estimador (error típico). Entonces el parámetro desconocido se supone que se
encuentra dentro del intervalo pero no necesariamente en su centro.
Sin embargo, los límites del intervalo no necesitan estar precisamente en el error
estándar abajo o arriba de la estimación puntual. Al definir un coeficiente C como
cualquier valor positivo de fracción o entorno se puede hacer la afirmación
I.C = Estimación puntual  C.(error típico)
INTERVALO DE CONFIANZA: Si de una población dada se toman
repetidamente muestras aleatorias de tamaño n, se encontraran muchos valores
diferentes de un estadístico muestral dado. Si a este valor se suma y se resta
una cierta cantidad, el estadístico muestral se convierte en un rango de valores
entre los que presumiblemente se puede encontrar el parámetro poblacional
desconocido. A este rango de valores se le llama intervalo de confianza
EJEMPLO 2.1
Una muestra de salarios ha determinado X = $ 396.670 que podría servir como
estimación puntual de  , el error típico es  X = 35.250. Crear varias estimaciones
posibles de intervalos de  con base en error estándar de 0.5, 1.0, 2.0
SOLUCIÓN:
I .C para   X  C . X
a) Si C se toma como 0.5,  se estima que se encuentre entre los límites:
396.670  .05 (32.250)
Luego 380545    412.795
b) Si C se toma como 1,  se estima que se encuentra entre los límites
396670  (1) (32250)
Luego 364420    428920
c) Si C se toma como 2.0,  se estima que se encuentra entre los límites
396670  (2) (32250)
Luego 332170   
461170
El ejemplo nos muestra claramente que valores más grande de C
producen
intervalos más anchos y, por tanto, estimaciones menos precisas. El ancho del
intervalo está relacionado con el grado de confianza con el que se puede indicar
que el parámetro de la población en procesos de estimación se encuentra entre
los límites del intervalo.
Si la distribución muestral del estimador utilizado es aproximadamente normal, el
coeficiente C de la expresión:
I.C = Estimación puntual   C (error típico)
Se puede tratar como un valor Z tal que
I.C = Estimación puntual   Z (error típico)
La tabla 1 del apéndice se puede utilizar para calcular las áreas bajo la curva
normal que se encuentra dentro de los límites así calculados.
Considere
una
distribución
normalmente
distribuida
de
X
,
y
sea
 X  40 y  X  4,66. Para hacer estimaciones de intervalos de la media
poblacional, se puede ver a 
tanto
comprendido en el intervalo
X  ( Z . )    X  (Z. )
X
X  Z . X , por lo
X
Si la muestra aleatoria seleccionada de la tabla 1.2 produce una X  350 ¿qué
puede concluirse?
Al igual que en el ejemplo 2.1 la respuesta depende del valor de Z.
a) Si Z = 0.5, se tiene que el área bajo la curva normal estándar entre el centro y
Z = 0.5 es 0,1915, por lo tanto el área entre Z = - 0.5 y Z = 0.5 es igual a
2(0,1915) = 0.383. Debido a que el centro de la distribución muestral se
encuentra en
 X   , se puede tener un 38% de confianza en que nuestro
método de construcción del intervalo producirá un intervalo que en realidad
contiene a  .
En efecto
350  0.5( 28,87)    350  0,5(28,87) ;
335,57    364,44
Este intervalo no contiene a    X  400
b) Si Z = 1.0, se tiene que el 68% de todos los valores de X caen dentro del
intervalo de  X  1 X . Se puede tener un 68,28 % de confianza en que
nuestro método de construcción de intervalo producirá un intervalo que
contendrá a  .
321,13    378,87
Este intervalo no contiene a
   X  400
c) Si Z = 2.0, entonces 95,44% de todos los valores de X caen dentro del
intervalo de  X  2 X . Por lo tanto se puede tener un 95,44% de confianza
en que nuestro método de construcción de intervalo producirá un intervalo que
contendrá a  .
292,26    407,74
Este intervalo contiene a    X  400
Se nota que un valor de Z más pequeño significa una mayor precisión en la
estimación (un intervalo más angosto), pero también implica un menor grado de
confianza en la estimación. Un valor de Z mayor quiere decir menos precisión
(un intervalo más ancho) pero implica un mayor grado de confianza.
Si de una población dada se toman repetidamente muestras aleatorias
simples de tamaño n, se encontraran muchos valores diferentes de un
estadístico muestral dado y se podrá construir muchos intervalos de
confianza diferentes; algunos de ellos contendrán el parámetro poblacional
desconocido pero otros no. El porcentaje de intervalos que se puede esperar
contengan el valor real del parámetro, cuando se utilice una y otra vez el
mismo procedimiento de construcción, se denomina Nivel de confianza.
El porcentaje de intervalos que se espera no contengan el valor real del
parámetro, se denomina Nivel de significancia (α)
2.1.1 INTERPRETACION DE LOS INTERVALOS DE CONFIANZA.
Un intervalo de confianza se puede interpretar de dos maneras diferente.
Consideremos el ejemplo 2.1 parte c; en él se tiene un nivel de significancia del
95,44%, entonces este intervalo se puede interpretar así:
1. Confía al 95,44% en que la media de salarios se encuentra entre $292.260 y
$ 407.740.
2. Si se construyen todos los intervalos de confianza posible ( n C N ), el 95,44%
de ellos incluirá el parámetro desconocido, media de los salarios.
2.3 INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL.
MUESTRAS GRANDES.
Una de las aplicaciones más corrientes de los intervalos de confianza es la de
estimar la media poblacional. Por ejemplo: La estimación del nivel medio de
producción, estimación del nivel medio de ventas trimestrales, estimación del nivel
medio salarial de una empresa.
Para la construcción del intervalo de confianza se utilizan las fórmulas:
I .C para   X  Z . X cuando se conoce 
I .C para   X  Z .S X
cuando  es desconocido.
EJEMPLO 2.2
La operadora de una central telefónica está conciente de que la población de
duración de llamadas está normalmente distribuida con una desviación
estándar de cuatro minutos. Una muestra aleatoria de 50 llamadas produce
una duración media de 9.1 minutos. Construya e interprete un intervalo de
confianza del 95% para la duración media de todas las llamadas.
SOLUCION:
  4 minutos.
n  50 llamadas
X  9,1 minutos
Nivel de confianza  95%
Se tiene una población grande, con  conocido, luego:
X 

n

4
 0,5657
50
Para un nivel de confianza del 95%; Z = 1,96
Luego
I.C Para   X  Z . X
I.C Para   9,1  (1,96) (0.5657 )
I.C Para   9.1  1,1085
Luego:
7,99    10.21
Esto quiere decir que con una confianza del 95%
se puede afirmar que la
duración media de las llamadas que entran a la central telefónica esta entre 7,99 y
10,21 minutos.
EJEMPLO 2.3
Se sabe que la población normalmente distribuida de inversiones en acciones
hechas por 75 empleados de una firma tiene una desviación estándar de 99
dólares. Una muestra aleatoria de 36 empleados demuestra una inversión media
de 736 dólares, construya e interprete un intervalo de confianza del 99,8% para la
inversión media de todos los empleados
SOLUCION:
N  75
  99
n  36
X  736
Nivel de confianza  99,8
Como la fracción de muestreo n/N es mayor del 10% se aplica el factor de
corrección para calcular  X
Luego
 
X  

 n
 99 
X  

 36 
N n
N 1
75  36
75  1
 11,98
Luego I.C para   X  Z . X el valor de Z requerido es de 3,08
Así I.C para   736  ( 3.08) (11,98)
699,1    772,9
Lo cual indica que la inversión media de los empleados de la firma en estudio está
comprendida entre 699,1 y 772,9 dólares.
EJEMPLO 2.4
En una ciudad donde hay 200 gasolineras, un economista toma una muestra
aleatoria de 50 de ellas, cuyo precio promedio de gasolina es de 5.839 pesos por
galón, con una desviación estándar muestral de 68 pesos por galón. Determine e
interprete un intervalo de confianza del 80% para el precio promedio en la ciudad,
si se supone que la distribución poblacional es normal.
SOLUCION:
N = 200 gasolineras
n= 50
X = 5.839 pesos por galón
S = 68
Nivel de confianza = 80%
Se tiene una muestra grande, con una fracción de muestreo n/N mayor del 10%,
luego se hace necesario aplicar el factor de corrección.  es desconocido.
X 
S
N n
68
.

N 1
n
50
200  50
 8,35
200  1
El valor de Z requerido es de 1,28
I .C para   X  Z .S X
Luego
I .C para   5839  (1,28) ( 8,35)
I .C para   5839  10,688
5828,31    5849,69
Esto nos indica que el precio promedio de la gasolina por galón en la ciudad esta
entre 5828,31 y 5849,69 pesos.
2.4 INTERVALOS DE CONFIANZA PARA LA MEDIA
POBLACIONALMUESTRAS PEQUEÑAS.
Existe un número infinito de situaciones prácticas donde no es posible obtener una
muestra grande, las razones sobran, incluyendo el alto costo de muestreo. Un
ejemplo común es el de las compañías de seguro que comprueban la resistencia
de los automóviles a las colisiones. Destruir 30 vehículos o más puede ser muy
costoso.
Cuando se toma una muestra pequeña (n< 30) la distribución normal puede ser
inadecuada. Es decir, cuando la muestra es pequeña y  es desconocida, no se
deberá aplicar la distribución Z. En este caso de muestras pequeñas, los errores
estándar de la media y la proporción
 X y  P se estiman solo en forma
deficiente con la ayuda de desviaciones estándar muéstrales, S y Px
Como primero lo demostró William S Gosset, cervecero inglés, que escribía bajo el
seudónimo de “student” (estudiante), en las circunstancias especificadas, se
puede derivar mejores estimaciones de intervalos si se usa una función de
densidad de probabilidad algo diferente de la curva normal.
Gosset, describió una distribución muestral para una variable aleatoria, t, derivada
de una población normalmente distribuida y definida en analogía a la desviación
normal estándar Z. Esto se ilustra en la figura 2.1
FIGURA 2.1 Comparación de la distribución Z y la distribución t
FIGURA 2.2 Familia de distribuciones t
Como la curva normal estándar, la función de densidad de probabilidad de Gosset,
ahora llamada distribución t de student, es:
1. De un solo pico sobre la media de la variable aleatoria. La media, la mediana y
la moda son cero.
2. Perfectamente simétrica alrededor de su valor central.
3. Caracterizada por colas que se extienden
indefinidamente en ambos
direcciones desde el centro y se aproximan pero nunca tocan al eje horizontal.
La única diferencia es que la variable aleatoria es t y no Z; como resultado de esto
la varianza de la distribución no es igual a 1, sino que es igual a
2 
n 1
n 3
Esta varianza de t implica que existe una distribución t diferente para cada tamaño
muestral n, y también que la distribución t se aproxima a la distribución Z
a
medida que aumenta el tamaño muestral. La distribución t para n =  tiene una
varianza igual a uno (1) y es indistinguible de la normal (véase figura 2.2).
EL valor adecuado de t se puede encontrar en la tabla 2 del apéndice. Dicha tabla
muestra el área bajo una
curva específica, definida por un número dado de
grados de libertad, que se encuentran a la derecha de un valor específico de t (df),
esta área de cola superior se denomina  y este valor de t se designa como t .
Con frecuencia los grados de libertad (df) aplicables se agregan al subíndice  ya
sea en paréntesis o después de una coma:
t ( df ) o t , df
Por ejemplo, para 10 grados de libertad y un área de cola superior
de
  0.1 , t1 (10)  1,372. En otras palabras, 0.1 del área bajo la curva t apropiada para
una muestra de n = 11 está asociada con t > 1,372.
Debido a la simetría de la curva 0.1 del área bajo esta curva también esta
asociada con
t < - 1,372. En consecuencia, 0.8 del área bajo la curva esta
asociada con valores de t entre –1,372 y
1,372; la probabilidad para dicho
valor t es igual a 0.8 . Para construir una estimación de intervalos con un nivel de
confianza de 0.8, o sea del 80% se debe usar t = 1,372. Luego los intervalos de
confianza se pueden construir con ayuda de los valores t de la tabla 2 del
apéndice así:
EJEMPLO 2.5
Una empresa de alquiler de coches está interesada en conocer el tiempo medio
que sus vehículos permanecen en el taller de reparaciones. Una muestra aleatoria
de 9 coches indicó que el pasado año el número de días que cada uno de estos
coches había permanecido fuera de servicio fue:
16
10
21
22
8
17
19
14
19
Especificando las hipótesis necesarias, calcular e interpretar intervalos de
confianza del 90% para el número medio de días que la totalidad de los vehículos
de la empresa se encuentran fuera de servicio.
SOLUCION:
Se debe suponer que la distribución de la población es normal, como un primer
paso, se tiene que hallar la media y la varianza muestral (con la ayuda de una
calculadora).
X  16,22
S X  4,79
Luego
SX 
I .C para   X  t S X
4,79
 1,5967
9
con
donde
t 0.10, 8  1,860
I .C para   16,22  (1,860) (1,5967 )
Así: I .C para   16,22  2,9696
13,25    19,19
Con un nivel de confianza del 90% se estima que,en promedio, los vehículos de la
empresa se encuentran fuera de servicio entre 13 y 19 días.
EJEMPLO 2.6
El convenio colectivo entre el sindicato de una empresa y la administración de la
misma exigía que la producción media de una sección de la fábrica se mantuviera
en 112 unidades por empleado y mes. Surgieron desacuerdos entre las partes
sobre el cumplimiento de esta norma. El convenio colectivo especificaba que si la
producción media descendía por debajo de la cantidad estipulada de  = 112,
estaba autorizada a tomar medidas correctivas. Para ahorrar costo se decidió
inspeccionar solamente 20 obreros que dieron una media de 106 unidades.
Supóngase que se halló una desviación típica de 8,5 unidades y que los niveles de
producción siguen una distribución normal ¿sugiere un intervalo de confianza del
90% que ha habido violación del convenio y que está justificado, por lo tanto,
tomar medidas correctivas?
SOLUCION:
Para un intervalo de confianza del 90% y 19 grados de libertad, el valor de t
adecuado es de 1,729. Luego:
I .C para   X  t
S
n
 8.5 

I .C para   106  (1,729) 
 20 
I .C para   106  3,29
así
102,71    109,29
Se observa que la producción media especificada en el convenio colectivo no se
encuentra en el intervalo. Se puede concluir, con un nivel de confianza del 90% de
que se está violando el convenio. Por lo tanto los directivos de la fábrica están en
su derecho de emprender acciones contra el descenso de la productividad de la
empresa.
2.5
INTERVALOS DE CONFIANZA PARA PROPORCIONES
POBLACIONALES.
Supongamos ahora que estamos interesados en la proporción de miembros de la
población que poseen un determinado atributo. Por ejemplo: una empresa quiere
saber qué proporción de clientes pagan a crédito frente a quien lo hacen de
contado o puede estar interesada en conocer el porcentaje de sus productos que
son defectuosos frente al de unidades no defectuosas. En cada uno de estos
casos solo hay dos resultados posibles.El interés se centra en la proporción de
respuestas que se clasifican en uno de estos dos resultados.
En el capítulo anterior se dedujo el error típico de la distribución muestral de
proporciones muéstrales con
parámetro
π
p 
 (1   )
n
,
esta fórmula contiene el
que se pretende estimar, por lo tanto se utiliza la proporción
muestralPx como estimador del error y se tiene S P 
Px (1  Px )
n
, así:
“Si Px es la proporción observada de éxitos en una muestra aleatoria de n
observaciones procedentes de una población con una proporción de éxito π,
entonces, si n es grande, un intervalo de confianza para del 1    % para la
proporciono poblacional viene dado por I .C para   Px  Z S p
Es decir Px  Z 
2
Px (1  Px )
Px (1  Px )
, donde la variable Z se
   Px  Z 
2
n
n
distribuye normalmente.”1
EJEMPLO 2.7
En una encuesta a 673 grandes almacenes, 521 declaraban tener problemas con
los robos de los empleados ¿se puede llegar a la conclusión, con una confianza
del 99% de que estos datos indican que el 78% de todas las tiendas tiene
dificultades similares?
1
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p253
SOLUCION:
I .C para   Px  Z S P ;
SP 
0,774 0,226 
673
I .C para P  0,774  (2,58) (0,016)
I .C para P  0,774  0,0412
0,732  P  0,815
Con una confianza del 99% se puede concluir que el 78% de todas las tiendas
tienen problemas con los robos de los empleados.
EJEMPLO 2.8
Un almacén de la ciudad quiere estimar la proporción de clientes que pagan con
tarjetas de créditos. Una muestra de 79 clientes indicó que 12 utilizaban el
plástico. Construir e interpretar el intervalo de confianza para el almacén.
SOLUCION:
Px 
SP 
12
 0,1519
79
0,1519 0,8481
79
 0,040
I .C para   Px  Z . S P
I .C para   0,15189  2,580,040 
I .C para   0,15189  0,1042
0,05    0,26
Esto quiere decir que la proporción de clientes que pagan con tarjeta de crédito
esta entre el 5% y el26%.
EJEMPLO 2.9
En una compañía de autobuses, cada mes, miles de sus autobuses llegan a cierta
terminal. Con ayuda de una muestra aleatoria de 49 autobuses, sin
remplazamiento, ha de construirse un intervalo de confianza del 99,9% para la
proporción de todos los que llegan a tiempo. La proporción muestral de llegada
exacta es de 0,64.
SOLUCION:
SP 
0,640,36  0,0686
49
Un nivel de confianza del 99,9% requiere un Z = 3,27
I .C para   Px  Z S P
Luego: I .C para   0,64  3,27 0,0686 
0,42    0,86
Con un confianza del 99.9% se puede afirmar que el porcentaje de autobuses que
llegan a tiempo a la terminal está entre 42% y 86%
Consulte las páginas:
http://www.slideshare.net/yohanabonillagutierrez/taller-intervalos-de-confianza
http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf
Resumen
INTERVALO DE CONFIANZA: Si de una población dada se toman repetidamente
muestras aleatorias de tamaño n, se encontraran muchos valores diferentes de un
estadístico muestral dado. Si a este valor se suma y se resta una cierta cantidad,
el estadístico muestral se convierte en un rango de valores entre los que
presumiblemente se puede encontrar el parámetro poblacional desconocido. A
este rango de valores se le llama intervalo de confianza.
Nivel de confianza (NC): Porcentaje de intervalos que se espera contengan el
valor real de un parámetro, cuando se utilice una y otra vez el mismo
procedimiento de construcción.
Nivel de significanciaα: Porcentaje de intervalos que se espera no contengan el
valor real de un parámetro, cuando se utilice una y otra vez el mismo
procedimiento de construcción, (α= 1-NC).
Para la construcción del intervalo de confianza para la media poblacional se
utilizan las fórmulas:
I .C para   X  Z . X cuando se conoce 
I .C para   X  Z .S X
cuando  es desconocido.
Para el cálculo cuando la muestra es pequeña, se utiliza
I .C para   X  (t ) (S X ) , Donde S X 
S
,
n
t 
X  
S
n
Para la construcción del intervalo de confianza para la proporción poblacional se
utiliza la proporción muestralPx como estimador
SP 
del error y se tiene
Px (1  Px )
N n
. Utilizando el factor de corrección .
N 1
n
cuando sea
requerido.
“Si Px es la proporción observada de éxitos en una muestra aleatoria de n
observaciones procedentes de una población con una proporción de éxito P,
entonces, si n es grande, un intervalo de confianza para del 1    % para la
proporciono poblacional viene dado por I .C para P  Px  Z S p
Es decir Px  Z 
2
Px (1  Px )
Px (1  Px )
, donde la variable Z se
   Px  Z 
2
n
n
distribuye normalmente.”2
2
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p253
Taller 2
1. Una muestra de 155 usuarios del tren suburbano emplean en este medio de
transporte una hora y 37 minutos en promedio, con una desviación típica de
42 minutos. ¿Cuál es el intervalo del 90% para el tiempo medio de todos los
usuarios?
2. El propietario de una pequeña empresa desea estimar el tiempo medio
necesario para realizar una tarea determinada. Tiene que asegurarse al 90%
de confianza de que
el error es inferior a 0.5 minutos. Se sabe que la
desviación típica es de 3.2 minutos. ¿Cuántas observaciones de tiempos de
ejecución tiene que hacer?
 Z 
n

 e 
2
3. El director de una tienda de animales de compañía está preocupado por el
aumento del número de cachorros que enferman antes de ser vendidos. De 53
cachorros estudiados, 35 mostraban algún signo de
problema sanitario.
Elaborar e interpretar el intervalo del 95%
4. En la calificación de su eficacia, 312 empleados recibieron una puntuación
media del 73,9 con s = 15.6. Si un intervalo de confianza del 95% indica que la
media de todos los empleados
es menor que 65, la dirección pretende
implantar un nuevo programa de formación. Calcular e interpretar el intervalo
correcto. ¿Se llevará a cabo el programa?
5. Suponga que como experto en control de calidad quiere estimar el espesor
medio de las lentes ópticas fabricadas por su empresa. Una muestra de 120
lentes da una media de 0.52mm .Se sabe que la desviación típica de la
población es de 0,17mm. Usted piensa que puede arriesgarse a una
probabilidad de error de sólo el 1%. Construya el intervalo de confianza
adecuado.
6. Un proceso produce bolsas de azúcar refinada. El peso del contenido de estas
bolsas tienen una distribución normal con desviación típica 15gr. Los
contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de
100gr. Calcular un intervalo de confianza del 95% para el verdadero peso
medio de todas las bolsas de azúcar producidas por el proceso.
7. Una muestra aleatoria de 10 autos americano de un determinado modelo
consumen las siguientes cantidades en kilómetros por litro.
17,9
19,8
18,6
18,4
19,2
20,8 19,4
20,5
21,4 20,6
Calcular un intervalo de confianza del 90% para el consumo de gasolina medio
poblacional de los automóviles de este modelo, suponiendo que la distribución
de la población es normal.
8. De una muestra aleatoria de 95 pequeñas empresas fabricantes, 29 señalaron
las mejoras en la calidad como la más importante iniciativa para incrementar la
competitividad de sus productos.
a) Calcular un intervalo de confianza del 99% para la proporción poblacional
b) Sin hacer los cálculos, determinar si un intervalo de confianza del 90%
tendrá una longitud mayor, menor o igual a la del intervalo calculado en la
parte a).
9. De una muestra aleatoria de 198 estudiantes de marketing, 98 consideraron
como poco ético “inflar” las calificaciones académicas. Utilizando esta
información, un experto en estadística calculó un intervalo de confianza de
0,435 a 0,554
para la proporción poblacional. ¿Cuál es el contenido
probabilístico de dicho intervalo?
10. Un ingeniero de control de calidad está inspeccionando la maquinaria que se
supone verterá 20 onzas de detergente liquido en un recipiente. Una muestra
de 12 recipientes deja ver que la cantidad media dosificada es de 18,9 onzas,
siendo la desviación estándar de 3.1 onzas. Construya un intervalo de
confianza del 90% para la cantidad media dosificada por la maquinaria,
suponiendo que dichas cantidades están normalmente distribuidas. ¿funciona
bien la maquinaria?
11. Al muestrear en forma aleatoria 60 de los 900 empleados de la compañía, el
gerente de personal encuentra que un 25% prefieren el plan recientemente
propuesto de trabajar sólo cuatro días de la semana, pero más horas cada día.
Construya un intervalo de confianza para la proporción de todos los empleados
que nose inclinaron por la propuesta.
12. En una muestra aleatoria de 100 familias, se encuentra que 59 prefieren la
marca “KEMA” de un determinado producto. Construya un intervalo de
confianza del 98% para la proporción de todas las familias con esa preferencia.
13. “In a simple random sample of 500 employees, 160 preferred to take training
classes in the morning rather than in the afternoon. Construct a 95% C.I. on the
true proportion of employees who favor morning training classes
14. Human beings vary in the time it takes them to respond to driving hazards. In
one experiment in which 100 healthy adults between age 21 and 30 years were
subjected to a certain driving hazard, and the sample variance of the observed
times it took them to respond was 0.0196 second squared. Assuming that the
times to respond are normally distributed, estimate the variability in the time
response of the given age group using a 95% C.I
15. Suppose you want to estimate the average weight of chickens in a laboratory.
You like to be 95% certain that the error is at most 0.1lbs. How many chickens
you should include in your sample?
16. A certain change in a manufacturing procedure for component parts is being
considered. Samples are taken using the existing procedure and the new one.
If 75 items out of 1500 items, from the existing procedure, were found to be
defective, while 80 items out of 2000 items for the new procedure were found
defective. Find a 90% confidence interval for the true difference in the fraction
defective between the existing and the new procedures.”3
3
Mohammed A. Shayib, Applied Statistics, bookboon.com, 2013 p129,133,135, 154
Evaluación
Con base en la información responda las preguntas 1 y 2
“La calificación que obtienen los vendedores de una firma comercial en una
prueba de aptitud, sigue una distribución normal. Se extrae una muestra de 25
25
calificaciones que dan lugar a los siguientes estadísticos:
x
i 1
25
x
i 1
2
i
i
 1.508
 95.628 ”4
1. La varianza muestral estará dada por:
A.
95.628  1508
25
(1508) 2
25
25
B.
95.628 
C.
4
95.628  1508
24
(1508) 2
25
24
95.628 
D.
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p52
2. Un intervalo de confianza del 90% para la media tendrá:
1. una longitud mayor que uno del 80%
2. una longitud menor que uno del 80%
3. una longitud igual que uno del 95%
4. una longitud mayor que uno del 95%
3. Un proceso produce bolsas de azúcar refinado. El peso del contenido sigue
una distribución normal con desviación típica 15 gramos. Los contenidos de
una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gramos.
El intervalo de confianza del 95% para el verdadero peso medio de todas
las bolsas de azúcar producidas por el proceso está dado por:
A. 95,05    104,95
B. 94,12    105,88
C. 99,01    100,99
D. 98,82    101,18
4. “Como parte de un estudio de mercado, en una muestra de 125personas se
encontró que 84 de ellas tenían conocimiento de cierto producto” 5 . El
intervalo de confianza del 90% para la proporción de personas de la
población que tienen conocimiento del producto, tiene respectivamente los
siguientes limites inferior y superior:
A. 0,589 y 0,754
B. 0,602 y 0,741
C. 0,589 y 0,602
D. 0,602 y 0,754
HILDEBRAND Y OTT. Estadística aplicada a la administración y a la Economía. U.S.A, Addison – Wesley
Iberoamericana 1997, p307.
5
PRESENTACION
“Cuando se extrae una muestra aleatoria, de una población, la evidencia obtenida
puede usarse para realizar inferencia sobre las características de la población.
Como hemos visto, una posibilidad es estimar los parámetros desconocidos de la
población mediante el cálculo de estimadores puntuales o intervalos de confianza.
Alternativamente, la información muestral puede emplearse para verificar la
validez de una conjetura o hipótesis, que se haya formulado sobre la población”.6
.
PREGUNTA PROBLEMA
¿Son las pruebas de hipótesis una herramienta fundamental en la toma de
decisiones en la empresa?
COMPETENCIAS ESPECÍFICAS
6
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p281
1. Formula y contrastar hipótesis para la media poblacional, para situaciones
específicas de la empresa.
2. Formula y contrasta hipótesis para una proporción poblacional.
3. Identifica cuando una hipótesis es unilateral o bilateral.
4. Formular y contrastar hipótesis para la diferencia de medias dos poblaciones.
SABERES

Concepto del contraste de hipótesis.

Prueba de hipótesis para la media poblacional

Prueba de hipótesis para la proporción poblacional

Prueba de hipótesis para la diferencia de dos medias poblacionales
DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO
ACTIVIDAD PREVIA (Trabajo Individual)
De las siguientes afirmaciones, ¿cuáles son verdaderas y cuáles falsas?
1. En un sistema de hipótesis, la hipótesis nula es la que se contrasta.
2. La hipótesis nula siempre es aceptada.
3. Si la hipótesis nula se acepta, entonces la alternativa también es válida.
4. La expresión X c  X  Z X se puede utilizar para calcular el valor crítico en
una prueba unilateral de cola derecha para la media poblacional.
5. En una prueba bilateral, se puede rechazar la hipótesis nula si la media
muestral resulta mayor que el valor critico calculado.
6. El procedimiento para contrastar hipótesis para la proporción poblacional,
es el mismo utilizado en el contraste de hipótesis para la media.
7. Se puede realizar contraste de hipótesis para comparar dos medias
poblacionales.
8. En algunos problemas de contraste de hipótesis se requiere el uso del
factor de corrección
ACTIVIDAD GRUPAL
1. Socialice
los
resultados
obtenidos
individualmente
y
escriba
sus
conclusiones al respecto.
2. Indique los criterios que se deben tener en cuenta para aplicar una prueba t
o una prueba Z.
3. Indique los criterios que se deben tener en cuenta para determinar si una
prueba de hipótesis es bilateral o unilateral.
4. Haga un listado de las dudas e inquietudes presentadas en la socialización de
las actividades anteriores.
SABERES Y ACTIVIDADES
3. CONTRASTE DE HIPOTESIS
3.1 CONCEPTO DEL CONTRASTE DE HIPOTESIS
Veamos el concepto con base en algunos ejemplos ilustrativos:
1. Un fabricante de
baterías podría afirmar que la duración promedio de las
baterías tipo A es de 150 horas.
2. Una compañía recibe un gran cargamento de piezas. Sólo puede aceptar el
envío si no hay más de un 5% de piezas defectuosas. La decisión de aceptar o
no el envío se puede basar en el análisis de una muestra aleatoria de piezas.
3. Un fabricante de detergentes afirma que, en promedio, el contenido de cada
bolsa pesa al menos 500 gramos, Para verificar esta afirmación, se pesa el
contenido de una muestra aleatoria y se infiere el resultado a partir de los datos
muéstrales.
4. Una factoría puede afirmar que la producción de la máquina A contiene menos
unidades defectuosas que los de la máquina B, para verificar esta afirmación
no es necesario revisar toda la producción de las dos máquinas, basta con
tomar muestras aleatorias en ambas y hacer la inferencia a toda la producción.
De estos ejemplos se concluye que la hipótesis se formula sobre la población, y
las conclusiones sobre la validez de esta hipótesis se basa en la información
muestral. La hipótesis que se contrasta se llama Hipótesis nula (Ho) y con la que
se contrasta,
hipótesis alternativa (Ha). Después, a partir de los resultados
obtenidos en una muestra, o bien rechazamos la hipótesis nula y se acepta como
verdadera la alternativa, o bien, aceptamos la hipótesis nula y se supone que la
alternativa es falsa. El hecho de no rechazar la hipótesis nula no implica que esta
sea correcta, significa simplemente que los datos de la muestra no son suficientes
para inducir el rechazo.
3.2 FORMULACION DE DOS HIPOTESIS OPUESTAS
“Una hipótesis, nula o alternativa, puede designar un único valor, llamado  0 , para
el parámetro poblacional  . En este caso se dice que la hipótesis es simple. La
notación simbólica para una hipótesis de este tipo es
H 0 :   0
Que se lee “La hipótesis nula es que el parámetro poblacional  es igual al valor
específico  0 ”7. La hipótesis alternativa es H A :    0 .
7
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p282
La situación descrita en (1) es un ejemplo de este tipo, aquí el fabricante afirma
que la duración promedio de las baterías tipo A que él fabrica es de 150 horas.
H0 :   150
H A :   150
La hipótesis alternativa en cada caso sugiere que el promedio es mayor o menor
que 0 ; Siempre que una hipótesis alternativa contenga desviaciones desde la
hipótesis nula en cualquier dirección se denomina HIPOTESIS DE DOS COLAS.
Este tipo de hipótesis se establece cuando la precisión es de gran importancia y
las desviaciones en cualquier dirección son inaceptables por igual.
“Una hipótesis también puede designar un rango de valores para el parámetro
poblacional desconocido. Una hipótesis de este tipo se denomina compuesta y
será cierta para más de un valor del parámetro poblacional.”8 Un ejemplo de este
caso es la situación (3) descrita por el fabricante de detergentes donde afirma que
en promedio el contenido de cada bolsa pesa al menos 500 gramos, aquí la
hipótesis nula se puede escribir así:
H 0 :   0 ,
especifica mente
H 0 :   500 gr
H A :   500 gr
8
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p282
Si en cambio el fabricante asegura que las bolsas de detergentes contienen una
media de más de 500 gramos, entonces el sistema queda así:
H 0 :   500
H A :   500
Se nota que en cualquiera de los sistemas planteados, la hipótesis alternativa se
indica siempre como inexacta, la nula puede ser indicada como  ,  ,  . En todo
caso se acostumbra que la H0 contenga el signo de igualdad.
En el sistema:
H 0 :   0
, la hipótesis nula dice que el parámetro es mayor o
H A :   0
igual que un valor específico, en tanto que en la alternativa dice que es menor que
ese valor, este sistema de hipótesis se plantea cuando algo puede ser con
seguridad mayor que un cierto valor, pero donde valores menores serían
inaceptables. Por ejemplo, si de una batería se garantiza que tendría una duración
de 100 horas, nadie se preocupará si dura más; pero la alternativa de que dure
menos podría ser verdad y exigiría una acción correctiva rápida.
En el sistema
H 0 :   0
, la hipótesis nula dice que el parámetro es menor o
H A :   0
igual que un valor específico, en tanto que la alternativa dice que es mayor que
ese valor. La hipótesis alternativa sugiere que el promedio es mayor que 0 . Este
tipo de hipótesis se establece cuando algo puede ser con seguridad menor o igual
que un cierto valor, pero donde valores mayores serían inaceptables, por ejemplo,
si se considera la hipótesis nula “el tiempo promedio de entrega de una compañía
de transporte es igual o menor que tres días”, nadie se quejaría si es menor, pero
si es mayor sería causa de alarma.
El sistema de hipótesis sobre el valor de una media poblacional  , se indica por lo
general en una de estas tres formas con referencia a un valor específico 0 .
FORMA 1
FORMA 2
FORMA 3
H 0 :   0
H A :   0
H 0 :   0
H A :   0
H 0 :   0
H A :   0
Puede darse el caso que se necesite comparar entre si dos poblaciones
separadas, como por ejemplo: la duración comparativa de dos productos, la
fiabilidad relativa de dos procesos de fabricación o el nivel de eficacia de dos
esquemas publicitarios. Las hipótesis opuestas sobre la diferencia entre dos
medias poblacionales  A y B se indican del mismo modo señalado.
FORMA 1
FORMA 2
FORMA 3
H 0 :  A  B
H A :  A  B
H 0 :  A  B
H A :  A  B
H 0 :  A  B
H A :  A  B
Por lo tanto, la hipótesis nula puede decir, forma 1, que dos medias poblacionales
son las mismas, por ejemplo, que la duración promedio de dos tipos de llantas son
idénticas. O puede decir forma 2, que una media poblacional es mayor o igual que
otra, por ejemplo que los sueldos promedios de la industria de la construcción en
Bogotá son al menos iguales pero posiblemente mayores que los de Barranquilla.
O puede decir forma 3, que una media poblacional es menor o igual que otra, por
ejemplo que la producción promedio de la fábrica A es al menos igual o
posiblemente menor que la producción en la fábrica B.
Las hipótesis sobre una proporción de la población , tal como la proporción de
unidades defectuosas producidas en un proceso, se formulan de una manera
análoga a aquellas sobre una media poblacional, simplemente
 por
se sustituye
, dejando todo lo demás sin cambios, incluyendo las hipótesis sobre la
diferencia entre las proporciones de la población.
3.3 SELECCIÓN DE UN ESTADISTICO DE PRUEBA.
Después de haber diseñado el sistema de hipótesis adecuado, el segundo paso
para contrastarla es la selección de un estadístico de prueba.
Un ESTADÍSTICO DE PRUEBA es aquel valor calculado a partir de los
datos muéstrales en una prueba de hipótesis para establecer si se rechaza
o no se rechaza la hipótesis nula.
Cada estadístico muestral tiene una distribución muestral propia que puede
aproximarse muchas veces por la distribución normal para muestras grandes, o
por una distribución t de student para muestras pequeñas. Es así como el
estadístico de prueba se puede convertir en un valor Z o un valor t al dividir la
diferencia entre el estadístico muestral y el valor extremo del parámetro
poblacional postulado en la hipótesis nula entre el error estándar del estadístico
muestral.
Z
x  0
X
Para una media poblacional Muestras grandes
t 
Z 
X  0
Para una media poblacional Muestras pequeñas
SX
Px  
P
Para una proporción de la población
3.4 DERIVACION DE UNA REGLA DE DECISIÓN
Una vez establecido el sistema de hipótesis y el estadístico de prueba adecuado,
se debe determinar una regla de decisión que nos indique si se rechaza o no la
hipótesis nula. Esta regla de decisión especifica un valor del estadístico
tan
diferente del valor del parámetro contenido en la hipótesis, que excluya atribuir la
diferencia al error muestral.
Supóngase que se desea contrastar la hipótesis para la situación planteada en (1).
“Un fabricante de baterías afirma que la duración promedio de las baterías tipo A
es de 150 horas”
H0 :   150 ;
H A :   150
En este caso, la regla de decisión específica valores críticos de la media muestral
X C , demasiado alejados por encima o por debajo de 150 para permitir suponer
que  = 150. Si se contrasta la hipótesis nula al nivel de significancia del 5%, se
deben encontrar valores críticos de la media muestral por encima o por debajo del
valor hipotético  = 150 que enmarque el 95% del área comprendida bajo la
curva normal. El 5% restante se divide por igual en dos colas, como se muestra en
la figura 3.1.
FIGURA 3.1 Contraste de hipótesis al 95%
Los valores de X comprendidos en el intervalo del 95% son lo bastante cercanos
al valor hipotético de 150 para que se pueda atribuir la diferencia al error muestral.
Esta diferencia se dice que es insignificante estadísticamente al nivel del 5% y se
puede explicar por la fluctuación aleatoria de la muestra. Por consiguiente, no se
rechaza la hipótesis nula.
Si el valor obtenido para X se sitúa más allá de esos valores críticos en una u
otra cola, se rechaza la hipótesis nula de que  = 150. Estos valores críticos se
determinan con la siguiente formula
Donde:
H
SX 
Valor hipotético de la media poblacional
S
S
ó SX 
n
n
N n
Error típico de la distribución muestral.
N 1
A partir de estos valores se formula la regla de decisión
REGLA DE DECISIÓN: La regla de decisión es un enunciado que se
emite para determinar si se rechaza o no la hipótesis nula. Específica el
valor crítico de los resultados muéstrales.
3.5 PRUEBA DE HPOTESIS PARA UNA MEDIA POBLACIONAL.
Son muchos los casos en que interesa contrastar una hipótesis en relación con el
valor de una media poblacional, entre los cuales se pueden citar:

Un proceso industrial produce partes metálicas de una longitud promedio de
0 = 5 pulgadas, perfora orificios con un diámetro promedio de 1,2 pulgadas o
hace mangas de camisa de un largo promedio de 33 pulgadas.

La cantidad promedio de detergente puesto en una caja por una máquina
llenadora es igual o excede de 0 = 1 libra.

El promedio de resistencia a la ruptura de cierto tipo de cable es al menos
5000 libras.

El tiempo promedio de entrega de una compañía de transporte es igual o
menor de 0 = 3 días

El tiempo promedio de secado de una pintura es a lo más de 4 horas.

Algunos funcionarios de la administración pueden estar interesados en conocer
la renta media de los contribuyentes de un municipio determinado.
En definitiva, un gran número de decisiones empresariales, se toman a partir de la
media poblacional. Si se pueden recopilar datos en relación con este parámetro,
las decisiones serían más fiables y es probable que produzcan resultados
favorables. En todo caso para llevar a cabo el contraste de una hipótesis nula es
necesario agotar las siguientes cuatro fases:
Fase 1: Formular las hipótesis
Fase 2: Calcular el valor crítico
Fase 3: Formular la regla de decisiónpara decidir si se acepta o rechaza la
hipótesis nula
Fase 4: Exponer la conclusión en relación con la aceptación o el rechazo de la
hipótesis nula y cualquier otra interpretación que pudiera derivarse de dicha
conclusión.
Esto se ilustra en las siguientes situaciones.
EJEMPLO 3.1
Un convenio trabajadores- dirección de una fábrica, exige una producción media
diaria de 50 unidades. Una muestra de 150 días revela una media de
47,3unidades con una desviación típica de 5,7 unidades. Poner  = 5% y
determinar si se cumple esta cláusula del contrato.
SOLUCIÓN:
Fase 1: Formulación de las hipótesis
Como el convenio exige una producción media de 50 unidades, el sistema de
hipótesis se establece así:
H 0 :   50
H A :   50
Se trata de una prueba bilateral, puesto que la hipótesis nula puede ser rechazada
si los resultados de la muestra están muy por encima o por debajo de 50. Aparece
una región de rechazo en cada una de las colas de la distribución.
Fase 2: Cálculo del valor crítico
Para encontrar el valor crítico se debe empezar por encontrar el valor de Z
adecuado, según el nivel de significancia seleccionado. Para el ejemplo, se divide
el nivel de confianza entre dos, es decir, 0,95/ 2 = 0,475, que corresponde a un
valor Z = 1,96.

5,7
 0,465
150
Además:
X 
Luego:
X C   H  Z X
n

X C  50  1,96(0,465)
X C  50  0,911
49,1 - - - - - - - - -
50.91
Fase 3 Regla de decisión:
No rechazar H 0 si X está comprendida entre 49,1 y 50,91. Rechazar
H 0 si X
es menor que 49,1 o mayor que 50,91. Esto se ilustra en la figura 3,2
FIGURA 3.2
Fase 4: Conclusión
Una X de 47,3 está en la región de rechazo demasiado alejado de H  50 .
Debe rechazarse la hipótesis nula lo que indica que no se está cumpliendo la
cláusula del contrato.
EJEMPLO 3.2
Una compañía láctea utiliza una máquina para llenar sus latas de kumis de 18
onzas. Si la máquina funciona mal, tiene que ser ajustada. Se elige una muestra
de 50 latas, que dan una media de 18,9 onzas, con una desviación típica de 4,7
onzas. Si se admite un error del 5%. ¿Deberá reajustarse la máquina?
SOLUCION:
Fase 1: Formulación de la hipótesis
Como el llenado debe ser de 18 onzas, el sistema de hipótesis conveniente es:
H 0 :  18
H A :  18
Nuevamente se trata de una prueba bilateral dado que la hipótesis nula puede ser
rechazada si los resultados de la muestra están muy por encima o por debajo de
18 onzas.
Fase 2: Cálculo del valor crítico
El valor de Z se encuentra de forma análoga al ejemplo 3.1 y Z = 1,96
SX

S
4,7

0,665
n
50
X C  H  ZS X
X C  18  (1,96) (0,665)
X C  18  1,3
16,7 - - - - - - - 19,3
Fase 3: Regla de decisión
Aceptar H0 si X está comprendido entre 16,7 y 19,3. Rechazar H0 si X
es
menor que 16,7 o mayor que 19,3; esto se ilustra en la figura 3.3.
FIGURA 3.3
Fase 4: Conclusión
Una X de 18,9
está en la zona de aceptación. Por lo tanto no se rechaza la
hipótesis nula; es decir no existe suficiente evidencia para rechazar la hipótesis
nula. Luego se puede concluir que no es necesario ajustar la máquina.
EJEMPLO 3.3
El departamento de policía de una ciudad de la costa ha encontrado que los
agentes de tráfico deben imponer una media de 27 multas de tránsito al mes. Si
un agente impone más de estas multas, quizás sea demasiado celoso en el
cumplimiento de su deber. Si entrega menos multas puede que el agente no esté
haciendo un buen trabajo. Para evaluar a sus agentes, el jefe de policía anotó el
número de multas
impuestas por 15 agentes. Los resultados se muestran a
continuación. Al nivel del 5% ¿le parece que la fuerza policial cumple
satisfactoriamente su cometido?
28
33
2534
22
3130
32 3131 38
2429
26
25
SOLUCION:
El problema plantea que los agentes deben imponer una media de 27 multas, ni
más ni menos, entonces el sistema de hipótesis se establece así:
H 0 :   27
H A :   27
Se trata de una prueba bilateral, dado que la hipótesis nula puede ser rechazada,
si los resultados de la muestra están muy por encima o por debajo de 27. Como
sólo se dispone de datos originales, se hace necesario determinar la media y la
desviación típica muestral. Los cálculos indican que:
X  29,27
S  4,3
S
4,3
SX 

 1,11
n
15
Dado que la muestra es pequeña el estadístico a utilizar es la prueba t de student,
como n = 15, con una nivel de confianza del 95% y 15 - 1 = 14 grados de libertad,
el valor de t es 2,145
X C  H  t S X
Así:
X C  27  (2,145) (1,11)
X C  27  2,38
24,62 --------------29,38
No rechazar la hipótesis nula si la media muestral está entre 24,62 y 29,38 multas.
Rechazar la hipótesis nula si la media muestral es inferior a 24,62 o superior a
29,38.Ver figura 3.4
FIGURA 3.4
Como la media muestral es de29,27 no se debe rechazar la hipótesis nula de 
=27 y se concluye que la fuerza policial cumple satisfactoriamente su cometido.
OBSERVACIONES
1. Si la desviación típica de la población es conocida, se utilizará la prueba z, con
independencia del tamaño de la muestra, siempre que la población sea normal.
2. Aplicar una prueba t si se cumplen las condiciones siguientes:
a. La muestra es pequeña ( n < 30)
b. Se sabe que la población es normal.
c.  es desconocida.
3. Si no se sabe si la población es normal, aplicar una prueba NO
PARAMETRICA, sea  conocida o desconocida.
EJEMPLO 3.4
Como parte de un proceso de ensamblaje, se usa un taladro para hacer agujeros
en una lámina de metal. Cuando el taladro funciona adecuadamente, los
diámetros de estos agujeros tienen una distribución normal con media 2
centímetros y desviación típica 0,06 centímetros. Periódicamente se miden los
diámetros de una muestra aleatoria de agujeros para controlar que el taladro
funciona adecuadamente. Asuma que la desviación típica no varía. Una muestra
aleatoria de 9 medidas da un diámetro medio de 1,95 centímetros. Contrastar la
hipótesis nula de que la media poblacional es de dos centímetros.
SOLUCIÓN:
A pesar de que el tamaño de la muestra se puede considerar pequeño, el
estadístico de prueba a usar es Z dado que se conoce la desviación típica
poblacional. Se tiene que:
X  1,95
0  2
  0,06
X 

n

n 9
  0,05
0,06
 0,02
9
El sistema de hipótesis a contrastar es:
H0 :   2
HA :   2
Los valores críticos están dados por
X C   H  Z X
X C  2  (1,96) ( 0,02)
X C  2  0,0392
1,96 ------------- 2,039
Aceptar H 0 si X está comprendida entre 1,96 y 2,039. Rechazar H 0 si X es
menor que 1.93 o mayor que 2,039. Ver figura 3.5
FIGURA 3.5
Como X = 1,95 < 1,96 se rechaza la hipótesis nula y por lo tanto se concluye que
la media poblacional no es de dos centímetros y que el taladro no funciona
correctamente.
Hasta ahora sólo se han considerado situaciones que conducen a hipótesis
bilaterales puesto que la media poblacional era exactamente igual a un
determinado valor específico, originándose regiones de rechazo a ambos lados de
la curva. Pero también se puede presentar problemas en que interese uno sólo de
los extremos. Si este es el caso, entonces se originan los sistemas de hipótesis
unilaterales como los tratados al inicio del capítulo. La decisión de cuál de las dos
colas es la que debe contener la región de rechazo es algo delicado y depende
única y exclusivamente del problema en estudio.
Para determinar la manera de identificar y abordar pruebas unilaterales es crucial
determinar qué sistema de hipótesis es el correcto. En primer lugar se observa
que el signo igual aparece en la hipótesis nula de ambos sistemas; esto es:
Sistema 2
H 0 :   0
Sistema 3
H 0 :   0
H A :   0
H A :   0
Esto es así porque se considera que con la hipótesis nula se contrasta la
“Ausencia de diferencia”, es decir, la hipótesis nula implica que el valor real del
parámetro no difiere de forma significativa de su valor hipotético.
Otra explicación de por qué la hipótesis nula debe contener el signo igual se basa
en que lo que se contrasta es la hipótesis nula, no la alternativa; además se
contrasta a un nivel de significancia concreto, no se puede contrastar
la
  H
a un nivel de significancia especifico, por ejemplo
1%. La desigualdad    H
es ambiguo por que no dice el valor preciso de  .
afirmación ambigua
Por consiguiente, para que la hipótesis nula se pueda contrastar a un nivel de
significancia específico ha de contener la precisión que le proporciona el signo
igual.
Para determinar el sistema de hipótesis adecuado se debe prestar atención a la
formulación del problema como se muestra en los siguientes ejemplos.
EJEMPLO 3.5
Supóngase que en el ejemplo 3.2 la compañía láctea afirma que las latas de
kumis contienen una media de más de 18 onzas, Si se interpreta correctamente,
ello significa que   18 , como ésta desigualdad no contiene el signo igual, ha de
ser la hipótesis alternativa; mientras que la hipótesis nula será   18 . Luego el
sistema de hipótesis se puede formular así:
H0 :   18
H A :   18
Pero si la compañía láctea hubiera afirmado que las latas de kumis contienen una
media de 18 onzas o más, la interpretación correcta sería
 18 , como esta
desigualdad contiene el signo igual se convierte en la hipótesis nula y el sistema
de hipótesis pasaría a ser:
H 0 :   18
H A :   18
Una vez establecido el sistema de hipótesis adecuado, es conveniente determinar
en qué extremo de la curva se encuentra la región de rechazo. Para ello basta con
responder la pregunta ¿
Qué provocará el rechazo de la hipótesis nula?
Considérese el sistema de hipótesis:
H 0 :   18
HA :
  18
Escrita de esta forma, la hipótesis nula no permite utilizar valores pequeños para
la media. Establece claramente que la media es igual o menor que 18 onzas. Los
valores menores que 18, apoyarán y no refutarán la hipótesis nula. Los resultados
a la izquierda de 18 confirmarán la hipótesis nula de que  es igual o menor que
18. Así pues, son sólo valores superiores a 18 los que dan lugar al rechazo de la
hipótesis nula. Por lo tanto, la región de rechazo se encuentra en el extremo
derecho o superior de la distribución. Esta prueba de cola a la derecha se ilustra
en la figura 3.6.
FIGURA 3.6
El valor crítico de la media muestral que marca una diferencia significativa con 
hipotética limita la región de rechazo en la cola derecha. La fórmula de este valor
crítico en una prueba de cola a la derecha es:
En el caso de que la compañía láctea hubiera indicado que la media fuera 18 o
más. El sistema de hipótesis sería entonces:
H0 : 
HA : 
 18
 18
Para determinar que extremo de la curva es el que contiene la región de rechazo
habrá que volver a contestar la pregunta ¿Qué podría causar el rechazo de la
hipótesis nula? Tal como se ha indicado, la hipótesis nula admite que existen
valores grandes de la media muestral mayores de 18 que apoyarán y no refutarán
la hipótesis nula. Así pues, son los valores significativamente inferiores a 18 los
que provocarían un rechazo de la hipótesis nula. La región de rechazo estará
solamente en el extremo inferior o izquierdo de la distribución. Esta prueba de
cola a la izquierda se muestra en la figura 3.7
FIGURA 3.7
El valor crítico de la media muestral que marca una diferencia significativa con la
 hipotética, limita la región de rechazo en la cola izquierda. La fórmula de este
valor crítico es:
OBSERVACIONES
Es bueno recordar que para rechazar una prueba unilateral se deben tener en
cuenta las siguientes recomendaciones:
1. Si la interpretación correcta de la formulación tiene el signo igual, esta es la
hipótesis nula; si no contiene el signo igual, es la hipótesis alternativa.
2. La cola que contiene la región de rechazo viene indicada por el símbolo de
desigualdad de la hipótesis alternativa.
EJEMPLO 3.6
Un concesionario de autos afirma que los propietarios de sus coches usados
pueden recorrer una media de 10.000 millas como mínimo sin necesidad de
ninguna reparación. Con objeto de determinar el grado de honestidad del gerente
se eligen 100 clientes y se halla que recorrieron una media de 9.112 millas sin
reparación, con una desviación estándar de 207 millas. Se quiere estar seguro al
99% de que el gerente no miente. ¿Cómo podría contrastar su afirmación?
SOLUCIÓN
Como la media de 10.000 millas como mínimo se puede escribir
  10.000 y
esta desigualdad contiene el signo de igualdad, se convierte en la hipótesis nula,
luego el sistema de hipótesis adecuado es:
H 0 :   10.000
H A :   10.000
Según la hipótesis alternativa se requiere una prueba de cola a la izquierda. El
valor crítico es entonces:
X C  H  Z S X
SX
El valor de Z es 0,5 – 0,01 =

;
 H  10.000
S
207

 20,7
n
100
0,4900
al buscar este valor en la tabla 1 del
apéndice da un valor de 2,33 luego:
XC
 10.000  ( 2,33) ( 20,7)
X C  10.000  48,23
X C  9.952
millas
No rechazar la hipótesis nula si la media muestral es superior a 9.952 millas.
Rechazar la hipótesis nula si la media muestral es inferior a 9.952 millas. Ver
figura 3.8
FIGURA 3.8
Como X = 9.112
es menor que 9.952 rechazamos la hipótesis nula. Lo que
nos indica que la afirmación no es cierta. Por tanto el gerente del concesionario
está mintiendo.
EJEMPLO 3.7
Si en el ejemplo anterior el gerente en cambio de afirmar que los clientes pueden
recorrer 10.000 millas como mínimo, afirma que pueden recorrer más de 10.000
millas por término medio; con la demás información del ejemplo 3.6 y el mismo
nivel de significancia contraste la hipótesis
para probar la honestidad del
empresario.
SOLUCIÓN:
Más de 10.000 millas por término medio se pueden expresar con la siguiente
desigualdad
  10.000 que representa la hipótesis alternativa, el sistema de
hipótesis es entonces:
H 0 :   10.000
H A :   10.000
Ahora la prueba es de cola a la derecha (Ver figura 3.9). Se tiene que:
n  100
Luego:
X  9.112
S  207
S X  20,7
  1%
X C  H  Z S X
XC
 10.000  ( 2,33) ( 20,7)
X C  10.000  48,23
X C  10.048,2
millas
FIGURA 3.9
No rechazar la hipótesis nula si la media muestral es menor que 10.048,2 millas.
Rechazar la hipótesis nula si la media muestral es superior a 10.048,2 millas.
Como X =9.112 es menor que 10.048, no se rechaza la hipótesis nula de
  10.000 . Se rechaza la afirmación del gerente de que   10.000 ,
confirmándose la deshonestidad del empresario.
EJEMPLO 3.8
Un Fabricante de detergentes afirma que el contenido de los paquetes que vende
pesa, por término medio, al menos 200 gramos. Se sabe que la distribución de los
pesos es normal, con desviación típica de 4 gramos. Una muestra aleatoria de 16
paquetes da un peso medio de 198,4 gramos. Con un nivel de significancia del
10% ¿Tiene razón el fabricante?
SOLUCION:
A pesar de que la muestra es pequeña, se puede utilizar como estadístico de
prueba Z dado que la distribución es normal y se conoce la desviación típica
poblacional.
X  198,4
  4 grs
x 

n
  10%

n  16
4
 1
16
La afirmación “al menos 200 gramos” se puede expresar en el lenguaje de las
desigualdades así:
  200 que es la hipótesis nula, luego el sistema queda:
H 0 :   200
H A :   200
De la hipótesis alternativa se deduce que es una prueba de cola a la izquierda
(Ver figura 3.10), por tanto, el valor crítico se encuentra utilizando la fórmula
X C   H  Z X
X C  200  (1,28) (1)
X C  200  1,28
X C  198,72
FIGURA 3.10
Como 198,4 es menor que 198,6 se rechaza la hipótesis nula de que   200 y en
consecuencia se puede decir que el fabricante no tiene la razón.
Cuando no se dispone de muestras grandes y se sabe que la distribución es
normal y se desconoce la desviación típica poblacional, hay que utilizar la prueba t
de student. La fórmula de X C se convierte en
X C  H  t S X
Pr ueba de cola a la derecha
X C  H  t S X
Pr ueba de cola a la izquierda
Esto se ilustra en los siguientes ejemplos:
EJEMPLO 3.9
Una compañía que recibe cargamento de pilas tiene como política aceptar el envío
si el tiempo medio de vida de las pilas del cargamento es como mínimo de 50
horas. Para un cargamento en particular, el tiempo medio de vida en una muestra
aleatoria de 9 pilas fue de 48,2 horas con una desviación típica de 3 horas, si se
considera un nivel de significancia del 5% qué se podría decir de la aceptación de
este lote.
SOLUCIÓN:
Aquí se tiene una muestra pequeña, por lo que el estadístico t es el adecuado. La
frase “como mínimo 50 horas” se puede escribir
  50 esta desigualdad que
contiene el signo igual se convierte en la hipótesis nula, el sistema es pues:
H 0 :   50
H A :   50
La hipótesis alternativa indica que es una prueba de cola a la izquierda por lo que
el valor crítico se calcula con el uso de la fórmula:
X C  H  t S X
La tabla 2 del apéndice muestra que el valor de t para  = 5% y 9 - 1 = 8 grados
de libertad es:
t 0,05 (8)  1,86
SX 
Ademas,
S
n

3
9
 1
X C  50  (1,86) (1)
Así : X C
XC
Como
 50  1,86
 48,14
X = 48,2 es mayor que 48,14 no se rechaza la hipótesis nula. Esto nos
indica que no hay suficiente evidencia para rechazar el envío. Ver FIGURA 3.11
FIGURA 3.11
EJEMPLO 3.10
El gerente de una empresa dedicada al transporte de encomiendas teme que el
peso medio de sus envíos sea superior a 30 libras. Este supuesto es indeseable
porque cualquier peso superior implica costos de envío adicional. Si el contraste
de hipótesis sugiere que el peso medio es superior a 30 libras, la empresa revisará
su procedimiento de embalaje. Para determinar el peso medio de todos los envíos
de la empresa, se eligen al azar 25 órdenes. La media muestral es de 32,1 libras
con una desviación típica de 3,1 libras.
Formular la hipótesis para la empresa y realizar la prueba con   0.05
SOLUCION:
Como “ser superior a 30 libras” se escribe   30 , esta desigualdad se trata de
la hipótesis alternativa, puesto que no contiene el signo de igualdad. Entonces:
H 0 :   30
H A :   30
Se requiere una prueba de cola a la derecha con 25 -1 = 24 grados de libertad.
Para una prueba unilateral t0,05( 24) 1,711
Luego el valor crítico es:
X C  H 
t SX
X C  30  (1,711) ( 0,62)
X C  30  1,06
XC
 31,06
libras
No rechazar la hipótesis nula si la media muestral es inferior a 31,06. Rechazar la
hipótesis nula si la media muestral es superior a 31,06. Ver gráfico 3.12
FIGURA 3.12
Como
X = 32,1 es mayor que 31,06, lo probable es que  sea mayor que 30 y
se rechaza la hipótesis nula de   30 . La empresa deberá tomar medidas para
reducir el peso de sus expediciones y evitar costos de envíos excesivos.
3.6 PRUEBA DE HIPÓTESIS PARA PROPORCIONES
Cuando se trata de una proporción las observaciones cumplen una determinada
especificación, así el interés no se centra en la media de la población, sino en el
tanto por ciento de ésta que cumplen o dejan de cumplir dicha especificación. La
prueba de proporciones poblacionales sigue el mismo esquema establecido como
se muestra en los siguientes ejemplos:
EJEMPLO 3.11
ApexCompany supone que el 15% de las mercancías que producen por un nuevo
método son defectuosas. En una muestra de 132 unidades hay 22 defectuosas.
Con un nivel de significancia del 10% ¿Qué se puede decir de la suposición de
ApexCompany?
SOLUCION:
El sistema de hipótesis es:
H 0 :   0.15
H A :   0.15
P 
(0,15) ( 0.85)
 0,031
132
Como 0,90/2 = 0.45 se obtiene de la tabla el valor de Z = 1,65 Luego:
PC   H  Z  P
PC  0,15  (0,031) (1,65)
PC  0,15  0,05
PC  0,1        0.2
No rechazar Ho si la proporción muestralPx está entre 0,10 y 0,20. Rechazar la
hipótesis Ho si Px es inferior a 0,10 o superior a 0,20
Px 
22
 0,17
132
Como Px = 0,17 está entre 0,10 Y 0,20, no se rechaza la hipótesis nula. Puede
decirse entonces que efectivamente el 15% de las mercancías producidas por la
compañía son defectuosas.
EJEMPLO 3.12
Suponga que ha estado trabajando en una empresa de publicidad durante 5 años.
Ahora piensa crear su propia empresa, pero le preocupa si perderá muchos de los
actuales clientes. Decide que sólo se establecerá por su cuenta si el 30% como
mínimo de las cuentas que ahora gestiona le siguen a su nuevo negocio. Para
comprobarlo, encuentra que 14 de 54 cuentas que toma como muestra expresan
su deseo de acompañarle si funda su empresa. Al nivel del 7%. ¿Deberá fundar
su propia empresa?
SOLUCION:
14
 0.26
n  54
54
 H ( 1  H )
(0,30 ) ( 0,70)

 0,062
n
54
  0.07
P 
Px 
PH  0,30
El 30% como mínimo se puede expresar como   0.30 que es la hipótesis nula,
luego el sistema a contrastar es:
H 0 :   0,30
H A :   0.30
La hipótesis alternativa indica una prueba de cola a la izquierda. El valor crítico se
determina al reemplazar en la fórmula
PC :  H  Z P
Donde la tabla del apéndice 1 muestra un valor de Z = 1,48
Luego
PC  0.30  (1,48) (0,062)
PC  0.30  0,092
PC  0.21
No rechazar la hipótesis nula si la proporción muestral es superior a 0,21.
FIGURA 3.13
Como 0.26 > 0.21 no se rechaza la hipótesis nula, esto nos indica que puede
fundar su propia empresa.
EJEMPLO 3.13
En sus funciones de analista de marketing recién contratado por RAMM Industrias
se le encarga garantizar que más del 10% de la población conozca su nueva línea
de productos. De 300 personas encuestadas 36 manifestaron conocerla. Con un
nivel de significancia de  = 4%, ¿ha cumplido usted con su trabajo?
SOLUCION:
“Más del 10%” se puede expresar
. Como esta desigualdad no contiene
el signo de igualdad se convierte en la hipótesis alternativa, luego el sistema de
hipótesis es:
H 0 :   0.10
H A :   0.10
La hipótesis alternativa indica que es una prueba de cola a la derecha, por tanto el
valor crítico se calcula con la expresión
 H  0.10
PC   H  Z P
  0.04
Px 
36
 0,12
300
P 
H ( 1  H )
n

(0.10) (0.9)
 0.017
300
El valor de Z para 4%, (0.5 - 0.04 = 0.46) según la tabla 1 del apéndice es igual
a 1,75, Así:
PC  0.10  (1,75) ( 0,017)
PC  0,10  0,030
PC  0,13
Rechazar la hipótesis nula si la proporción muestral es superior a 0,13.
Como 0,12 < 0,13 no se rechaza la hipótesis nula, esto nos indica que no se ha
cumplido con lo encomendado.
3.7 PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS
MEDIAS POBLACIONALES
Hasta ahora se han manejado situaciones
en las que interviene una sola
muestra. “Examinaremos ahora el caso en que se dispone de muestras aleatorias
de dos poblaciones, y en el que el parámetro de interés consiste en la diferencia
entre las dos medias poblacionales. En los procedimientos que se desarrollaran
para contrastar este tipo hipótesis, la metodología adecuada depende de la
manera en la que se tomaron las muestras”9, es así como se necesita considerar
separadamente los casos de los pares asociados y las muestras independientes.
3.7.1 CONTRASTE DE HIPOTESIS - MUESTRA PAREADA
9
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p308
Se entiende por muestra pareada, llamada también de pares coincidentes, un
procedimiento en el cual se hace coincidir varias parejas de observaciones con la
mayor exactitud posible en las características de interés. Los dos conjuntos de
observaciones sólo difieren en un aspecto
o tratamiento, cualquier diferencia
posterior de los dos grupos se atribuye a ese tratamiento.
Supóngase que se dispone
de una muestra aleatoria de n pares de
observaciones xi , yi , de dos poblaciones con medias  A y B . Se denota por
S d2 la media y la varianza observada para las n diferencias
d a y por
xi  yi  ,
los cuales están dados por:
da 
S 
2
d
d
i
Media de las diferencias en observaciones pareadas.
n
d
2
i
 nd a
n 1
2
Varianza de las diferencias en observaciones pareadas
Cuando se hace contraste de hipótesis con muestras pareadas por lo general se
trabaja con muestras pequeñas, en este caso el valor crítico está dado por:
dC   t
Sd
n
Diferencia crítica en la media de observaciones pareadas.
Para llevar a cabo un contraste de hipótesis para muestras pares se sigue el
mismo procedimiento visto para los contraste de una población.
EJEMPLO 3.14
Una corporación ofrece cursos de preparación a los estudiantes para superar
exámenes. Como parte de un experimento para evaluar la eficiencia del curso, se
elige doce estudiantes y se dividen en 6 parejas, de manera que los dos miembros
de cada pareja tengan similares expedientes académicos. Antes de realizar el
examen, se elige aleatoriamente un miembro de cada pareja para asistir al curso
de preparación. La siguiente tabla muestra las puntuaciones conseguidas en el
examen.
PAREJA DE ESTUDIANTES
ASISTE
NO ASISTE
1
2
3
4
5
6
82
73
59
48
69
93
75
71
52
46
70
83
Asumiendo que las diferencias en las puntuaciones sigue una distribución normal,
contrastar al nivel de significancia del 5% que la media de los puntajes es mayor
para los estudiantes que asisten al curso de preparación.
SOLUCION:
Fase 1. Formulación de la hipótesis
Sea
a la media de los estudiantes qu e asisten al curso de preparación
 B la media de los estudiantes que no asisten asisten al curso de preparación
“La media es mayor para los estudiantes que asisten al curso de preparación” se
puede escribir como  A  B . Cómo esta desigualdad no contiene el signo igual,
se convierte en la hipótesis alternativa. El sistema a contrastar es:
H0 :  A  B
Que corresponde a una prueba unilateral a la derecha.
H A :  A  B
Fase 2:Cálculo del valor crítico
El valor crítico se obtiene con el uso de la fórmula
dC   t
Parejas de estudiantes
Asiste
No asiste
di
di2
1
2
3
4
5
6
SUMATORIA
82
73
59
48
69
93
75
71
52
46
70
83
7
2
7
2
-1
10
27
49
4
49
4
1
100
207
da 
d

i
n
d
27
 4,5
6
2
 nd a
207  6 ( 4,5) 2 85,5
S 


 17,1
n 1
5
5
Sd  17,1  4,13
2
d
Sd
n
2
i
Con   0.05
y 6 -1 = 5 grados de libertad el valor de t es:
t0.05 ; 5  2,015
dc   t
Sd
n
 4,13 
d C  2,015 

 6 
d C  3,4
FIGURA 3.14
Fase 3: Regla de decisión
No rechazar H0 si d a  3,39 , rechazar la hipótesis nula si da > 3,39
Fase 4: Conclusión
Como d a  4,5  3,39 se rechaza la hipótesis nula y se concluye que la media es
mayor para los estudiantes que asisten al curso de preparación.
3.7.2 CONTRASTE DE HIPÓTESIS EN MUESTRAS INDEPENDIENTES
Cuando se toman muestras independientes, no es preciso hacer ningún esfuerzo
para que coincidan las observaciones de una muestra con las otras. A diferencia
de las muestras pareadas, las muestras independientes no tienen por qué ser del
mismo tamaño.
Las muestras independientes, son muestras aleatorias tomadas de dos
poblaciones distintas.
Al contrastar hipótesis de dos poblaciones distintas con muestras independientes
DIFERENCIA CRÍTICA: Diferencia entre dos medias muéstrales que es demasiado
grande para que pueda atribuirse al azar de la extracción. Por el contrario, se
puede decir que las medias muéstrales difieren en una cantidad tan grande por
que preceden de poblaciones disímiles que tiene medias desiguales.
se sigue el mismo procedimiento estudiado hasta ahora teniendo en cuenta los
siguientes elementos adicionales.
Cuando las varianzas poblacionales son conocidas, la diferencia crítica se halla
por medio de la fórmula:
dc   Z  X
X
A
 XB
A
Diferencia crítica entre medias muestrales.
 XB
Es el error típico de la diferencia entre las dos medias muestrales.
ERROR TÍPICO DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES
Si se toman varios pares de muestras de dos poblaciones, las diferencias entre
las medias de los pares de muestra varían. El error típico mide esa variación.
La fórmula de cálculo es:
X
A
 XB
Donde

 A2  B2

nA
nB
Error típico de la diferencia entre dos medias muestrales.
 A2 y  B2 son las varianzas de las dos poblaciones y nA y nB
Son los dos tamaños muéstrales.
Para llevar a cabo la prueba se compara la diferencia real entre las medias
muéstrales, da  X A  X B con la diferencia crítica dC
EJEMPLO 3.15
El CITIBANK quiere comparar el nivel medio de las cuentas de ahorro abiertas en
Bancos comerciales de América con los de Europa. Muestras de 230 Bancos de
América y 302 de Europa tienen medias de
X A =1.512 dólares
y X E =1.317
dólares, respectivamente. Se sabe que la desviación típica en las cuentas de
ahorro son de  A  517 dólares y  E  485 dólares . Contrastar la hipótesis nula de
que no hay diferencia de ahorros medios al nivel del 5%.
SOLUCIÓN:
“No hay diferencia de ahorros medios” se puede escribir como  A  E que se
convierte en la hipótesis nula, el sistema a contrastar es:
H 0 :  A  E
H A :  A  E
La diferencia crítica se calcula con la fórmula
dC   Z X A  X E
X
A
 XE

 A2
nA

 E2
nE

517 2  4852
230
302
 44,06
El valor de Z para   0,05 en una prueba bilateral es 1,96.
Luego
dC  (1,96) (44,05)   86,34
FIGURA 3.15
Regla de decisión:
No rechazar la hipótesis nula si: - 86,34 < d a < 86,34
Ahora da  X A  X E  1.512  1.317  195
Como da  dC
se rechaza la hipótesis nula. Los datos sugieren que el nivel
medio de ahorro en los dos continentes es diferente
EJEMPLO 3.16
Una empresa fabricante de camisas para hombres tiene dudas sobre el tiempo
medio necesario para fabricar sus dos modelos: clásico e informal. El jefe de
producción afirma que lleva más tiempo producir las camisas clásicas que fabricar
las informales. Los datos de producción indican que para fabricar 90 camisas
clásicas se requirió una media de 140,2 horas con una desviación típica de 22,7
horas, mientras que para fabricar 110 camisas informales se tardó una media de
131,7 horas con una desviación típica de 23,9 horas. Si el jefe de producción tiene
razón, abandonarán la producción de las camisas clásicas. ¿Se deberá hacer un
cambio en la línea de producción?
SOLUCION:
Como las varianzas poblacionales son desconocidas, se utilizan las varianzas
muéstrales como estimaciones y el error típico de la diferencia entre medias
muéstrales se estimará por la fórmula:
SX C
 XI

SC2
S I2

nC
nI
La diferencia crítica se convierte en dC   Z S X C
 XI
Como el jefe de producción afirma que lleva más tiempo producir las camisas
clásicas  C , que las informales
 I , se puede escribir C   I , y como esta
desigualdad no contiene el signo igual se toma como hipótesis alternativa y el
sistema es:
H 0 : C   I
H A : C   I
Que exige una prueba de cola a la derecha.
El valor de Z correspondiente a una prueba unilateral con   0,05
El valor crítico se obtiene reemplazando en la fórmula d C  Z S X C  X I
SXC  X I 
(22,7)2
(23,9) 2

 3,30
90
110
dC  (1,65) (3,30)  5,45
es Z  1,65
FIGURA 3.16
Regla de decisión: no rechazar la hipótesis nula si d a  5,45 .
Como da  X C  X I  140,2  131,7  8,5 es mayor que d C  5,45 se rechaza la
hipótesis nula y el argumento del jefe de producción queda respaldado, las
camisas clásicas deben dejar de fabricarse.
Consulte en internet las siguientes páginas:
http://www.youtube.com/watch?v=AJcy4eZMwWM
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html
http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html
Resumen
El contraste de hipótesis, es un procedimiento que puede emplearse para
verificar, con base en la información muestral, la validez de una conjetura o
hipótesis, que se haya formulado sobre la población.
La hipótesis que se contrasta se llama Hipótesis nula (Ho) y con la que se
contrasta, hipótesis alternativa (Ha).
La hipótesis opuesta sobre el valor de una media poblacional,  , se indica por lo
general en una de tres formas con referencia a un valor específico 0 .
FORMA 1
FORMA 2
FORMA 3
H 0 :   0
H A :   0
H 0 :   0
H A :   0
H 0 :   0
H A :   0
Prueba bilateral
Prueba unilateral
Prueba unilateral
Las hipótesis opuestas sobre la diferencia entre dos medias poblacionales
 A y B se indican del mismo modo señalado.
FORMA 1
FORMA 2
FORMA 3
H0 :  A  B
H A :  A  B
H 0 :  A  B
H A :  A  B
Prueba bilateral
Prueba unilateral
H0 :  A  B
H A :  A  B
Prueba unilateral
Las hipótesis opuestas sobre la proporción poblacional
se indican del mismo
modo señalado.
Un estadístico de prueba es aquel valor calculado a partir de los datos
muéstrales en una prueba de hipótesis para establecer si se rechaza o no se
rechaza la hipótesis nula. Entre ellos tenemos:

Z 
t 
Z 
X  0
X
Para una media poblacional Muestras grandes
X  0
Para una media poblacional Muestras pequeñas
SX
Px   0
P
Para una proporción de la población
La regla de decisión es un enunciado que se emite para determinar si se rechaza
la hipótesis nula. Específica el valor crítico de los resultados muéstrales; que se
determina con las expresiones:
Para pruebas bilaterales
X C  H  Z S X
X C  H  t S X
PC   H  Z  P
Para pruebas unilaterales
X C  H  Z S X
XC 
H  Z  X
X C  H  t S X
X C  H  t S X
PC   H  Z  P
PC   H  Z  P
Taller 3
1. Un fabricante ha estado recibiendo quejas de sus clientes por que los pedidos
llegan 12 o más días después de haber sido enviados. El fabricante selecciona
al azar 25 de los pedidos de la semana siguiente y los envía de una manera
diferente. Un estadístico ha de probar si el nuevo procedimiento es mejor, a un
nivel de significancia de  = 0.05. El tiempo medio de entrega en la muestra
resulta de X =10, con una desviación estándar muestral de s = 3 días. Haga la
prueba.
2. La administración federal de aviación cree que el número de despegues y
aterrizajes en aeropuertos en los Estados Unidos el año pasado fue de 50 por
día. Elabore una propuesta de hipótesis adecuada de esta creencia en el nivel
de significancia de  = 0.01, y use estos datos muéstrales: n = 100, X = 71,
s = 30 (hay 13.000 aeropuertos en los Estados Unidos).
3. Un gerente desea probar la resistencia a la tensión del hilo que ha de usarse
en las nuevas máquinas de su compañía, la cual debe ser de por lo menos 25
libras. Se toma una muestra aleatoria de 16 carretes de varias remesas de
entrada al almacén cuya resistencia promedio es de 24 libras, con una
desviación estándar de 0.5 libras. Haga una prueba de hipótesis a un nivel de
significancia de  = 0.10 y diga si el hilo es apropiado.
4. Un economista desea probar si el salario promedio de mecánicos de aviación
en EEUU es en realidad de 600 dólares por mes, como se ha estado diciendo.
Se toma una muestra aleatoria de n = 100 de los 29.952 mecánicos de
aviación del país; el nivel de significancia deseado es de  = 0.05. La muestra
indica un salario medio de 675 dólares mensuales y una desviación estándar
de 32 dólares. Haga la prueba.
5. Cuando funciona correctamente, un proceso produce frascos de champú cuyo
contenido pesa, en promedio, 200 gramos. Una muestra aleatoria de 9 frascos
de una remesa presentó los siguientes pesos (en gramos) para el contenido:
214
197
197
206
208
201
197
203
209
Asumiendo que la distribución de la población es normal, contrastar al nivel del
5%, la hipótesis nula de que el proceso está funcionando correctamente frente
a la alternativa bilateral.
6. Un distribuidor de cerveza afirma que una nueva presentación, que consiste
en una fotografía de tamaño real de un atleta muy famoso, incrementará las
ventas del producto en los supermercados en una media de 50 cajas
semanales. Para una muestra de 20 supermercados, el incremento medio en
las ventas fue de 41,3
cajas con una desviación típica
de 12,2 cajas.
Contrastar, al nivel del 5%, la hipótesis nula de que la media poblacional del
incremento en las ventas es al menos
de 50 cajas, indicando cualquier
supuesto que se haga.
7. Un funcionario que trabaja en el departamento de colocación de una
Universidad, quiere determinar si los hombres y las mujeres graduados en
Administración de Empresas reciben, en promedio, diferentes ofertas de
salarios en su primer trabajo después de graduados. El funcionario seleccionó
aleatoriamente 8 pares de egresados en esa disciplina de manera que las
calificaciones, intereses e historia de los integrantes de cada pareja fuesen lo
más parecido posible. La mayor diferencia fue que un miembro de cada pareja
era hombre y el otro mujer. La tabla adjunta recoge la mayor oferta salarial
que recibió cada miembro de la muestra al terminar su carrera. Asumiendo que
las distribuciones son normales contrastar la hipótesis de que la verdadera
media es mayor para los hombres que para las mujeres.
PAREJA
MAYOR OFERTA SALARIAL (Miles de pesos)
HOMBRE
MUJER
1
1524
1586
2
1472
1540
3
1568
1566
4
1586
1590
5
1434
1486
6
1446
1596
7
1572
1608
8
1524
1588
8. Su empresa ha determinado en el pasado que el 53% exactamente de la gente
de su área de marketing prefieren su producto. Se han gastado varios millones
de pesos en una campaña publicitaria para aumentar su participación en el
mercado. Una muestra de 622 personas tomada después de la campaña
revela que 346 prefieren su producto. Al nivel de significancia del 4%, ¿se
podrá concluir que se ha invertido bien el dinero en publicidad?
9. En calidad de nuevo directivo en formación de la empresa KAM, su jefe le ha
encomendado que determine si los envíos de la factoría salen a tiempo. Usted
decide contrastar la hipótesis de que por lo menos el 95% de los pedidos
cumplen con los requisitos de plazo. Para guardar las espaldas, fija un nivel de
significancia del 1% y selecciona una muestra de 112 pedidos y encuentra que
8 de ellos se han retrasado. ¿Qué le diría a su jefe?
10. Una revista especializada en computación afirma que la gente tarda máximo34
horas, en promedio, en aprender un nuevo programa informático. ¿Está esta
afirmación respaldada al nivel del 10% si 35 personas tardaron en aprender el
programa un promedio de 38,6 horas con una desviación estándar de15,8
horas?
11. En un proceso de producción de su empresa tienen que llenarse botellas de
agua pura mineral por lo menos con 16,2 onzas. En caso contrario, el proceso
se interrumpe mientras se hacen los ajustes necesarios. Como estadístico
oficial de la empresa, se le ha asignado la responsabilidad de determinar, con
una confianza del 99%, si el proceso funciona como es debido. En una muestra
de 24 botellas se halla que el peso medio del contenido es de 15,7 onzas y la
desviación estándar de 3,7 onzas.
¿Deberá ordenar que el proceso se detenga para realizar los ajustes?
12. “The government of a wealthy country intends to institute a program to
discourage investment in foreign countries by its citizens. It is known that in the
past 35% of the country’s adult citizens held investment in foreign countries.
The government wishes to determine if the current percentage of adult citizens,
who own foreign investment is greater than this long term figure of 35%. A
random sample of 800 adults is selected, and it is found that 320 of these
citizens hold foreign assets. Is this percentage greater than 35%? Use a 10%
significance level for testing this claim”10
10
Mohammed A. Shayib, Applied Statistics, bookboon.com, 2013, 172
Evaluación
1. Un fabricante de detergente afirma que el contenido medio de los paquetes
que vende es de al menos 200 gramos. Se sabe que la distribución de los
pesos es normal, con desviación típica de cuatro gramos. Una muestra de
16 paquetes da una media de 198,4 gramos. Para realizar el contraste de
hipótesis, al nivel del10%, el sistema requerido es:
A.
H 0 :   200

H A :   200
B. 
H 0 :   200
H A :   200
D. 
C. 
H 0 :   200
H A :   200
H 0 :   200
H A :   200
2. El error típico de la distribución muestral del ejercicio 1 es:
3.
A. 12.5
B. 50
C. 0,25
D. 1
De una muestra de 361 propietarios de pequeñas empresas que
quebraron, 105 no tuvieron asesoría profesional antes de abrir el negocio.
Para contrastar la hipótesis nula de que como mucho el 25% de todas estas
pequeñas empresa no tuvo asesoría profesional antes de abrir el negocio,
el sistema de hipótesis requerido es:
A.
H 0 :   0.25
H A :   0,25
H 0 :   0,25

H A :   0,25
B. 
H 0 :   0,25
H A :   0,25
D. 
C. 
H 0 :   25
H A :   25
4. El error típico aproximado de la distribución muestral del ejercicio 2 es:
A.0,240
B. 0,024
C. 0,283
D. 0,239
H 0 :   200
y
H A :   200
5. En un contraste de hipótesis cuyo sistema a contrastar es 
__
se ha obtenido una media X y punto crítico X c , se rechaza la hipótesis
nula si:
__
A. X  X c
__
C. X  X c
__
__
B. X cInf  X  X cSup
__
D. X  X c
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_08_69.html
PRESENTACION
Existen muchos casos en la teoría económica y en el campo de la administración
en los que se hace indispensable el uso del análisis y correlación como
herramienta fundamental para la constatación de teorías relacionadas con la
naturaleza de las variables en la verificación de la dependencia de una con
respecto a otra, y de esta forma hacer estimaciones y predicciones partiendo de
observaciones de la misma empresa.
En este capítulo se presentan algunos conceptos fundamentales de análisis de
regresión; utilizando como ayuda el modelo de regresión lineal en dos variables,
en el cual, la variable dependiente se expresa como una función lineal de una sola
variable independiente.
PREGUNTA PROBLEMA
¿Cómo crees que el análisis de regresión lineal puede aplicarse en la solución
de situaciones específicas de una empresa?
COMPETENCIAS ESPECÍFICAS
1. Interpreta correctamente los conceptos básicos del análisis de regresión
lineal simple.
2. Utiliza el método de mínimos cuadrados ordinarios (MCO), para la
estimación de los parámetros del modelo de regresión en dos variables.
3.
Establece inferencia acerca de los parámetros estimados
SABERES

Interpretación de la regresión, terminología y notación

Estimación por mínimos cuadrados

Verificación de hipótesis, capacidad explicativa de una función de regresión
DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO
ACTIVIDAD PREVIA (Trabajo Individual)
1. De las siguientes, es una ecuación lineal:
A. 2 x  3 y  2 xy  1
B. 2x  3 y 2  y  2
C. 3x  2 y  3  4 x
D. x 3  y  5
2. En la ecuación lineal 2 x  4 y  6 la pendiente es:
A. 0,5
B. 1,5
C. -0,5
D. -1,5
3. En una ecuación lineal, la pendiente representa:
A. El incremento de la variable independiente con respecto a la variable
dependiente.
B. El incremento de la variable dependiente con respecto a la variable
independiente.
C. El intersecto con el eje X.
D. El intersecto con el eje Y.
4. Estimar la regresión lineal de Y sobre X, consiste en:
A. Determinar el intersecto con el eje Y.
B. Determinar el intersecto con el eje X.
C. Determinar la pendiente y la constante de regresión.
D. Determinar el coeficiente de determinación.
ACTIVIDA GRUPAL
 Socialice
los
resultados
obtenidos
individualmente
y
escriba
sus
conclusiones al respecto.
 Redacte un informe sobre la importancia de la aplicación de la regresión
lineal en que hacer de su profesión.
 Escriba un listado de las dudas y dificultades en el desarrollo de la actividad
individual.
SABERES Y ACTIVIDADES
4. REGRESION LINEAL SIMPLE
Es común que los economistas y administradores de empresa estén interesados
en la forma en que dos variables estén relacionadas. En general, cualquier estudio
económico o empresarial debe comenzar con un conjunto de proposiciones que
emanan de la teoría económica y que el analista está interesado en constatar. Las
funciones de demanda de producción son ejemplos claros de relaciones sobre las
que se puede estar interesado en constatar determinadas propiedades.
Se comenzará por la forma más simple de regresión, que es la relación lineal entre
dos variables.
4.1 INTERPRETACIÓN DE LA REGRESIÓN
En términos generales se puede decir que: El análisis de regresión está
relacionado con el estudio de la dependencia de una variable (VARIABLE
DEPENDIENTE)
de
una
o
más
variables
adicionales
(VARIABLES
EXPLICATIVAS) con la perspectiva de estimar y/o predecir el valor (poblacional)
medio o promedio de la primera en términos de los valores conocidos o fijos de las
segundas.
EJEMPLO 4.1
“Un economista puede estar interesado en estudiar la dependencia que existe
entre los gastos personales de consumo y el ingreso personal real”. Este tipo de
análisis puede ser de gran ayuda para estimar la propensión marginal a consumir,
es decir, el cambio promedio en los gastos de consumo ante una variación, de por
ejemplo, una unidad en el ingreso real.
EJEMPLO 4.2
“Un profesional en economía laboral puede estar interesado en estudiar la relación
existente entre el porcentaje de cambios en los salarios monetarios o nominales y
la tasa de desempleo”. Dicho conocimiento puede ser de gran ayuda para realizar
conjeturas sobre el proceso inflacionario por el cual puede atravesar una
determinada economía, puesto que los aumentos en salarios probablemente se
refieran en aumento en los precios.
EJEMPLO 4.3
“El director de mercado de una empresa puede estar interesado en conocer la
manera como se relaciona la demanda de su producto con los gastos en
publicidad en que incurre dicha empresa”. Este tipo de estudio sería de gran
utilidad para averiguar la elasticidad de la demanda del producto en los gastos de
publicidad de la empresa, es decir, la respuesta promedio de la demanda ante un
aumento de una unidad, por ejemplo un dólar, en el presupuesto de gastos de
publicidad. Este conocimiento a la vez puede ser de mucha utilidad para
determinar el presupuesto óptimo de publicidad.
De los ejemplos anteriores se puede deducir que dentro del análisis de regresión
nos interesa lo que se conoce como la dependencia estadística, y no la
dependencia funcional o determinística entre las variables, como aquellas que se
representan en la física clásica.
En las relaciones estadísticas entre variables tratamos esencialmente con
variables ALEATORIAS O ESTOCÁSTICAS, es decir, variables que tienen
distribuciones probabilísticas.
La mejor forma de ilustrar la regresión lineal, es utilizando los diagramas de
dispersión.
Supóngase que X es el precio de un determinado bien a lo largo del tiempo e Y la
cantidad de demanda del mismo. Si la información disponible se refiere a n
observaciones, por ejemplo la cantidad demandada por un grupo de familias, ésta
aparece recogida en dos series en la tabla 4.1.
Tabla 4.1 Cantidad demandada por un grupo de familias
Período
Precio
1
2
.
.
.
i
.
.
.
n
X1
X2
.
.
.
Xi
.
.
.
Xn
Cantidad demandada
Y1
Y2
.
.
.
Yi
.
.
.
Yn
Si el precio y la cantidad demandada son variables independientes, se moverán
una al margen de la otra. En este caso, la representación en un sistema de
coordenadas de los pares de la tabla anterior generaría una nube de puntos como
las de la figura 4.1.
En el caso de que ambas variables no sean independientes, sino que estén
relacionadas funcionalmente, y si la relación existente entre ambos es inversa, un
valor elevado de Y aparecerá asociado a un valor pequeño de X y viceversa. En
términos gráfico, la relación entre demanda y precio podría entonces tomar la
forma recogida en el diagrama de puntos de la figura 4.2.
La representación gráfica es eficaz para obtener una información intuitiva sobre la
evolución de dos variables (y su relación). Esta información, sin embargo, no suele
ser suficiente para el empresario o economista, que normalmente pretenderá
cuantificar la relación existente entre las variables analizadas.
Dos técnicas ampliamente utilizadas con objeto de cuantificar la relación existente
entre las variables son el análisis de regresión y el análisis de correlación. Aunque
están estrechamente relacionadas conceptualmente las dos son muy diferentes.
La regresión es una expresión cuantitativa de la naturaleza básica de la relación
entre las variables dependientes e independientes. Por ejemplo, dado un modelo
de regresión simple con una variable independiente, el modelo determinará si las
dos variables tienden a desplazarse en la misma dirección (las dos crecen o
decrecen al mismo tiempo) o en sentido opuesto (una aumenta cuando la otra
disminuye). También indicará la cantidad en qué Y cambiará cuando la variable
independiente varíe en una unidad.
En el análisis de correlación el objetivo fundamental es la medición de la fuerza o
grado de asociación lineal entre variables, el coeficiente de correlación mide la
solidez de dicha relación.
4. 2 TERMINOLOGIA Y NOTACIÓN
Los términos variables dependientes y variable explicativa se definen o describen
de varias maneras:
Variable Dependiente
Variable Independiente
Variable Explicada
Variable Explicativa
Variable Predicha
Variable Predictor
Variable Regresada
Variable Regresor
Variable Respuesta
Variable de Control.
Variable Endógena
Variable Exógena
Si estamos estudiando la dependencia de una variable en una sola variable
explicativa, como en el ejemplo de las ventas y la publicidad, dicho estudio se
conoce como Análisis de Regresión Simple o en dos variables
4.3 FUNCIÓN DE REGRESIÓN POBLACIONAL
Se ha dicho que el objetivo del análisis de regresión es estimar o predecir el valor
medio o promedio de la variable dependiente con base en los valores fijos o
conocidos de la variable explicativa.
Veamos mediante un ejemplo como se lleva acabo este análisis:
Supóngase que se está interesado en estudiar la relación existente entre los
gastos de consumo familiar semanal Yy el ingreso familiar disponible semanal X.
Es decir, se desea predecir el nivel promedio de gastos de consumo semanales,
conociendo el ingreso de la familia en este lapso.
Se parte de una población de 60 familias, divididas en 10 grupos con el mismo
ingreso aproximadamente.
Tabla 4.2
Datos hipotéticos de ingresos familiares por semana
Ingreso familiar
80
100 120 140 160 180 200 220 240 260
55
65
79
80 102 110 120 135 137 150
60
70
84
93 107 115 136 137 145 152
Consumo por
65
74
90
95 110 120 140 140 155 175
semana.
75
80
94 103 116 130 144 152 165 178
70
85
98 108 118 135 145 157 175 180
88
113 125 140
160 189 185
115
162
191
Total
325
462 445 707 678 750 685 1043 966 1211
Valor esperado
65
77
89 101 113 125 137 149 161 173
Esta tabla se puede interpretar así:
Para un ingreso semanal de 100 mil pesos, hay 6 familias cuyos gastos de
consumo semanales están entre 65 mil y 88 mil pesos. Es decir, cada columna
muestra la distribución de los gastos de consumo Y correspondiente a un nivel fijo
de Ingreso X, esto es, muestra la distribución condicional de Y dado valores de X.
Mediante el uso de la probabilidad condicional se puede calcular el valor esperado
de Y dado X, que es simplemente la media o valor promedio de la población. Para
los datos hipotéticos del ejemplo la media condicional de Y dado X = 120 se
calcula así:
E (Y/X= 120) = (1/5) (79) + (1/5) (84) + (1/5)(90) + (1/5) (94) + (1/5) (98) = 89.
En la última fila de la tabla 4.2 se muestran los demás valores esperados para Y
dado Xi respectivos.
Los valores de la tabla 4.2 se muestran en el siguiente diagrama de dispersión.
FIGURA 4.3 Distribución de gastos para diferentes niveles de ingreso
En el diagrama se muestra claramente que, en promedio, los gastos de consumo
aumentan al incrementarse el ingreso. La anterior afirmación puede apreciarse
mejor si se concentra la atención en los puntos que representan diferentes valores
condicionales medios de Y que aparecen exactamente sobre una línea recta con
pendiente positiva. Esta línea se denomina línea de regresión lineal.
De aquí se puede concluir que cada media condicional E (Y/Xi) está en función de
Xi. Simbólicamente:
E(Y/Xi) = f ( Xi)
(4.1)
En donde f (Xi) denota una función de la variable explicativa X.
La ecuación 4.1 se conoce como la función de regresión poblacional (FRP). Dicha
función denota únicamente que la media poblacional de la distribución de Y dado
Xi está funcionalmente relacionada con Xi. Es decir, dice cómo la respuesta media
o promedio de Y varía con X.
En situaciones reales no se cuenta con la totalidad de la población para efectuar el
análisis. Por tanto la forma funcional de FRP debe ser aproximada de una manera
empírica; se puede suponer que la FRP es una función lineal de Xi.
E(Y/Xi) =
(4.2)
En la cual 1 y  2 son parámetros desconocidos pero fijos que se denominan
coeficientes de regresión. Esta expresión se conoce como función de regresión
lineal poblacional.
4.4 ESPECIFICACIONES ESTADISTICAS DE LA FRP.
Como se aprecia en la figura 4.3 a medida que el ingreso familiar aumenta, los
gastos de consumo familiar en promedio también aumentan. Pero si observamos
la tabla 4.2 se deduce que no necesariamente aumentan con el nivel de ingreso.
Por ejemplo: para un nivel de ingreso de $100.000 existe una familia cuyos gastos
de consumo de $65.000 son menores que el gasto de consumo de dos familias
cuyo ingreso semanal es solo de $80.000.
Sin embargo los gastos de consumo promedio de las familias con ingresos
semanales de $100.000 son superiores que los de familia con ingresos semanales
de $80.000; $77.000 y $65.000 mil respectivamente.
De este análisis se concluye que para un nivel de ingreso dado Xi, los gastos de
consumo de una familia se concentran alrededor del consumo promedio de todas
las familias para ese mismo Xi, esto es, alrededor de su esperanza condicional.
Por consiguiente, se puede expresar la desviación de un Yi individual alrededor de
su valor esperado así:
(4.3)
En donde la desviación i es una variable aleatoria no observable que toma
valores positivos o negativos y se le conoce como perturbación estocástica o
término del error estocástico.
La ecuación 4.3 postula que los gastos de una familia, dado su nivel de ingreso,
son iguales a los gastos promedios de consumo de todas las familias con ese nivel
de ingreso, más una cantidad que es aleatoria.
Si se supone que E( Y/Xi) es lineal en Xi como en la ecuación 4.2, entonces:
Yi = E( Y/Xi) +
i
(4.4)
Ahora si se toma el valor esperado en la ecuación 4.3 a ambos lados se tiene:
E (Yi / Xi ) = E [ E (Yi/Xi)] + E ( i /Xi)
= E (Y / Xi ) + E ( i / Xi)
Puesto que E ( Yi/ Xi ) = E ( Y/ Xi ), entonces E ( i / Xi) = 0
En otras palabras, el supuesto de que la línea de regresión pasa por los medios
condicionales implica que los
valores medios condicionales
i
son iguales a
cero. De donde se deduce que:
E ( Y/ Xi ) = 1   2 Xi es equivalente a :
Yi = 1   2 Xi  i
si
E(Yi / Xi)  0
La especificación estocástica de 4.4 ofrece la ventaja de mostrar que, además del
ingreso, existen otras variables que afectan los gastos de consumo de una familia,
los cuales no se pueden explicar en su totalidad por la variable incluida en el
modelo de regresión.
4.5 FUNCION DE REGRESION MUESTRAL (FRM)
Como en la práctica lo que está al alcance del analista es una muestra de valores
de Y correspondientes a valores fijos de X, se debe hacer consideraciones de
muestreo. Por consiguiente la tarea es la estimación de la Función de Regresión
Muestral (FRM) con base en información muestral. Para ello supóngase que se
obtienen dos muestras de Y seleccionadas aleatoriamente para valores fijos de X.
(véase tabla 4.3). Ahora se cuenta con un solo valor de Y para cada X dado.
Al realizar un diagrama de dispersión con los datos de la tablas 4.3 se observa
que no es factible estimar con precisión la FRP, debido a las fluctuaciones
muéstrales como se ve en la figura 4.4, en donde se grafican dos líneas de
regresión muestral que tratan de ajustar lo mejor posible los puntos de dispersión.
FRM1 y FRM2
son las resultantes de la primera y segunda muestra
respectivamente; aquí no existe modo alguno de afirmar con certeza cuál de las
dos
líneas
representan
la
verdadera
línea
de
regresión
poblacional.
Supuestamente, ambas representan la línea de regresión poblacional, pero debido
a las fluctuaciones muéstrales son una aproximación de la verdadera FRP. En
general se obtendrá N FRMS diferentes para N
muestras diferentes y no es
factible que estas sean iguales.
TABLA 4.3 Muestras de Y para valores fijos de X
Muestra aleatoria 1
Muestra aleatoria 2
Y
X
Y
X
70
80
55
80
65
100
88
100
90
120
90
120
95
140
80
140
110
160
118
160
115
180
120
180
120
200
145
200
140
220
135
220
155
240
145
240
150
260
175
260
FIGURA 4.4 Distribución de un solo gasto para diferentes niveles de ingreso.
De manera análoga a la FRP en que se fundamenta
la regresión lineal
poblacional, es posible desarrollar el concepto de función de regresión muestral.
Para representar la línea de regresión muestral, la expresión a utilizar es:
Yˆi  ˆ1  ˆ 2 Xi
donde : Yˆi  Estimador de E (Y / Xi)
ˆ I  Estimador de 1
ˆ 2  Estimador de  2
En la forma estocástica la función de regresión poblacional es:
Yˆi  ˆ1  ˆ2 Xi  ei
En donde ei denota el término residual (muestral).
En síntesis, el objetivo fundamental del análisis de regresión consiste en estimar
la FRP Yi  1  2 Xi  i
Con base en la FRM Yi  ˆ1  ˆ2 Xi  ei
FIGURA 4.5 Comparativo de la FRM con la FRP
4.6 ESTIMACION POR MINIMOS CUADRADOS
Supóngase que se dispone de ( x1 , y1 ) , ( x2 , y 2 ) ... ( xn , y n ) n pares de observaciones.
El objetivo es encontrar la recta que se ajuste mejor a estos datos, es decir,
estimar los coeficientes desconocidos de la recta de regresión poblacional. La
manera natural de estimar los parámetros, es encontrar estimadores de
que hagan mínimos los errores.
1 y  2
FIGURA 4.6 Estimación minimizando los errores
Cualquier estimador razonable de la recta de regresión dejará algunos de los
datos observados por debajo y otros por encima de la recta estimada. Por lo tanto

alguno de los ei de la ecuación
ei  Y i  ˆ1  ˆ2 Xi , serán positivos y otros
negativos. Si se quiere penalizar por igual los valores positivos y los negativos de
la misma magnitud, una posibilidad es trabajar con los cuadrados de ei . La suma
de las descripciones al cuadrado entre los puntos y la recta es:
 ei
2

 (Yi  Yˆi ) 2 

 (Y i  ˆ1  ˆ2 Xi ) 2
El método de mínimos cuadrados selecciona cono estimador de la recta de
regresión poblacional, a aquellos valores para los cuales esta suma de cuadrado
es menor.
Para minimizar,
e
2
i
respecto a 1 y 2 se tiene:
 e 2 i
1
 ei2
 2


  2  Yi  ˆ 1  ˆ2 X i  0
  2  Xi(Yi ˆ1  ˆ2 Xi)  0
 Yi  ˆ  ˆ Xi  0
 Xi Yi  ˆ  ˆ Xi  0
1
Luego:
(1)
2
1
(2)
2
Las ecuaciones (1) y (2) se pueden escribir:
n
Yi 
i 1
n
 XiYi
i 1
n
n
 ˆ1 
 ˆ Xi , entonces , Yi  n ˆ
i 1
i 1
2
1
 ˆ1  Xi  ˆ2
X
2
i
Estas ecuaciones se llaman
ˆ1

ˆ1 
n
(1)
Ecuaciones Normales. Este sistema se puede
en (1) se tiene:
Yi   2  X i
 Xi
(2)
resolver por sustitución u otro método.
Despejando
 ˆ2
(*)
Sustituyendo * en (2) se obtiene:
  Yi  ˆ2
XiYi



n

 Xi
 Xi  ˆ  X
 XiYi

 XiYi
 Xi Yi


n
2
 2  Xi

 Xi Yi
2
n
 Xi Yi
X

2
i

2
i

  2  X i2

 ˆ2  X i2 

n
Entonces: ˆ2 



 Xi
2
n
 Xi Yi
n
 Xi2
n




 XiYi
X

2
i

n Xi
Yi
n.n
2
n Xi
n.n
EJEMPLO 4.4
Con los siguientes datos relativos a consumo renta (en Dólares) de 15 familias
ajuste una regresión:
Consumo = 1   2 renta.
Los datos se dan en dólares semanales.
Consumo 74 98
Renta
80 53 57 81 44 90 72 47 87 50 42 101 44
80 110 90 60 60 65 45 91 78 84 87 92 90 98

Solución: Y

 1   2 Xi
56
Yi
Xi
(Consumo)
(Renta)
XiYi
X i2
74
80
5920
6400
98
110
10780
12100
80
90
7200
8100
53
60
3180
3600
57
60
3420
3600
81
65
5265
4225
44
45
1980
2025
90
91
8190
8281
72
78
5616
6084
47
84
3948
7056
87
87
7569
7569
50
92
4600
8464
42
90
3780
8100
101
98
9898
9604
44
56
2464
3136
Y  68
X  79,06
 XiYi  83810
X
2
i
 98344
ˆ 2 
 Xi Yi  n X Y
 X  nX
ˆ 2 
83810  (15) (79,06) (68)
83810  80641,2
3168,8


 0,69
2
98344  93757 ,25
4586,75
98344 15 (79,06)
2
i
2
ˆ 2  0,69
ˆ1  Y  ˆ 2 X
ˆ1  68  (0,69) (79,06)
ˆ1 13,38
n  15
Así el modelo estimado queda representado por Y = 13,38 + 0,69X
Se puede interpretar la regresión estimada de la siguiente manera: Si la renta
semanal aumenta en un dólar, se espera que el consumo promedio diario
aumente aproximadamente en 69 centavos de dólar.
Si la renta de una familia fuera de cero dólares, se esperaría que el consumo
semanal sea de aproximadamente 13,4 dólares.
La gráfica 4.7 presenta la recta de regresión estimada junto con los
demás
puntos.
FIGURA 4.7 Estimación Consumo - Renta
4.7 SUPUESTOS FUNDMENTALES PARA EL MODELO DE REGRESION
LINEAL
Se ha dicho que en el análisis de regresión el objetivo no es solamente


obtener  1 y  2 , si no también hacer inferencia acerca de los verdaderos
valores de 1 y  2 . Es decir, se puede estar interesado en saber que tan


cerca están  1 y  2 de los parámetros poblacionales, así como que tan

ajustado está Y i al verdadero E(Y/Xi). Por lo tanto se hace necesario plantear
ciertos supuestos sobre la manera como se genera Xi y  i , dado que
Yi  1   2 X i  i . Lo cual muestra que Yi depende tanto de Xi como de  i .
Así, para hacer cualquier inferencia estadística sobre Yi y sobre 1 y  2 , se
deben plantear los siguientes supuestos:
SUPUESTO 1
El valor medio o promedio de  i es igual a cero, ese decir, E(  i /Xi) = 0.
Con este supuesto se asegura que aquellos factores que no están
explícitamente incluidos en el modelo no afectan sistemáticamente al valor de
Y. En otras palabras, se supone que los valores positivos de  i se cancelan
con los valores negativos de tal forma que sus efectos promedios sobre Y es
cero.
SUPUESTO 2
Igual varianza para  i . Esto quiere decir que el término aleatorio tiene la
misma varianza en cada periodo o elemento de la muestra. A esta propiedad
se le denomina HOMOCEDASTICIDAD, e implica que las observaciones de
Yi que corresponden a diferentes valores de Xi tienen la misma varianza.
Varianza de X i  E i  E (  i )  E (  i ) 2   2
2
SUPUESTO 3
No existe auto correlación entre las i
Esto significa que los términos aleatorios de un periodo son independientes
de los de cualquier otro periodo o covarianza.


( i ,  j )  E i  E ( i )  j  E ( j )  0
SUPUESTO 4
Cero varianza entre i y Xi
Aquí se supone que el término de perturbación es independiente de la
variable explicativa. Este supuesto se introduce para poder establecer un
efecto individualizado de X y de i sobre la variable Y. Si la variable
explicativa y el término aleatorio están correlacionados no es posible
establecer su efecto individual sobre la variable explicada.
Además, sobre la variable independiente se establece que:
 Los valores de la variable permanecen fijos de una muestra a otra.
 La variable se mide sin error de observación.
4.8 VERIFICACIÓN DE HIPÓTESIS
Dado que las perturbaciones siguen una distribución para las que se han
introducido unos supuestos, la forma de cálculo de los estimadores hace que ellos
también sean variables aleatorias con una cierta distribución. Esto implica que el
verdadero valor puede cambiar de una muestra a otra y por ello resulta
conveniente alguna medida de precisión de estos estimadores. Para ello en
estadística se utiliza la desviación estándar o ERROR ESTANDAR DE LOS
ESTIMADORES. En este sentido cabe señalar que si a los supuestos anteriores
se les añade la hipótesis de que la variable i sigue una distribución normal, con
media cero y varianza  2 , se puede demostrar que el cociente entre la diferencia


de los estimadores  1 y  2 y los parámetros poblacionales, y sus desviaciones
estándar S  y S  se distribuyen como una t de student con n – 2 grados de
1
2
libertad (numero de observaciones menos numero de parámetros estimados). Esto
es:
Donde
S
1
desviación estándar o
representa la
error

estándar de  1 y se
obtiene mediante la
fórmula:

El error estándar de  2 , S  se calcula con la fórmula:
2
En ambas expresiones se representa la varianza residual corregida, estimador
insesgado de la varianza del término de perturbación  2 y se define así:
ei2
S 
n2
2
e
Dada una muestra y obtenida una estimación de  1 mediante el método de
mínimos cuadrados, se puede construir un intervalo de confianza a través de la
expresión
i  S t , n2 , la cual arrojara dos valores entre los cuales se encuentra

i
el parámetro buscado con nivel de significancia que se desee. Cuanto mas
pequeño sea dicho intervalo, mas precisa será la estimación.
EJEMPLO 4.5
Con los datos relativos a Consumo – Renta de 15 familias (ejemplo 4.4), construir
un intervalo de confianza del 95% para el coeficiente de regresión.
SOLUCION:

Primero se debe calcular el error estándar de  2 ,
S 
2
S e2
X
2
i
 nX
2
ei2
S 
, para este caso n – 2 = 15 – 2 = 13
n2
2
e
e
2
i
 SCE , suma de cuadrados

ei  Yi  Yi ,

Yi  13,38  0,69 X i
Luego reemplazando cada valor de Xi, se obtiene el valor estimado respectivo
para Yi, como se muestra en la siguiente tabla.

Xi
Yi
80


ei2
74
Yi  13,38  0,69 X i
68,58
ei  Yi  Yi
5,42
29,3764
110
98
89,28
8,72
76,0384
90
80
75,48
4,52
20,4304
60
53
54,78
-1,78
3,1684
60
57
54,78
2,22
4,9284
65
81
58,23
22,77
518,4729
45
44
44,43
-0,43
0,1849
91
90
76,17
13,83
191,2689
78
72
67,20
4,80
23,0400
84
47
71,34
-24,34
592,4356
87
87
73,41
13,59
184,6881
92
50
76,86
-26,86
721,4596
90
42
75,48
-33,48
1120,9104
98
101
81,00
20,00
400,0000
56
44
52,02
-8,02
64,3204
1020
1019,04
0,96
3950,7228
1186
e
i
e
0
Luego S e2 
Así, S  
2
2
i
 3950,7228
3950,7228
 303,90
13
S e2
X
2
i
 nX
2

303,90
303,90

 0,2574
2
4586,746
98344  15(79,06)
Al reemplazar los valores S   0,2574 ; n – 2 = 13 y t 0.5,13  2,160 , los límites del
2
intervalo para el coeficiente de regresión son:
2  S t0.5 ,13  0,69  (0,2574 )(2,160)  0,69  0,556 .

2
Así,  2  (0.134 , 1.246) , lo que indica que el parámetro  2 aproximadamente está
entre 0,13 y 1,25 con una confianza del 95%.

Además si e hace uso de la expresión
i  i
S
 t , n2 se puede verificar o
i
contrastar la hipótesis acerca de un parámetro determinado. Esto es, si se quiere
verificar que  1 toma un valor concreto h, se platea como sistema de hipótesis:
H o : 1  h
H A : 1  h

Como
i  i
S


 t n 2 , bajo la hipótesis nula se puede obtener t 
i
i  h
S
 t n2 .
i
Este valor se contrasta con el valor teórico arrojado por las tablas de distribución al
nivel de significancia escogido con n – 2 grados de libertad. Debe tenerse en
cuenta si la hipótesis es bilateral o unilateral.
En el caso de una hipótesis bilateral, si el valor del estadístico es tal que t   t c se
rechaza Ho.
EJEMPLO 4.6
Verificar si la renta es explicativa de las variaciones en el consumo (Ej. 4.4)
SOLUCION:
Se formula es sistema de hipótesis:
Ho : 2  0
H A : 2  0
La elección del test de una sola cola responde al conocimiento que se tiene sobre
la teoría de consumo que es función directa de renta.
Para un nivel de significancia del 5% y 13 grados de libertad, t c  1,77


Ahora, t 
2  2
S
2


2
S
2

0,69
 2,68
0,2574
FIGURA 4.8 Prueba de hipótesis, Consumo - Renta
Como t   t c se rechaza Ho y por lo tanto se puede decir que en la muestra

estudiada  2  0,69 es un parámetro significativo, pudiéndose concluir entonces
que la renta es explicativa de las variaciones en la cantidad consumida.
4.9 CAPACIDAD EXPLICATIVA DE UNA ECUACION DE REGRESION LINEAL.
“Una ecuación de Regresión puede considerase como un intento de emplear la
información proporcionada por una variable independiente X para explicar el
comportamiento de una variable dependiente Y.”11
Existe una medida de uso muy generalizada en el análisis de regresión que indica
el grado de explicación que la variable independiente logra al ajustar los datos
mediante una relación lineal que se denomina coeficiente de determinación, R –
squared; cuando los datos son arrojados mediante ordenador.
11
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p398
El coeficiente de determinación se representa por R2 y se calcula mediante
el cociente entre la varianza explicada por el modelo y la varianza total de la
variable dependiente.
“Para los valores muestrales, la recta de regresión estimada puede escribirse


como Y  1   2 X i  ei o también, Y  Y  ei donde Y  1   2 X i

La cantidad Yi es el valor predicho por la recta de regresión para la variable
dependiente, y el residuo ei es la diferencia entre los valores observado y
predicho. Por tanto, el residuo representa la parte del comportamiento de la
variable dependiente que no puede ser explicada por su relación lineal con la
variable independiente”12 (Ver figura 4.9)
FIGURA 4.9. Partición de los componentes de la variación de Yi
12
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p399

Ahora si a la ecuación Y  Y  ei se resta Y a cada lado se obtiene:

(Yi  Y )  (Yi  Y )  ei . Elevando al cuadrado ambos términos de la ecuación y
sumando respecto al índice i, se obtiene como resultado:
 (Y
i
 Y )2


Variabilidad
Total
SCT


 (Y  Y )
e

2
i
Variabiliada exp licada
por el mod elo
SCR
2
i
 Variabilidad
no exp licada

SCE
Dónde: SCT = Suma de cuadrados total.
SCR = Suma de cuadrados de la regresión.
SCE = Suma de cuadrados residual (o del error).
Al dividir la ecuación SCT = SCR + SCE entre SCT se tiene:
SCT SCR SCE


SCT SCT SCT
1

SCR SCE

SCT SCT
Luego R 2  1 
Pero
SCR
 R2
SCT
SCE
SCT
0  R 2  1 , ya que es imposible explicar más del 100% de la variable Y.
Con los valores del ejemplo 4.4 se obtiene la siguiente información:
Yi


74
Yi  13,38  0,69 X i
68,58
ei  Yi  Yi
5,42
98
89,28
80

Yi  Y
6
Yi  Y
0,58
8,72
30
21,28
75,48
4,52
12
7,48
53
54,78
-1,78
-15
-13,22
57
54,78
2,22
-11
-13,22
81
58,23
22,77
13
-9,77
44
44,43
-0,43
-24
-23,57
90
76,17
13,83
22
8,17
72
67,20
4,80
4
-0,8
47
71,34
-24,34
-21
3,34
87
73,41
13,59
19
5,41
50
76,86
-26,86
-18
8,86
42
75,48
-33,48
-26
7,48
101
81,00
20,00
33
13
44
52,02
-8,02
-24
-15,98
SCE   ei2  3950,7228
SCT   (Yi  Y ) 2  6138

SCR   (Yi  Y ) 2  2176,2828
El coeficiente de determinación es por tanto:
R2  1
3950,7228
 0,3563
6138
Este resultado indica que aproximadamente el 36% de la variabilidad muestral del
consumo está explicada por su dependencia lineal con la renta por hogar.
Otra forma de calcular el coeficiente de determinación R2 es utilizando las formula:
( S XY ) 2
 X Y
R 
, donde S XY   XY 
S X SY
n
2
SX   X
 X 

2
2
Para el ejemplo:
n
Y 
 Y 
n
2
SY
2
S XY  83810 
(1186 )(1020 )
 3162
15
S X  98344 
(1186) 2
 4570,93
15
SY  75498 
(1020) 2
 6138
15
R2 
( S XY ) 2
(3162 ) 2
9998244


 0,3563
S X SY
(4570,93)(6138) 28056368 ,34
Consulte las siguientes páginas en internet:
http://www.uv.es/uriel/material/Morelisi.pdf
http://www.youtube.com/watch?v=J1DoRMupI8k
http://www.slideshare.net/adangraus/regresion-lineal-simple-13381573
Resumen
En términos generales se puede decir que: El análisis de regresión está
relacionado con el estudio de la dependencia de una variable (VARIABLE
DEPENDIENTE)
de
una
o
más
variables
adicionales
(VARIABLES
INDEPENDIENTES) con la perspectiva de estimar y/o predecir el valor
(poblacional) medio o promedio de la primera en términos de los valores
conocidos o fijos de la segunda.
En términos gráfico, la relación entre demanda y precio podría entonces tomar la
forma recogida en el diagrama de puntos
La representación gráfica es eficaz para obtener una información intuitiva sobre la
evolución de dos variables (y su relación). Esta información, sin embargo, no suele
ser suficiente para el empresario o economista, que normalmente pretenderá
cuantificar la relación existente entre las variables analizadas.
El método de mínimos cuadrados selecciona cono estimador de la recta de
regresión poblacional, a aquellos valores para los cuales esta suma de cuadrado
es menor.
Para minimizar,
ˆ1 
e
2
respecto a 1 y 2 se tiene:
i

Yi
  2  Xi
n

Y   2 X
 Xi Yi  n X Y
X  nX
ˆ 2 
2
2
i
La recta estimada de regresión queda expresada como



Y  1   2 Xi
El Coeficiente de determinación R2
indica el grado de explicación que la
variable independiente logra al ajustar los datos mediante una relación lineal Es
una medida de uso muy generalizada en el análisis de regresión.
El coeficiente de determinación se representa por R2 y se calcula mediante
el cociente entre la varianza explicada por el modelo y la varianza total de la
variable dependiente.
 (Y
i
 Y )2
Variabilidad
Total
SCT




 (Y  Y )
2
i
Variabiliada exp licada
por el mod elo
SCR

e
2
i
 Variabilidad
no exp licada

SCE
Dónde: SCT = Suma de cuadrados total.
SCR = Suma de cuadrados de la regresión.
SCE = Suma de cuadrados residual (o del error).
R2  1
SCE
SCT
0  R2  1
Taller 4
1. Una compañía asigna diferentes precios a una radio grabadora particular en 8
ciudades diferente del país, la tabla adjunta muestra el número de unidades
vendidas y los precios correspondientes en miles de pesos.
Ventas:
420
380
350
400
440
380
450
420
Precio:
55
60
65
60
50
65
45
50
a. realice un gráfico con estos datos y estime la regresión lineal de las ventas
sobre el precio.
b. ¿Qué efectos se esperaría en las ventas si se produjera un incremento de
10.000 pesos
c. Halle un estimador puntual del volumen de venta cuando el precio de radio
grabadora en una ciudad dada es de 48. 000 pesos.
d. Si el precio de una radio grabadora se fija en 48.000 pesos, hallar intervalos de
confianza del 95% para el volumen de ventas reales en una ciudad concreta y
para el número esperado de ventas en esa región.
2. Para una muestra de 20 observaciones mensuales, un analista financiero quiere
efectuar la regresión de la tasa porcentual del rendimiento (Y) de las acciones de
una empresa sobre la tasa porcentual del rendimiento (X) de un índice bursátil.
Dispone de la siguiente información:
Y
X
 22,6
i
2
i
 145,7
 X  25,4
 X Y  150,5
i
i i
a. Estime la regresión lineal de Y sobre X.
b. Interprete la pendiente de la recta de regresión muestral
c. Interprete la constante de la recta de regresión muestral.
3. Una compañía distribuye un test de aptitud entre todos sus nuevos
representantes de venta. La dirección tiene interés en conocer la capacidad del
test para predecir el eventual éxito de estos representantes. La tabla adjunta
recoge el valor de las ventas semanales medias (en millones de peso) y las
puntuaciones obtenidas en el test de aptitud para una muestra aleatoria de 8
representantes
Ventas semanales:
10
12
28
24
18
16
15
12
Puntuación en el test:
55
60
85
75
80
85
65
60
Estime la regresión lineal de las ventas semanales sobre las puntuaciones en el
test de aptitud.
4. Se conjetura que el número de botellas de una cerveza importada que se vende
cada noche en los restaurantes de una ciudad depende linealmente del costo
medio de las cenas en esos restaurantes. Los siguientes resultados se obtuvieron
de una muestra de 17 restaurantes de aproximadamente de igual tamaño, donde
X  2.550
 X
i
 X
i
X
n 1

Y  16
2
 3.500.000

 X Yi  Y
n 1
  18.000
Hallar la recta de regresión muestral
5. Una cadena de restaurantes de comidas rápidas decide llevar a cabo un
experimento para medir la influencia del gasto en publicidad sobre las ventas. En 8
ciudades del país, se realizaron diferentes variaciones relativas en el gasto en
publicidad, comparado con el del año anterior, y se observaron las variaciones en
los niveles de ventas resultantes. La tabla adjunta muestra los resultados.
Incremento del gasto en publicidad (%) Incremento en las ventas (%)
0
2,4
4
7,2
14
10,3
10
9,1
9
10,2
8
4,1
6
7,6
1
3,5
a. Estimar la regresión lineal del incremento en las ventas sobre el gasto en
publicidad.
b. Hallar un intervalo de confianza del 90% para la pendiente de la recta de
regresión.
6. Se intentó evaluar el tipo a plazo como predictor del tipo al contado en el
mercado de valores. Para una muestra de 79 observaciones trimestrales, se
obtuvo la regresión lineal estimada
Y = 0.00027
+ 0.7916X, donde Y es la
Variación real en el tipo al contado y X es la Variación en el tipo a plazo. El
coeficiente de determinación fue de 0.097 y la desviación típica estimada de la
pendiente de la recta de regresión poblacional fue de 0.2759.
a. Interpretar la pendiente de la recta de regresión estimada.
b. Interpretar el coeficiente de determinación
c. Contrastar la hipótesis de que la pendiente de la recta de regresión es positiva,
interprete el resultado.
d. Contrastar la hipótesis de que la pendiente de la recta de regresión poblacional
es 1.
7. La tabla muestra, para 8 marcas de café instantáneo, el número medio de
adquisiciones por comprador (Y) y el porcentaje de compradores en un año (X)
Y
3.6
3.3
2.8
2.6
2.7
2.9
2.0
2.6
X
24
21
22
22
18
13
9
6
a. Estimar la regresión de las adquisiciones por comprador sobre el porcentaje
de compradores.
b. Interpretar la pendiente de la recta de regresión estimada.
c. Hallar e interpretar el coeficiente de determinación.
d. Hallar e interpretar un intervalo de confianza del 90% para la pendiente de la
recta de regresión poblacional.
e. Hallar un intervalo de confianza del 90% para las adquisiciones por comprador
esperadas en una marca cuyo porcentaje de compradores es 20.
8. Supongamos que el pasado año ocho empresas tuvieron los beneficios y gastos
(en millones de pesos) en investigación recogidos en la tabla adjunta.
a. Ajuste una línea de regresión tomando los beneficios como variable
dependiente y los gastos en investigación como variable independiente.
b. Obtenga
el coeficiente de terminación y verifique la significación de la
pendiente de la recta de regresión. A partir de los resultados obtenidos,
¿podremos concluir que los gastos en investigación originan beneficios?
BENEFICIOS
GASTOS DE INVESTIGACION
50
60
40
50
30
45
50
50
40
40
30
50
40
45
35
55
9. Los economistas suelen afirmar que las variaciones del PNB real afectan a la
rentabilidad de los fondos de inversión. A continuación se presentan los datos
recogidos para u periodo de 10 años.
Porcentaje de variación del PNB real
Rendimiento de los fondos de
inversión (%)
1.3
1.5
0.2
-1.1
1.9
2.1
2.6
2.4
3.1
2.7
21.0
25.0
18.0
7.0
25.0
21.0
31.0
29.0
33.0
32.0
a. ¿Qué sugiere el coeficiente de regresión?
b. ¿Respalda el coeficiente de determinación esta afirmación?
c. Calcular e interpretar el error típico de la estimación.
Evaluación
RESPONDA LAS PREGUNTAS CON BASE EN LA SIGUIENTE INFORMACION
Se prueba una campaña publicitaria para un producto en 10 ciudades. La
intensidad X de la publicidad varía de una ciudad a otra. El porcentaje Y de
familiaridad con el producto se determina por medio de una encuesta después
de la campaña publicitaria; en esta se obtuvo el siguiente resumen numérico:
 x  62,5
 y  23421,27
x
2
2
 y  413,7
 411,25
 xy  2930,45
1. La pendiente de la recta estimada está dada por la expresión:
B.
(62,5)(413,7)
10
(62,5) 2
411,25 
10
D.
2930,45 
C.
(62,5)(413,7)
10
411,25  (6,25) 2
2930,45 
2930,45  10(62,5)(413,7)
A.
411,25  10(62,5) 2
2930,45  10(6,25)(41,37)
411,25  10(62,5) 2
2. El valor de la pendiente de regresión indica:
A. El incremento en el porcentaje de aceptación del producto por cada
punto de aumento en la intensidad de la publicidad.
B. El incremento en la intensidad de la publicidad por cada punto de
aumento en el porcentaje de aceptación del producto.
C. El incremento en el porcentaje de aceptación del producto cuando la
intensidad de la publicidad es cero.
D. El incremento en la intensidad de la publicidad cuando el aumento en
el porcentaje de aceptación del producto es cero.
3. El valor de coeficiente de determinación R2
indica que:
A. La intensidad en la publicidad está explicada por su dependencia
lineal con el porcentaje de aceptación en un R2x100%
B. La intensidad en la publicidad está explicada por su dependencia
lineal con el porcentaje de aceptación en un R2%
C. El porcentaje de aceptación está explicado en un R2% por su
dependencia lineal con La intensidad en la publicidad.
D. El porcentaje de aceptación está explicado en un R2x100% por su
dependencia lineal con La intensidad en la publicidad.
4. La constante de regresión está dada por la expresión:
413,7

A.
10
B.
413,7

10
C.
D.
(62,5)(413,7)
10
(62,5) 2
411,25 
10
2930,45 
(62,5)(413,7)
10
411,25  (6,25) 2
2930,45 
413,7 2930,45  10(62,5)(413,7)

10
411,25  10(62,5) 2
413,7 2930,45  10(6,25)(41,37)

10
411,25  10(62,5) 2
TABLA 1
DISTRIBUCION NORMAL13
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
13
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4987
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4987
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4989
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4990
http://www.disfrutalasmatematicas.com/datos/distribucion-normal-estandar.html
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.4990
TABLA 2
DISTRIBUCION t (Unilateral)
TABLA 3
DISTRIBUCION t (Bilateral)
BIBLIOGRAFIA
 GEORGE C. CANAVOS. Probabilidad y Estadística Aplicaciones y métodos.
México, Mc Graw Hill 1995.
 HILDEBRAND Y OTT. Estadística aplicada a la administración y a la
Economía. U.S.A, Addison – Wesley Iberoamericana 1997.
 KEINZ KOHLER. Estadística para negocios y economía, editorial cesca
 MEYER P. Probabilidad y aplicaciones estadísticas, Fondo educativo
Interamericano.
 MORRIS H GROOT. Probabilidad y estadística, México, Mc Graw Hill 1996.
 PAUL NEWBOLD. Estadística para los Negocios y la economía. España,
Prentice Hall 1997.
 STEVENSON WILLIAM. Estadística para administración y economía, Editorial
Harla.
 WALPOLE MYERS. Probabilidad y estadística, México, Mc Graw Hill 1995.
CIBERGRAFIA
Distribuciones muestrales
http://ftp.utalca.cl/profesores/gicaza/Clases/7Distribuciones%20Muestrales.pdf
http://www.geociencias.unam.mx/~ramon/EstInf/Clase4.pdf
http://www.educatina.com/matematicas/probabilidad-y-estadistica/estadistica/poblacionestadistica/diferencias-en-la-distribucion-de-medias-muestrales-video
http://www.educandus.cl/estadistica/ejercicios/bases_teoricas/Distribucion/ResueltosDistribucio
nesMuestrales.pdf
Intervalos de confianza
http://www.slideshare.net/yohanabonillagutierrez/taller-intervalos-de-confianza
http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf
Prueba de hipótesis
http://www.youtube.com/watch?v=AJcy4eZMwWM
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html
http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html
Regresión Lineal
http://www.uv.es/uriel/material/Morelisi.pdf
http://www.youtube.com/watch?v=J1DoRMupI8k
http://www.slideshare.net/adangraus/regresion-lineal-simple-13381573
DIRECCIÓN DE EDUCACIÓN ABIERTA Y A DISTANCIA Y VIRTUALIDAD
PROGRAMA ADMINISTRACIÓN DE EMPRESAS
ESTADÌSTICA INFERENCIAL
Carretera Troncal de Occidente - Vía Corozal - Sincelejo (Sucre)
Teléfonos: 2804017 - 2804018 - 2804032, Ext. 126, 122 y 123
Mercadeo: 2806665 Celular: (314) 524 88 16
E- Mail: facultadeducacion@cecar.edu.co
Descargar