estadística administrativa ii elaborado por

Anuncio
TECNOLÓGICO DE ESTUDIOS SUPERIORES DEL
ORIENTE DEL ESTADO DE MÉXICO
DIVISIÓN DE CONTADURÍA
ELABORACIÓN DE CUADERNILLO DE APUNTES:
ESTADÍSTICA ADMINISTRATIVA II
ELABORADO POR:
ING. MIRIAM MEDINA DELGADO
LOS REYES, LA PAZ, ESTADO DE MÉXICO AGOSTO 2010
INDICE
Unidad 1 Pruebas de la bondad del ajuste y análisis de varianza
1.1 Análisis Ji-Cuadrada . ............................................................................ 1
1.2 Prueba de independencia . .................................................................... 1
1.3 Prueba de la bondad del ajuste . ............................................................ 1
1.4 Tablas de contingencia . ........................................................................ 4
1.4.1 método para obtener el estadístico x2 de una tabla de contingencia
con dos renglones. ................................................................................. 4
1.4.2 método para obtener el estadístico x2 de una tabla de contingencia
con más de dos renglones. .................................................................... 6
1.5 Análisis de varianza . ............................................................................. 9
1.5.1 Aplicaciones de ANOVA . ................................................................... 9
1.5.2 Inferencia sobre una varianza de población (Anova). . ....................... 14
1.5.3 Inferencia sobre la varianza de dos poblaciones (Anova). . ................ 15
Unidad 2. Análisis de regresión, correlación lineal simple y múltiple
2.1 Estimación mediante la línea de regresión . ......................................... 16
2.1.1 Diagrama de dispersión. ................................................................... 16
2.1.2 Método de mínimos cuadrados. ........................................................ 17
2.1.3 Interpretación del error estándar de la estimación. ............................. 18
2.1.4 Intervalos de predicción aproximados................................................ 19
2.1.5 Análisis de correlación. ..................................................................... 22
2.1.6 Paquete computacional para la solución de problemas. ..................... 22
2.1.7 Regresión múltiple y análisis de correlación. ..................................... 22
2.1.8 Usos de variables ficticias. ................................................................ 25
2.1.9 Residuales y gráficas de residuales. ................................................. 25
Unidad 3. Números índice
3.1 Elaboración de índices simples. ........................................................... 27
3.2 Índices agregados de precio. ............................................................... 27
3.3 Relativos eslabonados . ....................................................................... 28
3.4 Cambio de periodo base. ..................................................................... 28
3.5 Fusión de dos series de números índice. ............................................. 29
3.6 Índice de precios al consumidor (IPC).. ................................................ 29
3.7 Deflación de los valores de series de tiempo. ....................................... 30
3.8 Índice de precios al productor (IPP).. ................................................... 31
3.9 Promedios de precios bursátiles de DowJones. .................................... 31
3.10 Indice de producción insustrial. .......................................................... 31
Unidad 4. Estadística no paramétrica
4.1 Escala de medición. ............................................................................ 33
4.2 Métodos estadísticos contra no paramétricos. ...................................... 33
4.3 Prueba de corridas para aleatoriedad................................................... 35
4.3.1 Concepto de aleatoriedad. ................................................................ 35
4.3.2 Teoría de corridas. ........................................................................... 35
4.3.2.1 Prueba de corridas de una sola muestra. ....................................... 36
4.3.2.2 Distribución de muestreo del estadístico r...................................... 36
4.4 Una muestra: prueba de signos. .......................................................... 38
4.5 Una muestra: prueba de Wilcoxon. ...................................................... 40
4.6 Dos muestras: prueba de Mann-Whitney. ............................................. 42
4.7 Observaciones apareadas: prueba de Wilcoxon. .................................. 45
4.8 Varias muestras independientes: prueba de Krauskal-Wallis. ............... 46
INTRODUCCIÓN
La estadística administrativa es una materia importante en contaduría ya que
permite recopilar, organizar, representar, analizar datos y tomar decisiones, así
mismo nos da las herramientas necesarias para utilizar el método adecuado
conforme a la situación que se está analizando y aplicarlo en el área contable.
Este cuadernillo de apuntes tiene como finalidad servir de apoyo al estudiante
durante el curso de la materia, el cual consta de 4 unidades en donde se
proponen algunas prácticas para la aplicación de los temas estudiados y está
desarrollado conforme al temario. Sin embargo es importante que el alumno
consulte más fuentes de información con el objetivo de retroalimentar.
A continuación se hace una breve semblanza de los temas que se tratan en las
unidades.
Unidad 1. Pruebas de la bondad del ajuste y análisis de varianza. En esta
unidad se analizan los siguientes temas: análisis ji-cuadrada, pruebas de
independencia, bondad de ajuste, tablas de contingencia y análisis de
varianza para hacer inferencias a partir de una o dos poblaciones.
Unidad 2. Análisis de regresión correlación lineal simple y múltiple. En
esta unidad realiza el diagrama de dispersión, se aplica el método de mínimos
cuadrados para interpretar el error estándar y determinar los intervalos de
predicción, así como la solución de ejercicios de análisis de correlación en
Excel. Asimismo se recaban datos de una empresa para aplicar la regresión
lineal y hacer estimaciones futuras.
Unidad 3. Números índice. En esta unidad se realizan ejercicios para la
elaboración de
números índice: simple, precio agregado y precio al
consumidor. Asimismo se elaboran índices de precio y cantidad con datos
recabados en revistas y otras fuentes.
Unidad 4. Estadística no paramétrica. En esta unidad se contrasta la
estadística paramétrica contra la no paramétrica, así mismo se analizan temas
de prueba de corrida de aleatoriedad, de una o dos muestras y observaciones
apareadas. También se recopilan datos para efectuar comparación y análisis
entre la estadística y la estadística no paramétrica.
Estadística Administrativa II
1
Unidad 1. Pruebas de la bondad del ajuste y análisis de
varianza
1.1Análisis Ji-Cuadrada
Las pruebas Ji-Cuadrada nos permite probar si más de dos proporciones de
población pueden ser consideradas iguales.
Si clasificamos una población en diferentes categorías respecto a dos atributos
(por ejemplo, edad y desempeño en el trabajo), entonces podemos utilizar una
prueba Ji-Cuadrada para los dos atributos son independientes entre sí.
1.2 Prueba de independencia
Los administradores necesitan saber si las diferencias que observan entre
varias proporciones de la muestra son significativas o sólo se deben al azar.
1.3 Prueba de la bondad del ajuste
La prueba ji- cuadrada puede utilizarse también para decidir si una
distribución de probabilidad en particular, como la binomial, la de Poisson o la
normal, es la apropiada. Esta es una habilidad importante, porque como
tomadores de decisiones que utilizamos la estadística, necesitamos escoger
cierta distribución de probabilidad para representar la distribución de los datos
que tengamos que analizar.
La prueba ji- cuadrada nos permite hacernos la pregunta de cuál distribución
podemos utilizar, y probar si existe una diferencia significativa entre una
distribución de frecuencias observadas y una distribución de frecuencias
teórica.
Cálculo de frecuencias observadas y esperadas
Ejemplo
La compañía “x” requiere que los estudiantes del último año de la universidad
que buscan trabajo sean entrevistados por tres ejecutivos diferentes. Esto
permite a la compañía obtener una evaluación por consenso de candidatos.
Cada ejecutivo califica al candidato como positivo o negativo.
Con el propósito de planear la contratación, el director de selección del
personal de la compañía piensa que el proceso de entrevistas puede ser
aproximado por una distribución binomial con p= 0.40, es decir del 40 % de de
posibilidad de que cualquier candidato obtenga una calificación positiva en
cualquiera de las entrevistas.
Si el director desea probar una hipótesis a un nivel de significancia de 0.20.
¿Cómo debe proceder?
Estadística Administrativa II
2
Ho: una distribución binomial con p= 0.40
proceso de entrevista.
Hi: una distribución binomial con p= 0.40
proceso de entrevista.
Es una buena descripción del
No es una buena descripción del
α= 0.20 nivel de significancia para probar la hipótesis
Calificaciones positivas
posibles en las tres
entrevistas
Número de
candidatos que
obtienen cada
calificación
0
1
2
3
18
47
24
11
100
Calificaciones positivas
posibles en las tres
entrevistas
Probabilidades
binomiales para
esos resultados
0
1
2
3
.2160
.4320
.2880
.0640
1.0000
Resultados
de las entrevistas
de 100 candidatos
Posibilidad binomial
Frecuencias
observadas,
Probabilidades
binomiales
adecuadas
y frecuencias
esperada
Calificaciones
positivas
posibles en las tres
entrevistas
Frecuencia
observada de
candidatos que
obtienen estas
calificaciones
Probabilidades
binomiales de
resultados
posibles
Número de
candidatos
entrevistados
Frecuencia
esperada de
candidatos
que obtienen
estas
calificaciones
0
1
2
3
18
47
24
11
100
.2160
.4320
.2880
.0640
1.0000
100
100
100
100
21.6
43.2
28.8
6.4
100.0
Estadístico ji- cuadrada
x2 = Σ(fo-fe)2
fe
fo= frecuencia observada
fe= frecuencia esperada
Estadística Administrativa II
3
Calculo del
estadístico x2
2
Frecuencia
observada
fo
Frecuencia
esperada
fe
fo-fe
(fo-fe)
18
47
24
11
21.6
43.2
28.8
6.4
-3.6
3.8
-4.8
4.6
12.96
14.44
23.04
21.16
(fo-fe)
fe
2
0.6000
0.3343
0.8000
3.3063
2
X =5.0406
Determinación de los grados de libertad
Antes de calcular el número adecuado de grados de libertad para una prueba jicuadrada de bondad de ajuste, es necesario contar el número de clases
(denotado por K) para las que se compararon las frecuencias observadas y
esperadas.
Grados de libertad = k-1
K= 0,1,2,3
k= 4
gl= 4-1
gl= 3
Región de aceptación
Distribución x2
0.20 del área
Región de rechazo
4.642
5.0406
Valor de tabla
Valor x2
Rechazamos la hipótesis nula y llegamos a la conclusión de que la distribución
binomial con p=0.40 no proporciona una buena descripción de nuestras
frecuencias observadas
Realizar los siguientes ejercicios del libro:
1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall.
Número
Página
11-16
11-17
11-18
466
466
466
Estadística Administrativa II
4
1.4Tablas de contingencia
Describimos las dimensiones de una tabla de contingencia estableciendo
primero el número de renglones y luego el número de columnas. La columna y
el renglón con el total no cuentan como parte de las dimensiones. Los
renglones corren de manera horizontal y las columnas de manera vertical.
Tabla de contingencia de 2 x 4( 2 renglones, 4 columnas)
1.4.1 Método para obtener el estadístico x2 de una tabla de
contingencia con 2 renglones.
Ejemplo
En cuatro regiones se muestrean las actitudes de los empleados respecto a la
evaluación del desempeño en el trabajo. Los trabajadores eligen entre el
método actual (dos evaluaciones al año) y un método propuesto (evaluaciones
trimestrales). A continuación se presentan los datos.
Tabla de contingencia de 2x4
Respuesta de
la muestra
concerniente
a los
programas de
evaluación de
empleados
Número de empleados que
prefieren el método actual
Número de empleados que
prefieren el método nuevo
Total de empleados
muestreados en cada
región
Noreste
Sureste
Central
Costa
oeste
Total
68
75
57
79
279
32
45
33
31
141
100
56
90
110
420
Planteamiento del problema
Hipótesis nula
Ho: PN=PS=PC=PW
Hipótesis alternativa
Hi: PN, PS, PC, PW no son iguales
PN= proporción de empleados en el noreste que prefieren el plan actual
PS= proporción de empleados en el sureste que prefieren el plan actual
PC= proporción de empleados en la región central que prefieren el plan actual
PW= proporción de empleados de la región de la costa que prefieren el plan
actual.
Estadística Administrativa II
5
Frecuencias observadas y esperadas
Proporción de
empleados
muestreados
en cada
región que se
espera
prefieren los
dos métodos
de evaluación
Comparación
de las
frecuencias
observadas y
esperadas de
trabajadores
muestreados
Número total muestreado
Proporción estimada que
prefieren el método actual
Número que se espera
prefiera el método actual
Número total muestreado
Proporción estimada que
prefieren el método nuevo
Número que se espera
prefiera el método nuevo
Frecuencia con que
prefieren el método actual:
Frecuencia observada (real)
Frecuencia esperada
(teórica)
Frecuencia con que
prefieren el método nuevo:
Frecuencia observada (real)
Frecuencia esperada
(teórica)
Noreste
Sureste
Central
Costa
oeste
100
x 0.6643
120
x 0.6643
90
x 0.6643
110
x 0.6643
66.43
79.72
59.79
73.07
100
x 0.3357
120
x 0.3357
90
x 0.3357
110
x 0.3357
33.57
40.28
30.21
36.93
Noreste
Sureste
Central
Costa
oeste
68
75
57
79
66.43
79.72
59.79
73.07
32
45
33
31
33.57
40.28
30.21
36.93
Estadístico ji- cuadrada
𝒙𝟐 = 𝜮
(𝒇𝒐 − 𝒇𝒆)𝟐
𝒇𝒆
fo= frecuencia observada
fe= frecuencia esperada
Calculo del
estadístico
2
x
fo
68
75
57
79
32
45
33
31
fe
66.43
79.72
59.79
73.07
33.57
40.28
30.21
36.93
Paso 1
fo-fe
Paso 2
2
(fo-fe)
1.57
-4.72
-2.79
5.93
-1.57
4.72
2.79
-5.93
2.46
22.28
7.78
35.16
2.46
22.28
7.78
35.16
2
X=
Paso 3
2
(fo-fe)
fe
0.0370
0.2795
0.1301
0.4812
0.0733
0.5531
0.2575
0.9521
2.7638
Estadística Administrativa II
6
Determinación de los grados de libertad
Grados de libertad en una prueba ji- cuadrada
Número
grados
libertad
de
de
= (número de renglones -1 )(número de columnas -1)
Tabla de 2x4
(2-1)(4-1)= (1)(3) = 3 grados de libertad
Nivel de significancia de .10
Buscar en tablas x2 3 grados de libertad con un nivel de significancia de .10 y
graficar
Región de aceptación
Distribución x2
con 3 grados de
libertad
0.10 del área
Región de rechazo
2.764
Valor x2
6.251
Valor de tabla
Interpretación de los resultados y la gráfica.
1.4.2 Método para obtener el estadístico x2 de una tabla de
contingencia con más de 2 renglones.
Estadístico ji- cuadrada
x2 = Σ(fo-fe)2
fe
fo= frecuencia observada
fe= frecuencia esperada
Determinación de los grados de libertad de una tabla de
contingencia de más de tres renglones
Grados de libertad en una prueba ji- cuadrada
Número
de
grados
de
libertad de una
tabla de más de
tres renglones
= (número de renglones -1 )(número de columnas -1)
Estadística Administrativa II
7
Tabla de contingencia
Número de
renglones
Número de
columnas
r-1
c-1
A
B
C
3
5
6
4
7
9
3-1=2
5-1=4
6-1=5
4-1=3
7-1=6
9-1=8
Grados de
libertad
(r-1)(c-1)
(2)(3)=6
(4)(6)=24
(5)(8)=40
El presidente de una compañía de seguros de salud, se opone al seguro
nacional. Argumenta que su implementación sería muy costosa, en particular,
debido a que la existencia de este sistema tendería a fomentar permanencias
hospitalarias más prolongadas, además de otros efectos. El presidente piensa
que el tiempo de hospitalización depende del tipo de seguro de salud que
tengan las personas.
Los siguientes datos se obtuvieron de una muestra aleatoria de 660
hospitalizaciones.
Datos de
hospitalizaciones
Calificados según
el tipo de
cobertura del
seguro y el tiempo
de estancia
Fracción de costos
cubiertos por el seguro
<25%
25 -50%
>50%
Total
Días en el hospital
<5
5-10
40
75
30
45
40
100
>10
65
75
190
Total
180
150
330
110
330
660
220
Planteamiento del problema
Hipótesis nula
Ho: el tiempo de estancia y tipo de seguro son independientes
Hipótesis alternativa
Hi: el tiempo de estancia depende del tipo de seguro
α= 0.01 nivel de significancia para probar la hipótesis
Calculo de la frecuencia esperada
Frecuencia esperada para cualquier celda
fe= RT X CT
n
fe= frecuencia esperada en una celda dada
RT= total por renglón para el renglón que contiene esa celda
CT= total por columna para la columna que contiene esa celda.
n= número total de observaciones
Estadística Administrativa II
8
Estadístico ji- cuadrada
fo= frecuencia observada
fe= frecuencia esperada
x2 = Σ(fo-fe)2
fe
Calculo
de las
frecuencia
s
esperadas
y jicuadrada
2
(fo-fe)
fe
2
Renglón
Columna
fo
fe
= RT X CT
n
fo-fe
(fo-fe)
1
1
40
30
10
100
3.333
1
2
75
60
15
225
3.750
1
3
65
90
-25
625
6.944
2
1
30
25
5
25
1.000
2
2
45
50
-5
25
0.500
2
3
75
75
0
0
0.000
3
1
40
55
-15
225
4.091
3
2
100
110
-10
100
0.909
3
3
190
165
180 X 110
660
180 X 220
660
180 X 330
660
150 X 110
660
150 X 220
660
150 X 330
660
330 X 110
660
330 X 220
660
330 X 330
660
25
625
3.788
2
X =24.315
Buscar en tablas x2 4grados de libertad con un nivel de significancia de .10 y
graficar
Región de aceptación
Distribución x2
0.10 del área
Región de rechazo
13.277
Valor de tabla
Interpretación de resultados
x2= 24.315
Estadística Administrativa II
9
Ejercicios
Realizar los siguientes ejercicios del libro:
1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall.
Número
Página
11-1
11-2
11-7
11-8
11-9
11-10
11-11
11-12
11-13
459
460
460
460
460
460
461
461
461
1.5 Análisis de varianza
El análisis de varianza nos permite probar si más de dos medias de población
pueden considerarse iguales. A menudo se abrevia ANOVA: analysis of
variance.
ANOVA Es un método de prueba de igualdad de tres o más medias
poblacionales. 1
Hipótesis nula típica
HO= μ1= μ2= μ3
El método ANOVA nos sirve para evitar el error tipo I (rechazar una hipótesis
nula verdadera,), si utilizamos una prueba de igualdad de varias medias.
1.5.1 Aplicaciones de ANOVA
Se utiliza cuando:
Se asevera que los supermercados colocan los cereales con alto contenido de
azúcar en estantes que están a la altura De los ojos de los niños, de manera
que eso nos permite probar la aseveración de que los cereales en los estantes
tienen
el
mismo
contenido
de
azúcar.
1
Mario F. Triola, Estadística, Pearson, México,2006
Estadística Administrativa II
10
También en casos como: la comparación del kilometraje logrado por cinco
clases diferentes de gasolina, la prueba de cuál de cuatro métodos de
capacitación produce el aprendizaje más rápido, etc.
Los métodos de ANOVA requieren de la distribución F.
Propiedades de la distribución F:
1. Es no simétrica; se sesga hacia la derecha
2. Los valores F son 0 o positivo, pero no negativos
3. Hay una distribución F para cada par de grados de libertad para el
numerador y el denominador.
Figura 1. Fuente: (Triola, 2006:605)
Ejemplo
Muestra 1 15 18 19 22 11
Muestra 2
22 27 18 21 17
Muestra 3 18 24 19 16 22 15
Planteamiento de la hipótesis
Ho: μ1= μ2= μ3
H1: μ1, μ2 y μ3 no son todas iguales
Estadística Administrativa II
11
Cálculo de la media
Método 1
Método 2
Método 3
15
18
19
22
11
22
27
18
21
17
85
÷5
17
105
÷5
21
18
24
19
16
22
15
114
÷6
n1=5
n2=5
n3=6
Producción diaria
1=
17
2=
21
3=
Sumatoria
Tamaño de
la muestra
Media
muestral
19
19
Cálculo de la gran media
= 15 +18+ 19+ 22+ 11+22 +27+ 18+ 21+ 17+18 +24+ 19+ 16+ 22+ 15 = 19
16
Cálculo de la varianza entre columnas
σ2b = Σnj (
n
Cálculo de la
varianza
entre columnas
σ2b = Σnj (
5
5
6
)2 =
k-1
17
21
19
- )2 = 40=
k-1
3-1
19
19
19
40
2
(
17-19=-2
21-19=2
19-19=0
= 20
2
)2
(-2) =4
(2)2=4
(0)2=0
Σnj( - )2
n(
-
)
5x4=20
5x4=20
6x0 = 0
=40
varianza entre columnas
Estadística Administrativa II
12
Estimación de la varianza dentro de columnas
Método de capacitación 1
Media muestral =17
Estimación
de la varianza
dentro de columnas
s21= Σ(
- )2
n-1
= 70
5-1
= 17.5
15-17=-2
18-17=1
19-17=2
22-17=5
11-17=-6
Σ( - )2
( - )2
(-2)2=4
(1)2=1
(2)2=4
(5)2=25
(-6)2=36
=70
varianza de la muestra
Método de capacitación 2
Media muestral =21
Estimación
de la varianza
dentro de columnas
s22= Σ(
- )2
n-1
= 62
5-1
= 15.5
22-21=1
27-21=6
18-21=-3
21-21=0
17-21=-4
Σ( - )2
( - )2
(1)2=1
(6)2=36
(-3)2=9
(0)2=0
(-4)2=16
=62
varianza de la muestra
Método de capacitación 3
Media muestral =19
Estimación
de la varianza
dentro de columnas
18-19=-1
24-19=5
19-19=0
16-19=-3
22-19=3
15-19=-4
Σ( - )2
( - )2
(-1)2=1
(5)2=25
(0)2=0
(-3)2=9
(-32=9
(-4)2=16
=60
Estadística Administrativa II
13
s23= Σ(
σ2w = Σ
- )2
n-1
= 60
6-1
= 12.0
varianza de la muestra
nj - 1 s2j = (4/13)(17.5) + (4/13)(15.5) + (5/13)(12.0) = 193 = 14.769
nt - k
13
Estadístico F
F = varianza entre columnas
= σ2b
Varianza dentro de columnas
σ2w
F=
20
=
14.769
1.354 cociente F
Determinación de los grados de libertad
Grados de libertad del numerador
Número de grados de libertad en el
= (número de muestras-1)
numerador del cociente F
Grados de libertad del denominador
Número de grados de libertad en el
= Σ (nj-1)= nt-k
denominador del cociente F
Gráfica
Región de aceptación
Distribución f
0.05 del área
Región de rechazo
F= 1.354
3.81
Valor de tabla
Se acepta la hipótesis nula.
Estadística Administrativa II
14
Ejercicios
Realizar los siguientes ejercicios del libro:
1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall.
Número
Página
11-5
11-6
11-26
11-27
11-28
11-29
11-30
479
479
480
480
480
480
480
1.5.2 Inferencia sobre una varianza de población (Anova).
Estadístico ji- cuadrada para inferencias sobre una
varianza
X2=(n-1)s2
σ2
Intervalo de confianza para σ2
Límite inferior de confianza
σ2L=(n-1)s2
Límite superior de confianza
σ2U=(n-1)s2
X2U
X2L
Estadística Administrativa II
15
Ejercicio.
Con los siguientes datos obtener el estadístico ji- cuadrada Y el intervalo de
confianza del 95%
Tiempo x
50
45
27
66
43
96
45
90
69
1.5.3 Inferencia sobre la varianza de dos poblaciones (Anova).
Además de comparar la varianza de dos poblaciones, el principal objetivo de
este tema es analizar el cociente que se obtiene al aplicar la fórmula
correspondiente.
Coeficiente F para inferencias acerca de dos varianzas.
F=S21
S22
Estadística Administrativa II
16
Unidad 2. Análisis de regresión, correlación lineal simple y
múltiple
2.1 Estimación mediante la línea de regresión
El análisis de regresión y correlación permiten determinar tanto la naturaleza
como la fuerza de una relación entre dos variables.
En el análisis de regresión se desarrollará una ecuación de estimación, a través
de una fórmula matemática que relaciona las variables conocidas con la
variable desconocida.
La variable conocida.- variable independiente X
La variable que tratamos de predecir se llama variable dependiente Y
Y
Y
Pendiente negativa
Pendiente positiva
Emisor
de
contaminación
Ventas
X
X
Publicidad
Gastos contra la contaminación
a) Relación directa
b) Relación directa
Figura 2. Fuente: (Levin, 2004:511)
2.1.1 Diagrama de dispersión
El primer paso para determinar si existe una relación entre dos variables es
examinar la gráfica de datos observados. A esta gráfica se le llama diagrama
de dispersión.
Un diagrama de dispersión se puede identificar visualmente patrones que
indique si las variables están relacionadas.
Estadística Administrativa II
17
Figura 3. Fuente: (Levin, 2004:503)
2.1.2 Método de mínimos cuadrados
Línea de estimación
Y= a+bx
Y= variable dependiente
a=variable ordenada y
b=pendiente de la recta
x=variable independiente
Pendiente de la recta de regresión de mejor ajuste
b = Σ XY - n X Y
Σ X2 - n X2
b=pendiente de la línea de estimación de mejor ajuste
X= valores de la variable independiente
Y= variable valores de la variable dependiente
X= media de los valores de la variable independiente
Y= media de los valores de la variable dependiente
n= número de puntos
Estadística Administrativa II
18
Línea de estimación
a = Y - bX
a= ordenada Y
b= pendiente de la ecuación
X= media de los valores de la variable independiente
Y= media de los valores de la variable dependiente
Error estándar de la estimación
Se= Σ(Y-Y)2
n-2
Y= valores de la variable dependiente
Y=valores estimados con la ecuación de estimación que corresponden a cada
valor de Y
n= número de puntos utilizados para ajustar la línea de regresión
Para medir la confiabilidad de la ecuación de estimación, los especialistas en
estadística han desarrollado el error estándar de estimación. Este error
estándar se simboliza por Se y es similar a la desviación estándar, en cuanto a
que ambas son medidas de dispersión.
El error estándar de la estimación, por otra parte, mide la variabilidad, o
dispersión de los valores observados alrededor de la recta de regresión.
2.1.3 Interpretación del error estándar de la estimación
Como ocurriría en el caso de la desviación estándar, mientras más grande sea
el error estándar de la estimación, mayor será la dispersión de los puntos
alrededor de la línea de regresión. De manera inversa, si Se= 0, esperamos que
la ecuación de estimación sea un estimador “perfecto” de la variable
dependiente. En este caso, todos los puntos caerían directamente sobre la
línea de regresión y no habría puntos dispersos alrededor.
Usaremos el error estándar de la estimación como una herramienta, de la
misma forma que podemos usar la desviación estándar. Esto es, suponiendo
que los puntos observados siguen una distribución normal alrededor de la recta
de regresión, podemos esperar encontrar el 68% de los puntos dentro de ±1Se,
el 95.5 % de los puntos dentro de ±2Se, y el 99.7 % de los puntos dentro de
±3Se.
Estadística Administrativa II
19
Figura 4. Fuente: (Levin, 2004:529)
Debemos observar que el error estándar de la estimación se mide a lo largo del
eje Y, y no perpendicularmente desde la recta de regresión.
2.1.4 Intervalos de predicción aproximados
Podemos concebir al error estándar de la estimación como una herramienta
estadística que podemos usar para hacer afirmaciones de probabilidad acerca
del intervalo alrededor del valor estimado de Y, dentro del cual cae el valor real
de Y.
Ejemplo
Y= 3.75 + 0.75 X
Sustituyendo 4 en X
Y= 3.75 + 0.75 (4)
= 3.75 + 3.00
= 6.75
Estadística Administrativa II
20
Intervalo
1 error
2 errores
3 errores
Y ±2 Se.
Y ±1 Se.
Y ±3 Se.
En donde Se = 86.60
Sustitución
Y +1 Se =
Y +2 Se =
675 + (1) (86.60) = 761.40
675 + (2) (86.60) = 848.20
Límite superior del intervalo de
predicción
Límite superior del intervalo de
predicción
Y -1 Se =
Y - 2 Se =
675 - (1) (86.60) = 588.40
675 - (2) (86.60) = 501.80
Límite inferior del intervalo de
predicción
Límite inferior del intervalo de
predicción
Ejemplo
A menudo quienes hacen la contabilidad de costos estiman los gastos
generales con base en el nivel de producción. Se ha reunido información
acerca de los gastos generales y las unidades producidas en diferentes
plantas, y ahora desean estimar una ecuación de regresión para predecir los
gastos generales futuros.
Gastos generales
Unidades
a)
b)
c)
d)
191
40
170
42
272
53
155
35
280
56
173
39
234
48
116
30
153
37
Determine la variable dependiente e independiente
Desarrolle una ecuación de regresión para contabilidad de costos
Pronostique los gastos generales cuando se producen 50 unidades
Calcule el error estándar de estimación
178
40
Estadística Administrativa II
21
ΣX=
X
Y
XY
X2
Y2
40
42
53
35
56
39
48
30
37
40
420
191
170
272
155
280
173
234
116
153
178
1922
7640
7140
14416
5425
15680
6747
11232
3480
5661
7120
84541
1600
1764
2809
1225
3136
1521
2304
900
1369
1600
18228
36481
28900
73984
24025
78400
29929
54756
13456
23409
31684
395024
ΣY=
ΣXY=
ΣX2=
ΣY2=
b = Σ XY - n X Y = 84541 - 10(42)(192.2) = 6.4915
Σ X2 - n X2
18228 - 10(42)2
a = Y – bX = 192.2 – 6.4915 (42) = - 80.4430
Y= a+bx = -80.4430 + 6.4915 (50) = 244.1320
Se= ΣY2 –aΣY – b ΣXY =
n-2
Ejercicios
Realizar los siguientes ejercicios del libro:
1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall.
Número
Página
12-2
12-3
12-13
12-14
12-15
531
531
531
531
531
Estadística Administrativa II
22
2.1.5 Análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar para
describir el grado en el que una variable está linealmente relacionada con otra.
El coeficiente de determinación es la principal forma en que podemos medir el
grado, o fuerza, de la asociación que existe entre dos variables, X y Y. debido a
que usamos una muestra de puntos para desarrollar rectas de regresión.
Coeficiente de determinación de la muestra
r2= aΣY+bΣXY-nY2
ΣY2 – n Y2
Coeficiente de correlación de la muestra
r= r2
Ejercicio
Con los datos de los ejercicios anteriores obtén el coeficiente de determinación
y el coeficiente de correlación.
2.1.6 Paquete computacional para la solución de problemas
Resolver ejercicios en excel
2.1.7 Regresión múltiple y análisis de correlación
Podemos utilizar más de una variable independiente para estimar la variable
dependiente e intentar, aumentar la precisión de la estimación. Este proceso se
conoce como análisis de regresión múltiple y correlación.
La principal ventaja de la regresión múltiple es que nos permite utilizar más
información disponible para estimar la variable dependiente. En algunas
ocasiones la correlación entre dos variables puede resultar insuficiente para
determinar una ecuación de estimación confiable; sin embargo, si agregamos
los datos de más variables independientes, podemos determinar una ecuación
de estimación que describa la relación con mayor precisión.
Estadística Administrativa II
23
Ecuación de estimación que describe la relación entre tres variables
Y= a + b1 X1 + b2 X2
Ecuación
na + b1 ΣX1 + b2 ΣX2 = ΣY
aΣX1 + b1 ΣX21 + b2 Σ X1X2 = Σ X1Y
aΣX2 + b1 Σ X1X2 + b2 ΣX22 = Σ X2Y
Ejemplo
a) Calcular el plano de regresión múltiple
b) Prediga Y cuando X1=28 y x2=10
Y
10
177
18
26
35
8
Sumatoria 114
X1
X2
X1y
X2y
X1X2
X1 2
X2 2
8
21
14
17
36
9
105
4
9
11
20
13
28
85
80
357
252
442
1260
72
2463
40
153
198
520
455
224
1590
32
189
154
340
468
252
1435
64
441
196
289
1296
81
2367
166
81
121
400
169
784
1571
Matriz
6
105
85
105
2367
1435
85
1435
1571
114
2463
1590
1
0
0
17.5 14.167
529.5 -52.535
-52.5 366.805
19
468
-25
1
0
0
17.5 14.167
1
-.099
0 361.608
19
.884
21.410
361.608
b2
b2
=
=
b2
=
21.410
21.410
361.608
.059
Estadística Administrativa II
24
1 b1
1 b1
1a
1a
-.099
b2
-.099 (.059)
-.006
1b1
b1
= .884
= .884
.884
= .884 +.006
= .890
+17.5b1
+14.167b2
+17.5(.890) +14.167 (.059)
1a +16.411
1a
=
=
=
=
19
19
19
19-16.411
a
=
2.589
Y= a + b1 X1 + b2 X2
y=2.589+.890(28)+.059(10)=28.099
Estadística Administrativa II
25
2.1.8 Usos de variables ficticias
La regresión múltiple nos permitirá también ajustar tanto curvas como rectas.
Usando las técnicas de variables ficticias, podemos incluir factores cualitativos
en la regresión múltiple. Las variables ficticias y las curvas de ajuste son
solamente dos de las muchas técnicas de modelado que se pueden utilizar en
la regresión múltiple para aumentar la precisión de las ecuaciones de
estimación.
2.1.9 Residuales y gráficas de residuales
Residuo es la diferencia entre el valor de Y y el valor pronosticado de Y, es
decir (Y - Y’)
Cuando los residuos permanecen constantes para todos los valores de Y’, esta
condición se llama homoscedasticidad
La homocedasticidad es una propiedad fundamental del modelo de regresión
lineal general y está dentro de sus supuestos clásicos básicos.
Se dice que existe homocedasticidad cuando la varianza de los errores
estocásticos de la regresión es la misma para cada observación i (de 1 a n
observaciones), es decir:
donde
es un escalar constante para todo i. Lo que significaría que habría
una distribución de probabilidad de idéntica amplitud para cada variable
aleatoria.
Esta cualidad es necesaria, según el Teorema de Gauss-Márkov, para que en
un modelo los coeficientes estimados sean los mejores o eficientes, lineales e
insesgados.
Cuando no se cumple esta situación, decimos que existe heterocedasticidad,
que es cuando la varianza de cada termino de perturbación (ui) no es un
número constante
.
Este fenómeno suele ser muy común en datos de Corte Transversal y también
se presenta, menos frecuentemente, en series de tiempo.
Estadística Administrativa II
26
Figura 5. Distribución Homocedástica.
Figura 6. Distribución Heterocedástica.
Práctica 1
󲐀 Con los datos históricos de ventas de una empresa, aplicará la regresión
lineal, para hacer estimaciones futuras.
Estadística Administrativa II
27
Unidad 3. Números índice
Un número índice mide cuánto ha cambiado una variable con el tiempo. Se
calcula encontrando el cociente del valor actual entre el valor base, luego se
multiplica el número resultante por cien, por lo tanto se expresa en porcentaje.
Tipos de números índice
Existen tres tipos principales de números índice: índice de precios, índice de
cantidad e índice de valor.
Índice de precios
Compara niveles de precio de un periodo a otro. El índice de
precios al consumidor (IPC) clasificado por los gobiernos de los
países, mide los cambios globales de precios de un conjunto
de bienes y servicios al consumidor, y se usa para definir el
costo de vida.
Índice de cantidad Mide cuánto cambia el número o la cantidad de una variable
con el tiempo.
Índice de valor
Mide los cambios del valor monetario total, es decir, mide el
cambio del valor en dinero de una variable.
El índice de valor combina los cambios de precio y cantidad para presentar un
índice con más información.
Los números índice, como el IPC, a menudo se citan en informes noticiosos
como indicadores generales de la condición económica de un país.
Factores que pueden distorsionar los números índice.
•
Número limitado de datos o dificultad para encontrar datos adecuados.
•
Falta de comparación de índices.
•
Ponderación no apropiada de los factores.
•
Selección de una base no apropiada.
Estadística Administrativa II
28
3.1 Elaboración de índices simples
3.2 Índices agregados de precio
El índice de agregados no ponderados es un índice compuesto. No ponderado
significa que todos los valores considerados tienen la misma importancia de
agregados quiere decir que sumamos todos los valores.
Índice de cantidad de agregados no ponderados
ΣQi x 100
ΣQo
Qi=cantidad de cada elemento del compuesto en el año para el que se desea
el índice.
Qo= cantidad de cada elemento del compuesto en el año base.
Ejemplo
El vicepresidente de ventas de la empresa “X” está examinando la tasa de
comisión para lños empleados durante los últimos 3 años. En la siguiente tabla
se muestran las ganancias por comisiones de los cinco mejores vendedores
de la compañía.
Empleado A
Empleado B
Empleado C
Empleado D
Empleado E
1993
48,500
41,900
38,750
36,300
33,850
1994
55,100
46,200
43,500
45,400
38,300
1995
63,800
60,150
46,700
39,900
50,200
Considerando a 1993 como el periodo base, exprese las ganancias por
comisiones de 1994 y 1995 en términos de un índice de agregado no
ponderado.
Empleado A
Empleado B
Empleado C
Empleado D
Empleado E
1993
1994
1995
Qo
Q1
Q2
48,500
41,900
38,750
36,300
33,850
199,300
55,100
46,200
43,500
45,400
38,300
228,500
63,800
60,150
46,700
39,900
50,200
260,750
19,930,000
199,300
22,850,000
199,300
26,075,000
199,300
=100%
=114.7%
=130.8%
Estadística Administrativa II
29
Índice de agregados ponderado
Cuando se calcula un índice se tiene que asignar una importancia mayor a los
cambios en algunas variables que en otras. Esta ponderación permite mejorar
la precisión de la estimación del nivel general de precios basado en una
muestra.
Índice de precios de agregados ponderados
ΣPiQ x 100
ΣPoQ
Pi=precio de cada elemento del compuesto en del año actual
Po= precio de cada elemento del compuesto en del año actual año base.
Q= factor de ponderación de cantidad seleccionado
3.3 Relativos eslabonados
"Son índices cuya base es siempre periodo anterior. En consecuencia, respecto
de un conjunto de relativos eslabonados de valores anuales de ventas, cada
numero índice representa una comparación porcentual con el año anterior.
Estos relativos son útiles para destacar comparaciones entre un año y otro,
pero resultan inconvenientes como base de comparaciones a largo plazo"
3.4 Cambio de periodo base
"La base de una serie establecida de números índices suele cambiarse a un
año más reciente para que las comparaciones actuales sean más significativas.
Partiendo del supuesto de que no se dispone de las cantidades originales en
las que se apoya la serie de números índices, el periodo base de un numero
índice puede cambiarse dividiendo cada índice (original) entre el índice del año
base recién determinado y multiplicando el resultado por 100:"
Cambio de periodo base
I nuevo =
Índice antiguo
Índice antiguo de la nueva base
x100
Estadística Administrativa II
30
3.5 Fusión de dos series de números índice
"Es frecuente que un número índice sufra cambios a causa de la adicción de
ciertos productos nuevos o de la exclusión de ciertos productos antiguos, así
como de cambios en el año base. Sin embargo, para efectos de continuidad
histórica es deseable contar con una serie uniforme de números índices. Para
fusionar dos diferentes series de tiempo de esta clase a fin de tomar una serie
continua de números índices, debe haber un año de empalme de las dos series
en relación con el cual se hayan calculado ambos números índices.
Generalmente el año de empalme es también la nueva base, porque es el año
en que se ha añadido y/o eliminado productos del índice agregado. Los
números índices que deben modificarse en el proceso de fusión son los índices
de la antigua serie. Este cambio se realiza dividiendo el nuevo numero índice
del año de empalme, entre el antiguo índice de ese año y multiplicando
después por este cociente cada uno de los números índices de la antigua serie
de los números índices."
3.6 Índice de precios al consumidor (IPC).
"Es el índice más conocido de los que se han publicado, dada su utilidad como
indicador de la tasa de inflación y del costo de vida… se trata de un índice
agregado de precios sobre una canasta básica de varios cientos de bienes y
servicios, cuya ponderaciones son reflejo de los patrones de compra de los
consumidores urbanos."
Para que las variaciones en el índice se deban sólo a modificaciones en los
precios y no a otros factores, como por ejemplo el cambio en los hábitos de
compra de los consumidores, es necesario que las ponderaciones de los
bienes y servicios sean las mismas en los períodos cuyos precios se comparan
y, a su vez, que las especificaciones de esos bienes y servicios de la canasta
deben ser comparables.
Aislar la evolución de los precios es una tarea complicada. La variación
temporal en el gasto que un hogar destina para la compra de determinado bien
o servicio se origina conjuntamente por factores de precio y por factores de
volumen físico.
Los índices de precios tratan de medir el efecto de los factores de precio, esto
es, la cantidad de dinero pagada por una unidad de bien o servicio, de
determinada calidad. Sería óptimo, entonces, que los índices de precios no
estuvieran distorsionados por cambios en la calidad de los productos o
servicios.
El proceso de elaboración de un índice puro de precios conlleva mucho trabajo,
debido a la dificultad que implica separar los factores que no se deben en
forma exclusiva a los precios pero que también inciden en el valor de los bienes
y servicios (cantidad, volumen, características físicas y funcionales, durabilidad,
calidad, prestigio que otorga su consumo, lugar de adquisición, momento y
volumen de la adquisición, etcétera).
Estadística Administrativa II
31
Por otra parte, debido a los cambios en los patrones de consumo de la
población de referencia existe la necesidad de revisar, y modificar si fuera
necesario, la canasta de consumo, así como la población de referencia y los
negocios informantes, para que el índice se mantenga actualizado, sea
representativo y útil en la práctica.
3.7 Deflación de los valores de series de tiempo
Situación opuesta a la inflación en la que aumenta el valor de la unidad
monetaria como resultante de la baja de los precios. Se produce deflación
cuando la masa monetaria crece a un ritmo menor que la oferta total de bienes
y servicios.
En la práctica esto casi nunca sucede, pues los gobiernos aumentan la oferta
monetaria a un ritmo suficiente como para compensar ese crecimiento: de no
hacerlo podrían darse bajas en los salarios nominales, con el consiguiente
malestar social que esto produciría.
La deflación de series monetarias consiste en eliminar el efecto que los
cambios en los precios de los bienes tienen sobre las series de valores.
Cuando queremos conocer la evolución de una serie de valores a lo largo del
tiempo, por ejemplo, beneficios de una empresa, producción de una industria,
salarios de los empleados de una empresa, ingresos de los hogares, etc., nos
encontramos habitualmente con los valores están en unidades monetarias de
cada periodo, esto es, los valores se refieren a unidades monetarias corrientes.
Esto va a hacer que los valores no sean directamente comparables puesto que
las alteraciones de los precios de un periodo a otro confieren distinto poder
adquisitivo a las unidades monetarias. En otras palabras, el efecto de la
inflación (o deflación) modifica la capacidad de compra del dinero.
Para conocer los cambios reales experimentados por la serie a lo largo del
periodo de interés tendremos que expresar todos los valores de dicha serie en
unidades monetarias de un mismo periodo, es decir, en unidades monetarias
constantes.
Los valores expresados en unidades monetarias corrientes se conocen como
valores nominales.
Los valores expresados en unidades monetarias constantes se conocen como
valores reales.
Estadística Administrativa II
32
3.8 Índice de precios al productor (IPP).
"Incluye tres índices diferentes: de materias primas, materias intermedias y
bienes terminados. Se le considera un importante indicador líder de la tasa de
inflación, debido a la probabilidad de que incrementos en los precios de los
bienes terminados den origen a subsecuentes incrementos en precios al
consumidor."
Es el producto resultante de una investigación estadística de carácter
estratégico, que permite medir la variación porcentual promedio de los precios
al por menor de un conjunto de bienes y servicios. Para entender mejor la
naturaleza del IPP, se debe pensar en el índice como una medida del
porcentaje de cambio, a través del tiempo, del costo promedio de una gran
canasta de bienes y servicios comprados por los hogares de Colombia,
manteniendo constante la calidad y la cantidad de los bienes. La diferencia con
el IPC radica en las agrupaciones en las que está dividido el índice. El IPP
tiene en cuenta las siguientes agrupaciones Alimentos y animales vivos,
bebidas y tabaco, materias primas no combustibles y lubricantes, aceites y
grasas vegetales y animales, productos químicos, artículos manufacturados,
maquinaria y equipo de transporte, artículos manufacturados diversos.
3.9 Promedios de precios bursátiles de DowJones
"Los promedios de precios bursátiles de Dow Jones, muestra los promedios de
las acciones en el ramo de la industria, el transporte y de servicios públicos,
toma como muestra 30 mercados. Se trata de un promedio ponderado cuyas
ponderaciones ha sido revisadas varias veces a causa de cambios en el valor
nominal de las acciones y modificaciones en las compañías incluidas en el
índice."
Este índice es representativo de las 30 mayores compañías industriales de
Estados Unidos y se compila sumando los precios de sus acciones y luego
dividiéndolos por una constante. El divisor del Dow Jones se ajusta
periódicamente a fin de reflejar el fraccionamiento o división de las acciones
(ver Split). Este promedio empezó a compilarse en 1896 con los títulos de 12
firmas, entre ellas las entonces American Tobaco, Tennessee Coal and Iron,
Chicago Gas, American Sugar, y la única sobreviviente hoy: General Electric.
En 1916 ya eran 20. Y a partir de 1928 pasaron a ser 30, sin que hasta ahora
haya
variado
esa
cantidad.
A continuación las compañías comprendidas en el Dow Jones y los símbolos
bajos los cuales se cotizan en la Bolsa de Nueva York (NYSE):
Estadística Administrativa II
33
Símbolo
AA
Nombre de la
compañía
Alcoa
ALD
Allied Signal
AXP
American Express
BA
Boeing
CAT
Caterpillar
CHV
Chevron
C
CitiGroup
DIS
Disney
DD
Dupont
EK
Eastman Kodak
GE
General Electric
GM
General Motors
GT
Goodyear Tire
HWP
Hewlett-Packard
IBM
International Business
Machines
IP
International Paper
JNJ
Johnson & Johnson
JPM
JP Morgan Bank
KO
Coca Cola
Figura 5. Compañías comprendidas en el Dow Jones
3.10 Índice de producción industrial
"Es un índice agregado de cantidad… y es una medida de la producción de
fábricas, minas y plantas eléctricas y gaseras del país. Por lo tanto, es un
indicador importante del estado de la economía. Se trata de un promedio
ponderado de relativos de cantidad."
El Índice de Producción Industrial (IPI) es un indicador coyuntural que mide la
evolución mensual de la actividad productiva de las ramas industriales, excluida
la construcción, contenidas en la Clasificación Nacional de Actividades
Económicas 2009 (CNAE-2009). Mide, por tanto, la evolución conjunta de la
cantidad y de la calidad, eliminando la influencia de los precios.
Para su obtención se realiza una encuesta continua de periodicidad mensual
que investiga todos los meses más de 13.200 establecimientos.
Práctica 2
󲐀 Con datos investigados en revistas al consumidor o del Banco de México,
elaborará los índices simples de precio y cantidad, así como agregado
de precios.
Estadística Administrativa II
34
Unidad 4. Estadística no paramétrica
4.1 Escala de medición
Las escalas de medición son una sucesión de medidas que permiten organizar
datos en orden jerárquico. Las escalas de medición, pueden ser clasificadas de
acuerdo a una degradación de las características de las variables. Estas
escalas son: nominales, ordinales o racionales. Según pasa de una escala a
otra el atributo o la cualidad aumenta. Las escalas de medición ofrecen
información sobre la clasificación de variables discretas o continuas. Toda vez
que dicha clasificación determina la selección de la gráfica adecuada.
En la estadística descriptiva y con el fin de realizar pruebas de significancia, las
variables se clasifican de la siguiente manera de acuerdo con su nivel de
medida:
•
•
•
•
Nominal (también categórica o discreta)
Ordinal
De intervalo (continua)
De razón o racional (continua)
4.2 Métodos estadísticos contra no paramétricos
Las técnicas estadísticas de estimación de parámetros, intervalos de confianza
y prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y
son aplicadas básicamente a variables contínuas. Estas técnicas se basan en
especificar una forma de distribución de la variable aleatoria y de los
estadísticos derivados de los datos.
En estadística paramétrica se asume que la población de la cual la muestra es
extraída es normal o aproximadamente normal. Esta propiedad es necesaria
para que la prueba de hipótesis sea válida.
Sin embargo, en un gran número de casos no se puede determinar la
distribución original ni la distribución de los estadísticos por lo que en realidad
no tenemos parámetros a estimar. Tenemos solo distribuciones que comparar.
Esto se llama estadística no-paramétrica.
Las hipótesis de una prueba no paramétrica se refiere a algo distinto del valor
de un parámetro de la población.
Las principales pruebas no paramétricas son las siguientes:
•
•
•
•
•
•
Prueba χ² de Pearson
Prueba binomial
Prueba de Anderson-Darling
Prueba de Cochran
Prueba de Cohen kappa
Prueba de Fisher
Estadística Administrativa II
35
•
•
•
•
•
•
•
•
•
•
•
•
•
Prueba de Friedman
Prueba de Kendall
Prueba de Kolmogórov-Smirnov
Prueba de Kruskal-Wallis
Prueba de Kuiper
Prueba de Mann-Whitney o prueba de Wilcoxon
Prueba de McNemar
Prueba de la mediana
Prueba de Siegel-Tukey
Coeficiente de correlación de Spearman
Tablas de contingencia
Prueba de Wald-Wolfowitz
Prueba de los signos de Wilcoxon
Características de algunas pruebas no paramétricas.
1. Prueba de signo para datos pares: los signos positivo o negativo
sustituyen a valores cuantitativos.
2. Prueba de suma de rangos: también llamada prueba U de MannWhitney, que puede usarse para determinar si dos muestras
independientes de sacaron de la misma población.
3. Prueba de suma de rangos Kruskal – Wallis: generaliza el análisis de
varianza para poder prescindir de la suposición de que las poblaciones
tienen distribución normal.
4. Prueba de corridas de una sola muestra: es un método para
determinar la aleatoriedad con la que se han seleccionado los elementos
muestreados.
5. Correlación de rango: método para hacer el análisis de correlación
cuando no se dispone de los datos para usar la forma numérica, pero
cuando la información es suficiente para clasificar los datos como
primero, segundo, tercero, etc.
6. Prueba de Kolmogorov: método para determinar la bondad de ajuste
entre una muestra observada y una distribución de probabilidad teórica.
Prueba
Característica
Mann- Whitney.
2 muestras independientes.
Wilcoxon.
2 muestras asociadas.
Kruskal-Wallis.
+ de 2 muestras independientes
Friedman.
+ de 2 muestras asociadas.
Tabla1. Características de pruebas no paramétricas.
Estadística Administrativa II
36
Las pruebas no paramétricas, no requieren asumir normalidad de la población y
la mayoría se basan en el ordenamiento de los datos. El parámetro que se usa
para hacer las pruebas estadísticas es la Mediana y Media.
•
•
Ventajas y desventajas de los métodos paramétricos
Desventajas
Ventajas
Ignoran cierta cantidad de
• No requieren la suposición de que
información.
una población está distribuida en
forma de curva normal u otra forma
específica.
A menudo no son tan eficientes o
• Generalmente es más sencillo
claras como las pruebas
realizarlas y entenderlas.
paramétricas.
• Algunas veces no se requiere un
ordenamiento o clasificación formal.
Tabla1. Ventajas y desventajas de los métodos no paramétricas.
4.3 Prueba de corridas para aleatoriedad
4.3.1 Concepto de aleatoriedad.
Aleatorio se asocia a todo proceso cuyo resultado no es previsible más que en
razón de la intervención del azar. El término aleatoriedad se usa a menudo
como sinónimo con un número de propiedades estadísticas medibles, tales
como la carencia de tendencias o correlación.
El resultado de todo suceso aleatorio no puede determinarse en ningún caso
antes de que este se produzca. El estudio de los fenómenos aleatorios queda
dentro del ámbito de la teoría de la probabilidad y, en un marco más amplio, en
el de la estadística.
4.3.2 Teoría de corridas.
Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas
de ocurrencias diferentes.
Ejemplo
M,H,H,H,H,M,
1ra.
2ra.
3ra.
Estadística Administrativa II
37
Una prueba de corridas con dos tipos de ocurrencias tiene los siguientes
símbolos:
n1= número de ocurrencias del tipo 1
n2= número de ocurrencias del tipo 2
r= número de corridas
4.3.2.1 Prueba de corridas de una sola muestra
Un fabricante de cereal para el desayuno usa una máquina para introducir
aleatoriamente uno de los dos tipos de muñecos en cada caja. La compañía
desea una aleatoriedad tal que no todos los niños de un vecindario terminen
con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas
para ver si la máquina está mezclando adecuadamente los dos tipos de
muñecos. Usado los símbolos A y B para representar los dos tipos de
muñecos, un probador reportó que uno de estos lotes se presentó como sigue:
B,A,B,B,B,A,A,A,B,B,A,B,B,B,B,A,A,A,A,B,A,B,A,A,B,B,B,A,A,B,A,A,A,A,B,B,A,
B,B,A,A,A,A,B,B,A,B,B,B,B,A,A,B,B,A,B,A,A,B,B
Valores de la prueba:
n1= 29
n2= 31
r= 29
4.3.2.2 Distribución de muestreo del estadístico r
El número de corridas r es un estadístico con su propia distribución de
muestreo especial y su propia prueba.
Una prueba de corridas de una sola muestra, está basada en la idea de que
muy pocas o demasiadas corridas muestran que los elementos no fueron
elegidos aleatoriamente.
Media de la distribución muestral del estadístico r
μr=2n1n2 +1
n1+n2
Estadística Administrativa II
38
μr = 2(29)(31) +1
29+31
μr = 1798 +1
60
μr = 29.97 +1
μr = 30.97
Error estándar del estadístico r
σr= 2n1n2(2n1n2- n1- n2)
(n1+n2)2(n1+n2-1)
σr= 2(29)(31) ( 2(29)(31) - 29- 31)
(29+31)2(29+31-1)
σr= (1798) (1738)
(60)2(59)
σr= 14.71
σr= 3.84
Ejercicios
Realizar los siguientes ejercicios del libro:
1) Levin I. Richard. Estadística para administradores. Editorial: PrenticeHall.
Número
Página
14-24
14-25
14-26
14-27
14-28
643
643
643
644
644
Estadística Administrativa II
39
4.4 Una muestra: prueba de signos
Una de las pruebas no paramétricas más fáciles es la de prueba de signos. Su
nombre se debe a que está basada en la dirección (o signo de más o menos)
de un par de observaciones y no en su magnitud numérica.
Ejemplo
Se considera un panel de prueba de 40 estudiantes que evalúa la efectividad
de dos tipos de clases. Conferencias grandes de profesores de tiempo
completo sesiones pequeñas con ayudantes de posgrado.
Miembro del panel
Evaluación de los
dos tipos de
clases
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Calificación
para
conferencias
grandes
2
1
4
4
3
3
4
2
4
1
3
3
4
4
4
1
1
2
2
4
Calificación
para
sesiones
pequeñas.
3
2
2
3
4
2
2
1
3
1
2
3
4
4
3
2
3
2
3
3
Signo de la
calificación
+
+
+
+
+
+
0
+
0
0
0
+
0
+
La calificación 4 es excelente y la 1 es mala. El signo + significa que el
estudiante prefiere las conferencias grandes, un signo menos indica una
preferencia por sesiones pequeñas un 0 representa un empate (sin preferencia)
Número de signos +
Número de signos Número de ceros
Tamaño total de la muestra
9
6
5
20
Estadística Administrativa II
40
Establecimiento de las hipótesis
Ho: p = 0.5
H1: p ≠ 0.5
Se consideran la posibilidades solamente de signos + y - (9+6 =15)
p Ho: = 0.5
q H0: = 0.5
n= 15
p= 0.600
(9/15)
q= 0.400
(6/15)
Prueba de hipótesis de que no hay diferencia.
Región de aceptación
Valor crítico
Z=-1.96
Valor crítico
Z=1.96
0.025
0.025
0.475 del área
0.475 del área
0
Error estándar del la proporción
σp=
σp=
pq
n
(0.5)(0.5)
15
σp= 0.129
Estadística Administrativa II
41
4.5 Una muestra: prueba de Wilcoxon
Puesto que la prueba de rangos con signo de Wilcoxon incorpora y utiliza más
información que la prueba de signos, tiende a proporcionar conclusiones que
reflejan mejor la verdadera naturaleza de los datos.
La prueba de rangos con signo de Wilcoxon es una prueba no paramétrica que
utiliza rangos ordenaos de datos maestrales consistentes en datos apareados.
Se usa para probar las diferencias en las distribuciones poblacionales, por lo
que la hipótesis nula y alternativa son las siguientes:
Ho: las dos muestras provienen de poblaciones con la misma distribución.
H1: las dos muestras provienen de poblaciones con la misma distribución.
Procedimiento de la prueba de rangos con signo de Wilcoxon
Paso1. Para cada par de datos, calcule la diferencia d restando, el segundo
valor del primero. Guarde los signos, pero descarte cualquier par para el que
d=0
Paso 2. Ignore los signos de las diferencias, luego acomode las diferencias de
la más baja a la más alta y remplace las diferencias por el valor del rango
correspondiente. Cuando las diferencias tengan el mismo valor numérico,
asígneles la media de los rangos implicados en el empate.
Paso 3. Adjunte a cada rango el si el signo de la diferencia de la que provino.
Esto es, inserte aquellos signos que se ignoraron e el paso dos.
Paso 4. Calcule la suma de los valores absolutos de los rangos negativos.
También la suma de los rangos positivos.
Paso 5. Permita que T sea la más pequeña de las dos sumas que se calcularon
en el paso 4. Es posible utilizar cualquier suma, aunque para simplificar el
procedimiento seleccionamos arbitrariamente
la más pequeña de las dos
sumas.
Paso 6. Permita que n sea el número de pares de datos para los que la
diferencia d no es 0.
Estadística Administrativa II
42
Paso 7. Determine el estadístico de prueba y los valores críticos con base en el
tamaño muestral.
Paso 8. Cundo Plantee la conclusión rechace la hipótesis nula si los datos
muestrales le llevan a un estadístico de prueba que está en la región crítica,
esto es, cuando el estadístico de prueba es menor que o igual al valor crítico.
1.
2.
Supuestos
Los datos consisten en datos apareados que se seleccionaron aleatoriamente.
La población de las diferencias (calculadas de los pares de datos) tiene una
distribución que es aproximadamente simétrica, lo que quiere decir que la mitad
izquierda de su histograma es aproximadamente una imagen de espejo de la mitad
derecha.
Notación
T= la más pequeña de las siguientes dos sumas:
1. La suma de los valores absolutos de los rangos negativos de las diferencias d que
no sean 0.
La suma de los rangos positivos de las diferencias d que no sean 0.
Estadístico de prueba
Si n < o igual a 30, el estadístico de prueba es T.
Estadística Administrativa II
43
4.6 Dos muestras: prueba de Mann-Whitney
A esta prueba se le llama suma de rangos porque depende de los rangos o
clasificaciones de las observaciones de muestra.
La prueba de Mann-Whitney se usa cuando se tienen dos poblaciones.
El uso de esta prueba permite determinar si las muestras independientes se
obtuvieron de la misma población.
Simbología
n1= número de elementos de la muestra 1
n2= número de elementos de la muestra 2
R1= suma de los rangos de los elementos de la muestra 1
R2= suma de los rangos de los elementos de la muestra 2
Rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Calificación
500
550
600
650
725
750
775
800
830
850
890
900
920
925
950
1000
1050
1100
1120
1140
1150
1200
1240
1250
1300
1360
1400
1500
1550
Plantel
S
S
A
S
S
A
A
A
S
A
S
S
S
S
A
A
A
A
S
S
A
A
S
A
A
S
A
A
S
Estadística Administrativa II
44
30
1600
S
Estadística Administrativa II
45
Nota: no necesariamente el número de muestras debe ser igual.
Ejemplo
La junta directiva de una gran universidad desea probar la hipótesis de que las
calificaciones promedio de una prueba de dos planteles de la universidad son
iguales.
Se deben clasificar las calificaciones en orden ascendente, indicando junto a
cada una el símbolo del plantel.
Plantel
A
B
1000
920
1100
1120
800
830
750
1360
1300
650
950
725
1050
890
1250
1600
1400
900
850
1140
1150
1550
n1= 15
n2= 15
R1= 247
R2= 218
Estadístico U
U=
n1n2 + n1(n1 +1) -R1
2
U=
(15)(15) + (15)(16) -247
2
U=
225+120-247
U=
98
Media de la distribución muestral U
μu =
μu =
(15)(15)
2
μu =112.5
n1n2
2
1200
550
1500
1240
600
925
775
500
Estadística Administrativa II
46
Estadístico U
σU =
σU =
n1n2 + (n1n2 +1)
12
(15)(15)(15+15+1)
12
σU = 6975
12
σU = 581.25
σU = 24.1
Prueba de hipótesis
La distribución muestral del estadístico U puede aproximarse por la distribución
normal cuando tanto n1 como n2 son mayores que 10, por lo tanto se usará la
tabla de la distribución normal estándar para hacer la prueba.
La junta de directores desea probar al nivel de significancia de .15 la hipótesis
de que estas muestras fueron extraídas de poblaciones idénticas.
H0: μ1= μ2
H1: μ1≠ μ2
α= 0.15
Estandarización del estadístico U
z=
z=
U-μu
σU
98 - 112.5
24.1
z=
-0.602
Región de aceptación
Valor
estandarizado de
la muestra U
-1.44
-0.602
0
1.44
Estadística Administrativa II
47
Observaciones apareadas prueba de Wilcoxon
La prueba de los signos de Wilcoxon es una prueba no paramétrica para
comparar la mediana de dos muestras relacionadas y determinar si existen
diferencias entre ellas. Se utiliza como alternativa a la prueba t de Student
cuando no se puede suponer la normalidad de dichas muestras.
Debe su nombre a Frank Wilcoxon, que la publicó en 1945. Asimismo se utiliza
cuando la variable subyacente es continua pero presupone ningún tipo de
distribución particular.
Prueba de Wilcoxon de los rangos con signo
Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos,
y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0,
X2-M0, ..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se
distribuirían de forma simétrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y
se ordenan de menor a mayor, asignándoles su rango (número de orden). Si
hubiera dos o más diferencias con igual valor (empates), se les asigna el rango
medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna
el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las
diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de
todos los rangos correspondientes a las diferencias negativas. Si la hipótesis
nula es cierta ambos estadísticos deberán ser parecidos, mientras que si
nuestros datos tienen a ser más altos que la mediana M0, se reflejará en un
valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la
menor de las sumas de rangos es excesivamente pequeña para ser atribuida al
azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es
excesivamente grande.
Prueba de Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de
parejas de valores, por ejemplo antes y después del tratamiento, que podemos
denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora
calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en
valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma
de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos
negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una
distribución simétrica en torno a cero y si fuera cierta los valores de R+ y Rserán parecidos.
Estadística Administrativa II
48
4.9 Varias muestras independientes: prueba de Krauskal-Wallis
La prueba de Krauskal-Wallis es una extensión de la prueba Mann-Whitney
para casos en que están involucradas más de dos poblaciones. Esta prueba
también depende de los rangos de las observaciones de la muestra.
Ejemplo
Rango calificaciones
Calificaciones
del examen
escrito
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
50
55
57
65
68
70
74
77
78
80
81
82
83
84
88
89
91
92
93
94
Estadístico K
K=
12
n(n+1)
K= 12
20(20+1)
Método de
capacitación
S
VC
AC
AC
S
VC
VC
S
AC
AC
S
VC
S
S
VC
AC
S
S
VC
S
Σ nR
2
j
-3 (n+1)
j
+ (42) + (107) -3(20+1)
[ (61)
]
6
5
9
2
2
K = 1.143
2
Estadística Administrativa II
49
Prueba de hipótesis
La distribución muestral del estadístico K puede aproximarse por una
distribución ji-cuadrada cuando los tamaños de todas las muestras son al
menos 5.
Grados de libertad k-1
(3-1)= 2
H0: μ1= μ2= μ3
H1: μ1, μ2, μ3 no todas son iguales
α= 0.10
Región de aceptación
0.10 de área
4.605
Valor de la muestra
K= 1.143
Ejercicios
Realizar los siguientes ejercicios del libro:
1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall.
Número
Página
14-14
14-55
14-16
14-17
14-18
637
637
637
637
637
Estadística Administrativa II
50
Práctica 3
󲐀 Recopilar datos económicos, de diversas fuentes, para efectuar
comparación y análisis entre la estadística y la estadístico no
paramétrica, efectuando además una prueba de hipótesis.
BIBLIOGRAFIA
•
Levin, Richard I. y Rubin, David S. (2004). Estadística para administración y
economía (7a.ed.). México: 2004
•
Levin, Richard I. y Rubin, David S. (2004). Ji-cuadrada y análisis de varianza.
En estadística para administración y economía (pp. 447-508). México: Pearson
educación.
•
Triola, Mario F. (2004). Estadística. México: Pearson educación
•
Mongomery, Douglas C. (2007). Probabilidad y estadística aplicadas a la
ingeniería. México: Limusa Wiley.
Referencias de internet.
http:// math.uprm edu ~edgar uprm/edu/
http://es.wikipedia.org/wiki/Nivel_de_medida#Escalas_de_medici.C3.B3n
http://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9trica
http://www.estadisticafacil.com/
StAta
Descargar