Subido por Christian Reinoso

S5 Contenido

Anuncio
SEMANA 5– ESTADÍSTICA
ESTADÍSTICA
SEMANA 5
Estadística bivariada
Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No está
permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposición del público ni
utilizar los contenidos para fines comerciales de ninguna clase.
IACC
1
SEMANA 5– ESTADÍSTICA
APRENDIZAJE ESPERADO

El estudiante será capaz de analizar
ejercicios y problemas de estadística
bivariada usando procedimientos de
relacionamiento de variables.
IACC
2
SEMANA 5– ESTADÍSTICA
APRENDIZAJE ESPERADO..................................................................................................................... 2
INTRODUCCIÓN ................................................................................................................................... 4
1.
TABLAS DE FRECUENCIAS BIVARIADAS ....................................................................................... 5
2.
¿CÓMO SE RELACIONAN LAS VARIABLES? ................................................................................ 10
3.
2.1.
COVARIANZA ..................................................................................................................... 10
2.2.
COEFICIENTE DE CORRELACIÓN ........................................................................................ 12
2.3.
COEFICIENTE DE DETERMINACIÓN ................................................................................... 15
ESTADÍSTICA BIVARIADA CON EXCEL ........................................................................................ 16
COMENTARIO FINAL.......................................................................................................................... 20
REFERENCIAS ..................................................................................................................................... 21
IACC
3
SEMANA 5– ESTADÍSTICA
INTRODUCCIÓN
En las aplicaciones de la estadística hay
muchos problemas que requieren un análisis
combinado de dos variables. En las siguientes
áreas: administración, en educación y en
muchas otras materias, a menudo es
necesario contestar preguntas como: “¿Están
relacionadas estas dos variables? Si es así,
¿de qué manera? ¿Existe una correlación
entre las variables?”. Considere los
siguientes ejemplos:
- ¿Existe alguna relación entre la estatura y
el peso?
- Los médicos prueban fármacos nuevos
para combatir la fiebre amarilla, al
prescribir dosis diferentes y observar las
respuestas
de
sus
pacientes.
IACC
4
SEMANA 5– ESTADÍSTICA
1. TABLAS DE FRECUENCIAS BIVARIADAS
Una tabla de frecuencias bivariada también es llamada tabla de frecuencias bidimensional y lo que
hace es resumir la distribución de frecuencias de dos variables de manera simultánea.
En donde:
nij
: es la frecuencia conjunta del valor de la clase xi y del valor de la clase yj
ni 
: es la frecuencia marginal de la clase xi
n j
: es la frecuencia marginal de la clase yj
n
: es el tamaño de la muestra.
Además se cumple que:
Para un mejor entendimiento, a continuación se revisarán ejemplos, teniendo en cuenta los
contenidos vistos en semanas anteriores:
IACC
5
SEMANA 5– ESTADÍSTICA
Ejemplo 1:
Se tiene la siguiente información acerca de la edad X y del número de años de estudio Y, de un
grupo de personas de una localidad del sur de Chile:
Si se quiere calcular el “promedio de edad de las personas que estudiaron 14 años”, se transforma
en un problema de una sola variable:
Como la variable es continua (se debe considerar la marca de clase de la variable edad), el tiempo
promedio es:
Tiempo 
20  2  24 1  28  2
5
Cabe destacar que el total de individuos es 5, ya que son ellos los que cumplen la condición de
estudiar 14 años y que 2 tienen 20 años, 1 tiene 24 y 2, 28 años, entonces:
Tiempo 
20  2  24  1  28  2 40  24  56 120


 24
5
5
5
Luego, la edad promedio de las personas que estudiaron 14 años es de 24 años.
Ejemplo 2:
Se desea estudiar el promedio de “años de estudio”, pero solo de aquellas personas menores de
26 años:
IACC
6
SEMANA 5– ESTADÍSTICA
Nuevamente se transforma en un problema de una sola variable.
Luego, se tiene:
Años 
12  7  13  1  14  3  15  3 84  13  42  45 184


 13,14
14
14
14
Así, el promedio de años de estudio para los menores de 26 años es de aproximadamente 13 años.
Ejemplo 3:
Para un grupo de matrimonios la
información de la edad del marido (X)
y la edad de la mujer (Y) está dada en
la siguiente tabla:
a) Determine el porcentaje de matrimonios en que ambos cónyuges tienen entre 20 y 30 años.
b) Determine la media de la edad de las mujeres cuyos maridos tienen a lo más 35 años.
c) Determine cuál rango de edad de los maridos es más homogéneo, ¿de las mujeres que tienen
entre 20 y 25 años o de las que tienen entre 35 y 40 años?
IACC
7
SEMANA 5– ESTADÍSTICA
Solución:
a) El total de matrimonios es de 93 (que es la suma de datos de la tabla).
El número de matrimonios que cumplen con la condición de edad (entre 20 y 30) son:
Es decir:
35 + 7 + 3 + 14 = 59
Luego, el porcentaje es = (59/93) * 100 = 63,44%
b) “A lo más 35 años” significa que la edad de los maridos es menor o igual a dicho número.
Entonces, el grupo que se debe evaluar es:
Así, se puede escribir la tabla de la siguiente manera. Recordar que la marca de clases es
calcular los extremos dividido por dos, es decir y tomando como ejemplo el primer intervalo, se
tiene (20 + 25)/2 = 45/2 = 22,5.
Y(años)
20 - 25
25 - 30
30 - 35
35 - 40
Marca de
Clase
22,5
27,5
32,5
37,5
N° matrimonios
40
24
22
6
Y(años)
20 - 25
25 - 30
30 - 35
35 - 40
N° matrimonios Mc*N°matri
40
900
24
660
22
715
6
225
2500
IACC
8
SEMANA 5– ESTADÍSTICA
Luego, si la cantidad total de matrimonios es 92:
YX 35 
2.500
 27,174
92
Por lo tanto, la media de la edad de las mujeres cuyos maridos tienen a lo más 35 años es de 27
años aproximadamente.
c) Finalmente, para determinar cuál rango de edad de los maridos es más homogéneo, hay que
calcular el coeficiente de variación para las siguientes tablas:
X(años)
20 - 25
25 - 30
30 - 35
35 - 40
N° matrimonios
35
3
2
0
X(años)
20 - 25
25 - 30
30 - 35
35 - 40
N° matrimonios
1
3
2
1
- Para la primera tabla se tiene:
Recordar que las fórmulas son:
Luego:
X 20Y 25 
935
 23,375 .  
40
 CV ( X 20Y 25 ) 
22.100
 23,375 2  6,11  2,47
40
2,47
 0,1057  10,57%
23,375
IACC
9
SEMANA 5– ESTADÍSTICA
- Para la segunda tabla se tiene:
Marca de
Clase
22,5
27,5
32,5
37,5
X(años)
20 - 25
25 - 30
30 - 35
35 - 40
N° matrimonios Mc*N°matri Mc^2*N°matrim
1
22,5
506,3
3
82,5
2.268,8
2
65
2.112,5
1
37,5
1.406,3
207,5
6.293,8
Luego:
X 35Y 40 

207,5
 29,642
7
6.293,8
 29,642 2  20,46  4,523
7
 CV ( X 35Y 40 ) 
4,523
 0,1526  15,26%
29,642
Por lo tanto el grupo más homogéneo son los matrimonios cuya edad de la mujer es menor a
25 años, ya que su coeficiente de variación es menor.
2. ¿CÓMO SE RELACIONAN LAS VARIABLES?
En este segmento se explicarán tres conceptos básicos de la estadística bivariada muy importantes
para determinar cómo se pueden relacionar las variables, llamadas medidas de correlación, cuya
técnica permite justamente determinar si existe o no relación entre dos o más variables.
2.1. COVARIANZA
La covarianza entre dos variables es una medida estadística para determinar el tipo de relación
entre dichas variables. Se la identificará como:
S xy
S xy  XY  X  Y
IACC
10
SEMANA 5– ESTADÍSTICA
Observaciones:
 La covarianza pertenece a los números reales.
 Si S
xy
 0  La relación entre la variable x e y es directa, es decir, si una de las variables
aumenta la otra también o si una de ellas disminuye la otra también.
 Si S
xy
 0  La relación entre la variable x e y es inversa, es decir, si una de las variables
aumenta la otra disminuye o si una de ellas disminuye la otra aumenta.
 Si S
xy
 0  No existe relación entre la variable x e y.
Ejemplo:
Una empresa desea estudiar la relación entre la edad de sus trabajadores y los días no trabajados.
Considerar:
X = edad.
Y = N° de días no trabajados.
Los datos son:
Edad de los
trabajadores
20 – 25
25 – 30
30 – 40
40 – 50
N° días no trabajados
0–6
6 – 12
12 – 18
0
4
12
6
3
4
1
2
1
0
6
8
Al completar la tabla con los totales, se calculan los promedios:
IACC
11
SEMANA 5– ESTADÍSTICA
De este modo:
Edad 
22,5  5  27,5  18  35  13  45  11 1.557,5

 33,14
47
47
Dias 
3  16  9  16  15  15 417

 8,8723
47
47
Para el promedio de la multiplicación de las variables, observe la siguiente tabla:
Edad
20 – 25
25 – 30
30 – 40
40 – 50
Total columna
Mc (N° días no
trabajados)
0–6
0/0
12 / 990
3 / 315
1 / 135
16
3
N° días no trabajados
6 – 12
12 – 18
4 / 810
1 / 337,5
6 / 1.485
0/0
4 / 1.260
6 / 3.150
2 / 810
8 / 5.400
16
15
9
Total fila
5
18
13
11
Mc (Edad)
22,5
27,5
35
45
N  47
15
Donde los números destacados se obtienen multiplicando la Mc de X, Mc de Y y la frecuencia (por
ejemplo: 990 = 27,5 * 3 * 12)
Edad  Días 
0  810  337,5  990  1485  0  315  1260  3150  135  810  5400
 312,61
47
 S xy  XY  X  Y  312,61  33,14  8,8723  18,58  0
Entonces, se puede concluir que la relación es directa, pues, si la edad de los trabajadores
aumenta, los días no trabajados también.
2.2. COEFICIENTE DE CORRELACIÓN
En una distribución bivariada (bidimensional) puede ocurrir que las dos variables tengan algún tipo
de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es
muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor
será su peso. El coeficiente de correlación mide el grado de intensidad de esta posible relación
entre las variables.
IACC
12
SEMANA 5– ESTADÍSTICA
Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir,
si se representara en un gráfico los pares de valores de las dos variables, la nube de puntos se
aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino
exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal no mediría
correctamente la intensidad de la relación de las variables, por lo que convendría utilizar otro tipo
de coeficiente más apropiado.
rxy 
S
xy
S S
x
y
Observaciones:
 El coeficiente de correlación pertenece al intervalo:
1  r
xy
 Si
r
xy
1
1
La relación entre la variable x e y es lineal con
pendiente positiva, es decir, la nube de
puntos puede aproximarse a una línea recta
con pendiente positiva (una recta creciente).
Por ejemplo, altura y peso: los alumnos más
altos suelen pesar más.
 Si
r
xy
 1 
La relación entre la variable x e y es lineal con
pendiente negativa, es decir, la nube de
puntos puede aproximarse por una línea recta
con pendiente negativa (una recta
decreciente). Por ejemplo, peso y velocidad:
los alumnos más gordos suelen correr menos.
IACC
13
SEMANA 5– ESTADÍSTICA
 Si
r
xy
0
Significa que no existe relación lineal entre la
variable x e y. Aunque podría existir otro tipo
de correlación (parabólica, exponencial, etc.).
Ejemplo:
La siguiente tabla muestra el número de trabajadores y las utilidades (en millones de $) de un
grupo de 56 empresas. Considerar:
X = N de trabajadores.
Y = utilidades (en millones de $).
N° de
trabajadores
Utilidades
(en millones de $)
4–8
1–4
0 – 100
100 – 200
200 – 300
300 – 400
nj
MC j
8 – 12
ni
12 / 1.500
6 / 2.250
4 / 2.500
0/0
22
6 / 1.800
3 / 2.700
5 / 7.500
6 / 12.600
20
0/0
1 / 1.500
3 / 7.500
10 / 35.000
14
2,5
6
10
MCi
18
10
12
16
50
150
250
350
N  56
Calculando el coeficiente de correlación ( r ).
xy
 X  50 18  150 10  250 12  350 16  11.000  196,428
56
56
IACC
14
SEMANA 5– ESTADÍSTICA
 Y
2,5  22  6  20  10 14 315

 5,625
56
56
2,5  50 12  6  50  6  10  50  0  2,5 150  6  6 150  3  10 150 1  2,5  250  4
 6  250  5  10  250  3  2,5  350  0  6  350  6  10  350 10
 XY 
56
74.850

 1.336,607
56
Por lo tanto:
S
xy
 XY  X  Y  S  1.336 ,607  196 ,428  5,625
xy
S
xy
 231,6995
Entonces la covarianza indica que existe relación directa entre el número de trabajadores y las
utilidades de las empresas, es decir, a mayor número de trabajadores, mayor cantidad de
utilidades).
s 
x
2.980 .000  11.000  2

  14.630 ,102  120 ,955
56
 56 
s 
y
2.257 ,5  315  2

  8,672  2,945
56
 56 
 r 
xy
231,6995
 0,65
120 ,955  2,945
El coeficiente de correlación indica que existe relación lineal entre el número de trabajadores y las
utilidades, con pendiente positiva.
2.3. COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación es un instrumento de medición estadística que sirve para conocer
cuánto influye la variable x (independiente) en la y (dependiente).
IACC
15
SEMANA 5– ESTADÍSTICA
2
rxy
 S

xy

 S x S y






2
Es decir, al calcular el coeficiente de correlación, se eleva al cuadrado.
Siguiendo el ejemplo anterior:
rxy 
231,6995
 0,65
120 ,955  2,945
231,6995
) 2  0,42
120 ,955  2,945
rxy  (
Luego, el coeficiente de determinación indica que el 42% de las utilidades son influenciadas por la
cantidad de trabajadores o que el 42% de los trabajadores tiene influencias sobre las utilidades.
3. ESTADÍSTICA BIVARIADA CON EXCEL
Para desarrollar algunos ejemplos en Excel se ocupará la base de datos que se encuentra en el
archivo Excel de esta semana (Contenidos Semana 5.xlsx) y se contestará lo siguiente:
Ejemplo 1:
Construir una tabla que cuente los datos clasificados por rango de estatura y nivel
socioeconómico.
a) ¿Cuántas personas tienen una estatura sobre 161 cm y hasta 179 cm?
b) ¿Cuántas personas tienen una estatura de a lo más 170 cm y poseen un nivel socioeconómico
bajo o medio?
c) ¿Qué porcentaje de personas son de nivel socioeconómico medio o alto?
d) De las personas que tienen una estatura desde 152 cm y hasta 170 cm, ¿qué porcentaje poseen
un nivel socioeconómico bajo?
IACC
16
SEMANA 5– ESTADÍSTICA
Solución:
Para desarrollar este ejercicio, se debe construir una tabla dinámica que presente las variables
descritas, esto es:
Cuenta de ID
Rango Estatura
152 - 161
161 - 170
170 - 179
Total general
Nivel socioeconómico
Bajo
59
56
11
126
Medio
122
119
25
266
Alto
47
40
21
108
Total general
228
215
57
500
a) ¿Cuántas personas tienen una estatura sobre 161 cm y hasta 179 cm?
Para resolver esto, se debe filtrar la variable Rango Estatura según la o las filas que se deban
ocupar:
Cuenta de ID
Rango Estatura
161 - 170
170 - 179
Total general
Nivel socioeconómico
Bajo
56
11
67
Medio
119
25
144
Alto
40
21
61
Total general
215
57
272
Entonces, hay 272 personas que tienen una estatura sobre 161 cm y hasta 179 cm.
b) Para saber ¿cuántas personas tienen una estatura de a lo más 170 cm y poseen un nivel
socioeconómico bajo o medio?
Al realizar los filtros se tiene:
Cuenta de ID
Rango Estatura
152 - 161
161 - 170
Total general
Nivel socioeconómico
Bajo
59
56
115
Medio
122
119
241
Total general
181
175
356
Hay 356 personas que miden a lo más 170 cm y son de nivel socioeconómico bajo o medio.
c) Ahora ¿qué porcentaje de personas son de nivel socioeconómico medio o alto?
Al realizar los filtros se ordenan los datos como porcentaje del total:
Cuenta de ID
Rango Estatura
152 - 161
161 - 170
170 - 179
Total general
Nivel socioeconómico
Bajo
11,80%
11,20%
2,20%
25,20%
Medio
24,40%
23,80%
5,00%
53,20%
Alto
9,40%
8,00%
4,20%
21,60%
Total general
45,60%
43,00%
11,40%
100,00%
Por tanto, el 74,8% (53,2% + 21,6%) de las personas son de nivel socioeconómico medio o alto.
IACC
17
SEMANA 5– ESTADÍSTICA
d) Y de las personas que tienen una estatura desde 152 cm y hasta 170 cm, ¿qué porcentaje
poseen un nivel socioeconómico bajo?
Al realizar los filtros se ordenan los datos como porcentaje del total:
Cuenta de ID
Rango Estatura
152 - 161
161 - 170
Total general
Nivel socioeconómico
Bajo
13,32%
12,64%
25,96%
Medio
27,54%
26,86%
54,40%
Alto
10,61%
9,03%
19,64%
Total general
51,47%
48,53%
100,00%
Entonces el resultado arroja que el 25,96% de los que miden desde 152 cm y hasta 170 cm,
tienen un nivel socioeconómico bajo.
Ejemplo 2:
Construir una tabla que cuente con los datos clasificados por rango de peso y rango de estatura.
a) ¿Cuántas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179 cm?
b) De las personas que miden a lo más 170 cm, ¿qué porcentaje pesa más de 68,5 kg?
c) ¿Con respecto a qué variable la muestra presenta menos variabilidad? Justifique.
Cuenta de ID
Rango peso
51,3 - 59,9
59,9 - 68,5
68,5 - 77,1
Total general
Rango Estatura
152 - 161
106
111
11
228
161 - 170
39
88
88
215
170 - 179
0
17
40
57
Total general
145
216
139
500
Solución:
a) La primera pregunta es ¿cuántas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179
cm?
Se obtiene que:
Cuenta de ID
Rango peso
Total general
Rango Estatura
Total general
0
Entonces, no hay personas que pesan entre 51,3 y 59,9 kg, y que midan entre 170 y 179 cm.
b) Luego, se obtiene la siguiente tabla de acuerdo a los datos obtenidos:
IACC
18
SEMANA 5– ESTADÍSTICA
Cuenta de ID
Rango peso
51,3 - 59,9
59,9 - 68,5
68,5 - 77,1
Total general
Rango Estatura
152 - 161
23,93%
25,06%
2,48%
51,47%
161 - 170
8,80%
19,86%
19,86%
48,53%
Total general
32,73%
44,92%
22,35%
100,00%
Aproximadamente un 22,35% de los que miden a lo más 170 cm, pesan más de 68,5 kg.
c) Finalmente para responder qué variable presenta menos variabilidad:
Promedio de Peso (kg)
Rango peso
51,3 - 59,9
59,9 - 68,5
68,5 - 77,1
Total general
Total
57,7
63,4
71,5
64,0
Promedio de Estatura (cm)
Rango Estatura
152 - 161
161 - 170
170 - 179
Total general
Total
159
165
173
163
Desvest de Peso (kg)
Rango peso
51,3 - 59,9
59,9 - 68,5
68,5 - 77,1
Total general
Total
1,8
2,6
2,1
5,7
Desvest de Estatura (cm)
Rango Estatura
152 - 161
161 - 170
170 - 179
Total general
Total
2,2
2,6
1,8
5,3
CV (peso) =
8,9%
CV (estatura) =
3,3%
Otra manera para responder la pregunta de variabilidad, es con el resumen de estadística
descriptiva, de la función análisis de datos.
Para calcular la covarianza y coeficiente de correlación se debe digitar las siguientes fórmulas:
Covarianza:
=COVAR(DATOS_DE_X ; DATOS_DE_Y)
Coeficiente de correlación:
=COEF.DE.CORREL(DATOS_DE_X; DATOS_DE_Y)
IACC
19
SEMANA 5– ESTADÍSTICA
COMENTARIO FINAL
En esta semana se aprendió como introducción el estudio de la estadística bivariada, ya
que es el comienzo de las aplicaciones más comunes de esta área en, por ejemplo,
medicina, psicología, y especialmente en economía y econometría. Sin lugar a dudas, estas
áreas serán beneficiadas con estos conocimientos y herramientas estadísticas aplicadas en
la vida del futuro profesional, que no solo las necesitará, sino que sacará mucho provecho
en su diario quehacer al obtener valiosos resultados inapelables.
IACC
20
SEMANA 5– ESTADÍSTICA
REFERENCIAS
Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadística para administración y economía, 10ª
edición. México: Cengage Learning.
Devore, J. (1998). Probabilidad y estadística para ingeniería y ciencias. México: International
Thomson Editores.
Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gómez, R. (2004). Estadística para
administración y economía. 7ª edición. México: Pearson, Prentice-Hall.
Ross, S. (1997). A first course in probability. Berkeley: Universidad de California.
IACC
21
SEMANA 5– ESTADÍSTICA
PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE:
IACC
22
SEMANA 5– ESTADÍSTICA
IACC (2018). Estadística bivariada. Estadística. Semana 5.
IACC
23
SEMANA 5– ESTADÍSTICA
IACC
24
Descargar