Subido por mvegar

PRACTICA 3 PROBABILIDAD

Anuncio
PRACTICA 3 PROBABILIDAD
1. a) Los estadísticos son los siguientes:
Estadísticos descriptivos
N
Rango
Mínimo
Máximo
Desv.
Media
Desviación
Varianza
Asimetría
Estadístico Estadístico Estadístico Estadístico Estadístico Estadístico Estadístico Estadístico
Desv.
Curtosis
Estadístico
Error
Desv.
Error
V1
20
6
1
7
3,85
1,899
3,608
,187
,512
-1,070
,992
V2
20
5
2
7
4,10
1,410
1,989
,430
,512
-,629
,992
V3
20
6
1
7
3,95
2,012
4,050
,205
,512
-1,225
,992
V4
20
5
2
7
4,10
1,518
2,305
,315
,512
-,959
,992
V5
20
6
1
7
3,45
1,761
3,103
,317
,512
-,678
,992
V6
20
5
2
7
4,35
1,496
2,239
,689
,512
-,512
,992
b)
Por lo visto en el anterior gráfico, se tiene de forma óptima 3 clusters y se agrupan los
grupos V5 y V6, además de V4 con V2 y de V3 con V1.
c) Se incluye el dendograma a continuacion:
Se observa la formación de 3 clusters o grupos para explicar las variables en este estudio.
d) Por lo visto anteriormente se observa que existen 3 clusters y las agrupaciones más
homogéneas ya fueron presentadas por el análisis realizado.
2. Se observa el análisis de conglomerados de la siguiente forma.
Matriz de proximidades
Entrada de archivo matricial
Caso
A
B
C
D
E
F
A
,000
B
58,000
C
10,000 20,000
D
40,000
2,000
10,000
,000
5,000
E
41,000
5,000
13,000
5,000
,000
F
50,000 52,000 40,000 50,000 25,000
,000
G
40,000 34,000 26,000 32,000 13,000
H
34,000 20,000 16,000 18,000
I
20,000 10,000
2,000
J
34,000
8,000
G
H
I
J
58,000 10,000 40,000 41,000 50,000 40,000 34,000 20,000 34,000
,000
4,000
20,000
,000
2,000
5,000
52,000 34,000 20,000 10,000
10,000 13,000 40,000 26,000 16,000
4,000
2,000
8,000
50,000 32,000 18,000
4,000
2,000
25,000 13,000
5,000
5,000
1,000
2,000
8,000
34,000 32,000
2,000
,000
2,000
20,000 18,000
5,000
8,000
2,000
,000
10,000
8,000
4,000
5,000
34,000 20,000 10,000
,000
2,000
2,000
1,000
32,000 18,000
2,000
,000
8,000
Se observa en el gráfico de casos que se tienen 8 clusters como máximo pero lo óptimo
es tener 5 clusters con las variables.
Como se menciona en lo anterior, en el dendograma se muestran 5 clusters donde se
agrupan las variables.
3.
Se realiza el análisis de conglomerados para el archivo de jóvenes de acuerdo a las
instrucciones dadas, obteniendo lo siguiente.
Matriz de proximidades
Distancia euclídea al cuadrado
Caso
1:
L 2:
M 3:
K 4:
E 5:
B 6:
H 7:
C 8:
N 9:
1:
L
2:
M
36,706
3:
K
44,507 17,307
4:
E
53,740 33,093 36,761
5:
B
76,106 39,695 41,613 25,613
6:
H
73,044 35,029 40,957 18,678 26,687
7:
C
44,832 46,709 61,755 57,131 32,178 52,605
8:
N
28,719 17,302 23,348 40,242 49,858 45,150 41,802
9:
J
52,984 52,523 52,701 56,854 72,095 70,533 61,690 28,955
10:
J 10:
,000 36,706 44,507 53,740 76,106 73,044 44,832 28,719 52,984
,000 17,307 33,093 39,695 35,029 46,709 17,302 52,523
,000 36,761 41,613 40,957 61,755 23,348 52,701
,000 25,613 18,678 57,131 40,242 56,854
,000 26,687 32,178 49,858 72,095
,000 52,605 45,150 70,533
,000 41,802 61,690
,000 28,955
G
47,193
51,759
58,350
47,384
47,858
39,467
30,231
31,248
,000
37,004
G 47,193 51,759 58,350 47,384 47,858 39,467 30,231 31,248 37,004
,000
Esto es una matriz de disimilaridad.
Historial de conglomeración
Primera aparición del clúster de
Clúster combinado
Etapa
Clúster 1
etapa
Clúster 2
Coeficientes
Clúster 1
Clúster 2
Etapa siguiente
1
2
8
17,302
0
0
3
2
4
6
18,678
0
0
4
3
2
3
23,348
1
0
6
4
4
5
26,687
2
0
8
5
7
10
30,231
0
0
8
6
1
2
44,507
0
3
7
7
1
9
52,984
6
0
9
8
4
7
57,131
4
5
9
9
1
4
76,106
7
8
0
Como se observa en el anterior análisis con las primeras instrucciones, se tiene 6
clusters, observando que es lo más lógico que se iba a formar en las agrupaciones de las
variables.
Con el método de Ward se tiene lo siguiente:
Con el método de Ward igual se forman 6 clusters, observando que era lo más lógico
que iba a pasar con las variables.
4. El análisis de clusters se realiza de la siguiente forma:
Con el análisis anterior se observa que se forman 7 clusters en el análisis de la esperanza
de vida de los países. Se agrupan mediante el desarrollo que tienen cada uno, estando en
los clusters de más abajo los de alto desarrollo mientras que los de menor desarrollo
están en los clusters de más arriba.
5. El análisis de conglomerados de estos compuestos es el siguiente:
En el análisis de clusters se observa que se forman 11 clusters para que se puedan analizar
los compuestos mostrados. Esto se obtiene pues hay muchas formas de hacer reaccionar
los compuestos para ver que resulta.
6. El análisis es el siguiente:
En ambos gráficos se observa que se forman 13 clusters para poder analizar el
comportamiento de los niños, observando a la asociación esperada entre las variables que
se tienen en la encuesta.
7. El análisis de vehículos es el siguiente:
De acuerdo al análisis realizado se observan la conformación de 10 clusters para poder
explicar las ventas de vehículos que tengan más de 100, viendo que las variables usadas
se pueden agrupar de 10 formas distintas de forma óptima para ver las relaciones
existentes.
8. Cuando las variables no están en la misma escala, lo que se hace es estandarizar las
variables de tal forma que no tengan unidades y se pueda aplicar el análisis de
conglomerados.
9. Este análisis se usa cuando se conoce o no la cantidad de clusters a usar y además
sirve para muestras grandes o no y para variables cualitativas y cuantitativas.
10. La diferencia entre distancia y similaridad es que en el segundo no se tiene el
axioma de la desigualdad triangular, más bien solo se tiene acotamiento o que la función
aplicada sea menor o mayor que el numero arbitrario tomado.
11. Distancia euclidea, norma al cuadrado, distancia del máximo, distancia de
Minkowski y la distancia de Mahalanobis.
12. Verdadero
Descargar