Estadística: Análisis Multivariante (P29)

Anuncio
eman ta zabal zazu
Universidad
del País Vasco
Euskal Herriko
Unibertsitatea
Estadística: Análisis Multivariante (P29)
Examen Final no presencial
Enero 2.003
1.
Descripción del problema.
Se trata de datos procedentes de la llamada CoIL Challenge 2000, una competición abierta 1 en
que el objetivo era probar diferentes métodos sobre un problema. Son datos reales de una compañía
aseguradora que, sobre la base de una descripción socio-demográfica y económica de sus clientes y
de su contratación de otras pólizas, deseaba obtener una caracterización del segmento más proclive
a contratar una póliza de seguro de caravanas.
La proporción de contratantes de dicha póliza en la muestra de entrenamiento (formada por
5822 clientes) es del 5,97 %. Nótese que el objetivo se vería sobradamente cumplido si se lograra identificar uno o varios segmentos en que la proporción de contratantes fuera acusadamente
superior —y en consecuencia otros en los que fuera acusadamente inferior—. Sería así posible
concentrar el esfuerzo comercial y de promoción en los segmentos de clientela más proclives a
contratar el producto.
2.
Descripción de los datos.
Los ficheros ticdata2000.txt (ASCII) y Tic.frame (para leer éste último mediante la
función dget) contienen los mismos datos. El fichero TicDataDescr.txt contiene una descripción somera de los campos presentes en los datos. El fichero des contiene las manipulaciones
que se han realizado tras leer ticdata2000.txt con un read.table para llegar a la data
frame Tic (que se suministra en el fichero Tic.frame)Seguramente preferirás utilizar directamente la data frame creada, pero se incluyen los datos brutos y las manipulaciones efectuadas para
1
Puede verse la página oficial en http://www.dcs.napier.ac.uk/coil/challenge/. Es también de
interés http://www.wi.leidenuniv.nl/~putten/library/cc2000/.
1
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
que sepas exactamente lo que se te entrega y puedas hacer un pre-tratamiento análogo de ficheros
ASCII similares si lo necesitas.
La data frame Tic tiene la estructura recogida en la Sección B. En la Sección A se recogen los
campos y sus respectivos significados y niveles (reporducidos del fichero TicDataDescr.txt.
Todos los ficheros están en el lugar de costumbre2 .
3.
Objetivo.
El objetivo es lograr una segmentación de la muestra identificando grupos particularmente
proclives a contratar seguros sobre caravanas.
Haz un análisis descriptivo previo tan completo como puedas. Piensa luego en qué procedimientos de clasificación podrían estar indicados. Los comentarios a continuación son sólo sugerencias que no deben limitarte.
4.
Recursos
4.1. Bibliografía
Sobre técnicas estadisticas y redes. En clase y en las tareas ya realizadas tienes abundante
bibliografía de la que te puedes ayudar. Como manuales generales de Análisis Multivariante tienes
[22], [13], [5], [18] [20], [19] y [6], entre otros muchos. Sobre análisis discriminante tienes [15]
(antiguo, pero aún utilizable), [7] y [8], además de [16] como obra de consulta.
Sobre árboles de regresión y clasificación tienes la obra clásica [2]. Además puedes consultar
[23].
Sobre redes neuronales en general tienes [1] y [21], ambos con una perspectiva estadística
y [10]. Sobre máquinas de vectores soporte (SVM) tienes [3] además de un capítulo de [10] (si
quisieras profundizar, tendrías también el libro [4])
Sobre regresión logística tienes capítulos en muchos manuales de regresión lineal como [17],
en las notas de clase de Modelos Lineales y en manuales específicos como [11] y [14].
Un muy buen manual de data mining (y cubriendo en particular la casi totalidad de las técnicas
mencionadas) es [9].
Sobre estructuración y presentación de informes.
sobre presentación de trabajos científicos.
El libro [12] es una referencia muy completa
4.2. Documentación no impresa
Con la aparición y perfeccionamiento de buscadores, Internet se ha convertido en un recurso
de primer orden: es mucho lo que puedes encontrar si haces una búsqueda de “Coil Challenge” en,
por ejemplo, http://www.google.com. No pierdas de vista no obstante que tu trabajo ha de
ser autocontenido y toda afirmación que hagas ha de ser sustanciada por resultados que aportes:
2
En http://etdx01.bs.ehu.es.
2
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
“No he intentado discriminación logística porque Fulano probó y no funcionaba bien” no es un
argumento aceptable.
4.3. Hardware
Además de tu cuenta en anboto y los medios de cálculo personales de que puedas disponer,
tienes una cuenta en etdx01.bs.ehu.es. Puedes hacer todo tu trabajo allí y tienes el complemento completo de herramientas que necesitas, pero deberás imprimir tu informe final en otra
máquina.
En particular, dispones del editor emacs con añadidos (ESS, AucTEX, RefTEX) para permitirte
un trabajo cómodo. Tienes también software que no hay implementado en ninguna otra máquina
de uso público en la Facultad. La máquina etdx01 funciona en horario diurno de lunes a sábado,
7h. a 22h, pero su horario se puede ampliar.
4.4. Software
Al margen de emplear una función discriminante ordinaria à la Fisher, para lo que tienes las
funciones cancor (en el paquete mva) y lda, qda (en el paquete MASS), puedes hacer otras
cosas.
Puedes pensar en entrenar un árbol de clasificación (dispones de las librerías tree en S-P LUS
y rpart en R). Podrías emplear métodos no paramétricos basados en vecinos más próximos (1NN y k-NN: mira la librería class en R). Podrías también emplear una máquina de vectores
soporte (SVM): en R dispones de la función svm en la librería e1071.
Puedes entrenar una red neuronal (dispones de la librería nnet en R). Si las redes monocapa
que puedes ajustar con esa función no te complacen, tienes 3 un programa mucho más versátil
(SNNS, Stuttgart Neural Network Simulator). Para trasladar los datos de R a un formato legible
por SNNS dispones de la función write.snns en el paquete del mismo nombre.
4.5. Ficheros
Tienes a tu disposición los ficheros relacionados en el Cuadro 1, descritos en su mayoría en
la Sección 2, pág. 1. Además de los datos en diversos formatos, tienes también la fuente en LATEX
de este documento por si quisieras utilizarla como plantilla para redactar tu informe y algunos
ficheros de bibliografía, de manera que puedas incluir referencias con comodidad, sin tener que
reteclearlas.
3
Sólamente en etdx01.bs.ehu.es.
3
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
Cuadro 1: Ficheros disponibles
Ubicación
etdx01.bs.ehu.es
etdx01.bs.ehu.es
etdx01.bs.ehu.es
etdx01.bs.ehu.es
etdx01.bs.ehu.es
etdx01.bs.ehu.es
etdx01.bs.ehu.es
anboto.xa.bs.ehu.es
des
etdx01.bs.ehu.es
anboto.xa.bs.ehu.es
ticDataDescr.txt
etdx01.bs.ehu.es
Fichero
ene2003.tex
cs.bib
multi.bib
reganova.bib
stat.bib
ticdata2000.txt
Tic.frame
Descripción
Fuente de este documento.
Bibliografía sobre computación.
Bibliografía sobre Multivariante.
Bibliografía sobre Regresión y ANOVA.
Bibliografía sobre Estadística Matemática.
Datos Tic en ASCII.
Datos Tic como data frame.
Código fuente aplicado a ticdata2000.txt.
Descripción de los datos Tic.
AYUDAS, SUGERENCIAS, COMENTARIOS
1. Puedes emplear tanto R como S-P LUS. La dimensión del fichero de datos podría hacer
tropezar con limitaciones a los usuarios de PC’s insuficientemente equipados.
2. No hemos visto regresión logística este curso ni el precedente (aunque puedes encontrar
alguna cosa en versiones modernas de los apuntes de Estadística: Modelos Lineales y en
libros como [11] o [14]). Tienes aquí un problema en que la variable respuesta puede verse
como dicotómica y un modelo logístico podría ser una opción.
3. ¿Qué errores puedes cometer en la clasificación? ¿Tienen la misma importancia? ¿Qué consecuencias se derivan para tu análisis? En general, cabe suponer que el coste de contactar a
un posible tomador de la póliza que finalmente no lo es, es bajo. En cambio, el coste de no
contactar a alguien que hubiera sido tomador de la póliza, será más alto.
4. En conjuntos de datos en los que la abundancia de una de las categorías (aquí, “no tomadores”, 94,03 %, frente al 5,97 % de tomadores) es abrumadora, un procedimiento que no
hiciera uso de información acerca de costes casi inevitablemente clasificaría a todos los sujetos en un grupo. Incluso en los segmentos más proclives a ser tomadores, el porcentaje de
los mismos difícilmente excedera del 10 % o 20 %, y por tanto el segmento sería etiquetado
como “no tomadores”.
5. Si quieres emplear un método como vecinos más próximos has de definir una noción de
“proximidad”. Las ideas esbozadas en clase al hablar de análisis cluster pueden darte orientaciones.
6. Recuerda que un elemento fundamental en todo análisis de clasificación es una estimación
de la tasa de error. No te limites a una estimación de la tasa de error intramuestral.
4
Estadística: Análisis Multivariante (P31)
A.
Curso 2.002-2.003
Campos y su significado
Campo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Nombre
MOSTYPE
MAANTHUI
MGEMOMV
MGEMLEEF
MOSHOOFD
MGODRK
MGODPR
MGODOV
MGODGE
MRELGE
MRELSA
MRELOV
MFALLEEN
MFGEKIND
MFWEKIND
MOPLHOOG
MOPLMIDD
MOPLLAAG
MBERHOOG
MBERZELF
MBERBOER
MBERMIDD
MBERARBG
MBERARBO
MSKA
MSKB1
MSKB2
MSKC
MSKD
MHHUUR
MHKOOP
MAUT1
MAUT2
MAUT0
MZFONDS
MZPART
Descripción
Customer Subtype see L0
Number of houses 1 - 10
Avg size household 1 - 6
Avg age see L1
Customer main type see L2
Roman catholic see L3
Protestant ...
Other religion
No religion
Married
Living together
Other relation
Singles
Household without children
Household with children
High level education
Medium level education
Lower level education
High status
Entrepreneur
Farmer
Middle management
Skilled labourers
Unskilled labourers
Social class A
Social class B1
Social class B2
Social class C
Social class D
Rented house
Home owners
1 car
2 cars
No car
National Health Service
Private health insurance
(continúa en la página siguiente)
5
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
(continúa de la página anterior)
Campo
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
Nombre
MINKM30
MINK3045
MINK4575
MINK7512
MINK123M
MINKGEM
MKOOPKLA
PWAPART
PWABEDR
PWALAND
PPERSAUT
PBESAUT
PMOTSCO
PVRAAUT
PAANHANG
PTRACTOR
PWERKT
PBROM
PLEVEN
PPERSONG
PGEZONG
PWAOREG
PBRAND
PZEILPL
PPLEZIER
PFIETS
PINBOED
PBYSTAND
AWAPART
AWABEDR
AWALAND
APERSAUT
ABESAUT
AMOTSCO
AVRAAUT
AAANHANG
ATRACTOR
AWERKT
ABROM
Descripción
Income <30.000
Income 30-45.000
Income 45-75.000
Income 75-122.000
Income >123.000
Average income
Purchasing power class
Contribution private third party insurance see L4
Contribution third party insurance (firms) ...
Contribution third party insurane (agriculture)
Contribution car policies
Contribution delivery van policies
Contribution motorcycle/scooter policies
Contribution lorry policies
Contribution trailer policies
Contribution tractor policies
Contribution agricultural machines policies
Contribution moped policies
Contribution life insurances
Contribution private accident insurance policies
Contribution family accidents insurance policies
Contribution disability insurance policies
Contribution fire policies
Contribution surfboard policies
Contribution boat policies
Contribution bicycle policies
Contribution property insurance policies
Contribution social security insurance policies
Number of private third party insurance 1 - 12
Number of third party insurance (firms) ...
Number of third party insurane (agriculture)
Number of car policies
Number of delivery van policies
Number of motorcycle/scooter policies
Number of lorry policies
Number of trailer policies
Number of tractor policies
Number of agricultural machines policies
Number of moped policies
(continúa en la página siguiente)
6
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
(continúa de la página anterior)
Campo
76
77
78
79
80
81
82
83
84
85
86
B.
Nombre
ALEVEN
APERSONG
AGEZONG
AWAOREG
ABRAND
AZEILPL
APLEZIER
AFIETS
AINBOED
ABYSTAND
CARAVAN
Descripción
Number of life insurances
Number of private accident insurance policies
Number of family accidents insurance policies
Number of disability insurance policies
Number of fire policies
Number of surfboard policies
Number of boat policies
Number of bicycle policies
Number of property insurance policies
Number of social security insurance policies
Number of mobile home policies 0 - 1
Estructura de la data frame Tic.
(Observa el uso de la función str para ver la estructura de un objeto en R.)
> str(Tic)
‘data.frame’:
5822 obs. of 86 variables:
$ MOSTYPE : Factor w/ 40 levels "High Income..",..: 5 5 5 9 5 22 5 5 5 11 ...
$ MAANTHUI: num 1 1 1 1 1 1 2 1 1 2 ...
$ MGEMOMV : num 3 2 2 3 4 2 3 2 2 3 ...
$ MGEMLEEF: Factor w/ 6 levels "20-30 years",..: 2 2 2 3 2 1 2 3 4 3 ...
$ MOSHOOFD: Factor w/ 10 levels "Successful ..",..: 8 8 8 3 10 5 9 8 8 3 ...
$ MGODRK : Factor w/ 10 levels "0%","1 - 10%",..: 1 2 1 3 2 1 3 1 1 4 ...
$ MGODPR : Factor w/ 10 levels "0","1","2","3",..: 6 5 5 4 5 6 3 8 2 6 ...
$ MGODOV : Factor w/ 6 levels "0","1","2","3",..: 2 2 3 3 2 1 1 1 4 1 ...
$ MGODGE : Factor w/ 10 levels "0","1","2","3",..: 4 5 5 5 5 6 6 3 7 3 ...
$ MRELGE : Factor w/ 10 levels "0","1","2","3",..: 8 7 4 6 8 1 8 8 7 8 ...
$ MRELSA : Factor w/ 8 levels "0","1","2","3",..: 1 3 3 3 2 7 3 3 1 1 ...
$ MRELOV : Factor w/ 10 levels "0","1","2","3",..: 3 3 5 3 3 4 1 1 4 3 ...
$ MFALLEEN: Factor w/ 10 levels "0","1","2","3",..: 2 1 5 3 3 4 1 1 4 3 ...
$ MFGEKIND: Factor w/ 10 levels "0","1","2","3",..: 3 5 5 4 5 6 4 6 4 3 ...
$ MFWEKIND: Factor w/ 10 levels "0","1","2","3",..: 7 6 3 5 5 3 7 5 4 7 ...
$ MOPLHOOG: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 4 6 1 1 1 1 1 ...
$ MOPLMIDD: Factor w/ 10 levels "0","1","2","3",..: 3 6 6 5 5 6 5 4 2 5 ...
$ MOPLLAAG: Factor w/ 10 levels "0","1","2","3",..: 8 5 5 3 1 5 6 7 9 6 ...
$ MBERHOOG: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 5 1 3 1 3 2 3 ...
$ MBERZELF: Factor w/ 6 levels "0","1","2","3",..: 1 1 1 1 6 1 1 1 2 1 ...
$ MBERBOER: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 1 5 1 1 1 1 1 ...
$ MBERMIDD: Factor w/ 10 levels "0","1","2","3",..: 3 6 8 4 1 5 5 3 2 4 ...
$ MBERARBG: Factor w/ 10 levels "0","1","2","3",..: 6 1 1 2 1 3 2 6 9 4 ...
$ MBERARBO: Factor w/ 10 levels "0","1","2","3",..: 3 5 3 3 1 3 6 3 2 4 ...
$ MSKA
: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 4 10 3 1 3 2 2 ...
$ MSKB1
: Factor w/ 10 levels "0","1","2","3",..: 2 3 6 3 1 3 2 2 2 3 ...
$ MSKB2
: Factor w/ 10 levels "0","1","2","3",..: 3 4 1 2 1 3 5 3 1 2 ...
$ MSKC
: Factor w/ 10 levels "0","1","2","3",..: 7 6 5 5 1 5 6 6 9 5 ...
$ MSKD
: Factor w/ 9 levels "0","1","2","3",..: 2 1 1 1 1 3 1 3 2 3 ...
$ MHHUUR : Factor w/ 10 levels "0","1","2","3",..: 2 3 8 6 5 10 7 1 10 1 ...
$ MHKOOP : Factor w/ 10 levels "0","1","2","3",..: 9 8 3 5 6 1 4 10 1 10 ...
$ MAUT1
: Factor w/ 10 levels "0","1","2","3",..: 9 8 8 10 7 6 9 5 6 7 ...
$ MAUT2
: Factor w/ 8 levels "0","1","2","3",..: 1 2 1 1 3 4 1 5 3 2 ...
$ MAUT0
: Factor w/ 10 levels "0","1","2","3",..: 2 3 3 1 2 4 2 3 4 3 ...
$ MZFONDS : Factor w/ 10 levels "0","1","2","3",..: 9 7 10 8 6 10 10 7 8 7 ...
$ MZPART : Factor w/ 10 levels "0","1","2","3",..: 2 4 1 3 5 1 1 4 3 4 ...
$ MINKM30 : Factor w/ 10 levels "0","1","2","3",..: 1 3 5 2 1 6 5 3 8 3 ...
$ MINK3045: Factor w/ 10 levels "0","1","2","3",..: 5 1 6 6 1 3 4 6 3 4 ...
$ MINK4575: Factor w/ 10 levels "0","1","2","3",..: 6 6 1 4 10 4 4 4 2 4 ...
7
Estadística: Análisis Multivariante (P31)
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
$
MINK7512:
MINK123M:
MINKGEM :
MKOOPKLA:
PWAPART :
PWABEDR :
PWALAND :
PPERSAUT:
PBESAUT :
PMOTSCO :
PVRAAUT :
PAANHANG:
PTRACTOR:
PWERKT :
PBROM
:
PLEVEN :
PPERSONG:
PGEZONG :
PWAOREG :
PBRAND :
PZEILPL :
PPLEZIER:
PFIETS :
PINBOED :
PBYSTAND:
AWAPART :
AWABEDR :
AWALAND :
APERSAUT:
ABESAUT :
AMOTSCO :
AVRAAUT :
AAANHANG:
ATRACTOR:
AWERKT :
ABROM
:
ALEVEN :
APERSONG:
AGEZONG :
AWAOREG :
ABRAND :
AZEILPL :
APLEZIER:
AFIETS :
AINBOED :
ABYSTAND:
CARAVAN :
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
Factor
num 0
num 0
num 0
num 1
num 0
num 0
num 0
num 0
num 0
num 0
num 0
num 0
num 0
num 0
num 0
num 1
num 0
num 0
num 0
num 0
num 0
Factor
Curso 2.002-2.003
w/ 10 levels "0","1","2","3",..: 1 3 1 1 1 1 1 1 1 2 ...
w/ 8 levels "0","1","2","3",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 10 levels "f 0","f 1-49",..: 5 6 4 5 7 4 4 4 3 5 ...
w/ 8 levels "f 0","f 1-49",..: 3 4 4 4 3 3 5 3 3 7 ...
w/ 4 levels "f 0","f 1-49",..: 1 3 3 1 1 1 1 1 1 3 ...
w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 4 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 6 levels "f 0","f 1-49",..: 4 1 4 4 1 4 4 1 3 1 ...
w/ 4 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 6 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 4 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 6 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 6 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 3 1 1 ...
w/ 10 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 3 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 9 levels "f 0","f 1-49",..: 6 3 3 3 7 1 1 1 1 4 ...
w/ 3 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 2 levels "f 0","f 1-49": 1 1 1 1 1 1 1 1 1 1 ...
w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ...
2 1 0 0 0 0 0 0 1 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 1 1 0 1 1 0 1 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 1 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
1 1 1 1 0 0 0 0 1 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
0 0 0 0 0 0 0 0 0 ...
w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ...
Niveles L0
L0:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Value
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Label
High Income, expensive child
Very Important Provincials
High status seniors
Affluent senior apartments
Mixed seniors
Career and childcare
Dinki’s (double income no kids)
Middle class families
Modern, complete families
Stable family
Family starters
Affluent young families
Young all american family
Junior cosmopolitan
Senior cosmopolitans
8
Estadística: Análisis Multivariante (P31)
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Curso 2.002-2.003
Students in apartments
Fresh masters in the city
Single youth
Suburban youth
Etnically diverse
Young urban have-nots
Mixed apartment dwellers
Young and rising
Young, low educated
Young seniors in the city
Own home elderly
Seniors in apartments
Residential elderly
Porchless seniors: no front yard
Religious elderly singles
Low income catholics
Mixed seniors
Lower class large families
Large family, employed child
Village families
Couples with teens ’Married with children’
Mixed small town dwellers
Traditional families
Large religous families
Large family farms
Mixed rurals
Niveles L1
1
2
3
4
5
6
20-30
30-40
40-50
50-60
60-70
70-80
years
years
years
years
years
years
Niveles L2
1 Successful hedonists
2 Driven Growers
3 Average Family
4 Career Loners
5 Living well
6 Cruising Seniors
7 Retired and Religeous
8 Family with grown ups
9 Conservative families
10 Farmers
Niveles L3
1
2
3
4
5
6
7
8
9
1 - 10%
11 - 23%
24 - 36%
37 - 49%
50 - 62%
63 - 75%
76 - 88%
89 - 99%
100%
Niveles L4 (importes en florines de partidas)
0 f 0
1 f 1 a 49
2 f 50 a 99
9
Estadística: Análisis Multivariante (P31)
3
4
5
6
7
8
9
f
f
f
f
f
f
f
Curso 2.002-2.003
100 a 199
200 a 499
500 a 999
1000 a 4999
5000 a 9999
10.000 - 19.999
20.000 - ?
10
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
Referencias
[1] C.M. Bishop. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, 1996.
[2] L. Breiman, J.H. Friedman, R.A. Olshen, and C.J. Stone. Classification and Regression Trees.
Wadsworth, Belmont, California, 1984.
[3] C. Cortes and V. Vapnik. Support-vector networks. Technical report, AT&T Bell Labs, 1989.
[4] N. Cristianini and J. Shawe-Taylor. Support Vector Machines and other kernel-based learning
methods. Cambridge University Press, 2000.
[5] C.M. Cuadras. Métodos de Análisis Multivariante. Eunibar, Barcelona, 1981.
[6] W.R. Dillon and M. Goldstein. Multivariate Analysis: Methods and Applications. Wiley,
New York, 1984.
[7] D.J. Hand. Discrimination and Classification. Wiley, 1981.
[8] D.J. Hand. Construction and Assessment of Classification Rules. Wiley, 1997.
[9] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning. Data Mining,
Inference, and Prediction. Springer-Verlag, 2001. Signatura: 519.237.8 HAS.
[10] S. Haykin. Neural Networks. A comprehensive Foundation. Prentice Hall, second edition,
1998.
[11] D.W. Hosmer and S. Lemeshow. Applied Logistic Regression. Wiley, 1989.
[12] K.W. Houp and T.E. Pearsall. Reporting Technical Information. MacMillan Pub. Co, New
York, 1980.
[13] R.A. Johnson and D.W. Wichern. Applied Multivariate Statistical Analysis. Prentice Hall,
1992.
[14] D.G. Kleinbaum. Logistic Regression. A Self-Learning Test. Springer Verlag, 1994.
[15] P.A. Lachenbruch. Discriminant Analysis. Hafner Press, New York, 1975.
[16] G.J. McLachlan. Discriminant Analysis and Statistical Pattern Recognition. Wiley, 1992.
[17] R.H. Myers. Classical and Modern Regression with Applications. PWS-KENT Pub. Co.,
Boston, 1990.
[18] D. Peña. Análisis de Datos Multivariantes. McGraw-Hill, 2002.
[19] A.C. Rencher. Methods of Multivariate Analysis. Wiley, 1995.
[20] A.C. Rencher. Multivariate Statistical Inference and Applications. Wiley, 1998.
11
Estadística: Análisis Multivariante (P31)
Curso 2.002-2.003
[21] B.D. Ripley. Pattern Recognition and Neural Networks. Cambridge University Press, 1996.
519.237.8 RIP.
[22] G.A.F. Seber. Multivariate Observations. Wiley, New York, 1984.
[23] H. Zhang and B. Singer. Recursive Partitioning in the Health Sciences. Springer-Verlag,
1999. Signatura: 519.233.5 ZHA.
12
Descargar