eman ta zabal zazu Universidad del País Vasco Euskal Herriko Unibertsitatea Estadística: Análisis Multivariante (P29) Examen Final no presencial Enero 2.003 1. Descripción del problema. Se trata de datos procedentes de la llamada CoIL Challenge 2000, una competición abierta 1 en que el objetivo era probar diferentes métodos sobre un problema. Son datos reales de una compañía aseguradora que, sobre la base de una descripción socio-demográfica y económica de sus clientes y de su contratación de otras pólizas, deseaba obtener una caracterización del segmento más proclive a contratar una póliza de seguro de caravanas. La proporción de contratantes de dicha póliza en la muestra de entrenamiento (formada por 5822 clientes) es del 5,97 %. Nótese que el objetivo se vería sobradamente cumplido si se lograra identificar uno o varios segmentos en que la proporción de contratantes fuera acusadamente superior —y en consecuencia otros en los que fuera acusadamente inferior—. Sería así posible concentrar el esfuerzo comercial y de promoción en los segmentos de clientela más proclives a contratar el producto. 2. Descripción de los datos. Los ficheros ticdata2000.txt (ASCII) y Tic.frame (para leer éste último mediante la función dget) contienen los mismos datos. El fichero TicDataDescr.txt contiene una descripción somera de los campos presentes en los datos. El fichero des contiene las manipulaciones que se han realizado tras leer ticdata2000.txt con un read.table para llegar a la data frame Tic (que se suministra en el fichero Tic.frame)Seguramente preferirás utilizar directamente la data frame creada, pero se incluyen los datos brutos y las manipulaciones efectuadas para 1 Puede verse la página oficial en http://www.dcs.napier.ac.uk/coil/challenge/. Es también de interés http://www.wi.leidenuniv.nl/~putten/library/cc2000/. 1 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 que sepas exactamente lo que se te entrega y puedas hacer un pre-tratamiento análogo de ficheros ASCII similares si lo necesitas. La data frame Tic tiene la estructura recogida en la Sección B. En la Sección A se recogen los campos y sus respectivos significados y niveles (reporducidos del fichero TicDataDescr.txt. Todos los ficheros están en el lugar de costumbre2 . 3. Objetivo. El objetivo es lograr una segmentación de la muestra identificando grupos particularmente proclives a contratar seguros sobre caravanas. Haz un análisis descriptivo previo tan completo como puedas. Piensa luego en qué procedimientos de clasificación podrían estar indicados. Los comentarios a continuación son sólo sugerencias que no deben limitarte. 4. Recursos 4.1. Bibliografía Sobre técnicas estadisticas y redes. En clase y en las tareas ya realizadas tienes abundante bibliografía de la que te puedes ayudar. Como manuales generales de Análisis Multivariante tienes [22], [13], [5], [18] [20], [19] y [6], entre otros muchos. Sobre análisis discriminante tienes [15] (antiguo, pero aún utilizable), [7] y [8], además de [16] como obra de consulta. Sobre árboles de regresión y clasificación tienes la obra clásica [2]. Además puedes consultar [23]. Sobre redes neuronales en general tienes [1] y [21], ambos con una perspectiva estadística y [10]. Sobre máquinas de vectores soporte (SVM) tienes [3] además de un capítulo de [10] (si quisieras profundizar, tendrías también el libro [4]) Sobre regresión logística tienes capítulos en muchos manuales de regresión lineal como [17], en las notas de clase de Modelos Lineales y en manuales específicos como [11] y [14]. Un muy buen manual de data mining (y cubriendo en particular la casi totalidad de las técnicas mencionadas) es [9]. Sobre estructuración y presentación de informes. sobre presentación de trabajos científicos. El libro [12] es una referencia muy completa 4.2. Documentación no impresa Con la aparición y perfeccionamiento de buscadores, Internet se ha convertido en un recurso de primer orden: es mucho lo que puedes encontrar si haces una búsqueda de “Coil Challenge” en, por ejemplo, http://www.google.com. No pierdas de vista no obstante que tu trabajo ha de ser autocontenido y toda afirmación que hagas ha de ser sustanciada por resultados que aportes: 2 En http://etdx01.bs.ehu.es. 2 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 “No he intentado discriminación logística porque Fulano probó y no funcionaba bien” no es un argumento aceptable. 4.3. Hardware Además de tu cuenta en anboto y los medios de cálculo personales de que puedas disponer, tienes una cuenta en etdx01.bs.ehu.es. Puedes hacer todo tu trabajo allí y tienes el complemento completo de herramientas que necesitas, pero deberás imprimir tu informe final en otra máquina. En particular, dispones del editor emacs con añadidos (ESS, AucTEX, RefTEX) para permitirte un trabajo cómodo. Tienes también software que no hay implementado en ninguna otra máquina de uso público en la Facultad. La máquina etdx01 funciona en horario diurno de lunes a sábado, 7h. a 22h, pero su horario se puede ampliar. 4.4. Software Al margen de emplear una función discriminante ordinaria à la Fisher, para lo que tienes las funciones cancor (en el paquete mva) y lda, qda (en el paquete MASS), puedes hacer otras cosas. Puedes pensar en entrenar un árbol de clasificación (dispones de las librerías tree en S-P LUS y rpart en R). Podrías emplear métodos no paramétricos basados en vecinos más próximos (1NN y k-NN: mira la librería class en R). Podrías también emplear una máquina de vectores soporte (SVM): en R dispones de la función svm en la librería e1071. Puedes entrenar una red neuronal (dispones de la librería nnet en R). Si las redes monocapa que puedes ajustar con esa función no te complacen, tienes 3 un programa mucho más versátil (SNNS, Stuttgart Neural Network Simulator). Para trasladar los datos de R a un formato legible por SNNS dispones de la función write.snns en el paquete del mismo nombre. 4.5. Ficheros Tienes a tu disposición los ficheros relacionados en el Cuadro 1, descritos en su mayoría en la Sección 2, pág. 1. Además de los datos en diversos formatos, tienes también la fuente en LATEX de este documento por si quisieras utilizarla como plantilla para redactar tu informe y algunos ficheros de bibliografía, de manera que puedas incluir referencias con comodidad, sin tener que reteclearlas. 3 Sólamente en etdx01.bs.ehu.es. 3 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 Cuadro 1: Ficheros disponibles Ubicación etdx01.bs.ehu.es etdx01.bs.ehu.es etdx01.bs.ehu.es etdx01.bs.ehu.es etdx01.bs.ehu.es etdx01.bs.ehu.es etdx01.bs.ehu.es anboto.xa.bs.ehu.es des etdx01.bs.ehu.es anboto.xa.bs.ehu.es ticDataDescr.txt etdx01.bs.ehu.es Fichero ene2003.tex cs.bib multi.bib reganova.bib stat.bib ticdata2000.txt Tic.frame Descripción Fuente de este documento. Bibliografía sobre computación. Bibliografía sobre Multivariante. Bibliografía sobre Regresión y ANOVA. Bibliografía sobre Estadística Matemática. Datos Tic en ASCII. Datos Tic como data frame. Código fuente aplicado a ticdata2000.txt. Descripción de los datos Tic. AYUDAS, SUGERENCIAS, COMENTARIOS 1. Puedes emplear tanto R como S-P LUS. La dimensión del fichero de datos podría hacer tropezar con limitaciones a los usuarios de PC’s insuficientemente equipados. 2. No hemos visto regresión logística este curso ni el precedente (aunque puedes encontrar alguna cosa en versiones modernas de los apuntes de Estadística: Modelos Lineales y en libros como [11] o [14]). Tienes aquí un problema en que la variable respuesta puede verse como dicotómica y un modelo logístico podría ser una opción. 3. ¿Qué errores puedes cometer en la clasificación? ¿Tienen la misma importancia? ¿Qué consecuencias se derivan para tu análisis? En general, cabe suponer que el coste de contactar a un posible tomador de la póliza que finalmente no lo es, es bajo. En cambio, el coste de no contactar a alguien que hubiera sido tomador de la póliza, será más alto. 4. En conjuntos de datos en los que la abundancia de una de las categorías (aquí, “no tomadores”, 94,03 %, frente al 5,97 % de tomadores) es abrumadora, un procedimiento que no hiciera uso de información acerca de costes casi inevitablemente clasificaría a todos los sujetos en un grupo. Incluso en los segmentos más proclives a ser tomadores, el porcentaje de los mismos difícilmente excedera del 10 % o 20 %, y por tanto el segmento sería etiquetado como “no tomadores”. 5. Si quieres emplear un método como vecinos más próximos has de definir una noción de “proximidad”. Las ideas esbozadas en clase al hablar de análisis cluster pueden darte orientaciones. 6. Recuerda que un elemento fundamental en todo análisis de clasificación es una estimación de la tasa de error. No te limites a una estimación de la tasa de error intramuestral. 4 Estadística: Análisis Multivariante (P31) A. Curso 2.002-2.003 Campos y su significado Campo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Nombre MOSTYPE MAANTHUI MGEMOMV MGEMLEEF MOSHOOFD MGODRK MGODPR MGODOV MGODGE MRELGE MRELSA MRELOV MFALLEEN MFGEKIND MFWEKIND MOPLHOOG MOPLMIDD MOPLLAAG MBERHOOG MBERZELF MBERBOER MBERMIDD MBERARBG MBERARBO MSKA MSKB1 MSKB2 MSKC MSKD MHHUUR MHKOOP MAUT1 MAUT2 MAUT0 MZFONDS MZPART Descripción Customer Subtype see L0 Number of houses 1 - 10 Avg size household 1 - 6 Avg age see L1 Customer main type see L2 Roman catholic see L3 Protestant ... Other religion No religion Married Living together Other relation Singles Household without children Household with children High level education Medium level education Lower level education High status Entrepreneur Farmer Middle management Skilled labourers Unskilled labourers Social class A Social class B1 Social class B2 Social class C Social class D Rented house Home owners 1 car 2 cars No car National Health Service Private health insurance (continúa en la página siguiente) 5 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 (continúa de la página anterior) Campo 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Nombre MINKM30 MINK3045 MINK4575 MINK7512 MINK123M MINKGEM MKOOPKLA PWAPART PWABEDR PWALAND PPERSAUT PBESAUT PMOTSCO PVRAAUT PAANHANG PTRACTOR PWERKT PBROM PLEVEN PPERSONG PGEZONG PWAOREG PBRAND PZEILPL PPLEZIER PFIETS PINBOED PBYSTAND AWAPART AWABEDR AWALAND APERSAUT ABESAUT AMOTSCO AVRAAUT AAANHANG ATRACTOR AWERKT ABROM Descripción Income <30.000 Income 30-45.000 Income 45-75.000 Income 75-122.000 Income >123.000 Average income Purchasing power class Contribution private third party insurance see L4 Contribution third party insurance (firms) ... Contribution third party insurane (agriculture) Contribution car policies Contribution delivery van policies Contribution motorcycle/scooter policies Contribution lorry policies Contribution trailer policies Contribution tractor policies Contribution agricultural machines policies Contribution moped policies Contribution life insurances Contribution private accident insurance policies Contribution family accidents insurance policies Contribution disability insurance policies Contribution fire policies Contribution surfboard policies Contribution boat policies Contribution bicycle policies Contribution property insurance policies Contribution social security insurance policies Number of private third party insurance 1 - 12 Number of third party insurance (firms) ... Number of third party insurane (agriculture) Number of car policies Number of delivery van policies Number of motorcycle/scooter policies Number of lorry policies Number of trailer policies Number of tractor policies Number of agricultural machines policies Number of moped policies (continúa en la página siguiente) 6 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 (continúa de la página anterior) Campo 76 77 78 79 80 81 82 83 84 85 86 B. Nombre ALEVEN APERSONG AGEZONG AWAOREG ABRAND AZEILPL APLEZIER AFIETS AINBOED ABYSTAND CARAVAN Descripción Number of life insurances Number of private accident insurance policies Number of family accidents insurance policies Number of disability insurance policies Number of fire policies Number of surfboard policies Number of boat policies Number of bicycle policies Number of property insurance policies Number of social security insurance policies Number of mobile home policies 0 - 1 Estructura de la data frame Tic. (Observa el uso de la función str para ver la estructura de un objeto en R.) > str(Tic) ‘data.frame’: 5822 obs. of 86 variables: $ MOSTYPE : Factor w/ 40 levels "High Income..",..: 5 5 5 9 5 22 5 5 5 11 ... $ MAANTHUI: num 1 1 1 1 1 1 2 1 1 2 ... $ MGEMOMV : num 3 2 2 3 4 2 3 2 2 3 ... $ MGEMLEEF: Factor w/ 6 levels "20-30 years",..: 2 2 2 3 2 1 2 3 4 3 ... $ MOSHOOFD: Factor w/ 10 levels "Successful ..",..: 8 8 8 3 10 5 9 8 8 3 ... $ MGODRK : Factor w/ 10 levels "0%","1 - 10%",..: 1 2 1 3 2 1 3 1 1 4 ... $ MGODPR : Factor w/ 10 levels "0","1","2","3",..: 6 5 5 4 5 6 3 8 2 6 ... $ MGODOV : Factor w/ 6 levels "0","1","2","3",..: 2 2 3 3 2 1 1 1 4 1 ... $ MGODGE : Factor w/ 10 levels "0","1","2","3",..: 4 5 5 5 5 6 6 3 7 3 ... $ MRELGE : Factor w/ 10 levels "0","1","2","3",..: 8 7 4 6 8 1 8 8 7 8 ... $ MRELSA : Factor w/ 8 levels "0","1","2","3",..: 1 3 3 3 2 7 3 3 1 1 ... $ MRELOV : Factor w/ 10 levels "0","1","2","3",..: 3 3 5 3 3 4 1 1 4 3 ... $ MFALLEEN: Factor w/ 10 levels "0","1","2","3",..: 2 1 5 3 3 4 1 1 4 3 ... $ MFGEKIND: Factor w/ 10 levels "0","1","2","3",..: 3 5 5 4 5 6 4 6 4 3 ... $ MFWEKIND: Factor w/ 10 levels "0","1","2","3",..: 7 6 3 5 5 3 7 5 4 7 ... $ MOPLHOOG: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 4 6 1 1 1 1 1 ... $ MOPLMIDD: Factor w/ 10 levels "0","1","2","3",..: 3 6 6 5 5 6 5 4 2 5 ... $ MOPLLAAG: Factor w/ 10 levels "0","1","2","3",..: 8 5 5 3 1 5 6 7 9 6 ... $ MBERHOOG: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 5 1 3 1 3 2 3 ... $ MBERZELF: Factor w/ 6 levels "0","1","2","3",..: 1 1 1 1 6 1 1 1 2 1 ... $ MBERBOER: Factor w/ 10 levels "0","1","2","3",..: 2 1 1 1 5 1 1 1 1 1 ... $ MBERMIDD: Factor w/ 10 levels "0","1","2","3",..: 3 6 8 4 1 5 5 3 2 4 ... $ MBERARBG: Factor w/ 10 levels "0","1","2","3",..: 6 1 1 2 1 3 2 6 9 4 ... $ MBERARBO: Factor w/ 10 levels "0","1","2","3",..: 3 5 3 3 1 3 6 3 2 4 ... $ MSKA : Factor w/ 10 levels "0","1","2","3",..: 2 1 1 4 10 3 1 3 2 2 ... $ MSKB1 : Factor w/ 10 levels "0","1","2","3",..: 2 3 6 3 1 3 2 2 2 3 ... $ MSKB2 : Factor w/ 10 levels "0","1","2","3",..: 3 4 1 2 1 3 5 3 1 2 ... $ MSKC : Factor w/ 10 levels "0","1","2","3",..: 7 6 5 5 1 5 6 6 9 5 ... $ MSKD : Factor w/ 9 levels "0","1","2","3",..: 2 1 1 1 1 3 1 3 2 3 ... $ MHHUUR : Factor w/ 10 levels "0","1","2","3",..: 2 3 8 6 5 10 7 1 10 1 ... $ MHKOOP : Factor w/ 10 levels "0","1","2","3",..: 9 8 3 5 6 1 4 10 1 10 ... $ MAUT1 : Factor w/ 10 levels "0","1","2","3",..: 9 8 8 10 7 6 9 5 6 7 ... $ MAUT2 : Factor w/ 8 levels "0","1","2","3",..: 1 2 1 1 3 4 1 5 3 2 ... $ MAUT0 : Factor w/ 10 levels "0","1","2","3",..: 2 3 3 1 2 4 2 3 4 3 ... $ MZFONDS : Factor w/ 10 levels "0","1","2","3",..: 9 7 10 8 6 10 10 7 8 7 ... $ MZPART : Factor w/ 10 levels "0","1","2","3",..: 2 4 1 3 5 1 1 4 3 4 ... $ MINKM30 : Factor w/ 10 levels "0","1","2","3",..: 1 3 5 2 1 6 5 3 8 3 ... $ MINK3045: Factor w/ 10 levels "0","1","2","3",..: 5 1 6 6 1 3 4 6 3 4 ... $ MINK4575: Factor w/ 10 levels "0","1","2","3",..: 6 6 1 4 10 4 4 4 2 4 ... 7 Estadística: Análisis Multivariante (P31) $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ MINK7512: MINK123M: MINKGEM : MKOOPKLA: PWAPART : PWABEDR : PWALAND : PPERSAUT: PBESAUT : PMOTSCO : PVRAAUT : PAANHANG: PTRACTOR: PWERKT : PBROM : PLEVEN : PPERSONG: PGEZONG : PWAOREG : PBRAND : PZEILPL : PPLEZIER: PFIETS : PINBOED : PBYSTAND: AWAPART : AWABEDR : AWALAND : APERSAUT: ABESAUT : AMOTSCO : AVRAAUT : AAANHANG: ATRACTOR: AWERKT : ABROM : ALEVEN : APERSONG: AGEZONG : AWAOREG : ABRAND : AZEILPL : APLEZIER: AFIETS : AINBOED : ABYSTAND: CARAVAN : Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor Factor num 0 num 0 num 0 num 1 num 0 num 0 num 0 num 0 num 0 num 0 num 0 num 0 num 0 num 0 num 0 num 1 num 0 num 0 num 0 num 0 num 0 Factor Curso 2.002-2.003 w/ 10 levels "0","1","2","3",..: 1 3 1 1 1 1 1 1 1 2 ... w/ 8 levels "0","1","2","3",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 10 levels "f 0","f 1-49",..: 5 6 4 5 7 4 4 4 3 5 ... w/ 8 levels "f 0","f 1-49",..: 3 4 4 4 3 3 5 3 3 7 ... w/ 4 levels "f 0","f 1-49",..: 1 3 3 1 1 1 1 1 1 3 ... w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 4 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 6 levels "f 0","f 1-49",..: 4 1 4 4 1 4 4 1 3 1 ... w/ 4 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 6 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 4 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 6 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 6 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 3 1 1 ... w/ 10 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 3 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 9 levels "f 0","f 1-49",..: 6 3 3 3 7 1 1 1 1 4 ... w/ 3 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 2 levels "f 0","f 1-49": 1 1 1 1 1 1 1 1 1 1 ... w/ 7 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... w/ 5 levels "f 0","f 1-49",..: 1 1 1 1 1 1 1 1 1 1 ... 2 1 0 0 0 0 0 0 1 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 1 1 0 1 1 0 1 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 1 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 1 1 1 1 0 0 0 0 1 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 ... w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ... Niveles L0 L0: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Value 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Label High Income, expensive child Very Important Provincials High status seniors Affluent senior apartments Mixed seniors Career and childcare Dinki’s (double income no kids) Middle class families Modern, complete families Stable family Family starters Affluent young families Young all american family Junior cosmopolitan Senior cosmopolitans 8 Estadística: Análisis Multivariante (P31) 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 Curso 2.002-2.003 Students in apartments Fresh masters in the city Single youth Suburban youth Etnically diverse Young urban have-nots Mixed apartment dwellers Young and rising Young, low educated Young seniors in the city Own home elderly Seniors in apartments Residential elderly Porchless seniors: no front yard Religious elderly singles Low income catholics Mixed seniors Lower class large families Large family, employed child Village families Couples with teens ’Married with children’ Mixed small town dwellers Traditional families Large religous families Large family farms Mixed rurals Niveles L1 1 2 3 4 5 6 20-30 30-40 40-50 50-60 60-70 70-80 years years years years years years Niveles L2 1 Successful hedonists 2 Driven Growers 3 Average Family 4 Career Loners 5 Living well 6 Cruising Seniors 7 Retired and Religeous 8 Family with grown ups 9 Conservative families 10 Farmers Niveles L3 1 2 3 4 5 6 7 8 9 1 - 10% 11 - 23% 24 - 36% 37 - 49% 50 - 62% 63 - 75% 76 - 88% 89 - 99% 100% Niveles L4 (importes en florines de partidas) 0 f 0 1 f 1 a 49 2 f 50 a 99 9 Estadística: Análisis Multivariante (P31) 3 4 5 6 7 8 9 f f f f f f f Curso 2.002-2.003 100 a 199 200 a 499 500 a 999 1000 a 4999 5000 a 9999 10.000 - 19.999 20.000 - ? 10 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 Referencias [1] C.M. Bishop. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, 1996. [2] L. Breiman, J.H. Friedman, R.A. Olshen, and C.J. Stone. Classification and Regression Trees. Wadsworth, Belmont, California, 1984. [3] C. Cortes and V. Vapnik. Support-vector networks. Technical report, AT&T Bell Labs, 1989. [4] N. Cristianini and J. Shawe-Taylor. Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. [5] C.M. Cuadras. Métodos de Análisis Multivariante. Eunibar, Barcelona, 1981. [6] W.R. Dillon and M. Goldstein. Multivariate Analysis: Methods and Applications. Wiley, New York, 1984. [7] D.J. Hand. Discrimination and Classification. Wiley, 1981. [8] D.J. Hand. Construction and Assessment of Classification Rules. Wiley, 1997. [9] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer-Verlag, 2001. Signatura: 519.237.8 HAS. [10] S. Haykin. Neural Networks. A comprehensive Foundation. Prentice Hall, second edition, 1998. [11] D.W. Hosmer and S. Lemeshow. Applied Logistic Regression. Wiley, 1989. [12] K.W. Houp and T.E. Pearsall. Reporting Technical Information. MacMillan Pub. Co, New York, 1980. [13] R.A. Johnson and D.W. Wichern. Applied Multivariate Statistical Analysis. Prentice Hall, 1992. [14] D.G. Kleinbaum. Logistic Regression. A Self-Learning Test. Springer Verlag, 1994. [15] P.A. Lachenbruch. Discriminant Analysis. Hafner Press, New York, 1975. [16] G.J. McLachlan. Discriminant Analysis and Statistical Pattern Recognition. Wiley, 1992. [17] R.H. Myers. Classical and Modern Regression with Applications. PWS-KENT Pub. Co., Boston, 1990. [18] D. Peña. Análisis de Datos Multivariantes. McGraw-Hill, 2002. [19] A.C. Rencher. Methods of Multivariate Analysis. Wiley, 1995. [20] A.C. Rencher. Multivariate Statistical Inference and Applications. Wiley, 1998. 11 Estadística: Análisis Multivariante (P31) Curso 2.002-2.003 [21] B.D. Ripley. Pattern Recognition and Neural Networks. Cambridge University Press, 1996. 519.237.8 RIP. [22] G.A.F. Seber. Multivariate Observations. Wiley, New York, 1984. [23] H. Zhang and B. Singer. Recursive Partitioning in the Health Sciences. Springer-Verlag, 1999. Signatura: 519.233.5 ZHA. 12