MÁSTER INTERUNIVERSITARIO EN SALUD PÚBLICA Guía docente de la asignatura: Manejo y Análisis de Datos Departamento de Ciencias Experimentales y de la Salud UNIVERSITAT POMPEU FABRA - UNIVERSITAT AUTÒNOMA DE BARCELONA DATOS DESCRIPTIVOS DE LA ASIGNATURA Curso académico: 2011-2012 (1er y 2do trimestres) Nombre de la asignatura: Manejo y Análisis de Datos Tipo de asignatura: Obligatoria Número de créditos: 4 ECTS Coordinación: Francisco Fernández Gómez Profesorado: Estel Plana, Jose Miguel Martinez, Anna Esteve, Juan Ramón Gónzalez, Francisco Fernández PROFESORES Anna Esteve es Licenciada en Matemáticas por la Universitat de Barcelona (1995), fue profesora del Departamento de Estadística de la misma Universidad y se doctoró en Matemáticas por la Universitat de Barcelona el año 2003. Desde 1999 es investigadora del Centre d’Estudis Epidemiològics sobre les ITS/sida de Catalunya (CEEISCAT) desarrollando como principal actividad el análisis de estudios de cohortes en pacientes infectados por el VIH. Lleva a cabo su actividad postdoctoral en colaboración con el Departamento de Probabilidad, Lógica y Estadística de la Universitat de Barcelona en el área de los métodos de predicción basados en distancias contribuyendo al problema metodológico de selección de métricas/kernels en procesos de aprendizaje estadístico. Email: anna.ceeiscat@gmail.com Juan Ramón Gonzalez es Diplomado en estadística por la Universitat Autónoma de Barcelona (UAB), Licenciado en estadística por la Universitat Politècnica de Catalunya donde también obtuvo el doctorado en estadística. Obtuvo el master en evaluación y gestión de servicios sanitarios por al UAB y la agencia de evaluación de tecnologías medicas (AATRM). Hasta el año 2005 realizó investigación en epidemiología del cáncer en el Institut Català d’Oncologia y hasta Julio de 2007 desarrolló su actividad investigadora en el campo de la genética en el Centro de Regulación Genómica donde llevó a cabo estudios sobre epidemiología genética en trastornos psiquiátricos, y desarrolló métodos estadísticos para el análisis SNPs. Actualmente es investigador del Centro de Investigación en Epidemiología Ambiental (CREAL) donde se dedica a la investigación bioestadística en genética, estudiando la variabilidad genómica entre poblaciones y desarrollando métodos estadísticos para el análisis de técnicas cuantitativas de dosis génica. Su actividad docente la desarrolla en el Departamento de Salud Pública de la Universitat de Barcelona donde imparte clases de bioestadística en la facultad de Medicina. Email: jrgonzalez@creal.cat 2 José Miguel Martínez es Diplomado en estadística por la Universitat Autónoma de Barcelona (1996), Licenciado en estadística por la Universidad de Granada (2000) y Doctor en estadística por la Universidad Politécnica de Catalunya (2006). Su actividad docente se centra en la enseñanza de epidemiología en la asignatura de Salud laboral I del Grado en relaciones laborales (UPF) y el máster en seguridad e higiene en el trabajo: prevención de riesgos laborales (UB, UPC, UPF, INSHT) y de bioestadística y análisis de datos con Stata en el master en salud laboral (UPF). Trabaja en el Centro de Investigación en Salud Laboral (CiSAL) y Grupo de Investigación en Desigualdades en Salud (GREDS) de la UPF y sus principales líneas de investigación consideran el análisis de las lesiones por accidente laboral, incapacidad temporal, análisis geográfico de las desigualdades en salud en áreas pequeñas, análisis multinivel y generación de nuevos métodos para el análisis de datos de salud. Email: jmiguel.martinez@upf.edu Estel Plana es Licenciada en Matemáticas por la Universitat Politècnica de Catalunya (2002) y realizó el Master en Ciències Tècniques i Estadístiques por la Universitat Politècnica de Catalunya (2009). Hasta el 2009 trabajó como técnico estadístico en el Centro de Investigación en Epidemiología Ambiental (CREAL) realizando funciones de Data Management y Epidemiological data analyses. Actualmente trabaja como Senior Epidemiology Biostatistician en Novartis. Email: estel.plana@gmail.com Paco Fernández es Diplomado en estadística por la Universitat Autónoma de Barcelona (1996). Como actividad docente, es Profesor Asistente en el European Educational Progamme in Epidemiology en los módulo Statisitcal Methods in Epidemiology II and Computer Analysis of Epidemiological data sets. Hasta el 2006 trabajó como técnico estadístico en el Centro de Investigación en Epidemiología Ambiental (CREAL) como Data Manager y realizando análisis de datos epidemiologicos. Actualmente trabaja en el Centro de Investigación en Epidemiología Ambiental (CREAL) como responsable de area informàtica del CREAL. Email: pfernandez@creal.cat 3 PRESENTACIÓN (Per defecte descripció feta pel Syllabus del Màster) Una parte fundamental en la investigación epidemiológica es el análisis estadístico de los datos para la presentación de resultados. Este curso está pensado como una introducción al paquete estadístico STATA, comúnmente utilizado para el manejo y análisis de este tipo de datos. La asignatura se centrará en la resolución de ejercicios mediante el análisis estadístico de una base de datos epidemiológica y la participación del alumno en clase. OBJETIVOS DOCENTES En esta asignatura se pretende conseguir que el alumno sea capaz de utilizar el software estadístico para el manejo de la base de datos y realizar los análisis usuales en los estudios epidemiológicos. El alumno debe familiarizarse con el entorno del programa STATA para conseguir manipular y gestionar la propia base de datos Mediante este paquete estadístico, el alumno debe identificar las diferentes herramientas que le permitan realizar las correspondientes técnicas de analisis estadístico El alumno debe ser capaz de identificar, sintetizar e interpretar los resultados obtenidos en los análisis estadísticos realizados con el paquete estadístico STATA 4 COMPETENCIAS A ALCANZAR GENERALES Instrumentales Capacidad de utilizar, con independencia, el paquete estadístico STATA para realizar el manejo y análisis de datos Personales Sistémicas ESPECÍFICAS REQUISITOS PREVIOS Para este curso se requieren los conocimientos estadísticos de las asignaturas Métodos Estadísticos I,II y Métodos Epidemiológicos I 5 METODOLOGÍA El plan de trabajo para el curso es el siguiente: Tipo de actividad Seminarios y Prácticas en el aula Duración % 20h 1er trim 22h 2do trim 100% Trabajo de grupo fuera del aula ¿? Lectura y trabajo individual fuera del aula ¿? Total 40h EVALUACIÓN Instruccions: Detallar criteris d’avaluació i el seu pes relatiu Calcular l’esforç de l’estudiant. Aclarir les activitats, criteris d’avaluació i distribució temporal Pot afegir-se examen/prova final. Aquest no hauria de comptar més del 50% de la nota final Assistència a classe: pot requerir-se un mínim (>50% o >60%) per avaluació però no comptar-la en la nota final Debido al carácter práctico de la asignatura no realizaremos examen final y la evaluación consistirá en: - La presentación de un ejercicio final con los análisis estadísticos realizados con el paquete Stata de una base de datos (que pueden ser los datos de la tesina) realizados durante el curso. Esta tarea supondrá 40% de la nota final - La participación en clase mediante la realización de los ejercicios prácticos al final de cada tema/clase. La realización de cada ejercicio supondrá un % especifico hasta completar el 60% restante de la nota final. 6 CALENDARIO (1er Trimestre) Horario Tema Profesor Sesión 1: 3 Nov. Overview STATA Paco Fdez Data Management I Estel Plana 15:00 – 17:00 Descriptiva Univariada Paco Fdez 17:30 – 19:30 Descriptiva Univariada Estel Plana Data Management I (review) Paco Fdez Data Management II Estel Plana 15:00 – 17:00 Descriptiva Bivariada I Paco Fdez 17:30 – 19:30 Descriptiva Bivariada I Estel Plana 15:00 – 17:00 Descriptiva Bivariada II Paco Fdez 17:30 – 19:30 Descriptiva Bivariada II Estel Plana 15:00 – 17:00 17:30 – 19:30 Sesión 2: 10 Nov. Sesión 3: 17 Nov. 15:00 – 17:00 17:30 – 19:30 Sesión 4: 24 Nov. Sesión 5: 1 Dic. Falta configurar 2do Trimestre!! 7 PROGRAMA DE SESIONES Asignatura Profesor Sesión 1. Título sesión Overview STATA + Data Management I platforms, versions, license, profile, memory and size limits updates, proxy configuration entorno grafico, menus, botones especiales (toolbar) log , do, ado files Help menu, Search, findit commands, Workingdir Contenidos Open/import save/export database Browse, Edit data (window editor), Labels (vars or values) Describe dataset (describe, codebook, list) Logic operators, IF, IN, missings, varlist Manage Observations or Variables: Sort/gsort, Keep, Drop, Manage Vars: Gen, Recode, Replace, rename, Egen(functions) Seminario en aula 61303 Lecturas obligatorias Lecturas recomendadas Michael Hills, Bianca L. De Stavola. A short introduction to Stata for biostatistics. London : Timberlake Consultants, 2010 (pag 1-3 ,9-14,19-36) Trabajo fuera del aula Documentación 8 Aula global (Disponible en la web) Asignatura Profesor Sesión 2 Título sesión Descriptiva Univariada Descrip. Univariada: (Categorical and Continue variables) Graphs univ: histogram, pie chart, graph bar Review Univariada: Summ, tab, table (stats), tabstat (stats) Contenidos Seminario en aula Aula global (Disponible en la web) 61303 Lecturas obligatorias Lecturas recomendadas Michael Hills, Bianca L. De Stavola. A short introduction to Stata for biostatistics. London : Timberlake Consultants, 2010 (pag 4-8, 15-18,38-57) Trabajo fuera del aula Documentación Asignatura Profesor Sesión 3 Título sesión Data Management I (review) + Data Management II Manage datasets: merge and append Reshape (wide/long) Data Format (data types, display and storage) Strings (Encode, Decode, Destring, Tostring, Recast Date Format and Functions Contenidos Seminario en aula 61303 9 Aula global (Disponible en la web) Lecturas obligatorias Lecturas recomendadas Michael Hills, Bianca L. De Stavola. A short introduction to Stata for biostatistics. London : Timberlake Consultants, 2010 (pag 24-28, 67-80) Trabajo fuera del aula Documentación Profesor Sesión 4 Título sesión Descrip Bivariada I 2 Categorical vars. Pearson Chi2 and Fisher Response-continue and Indep-categorical (2 categor.) Ttest Response-continue and Indep-categorical (>2 categor.) ANOVA test 2 continuous vars. Correlations (Pearson ) Contenidos Seminario en aula 61303 Lecturas obligatorias Lecturas recomendadas Michael Hills, Bianca L. De Stavola. A short introduction to Stata for biostatistics. London : Timberlake Consultants, 2010 (pag 38-57) Trabajo fuera del aula Documentación 10 Aula global (Disponible en la web) Profesor Sesión 5 Contenidos Seminario en aula Título sesión Descrip Bivariada II Review Descrip. Bivariada (oneway, anova, correlate…) Non-parametric tests ( RankSum or SignRank, Kwallis, Spearman) Graphs Bivar: Box-plot, Twoway scatter plot (matrix) 61303 Lecturas obligatorias Lecturas recomendadas Michael Hills, Bianca L. De Stavola. A short introduction to Stata for biostatistics. London : Timberlake Consultants, 2010 (pag 38-57) Trabajo fuera del aula Documentación 11 Aula global (Disponible en la web)