Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 TABLAS & GRÁFICOS La presentación de los datos es fundamental en un trabajo de investigación. A veces en una tabla está lo principal que se obtuvo en una investigación y ustedes deben tratar de entenderla, entonces vean como este caballero dice que muchas veces es el cerebro de un artículo. “La presentación de los datos en cuadros es a menudo el corazón, o mejor aún, el cerebro de un artículo científico.” Peter Morgan. La presentación de los datos en un trabajo de investigación o en un artículo la pueden encontrar en tablas y gráficos, como también puede aparecer en el texto escrito. La mayoría de los investigadores cuando escriben un articulo científico colocan en el texto lo fundamental y hacen referencia en tablas y gráficos. Ustedes deben tratar de no ser redundantes, o sea no repetir. Lo que esté en tablas o gráficos no debiera estar nuevamente representado en el trabajo. Representación de datos: En el texto En tablas En gráficos NUNCA PRESENTAR LOS DATOS EN MÁS DE UNA FORMA. Las tablas, en primer lugar, son la forma de ordenar los datos en filas y columnas, eso es una tabla en resumidas cuentas y es la forma de representar de forma ordenada los resultados de un trabajo para que las personas puedan entender de mejor forma. Cuando uno hace una investigación epidemiológica o un estudio de casos controles o una investigación de cualquier ámbito y ve muchas muestras y muchos pacientes, no tienen para que publicar todo lo que encontraron en cada uno de los pacientes o en cada una de las muestras que analizaron, tienen que resumir eso y esa forma de resumir y ordenar las cosas es presentándola en tablas y en gráficos. Las tablas estadísticas sirven para presentar en forma ordenada los datos numéricos obtenidos en algún estudio. ¿Cuándo hacer tablas? Las tablas van a presentar los datos que sean más representativos, no tiene para que representar todo. Para mostrar datos que indican cambios importantes. No hacer tablas cuando.... Cuando la cosa sea muy fome, vale decir todos los pacientes tienen el mismo resultado, o sea los datos son idénticos o repetitivos. Cuando es más fácil decir una cosa en palabras que hacer una tabla. 1 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Si los resultados no son significativos. Uno usa los resúmenes de las observaciones y los hace es cuando hay diferencias significativas y si no las hay no es necesario hacer tablas. La tabla debe tener título y unas rayitas para que la gente entienda mejor, unas rayas horizontales que permitan definir donde está el encabezado y donde está separando los totales del contenido principal de la tabla. En esta tabla debe estar el título y si hay una abreviatura debe ser explicada. Acá tenemos por ejemplo, la distribución de pacientes con Síndrome de Sjögren primario y secundario. El INE todo el mundo sabe lo que es, así que esa abreviatura no tiene para que explicarla. Al hacer una tabla siga algunas etapas. Principales etapas en la construcción de una tabla: 1. Van a poner el propósito que tiene una tabla. 2. Debe tener un título, un encabezado. Cuando en un trabajo se usan muchas tablas deben ir numeradas, en algunas partes le piden que las numere con números romanos y en otras partes con números arábigos, tiene que seguir las indicaciones de los editores cuando uno va a publicar un articulo. Ej.: Tabla 1. Distribución de pacientes... 3. Asigne las escalas de clasificación de las filas y de las columnas, que es lo que va a colocar. La variable dependiente va a estar en las columnas (eso es una norma). 4. Coloque los datos obtenidos y complete a veces con porcentajes, especialmente en las variables que son nominales u ordinales. En caso de variables intervalares generalmente siempre debe estar el n , el promedio y la desviación estándar. Defina el propósito de la tabla. Eso es determine como va a clasificar las observaciones que va a colocar en una tabla. Hoy en día con la ayuda de los computadores y los software estadísticos cuando uno ya tiene los datos ingresados al computador, el software como por ejemplo el SPCS o el Syntax o el Excel, usted fácilmente puede hacer una tabla y usted la copia y la pega a su documento en Word pero tiene que tener el concepto claro. Al ordenar los datos se le hará más fácil elaborar la tabla. Además una vez que tenga sus datos en la tabla eso simplifica después entender que análisis estadístico habría que hacer sobre esos datos. Definir los propósitos de la tabla ayuda a determinar los criterios de clasificación de las tablas y el sentido en que deben analizarse los datos. De acuerdo a los propósitos se distinguen: Tablas de distribución de frecuencias: el material se clasifica de acuerdo a un sólo criterio. Tablas de asociación: en la cual se desea mostrar la asociación entre dos o más variables en las unidades de observación. 2 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 El título. El título debe decir por lo menos lo que hay adentro de la tabla. Qué es lo que está presentando adentro de esa tabla. Como se clasificaron los datos. Generalmente, muchas veces uno no tiene ni que explicar porque se entiende fácilmente lo que quiere decir esa tabla. (Ej.: Si usted pone hombres, mujeres, no tiene para que decir “clasifiqué esta tabla de acuerdo al género”, ¿para qué?) Usted mira y entiende. Donde se registraron los datos y cuando se registraron los datos , a veces es necesario en la tabla que aparezca en el título cuando esa tabla se presenta de forma aislada, como por ejemplo en un congreso. (Lo de donde y cuando eso lo va encontrar en la sección de materiales y métodos, entonces no siempre es necesario que esté ahí en el título pero si hay una variación en la recopilación de los datos es bueno que esté ahí, en el título). El título debe especificar: Qué presenta. Cómo se clasifican las unidades de observación. Dónde fueron registrados los datos. Casos especiales. A veces hay casos especiales: Tablas con pocos datos, títulos muy cortos, a veces hay secuencias de tablas que están relacionadas una con otra, entonces no hay para qué estar repitiendo todos los títulos si son la continuación una de otra, lo hay que hacer es ir siguiendo el orden para entenderlas. Al pie de la tabla es necesario colocar generalmente las abreviaturas, pueden también poner algo acerca del origen de los datos, el análisis estadístico que se hizo o la significancia estadística generalmente con una letra más pequeña y cualquier cosa que deba ser aclarada porque haya una inconsistencia en los datos dentro de esa tabla, por ejemplo los totales a veces puede que no coincidan y tiene que explicar porque no lo hacen (Ej.: un paciente que se retiró del estudio o algún paciente que presenta más de una característica, entonces puede estar en varias categorías asignadas.) Asigne las escalas de clasificación a las filas y columnas. La primera columna generalmente es la definición, por ejemplo si es un estudio por género, entonces están hombre y mujer definidos en la primera columna. A estos hombres y mujeres usted les midió la presión sistólica, el valor de la presión va a estar al lado derecho de cada género. A veces puede que tenga más de un criterio de clasificación, entonces usted tiene género hombre y mujeres y dice hombre menores de 20 años y hombres mayores de 20 años, ahí además subdivide, por lo tanto tiene un mayor número de grupos en la primera columna y los puede ir subdividiendo. Y eso le va ir complicando las cosas, pero es necesario hacerlo, algunas veces por el objetivo que puede tener un estudio. Lo más sencillo es que tenga un solo criterio de clasificación pero también puede haber más de un criterio para clasificar los datos en esa tabla. 3 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Un criterio de clasificación: Primera columna. Más de un criterio de clasificación: Escala con mayor número de grupos en la primera columna. Dos escalas de clasificación, una se refiere a los antecedentes y la otra a las consecuencias: Antecedentes en la columna a la izquierda. Consecuencias en la fila superior. Con más de dos criterios de clasificación comienza a enredarse la tabla, se dificulta la lectura de esa tabla. Pueden ser útiles a veces como tablas de referencia como algunas tablas que publica el Instituto Nacional de Estadísticas (INE) en ellas ve la tabla de población de Chile, está por ejemplo la región, comuna y dentro de las comunas puede que esté agrupada por hombre y mujeres, entonces se va subdividiendo, son tablas largas y más complicadas y también se pueden estar dividiendo las columnas por grupos de edades. Entonces esa tablas le sirven como tablas de trabajo, para buscar información, pero son un poco más enredadas. Tablas de más de dos criterios de clasificación: Presentan dificultades de lectura y debieran evitarse como tablas de presentación en publicaciones. Son útiles como tablas de referencia para colocarlas en anexos de trabajos. Sirven como tablas de trabajo para resumir todos los datos y poder extraer de ellas tablas más sencillas. Totales marginales. Al colocar los datos muchas veces es necesario poner los totales. Los totales en una tabla pueden estar en las filas, en las comunas o ambos y es bueno estar revisando que coincidan esos totales. Generalmente esos totales se obtienen por la suma de la horizontal y vertical. Si esos totales no se obtuvieron así, por la suma y no coincide con los valores reales debe decir porqué. Porcentajes. Puede colocar porcentajes de acuerdo al total de la columna o de la fila y muchas veces en las variables nominales y ordinales es necesario que coloque los porcentajes porque a la persona le queda como más fácil entender. (Es más fácil entender 5% que 1 de 20). No use porcentajes cuando tiene muy pocos datos. Por ejemplo, estudió una enfermedad muy rara y encontró que de 5 pacientes sólo había 1 mujer, no tiene para qué calcular el porcentaje porque la mayoría de los humanos pueden darse cuenta que ese 1 de 5 es el 20%, no se usa en tan pocas observaciones para tal característica. 4 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Tablas de contingencia 2 X 2 RESFRÍA DEPORTE SI NO Total SI 16 14 30 NO 20 30 50 Total 36 44 80 Pueden poner en las columnas la variable dependiente si se resfrían, aquí también se evaluó si hacen deporte o no... Cada observación tiene una característica . A partir de estos datos puede sacar porcentajes, el porcentaje de la columna es el que interesa. Cuando tenemos estas tablas de 2 x 2, cada uno de los cuadrados aquí adentro de la tabla la vamos a llamar CELDA (en inglés cell) y se usa una letra para denominarla, la a, b, c y d. Entonces la suma de las columnas es sencilla. Estas tablas pueden utilizarlas en la evaluación de test de diagnóstico, por ejemplo se hace un test para ver si los pacientes tienen SIDA y puede obtener falsos positivos (se hace el test y dice que tiene la condición cuando en la realidad no la tiene) y falsos negativos (el gallo fue a una fiesta anoche y se contagió el SIDA y va en la mañana a hacerse el examen y le sale negativo aunque se acaba de contagiar). Entonces cuando tenemos una condición existe la posibilidad de tener una verdad positiva, una verdad negativa, falsos positivos y falsos positivos. Lo otro que puede haber que la persona no tenga le enfermedad y lo lógico es que el test le diga que no tiene la enfermedad lo que sería una verdad negativa. (Se desprende que la verdad positiva vendría siendo cuando el test le indica que sí tiene la enfermedad y en realidad sí la padece). En odontología se utiliza mucho este tipo de tablas para realizar los test de sensibilidad y especificidad que es basado en estas tablas que se usan en diagnóstico donde le den falsos negativos o falsos positivos o verdaderos negativos o verdaderos positivos. La sensibilidad es la proporción de sujetos con la enfermedad que tiene el test positivo o sea la sensibilidad de un test se obtiene al dividir los verdaderos positivos por la suma de esa columna a + c. (Hay que ver la tabla que describe el profesor) Y la especificidad de un test es la proporción de sujetos sin la enfermedad y que tienen el test negativo o sea la especificidad de un test es dividir la b, los verdaderos negativos por el total de esa columna b / b + d. Por ejemplo si una mamá tiene úlcera en el estómago y se busca si los hijos tienen el germen, en caso de que no lo tengan, el estudio presentará una sensibilidad baja y la especificidad va a ser alta por ejemplo si la mamá no tiene el germen lo mas probable es que los niños tampoco presenten el helicobacter pilori. 5 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Eso de sensibilidad y especificidad se usa mucho en tablas de diagnóstico en la que uno quiera evaluar la capacidad de un test para detectar las personas que pueden presentar la infección, o sea que pueden dar positivo o que pueden dar negativo en un examen determinado y eso se puede dar en cualquier examen que se aplique en medicina u odontología. Eso es para evaluar si tiene la condición o no la tiene. Una variable nominal. En una variable intervalar, en las cuales por ejemplo hemos medido un promedio, tenemos que presentar los datos así, un título, el grupo femenino, el masculino, el n, el promedio la desviación estándar. Y generalmente al pie de la tabla esto se compara con test estadístico que ustedes verán en quinto año. ¿Cómo hacer gráficos de todo esto? Generalmente a las personas les queda todo mucho más claro cuando ven un gráfico y estos gráficos pueden ser la parte medular de la presentación o de un artículo científico. Es una lata cuando uno lee un artículo científico o ve un trabajo y se encuentra con puros números y tablas, es más entretenido verlos representados en gráficos porque uno puede apreciar como se relacionan los datos o cual es la tendencia que existe. El gráfico es la representación en el plano de datos numéricos, con el fin de obtener una impresión visual conjunta que facilita la comprensión del material presentado. El objetivo de la mayoría de los gráficos es presentar distribuciones de frecuencia o asociaciones entre dos o más variables investigadas. Un gráfico es la representación en el plano de datos numéricos y existen muchos software que permiten hacer estos gráficos. De estos hay distintos tipos. Y deben tener algunas características. No se hacen al lote. Tiene que aprender a usar el Excel. Debe ser sencillo y auto explicativo, ojalá con poca cantidad de elementos lo suficiente para entender, cómodo a la vista. Representar fielmente los hechos. No impresionar con colores extremadamente llamativos ni falsear la realidad Ni modificando las escalas Ni utilizar los gráficos tridimensionales. Evitar colores que molestan a la vista por ejemplo con color morado sobre un fondo negro o colores muy chillones. Cuando hace cajas se rellena con color pero no con rayas y si las ocupa prefiera las oblicuas (esto lo saben muy bien las mujeres porque si es chica y se pone un traje de rayas generalmente se ve más chica o una gorda que usa traje de rayas horizontales se ve más gorda y más baja). Tiene que hacerlo agradable a la vista. 6 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Se recomienda que tenga una proporción de 1 es a 1,5 entre la longitud de los ejes (sección áurea). En las barras, las categorías de una misma variable deben ir del mismo color, no hay que abusar con los colores y la cantidad de categorías. Debe ser limpio. Generalmente sea cual sea la especialidad que siga no tiene para que poner una abuelita con una sonrisa a menos que ese grafico lo vaya a llevar a un jardín infantil (al Jardín infantil Pipiripao, allá lleven esos gráficos para entusiasmar a los niños) pero si lo va a presentar en una tesis o congreso no se usa que ponga muelitas con rositas, es absurdo. El gráfico debe ser limpio, de trazos netos, los títulos con letra clara y leyendas ubicadas en lugares adecuados. En resumen sería deseable que un grafico tuviera o permitiese según Gnanadesikan, hindú: Que tenga capacidad descriptiva. Que tenga una capacidad de versatilidad. Que permita ver la orientación de los datos. Que sirva para posibles comparaciones internas. Que permita focalizar la atención. Que permita autocrítica de posibles presunciones. Que permita la adaptabilidad para grandes volúmenes de datos. Eso es fundamental. Como hacer un gráfico. Primero debe ordenar los datos y dependiendo de como vaya a ser el gráfico es como tendrá que ordenar los datos. Defina los objetivos Elija el tipo de gráfico Y lo construye. BARRAS SIMPLES Presentan la distribución de frecuencias de variables nominales, ordinales e intervalares discretas. Cada categoría se representa por una barra: su largo indica frecuencia, promedio(en la intervalar), porcentaje de casos u otro. Cada barra lleva un título; si es largo (barras transversales), y si es corto (barras verticales). El orden de las barras está dado por su longitud o por la secuencia más lógica de las categorías (alfabético, por regiones de Chile, etc.) Evitar colocar títulos, números o claves, sobre o dentro de las barras. Rápidamente ve donde hay más y con que frecuencia se da con respecto a las otras. 7 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 BARRAS AGRUPADAS Muestran la relación de dos o más variables nominales, ordinales e intervalares discretas. Se dibujan grupos de barras que son subdivisiones de una clasificación más general. Las barras de cada grupo deben tener rayados diferentes para cada subdivisión, con una leyenda. Se clasifica primero por la variable con más categorías, a menos que se pierda claridad en la demostración de los hechos o no se cumpla con el objetivo real del gráfico. BARRAS SUBDIVIDIDAS Una barra que la subdivide para indicar la importancia que tiene una categoría en cuento a su porcentaje. Ilustran la composición proporcional de distintas categorías. El largo representa el 100% Se indica cuando en algunas categorías el 100 ó 0% de las unidades pertenece a uno de los subgrupos. (En un gráfico de barras agrupadas, se presenta el problema de no tener frecuencia para una de las barras). Cuando se tienen más de tres subdivisiones por barra se dificulta la comparación. SECTORIALES El gráfico pie o de torta. Se utilizan para los mismos casos que los gráficos de barras, fundamentalmente para variables nominales u ordinales. Cada frecuencia o proporción debe ser expresada como porcentaje del total del gráfico o porción de la torta (360º), determinando el ángulo que limita el sector que representa la categoría correspondiente, el ángulo relacionado con el tamaño de ese grupo. Cada sector debe ser identificado. Colocar el número de observaciones y la frecuencia en porcentaje, adyacente a cada categoría. Ordenado de mayor a menor para facilitar su entendimiento partiendo idealmente desde las 3.15 siguiendo o en contra de las agujas del reloj. (En Excel este ordenamiento no se puede hacer.) HISTOGRAMAS Presentan la distribución de frecuencias de variables intervalares continuas. Tenemos un rango de valores que se van a representar por una serie de rectángulos. Consisten en una serie de rectángulos o barras adyacentes, cuyas superficies representan la frecuencia de cada categoría. Cuando los intervalos son iguales, las barras tienen el mismo ancho y su altura corresponde a la frecuencia observada en el intervalo. 8 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Este gráfico le permitirá la obtención de una campana de Gausse para saber si hay una distribución normal de los valores o no. Puede que se de un sesgo, o sea que los datos se acumulen en un solo lado del gráfico. Cuando los intervalos son desiguales, las barras tienen diferente ancho. Se ajusta al ancho de los intervalos, Histograma Ajustado. LINEAL Le permiten ver la relación entre variables intervalares continuas. Tenemos un eje X y un eje Y. En el eje X tenemos la variable independiente y en el eje Y la variable dependiente. Y ambos generalmente debieran partir de 0. (Por ejemplo si va a medir la presión no necesita partir de 0, hay software que tienen esta opción.) Tiene que tener pares de observaciones o sea debe tener un valor para el eje X y un valor para el eje Y. El computador se va a encargar de hacerle la línea, si no tiene computador y lo va a hacer a mano tiene que encontrar la ecuación que define la relación entre ambas variables. PLOTS DE DISPERSIÓN Gráficos de dispersión y correlación, no se representa sólo una línea sino que se presentan una serie de valores. Tenemos variable dependiente e independiente. Pares de observaciones, un valor para el eje X y un valor para el eje Y. Los ejes deben tener la misma longitud y cada eje debe estar identificado. Los puntos generalmente no se unen, tenemos como una nube de valores pero en el computador podemos obtener como se relacionan esos valores. Cada punto es un individuo y al sumarlos obtenemos una nube. DE CAJAS O DE BOX PLOTS Fue inventado en la década del 70’ pero cada vez es más utilizado porque es muy informativo. Se basa en una caja que tiene una línea al medio de ella que representa la mediana y que sirve para variables intervalares. O sea aquellas variables donde uno ha podido sacar promedio y desviación estándar. Las líneas perpendiculares que van a ver en relación a la caja significa dispersión de los valores pero para un cierto rango y los valores que están muy alejados de la distribución normal los marca con un asterisco (*) y los muy alejados los va a marcar con un cero (0). Rápidamente con un grafico sencillo que consiste en una caja y dos bigotes ve la distribución de las observaciones. Bigotes son los palitos al medio de la caja, las patitas, en inglés es whisker. 9 Epidemiología Tablas y Gráficos en Investigación Pablo César Riquelme M. 2004 Si no aparece un círculo o un asterisco quiere decir que tiene una distribución normal. Es un gráfico sencillo, limpio, auto explicativo y permite darse cuenta rápidamente como se distribuye una variable intervalar. Rápidamente ve la mediana, donde está el 50% de los valores que es el largo de la caja (determinado por sus bisagras), el 25% de los valores superiores y el 25% de los valores inferiores con los bigotes. Muchas veces se ponen varias cajas en un mismo gráfico es para comparar como es la distribución entre grupos. Si las cajas están a muy diferentes alturas probablemente cuando se hagan los test estadísticos va a encontrar diferencias significativas entre los grupos. Si hay varios individuos que aparecen con un 0 es probable que la distribución no sea normal Y si la mediana no aparece en la mitad de la caja quiere decir que tampoco hay distribución normal en esos valores. ¿Cómo elegir un gráfico? Depende de la variable. Si es nominal u ordinal puede hacer un gráfico de barras o un sectorial. Si es intervalar puede hacer un gráfico de box plots o histograma Si quiere ver las relaciones. Entre variables intervalares puede utilizar los plots de dispersión o el grafico de líneas. Entre variables nominales u ordinales puede utilizar gráficos de barras pareadas o agrupadas Relación de una parte de la información respecto al total: gráficos sectoriales o barras subdivididas. Variación conjunta de dos variables continuas: plots o gráficos lineales. Elección de un gráfico, según el propósito y el tipo de datos: ESCALAS OBJETIVO A REPRESENTAR DISTRIBUCIÓN ASOCIACIÓN Nominal Ordinal Discreta Barras simples Barras agrupadas Continua Histogramas Polígonos de frecuencia Cajas Lineal Correlación - It’s the End of the class as we know it. - 10