Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Introducción Iniciamos esta clase con algunos conceptos básicos y elementales para una comprensión real e intuitiva de lo que es la Estadística Aplicada. Sobre todo su aplicación a los problemas de la Enfermería. Pretendemos introducirlo en los primeros pasos sobre el uso, manejo y obtención de datos: distinguir y clasificar las características en estudio, organizar la información disponible, interpretar artículos de revistas de la especialidad, tabular las medidas obtenidas, mediante la construcción de tablas, y utilizar métodos para elaborar una imagen que sea capaz de mostrar gráficamente resultados. Vamos a empezar la clase leyendo el artículo: “Estudio comparativo de dos protocolos de control de glucemia en el postoperatorio de cirugía cardiaca”, extraído de la revista Enfermería en Cardiología Nº 37 / 1er cuatrimestre 2006, disponible en http://www.enfermeriaencardiologia.com/revista/. El objetivo de esta lectura es que puedan observar, desde un artículo de investigación en enfermería, la aplicación que tiene la Estadística en esta actividad. Como pueden ver en el artículo, es habitual el uso de gráficos o imágenes para representar la información obtenida. No obstante, debemos ser prudentes al confeccionar o interpretar gráficos, puesto que la misma información se puede presentar de formas diversas, y no todas ellas son pertinentes. Nuestro objetivo consiste en orientarlos en este tema y darles a conocer criterios mínimos para construir y presentar adecuadamente las tablas y gráficos. Podríamos, desde un punto de vista amplio, definir Estadística como “la Ciencia que se ocupa de la recolección de los datos referidos a un fenómeno o hecho en particular, su ordenamiento, presentación y resumen para su análisis e interpretación y dar una guía de acciones para la toma de decisiones en situaciones prácticas, que entrañan incertidumbre”. La Estadística entonces, analiza series de datos, por ejemplo: edad de los individuos de una población, altura y pesos de los niños prematuros, temperatura en los meses de verano, gastos en personal en un hospital público, porcentaje de disminución de una cicatriz cuando se utiliza un apósito especial, estadios de una enfermedad y trata de extraer conclusiones sobre el comportamiento de las características observadas. Establecemos a continuación algunas definiciones de conceptos básicos y fundamentales a los cuales haremos referencia continuamente a lo largo del texto y del curso. Individuo: (unidad experimental o unidad de análisis): persona u objeto que contiene cierta información que se desea estudiar. Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes, por ejemplo: • Todos los asociados al Colegio de Enfermeros. • Todos los niños con Necesidades Básicas Insatisfechas (NBI) que residen en la ciudad de Santa Fe. • Todos los Centros de Salud de Argentina. • Las embarazadas diabéticas que acuden a la Maternidad de los Centro de Salud en el Norte del país. Muestra: subconjunto seleccionado de una población y representativo de la misma, por ejemplo: • Cincuenta socios del Colegio de Enfermeros. • Los niños con NBI que acuden a una consulta médica en el hospital de niños durante el mes de junio. • Los centros de salud de la ciudad de Paraná. • Las embarazadas diabéticas que acuden a la Maternidad de los Centros de Salud en el Norte del país, durante el año 2007. Estos tres conceptos se pueden representar gráficamente, como se muestra en el esquema que presentamos a continuación: Muestra Unidad de análisis Población Notas de clase - 2011 1 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Lo que estudiamos en cada individuo de la muestra son las variables (peso, altura, temperatura corporal, niveles de ansiedad preoperatorio, número de pacientes que son atendidos en determinado centro hospitalario, cantidad de accidentados atendidos en la guardia de un hospital). Las variables pueden ser clasificadas en dos grandes grupos: Variables cualitativas o atributos: son aquellas cuya respuesta no se puede expresar numéricamente, representan características de las unidades experimentales como por ejemplo: nacionalidad, grupo sanguíneo, género, estadio de una enfermedad, nivel de dolor en pacientes dializados, nivel de escolaridad, estado civil. Variables cuantitativas: admiten valor numérico, la respuesta se obtuvo por medición o por conteo, como por ejemplo: edad, nivel de colesterol en sangre, temperatura de un paciente internado, gastos por insumos en un centro de salud, pesos de los niños al nacer, cantidad de hijos, cantidad de camas ocupadas en una sala de la Unidad de Cuidados Intensivos (UCI), tiempo que permanece internado. Las variables cualitativas pueden ser: Nominales: se las denomina así porque los valores posibles que pueden tomar se refieren a una cualidad o característica de la unidad de análisis. Ejemplos de ellas serían: grupo sanguíneo, enfermo (Sí/No), nacionalidad, color de ojos, género (masculino/femenino). Ordinales: se las denomina así porque los valores posibles que pueden tomar se refieren a una cualidad o característica de la unidad de análisis que se encuentran jerarquizados y ordenados. Ejemplos de ellas serían: etapas de una enfermedad, nivel de escolaridad (primario/secundario/terciario/universitario), nivel de dolor (leve/moderado/alto). Por otra parte, las variables cuantitativas se clasifican en: Discretas: porque sólo pueden tomar valores numéricos enteros (1, 2, 8,….), en general provienen de “conteos”. Por ejemplo: número de hermanos (0, 1, 2, 3....), cantidad de hijos (0, 1, 2,….), número de camas ocupadas en la sala de UCI (0, 1, 2, …..), Número de hematíes por ml de sangre. Este tipo de variable nunca podrá tomar valores como 3,481. Continuas: porque pueden tomar cualquier valor numérico, en general provienen de “mediciones”. Por ejemplo: nivel de colesterol en sangre, temperatura, peso de un niño al nacer, altura, tiempo que permanece internado un paciente, edad de una persona. En síntesis: Para comprender mejor lo que hasta ahora hemos desarrollado, les proponemos leer e interpretar los siguientes casos de estudio. Problema 1 Un artículo del New York Times (1997) reportó que el riesgo de sufrir un ataque cardíaco podría ser reducido tomando aspirina. Esta conclusión se basó en un experimento diseñado que incluía dos grupos de individuos: uno, denominado grupo control, al que se le suministró placebo y otro, grupo tratado, al que se le administró aspirina. Los sujetos fueron asignados al azar a los grupos para protegerlos contra cualquier prejuicio, de modo que se pudieran utilizar métodos basados en la probabilidad para analizar los datos. De los 11034 individuos en el grupo control, 189 subsecuentemente sufrieron ataques cardíacos, mientras que sólo 104 de los 11037 en el grupo tratado sufrieron ataque cardíaco. Notas de clase - 2011 2 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Para el análisis de esta información resolvamos las siguientes consignas: 1) ¿Cuál es la variable observada? Clasificarla. 2) Construya una tabla de doble entrada donde se identifiquen las categorías de la variable desagregada por grupo (Control – Tratado) y complétela con las cantidades que se informan en el artículo que estamos analizando. 3) Construya nuevamente la tabla, pero ahora reemplace las cantidades que puso en la tabla anterior por porcentajes respecto del total de personas que participaron del estudio. 4) Calcule el porcentaje de individuos que sufrieron ataques cardíacos en cada uno de los grupos. Comente lo que observa. 5) ¿Puede, a partir del análisis realizado, extraer alguna conclusión?, ¿cuál? Problema 2 En el artículo que leímos al inicio de la clase, en material y método se hace mención al número de muestras con que trabajaron como también las variables que midieron u observaron. Identifíquelas, clasifíquelas y de, cuando corresponda, la unidad de medida usada. Cuando estamos investigando un tema o realizando un trabajo es frecuente que recolectemos datos. Para que podamos extraer algún tipo de información de ellos es necesario que los ordenemos. Por este motivo, analicemos el siguiente planteo: Problema 3 Los enfermeros de un centro de salud del sur de la provincia de Santa Fe estaban interesados en identificar cuál es el problema de salud por el que consultan con mayor frecuencia los trabajadores agropecuarios que se asisten al mismo. Decidieron hacer un registro de los motivos de consulta por un período de 3 meses y obtuvieron los datos que se presentan a continuación. Para que todos relevaran la información de la misma manera decidieron etiquetarlos así: J: hinchazón de las articulaciones, F: fatiga, B: dolor de espalda, M: debilidad muscular, C: tos, N: irritación de nariz, O: otro. O O M B J 1) 2) 3) 4) O M N F B N O N F C J F C C M C F F J B F O B J B B O M O C B N N N J F N O C F O J N M B J F C B O O B M B N Identifique el tamaño de la muestra (cantidad total de datos recolectados). Identifique la variable observada, clasifiquela. Resuma la información en una tabla y exprese los resultados en forma absoluta y en porcentaje. Realice una breve descripción de la información resumida en la tabla. Problema 4 En un centro de salud, en el Servicio de Diálisis, se registró el Nivel de dolor clasificado en: leve, moderado, fuerte y otras variables como Edad del paciente, Peso, Sexo, Presión arterial al comienzo del tratamiento y Tiempo de diálisis. Se ordenaron los datos de los 50 pacientes obteniéndose la siguiente tabla: Id Nivel del dolor Peso (Kg) Género Presión arterial (PAS) Tiempo de diálisis (hs) Edad (años) 1 Leve 68 F 120 3,2 44 2 Moderado 78 M 110 4 50 . Fuerte . . . . . . . . . . . . Analicemos y clasifiquemos los diferentes tipos de variables. Nivel del dolor: variable cualitativa ordinal. Categorías: Fuerte, …………………….. Notas de clase - 2011 3 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Sexo: variable cualitativa nominal. Categorías: Femenino, ……………………………. Edad, presión, tiempo de diálisis: variables cuantitativas continuas. Con la información recabada de las distintas variables construiremos tablas y calcularemos medidas resúmenes que nos permitirán describir al conjunto de pacientes de diferentes maneras, identificar casos “raros” o “atípicos” (si los hubiera), conocer, por ejemplo, cuál es el nivel de dolor más frecuente en este grupo de pacientes, el tiempo medio en que se dializaron, la edad mínima y máxima de este grupo y comparar el nivel de dolor según el género. A continuación presentamos los datos correspondientes para el nivel del dolor para los 50 pacientes. Id Nivel del dolor 1 L 2 L 3 M 4 M 5 M 6 F 7 F 8 F 9 L 10 M Id 11 12 13 14 15 16 17 18 19 20 Nivel del dolor M M F F L M L F M M Id 21 22 23 24 25 26 27 28 29 30 Nivel del dolor L M F M L F M L M M Id 31 32 33 34 35 36 37 38 39 40 Nivel del Dolor M L F M M F F M M L Id 41 42 43 44 45 46 47 48 49 50 Nivel del dolor M L M F F F L M F F Con el objetivo de hacer más legible la información anterior, presentamos lo que se denomina: Tabla de distribución de frecuencia. Con ella, la información se muestra en función de la cantidad de pacientes (frecuencia) que hay en cada grado de dolor. Nivel de dolor Frecuencia Frecuencia relativa Frecuencia relativa Porcentual Leve (L) 12 12/50=0,24 Moderado (M) 44 % Fuerte (F) 0,32 Total 50 1 100% Interpretemos la fila sombreada de la tabla: • Moderado: hace referencia a una de las categorías de la variable estudiada. • …….: es la cantidad de pacientes (frecuencia) que pertenecen a la categoría moderado del nivel de dolor • …../50: (frecuencia relativa) indica que de los 50 pacientes, 22 de ellos pertenecen a la categoría moderado. • ……/50 x 100%= 44%: (frecuencia relativa porcentual) es el porcentaje de pacientes que pertenecen a la categoría moderado. Podemos acompañar esta tabla con diferentes tipos de gráficos: Barras Nivel del dolor (n=50) 50% 44% 40% 32% 30% 24% 20% 10% 0% Leve Notas de clase - 2011 Moderado Fuerte 4 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Sectores Nivel del dolor (n=50) 24% 32% Leve Moderado Fuerte 44% Observación: el gráfico de sectores para este tipo de variables no se presenta como el más adecuado ya que se pierde el orden de las categorías. Variables cuantitativas Problema 5 Con el objetivo de probar si un polvo con alto contenido de colágeno, elaborado a base de cartílago de tráquea bovina mejora la cicatrización de hidrosadenitis supurativa en pacientes que no responden a tratamientos convencionales, se diseñó un experimento que consistió en tratar a 10 pacientes voluntarios que presentaban la lesión en la región inguinal con una evolución promedio de 2 años que, por el tamaño, tiempo de la lesión y no respuesta al tratamiento convencional (antibióticos y antinflamatorios por vía sistémica) estaban en espera de extirpación quirúrgica. Este medicamento está indicado para el tratamiento de este tipo de lesiones porque estimula la formación de tejido de granulación y además tiene alta capacidad de absorber los exudados de lesiones que cicatrizan por segunda intención. En la tabla presentamos las superficies de las lesiones al inicio y a los 25 días de tratamiento. Este último consistió en curas diarias con el polvo de colágeno. Paciente 1 2 3 4 5 6 7 8 9 10 Superficie inicial (cm2) 22.8 22.7 25.6 21.2 25.9 23.9 22.9 19.5 26.2 25.2 Superficie a 25 días (cm2) 15.3 19.3 17.5 21.2 20.3 14.3 18.3 16.7 22.1 17.3 ¿Qué hacemos con esta información?, ¿cómo la organizamos, de manera tal que podamos responder a la pregunta que dio origen al experimento? Notas de clase - 2011 5 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL En primer lugar, analicemos la variable con la que estamos trabajando: “Superficie de una lesión”. Es del tipo cuantitativa continua, además, se la midió en dos momentos diferentes a un mismo paciente: al inicio de la experiencia y a los 25 días. ¿Cómo haríamos para “ver” si este medicamento da resultado? Para ello tenemos que definir qué manifestación en la lesión nos estaría dando una indicación de la actividad del polvo cicatrizante que se está usando en los pacientes. Una posible forma sería: “si la superficie de las lesiones se reducen”, podríamos pensar en una respuesta positiva al tratamiento. ¿Cómo hacemos para calcular esa disminución y que ese resultado no esté influenciado por el tamaño inicial? Podríamos calcular la diferencia de superficie de las lesiones, y expresar este resultado como un porcentaje de la superficie inicial, es decir, calcular, para cada paciente: Diferencia (cm2) = Superficie inicial – Superficie a los 25 días Diferencia (cm2) 22.8 - 15.3 = 7.5 3.4 8.1 0.0 9.6 Luego calcular el porcentaje que esta diferencia representa respecto a la superficie inicial de la lesión de la siguiente forma Porcentaje de la diferencia respecto de la lesión inicial = Diferencia 100% Superficie inicial Como suponemos que el tratamiento es efectivo, esperamos que todas las diferencias nos den ……………………., es decir, que la lesión a los 25 días sea más pequeña que la inicial, podemos llamar a esta variable que construimos “porcentaje de reducción”. Reducción de la lesión (%) 7.5 100 = 32.9 22.8 Notas de clase - 2011 6 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Como son solo 10 datos, un gráfico que podemos hacer con ellos es un diagrama de puntos. ¿Cómo se construye este gráfico? Sobre una línea en la que se marca una escala de medición adecuada para los datos, se dibujan, como puntos, los valores de la variable que se quiere representar. El gráfico resultante es: 0 5 10 15 20 25 30 35 40 45 -0.1 Porcentaje de reducción ¿Qué podemos observar en este gráfico? Vemos rápidamente que la mayoría de los pacientes tuvo una reducción del tamaño de la lesión entre el 15 y el 40% aproximadamente y que sólo un paciente no manifestó cambios, pero tampoco empeoró, porque su lesión no aumentó. Podríamos decir que el 80% (8 de 10) de los pacientes tratados tuvo una reducción de la lesión del 15% o más al cabo de 25 días de tratamiento. Observación: En el caso que hubiese valores repetidos se marcan uno arriba del otro, como por ejemplo: 15 30 22 22 40 22 14 16 30 33 El diagrama de puntos sería: 10 15 20 25 30 35 40 45 Ejercicio N° 1 El equipo de enfermeros que trabaja en un Centro atención primaria de la Salud de la ciudad de Santa Fe, participa de un plan de promoción de la salud de niños de 0 a 3 años con bajo peso, en el marco de un proyecto de Corporación para la Nutrición Infantil (CONIN). Este programa utiliza para el diagnóstico de desnutrición tres indicadores: peso para la edad, talla para la edad y peso para la talla. Para ello, los enfermeros participantes deben medir peso y talla de los niños que concurren al Centro de Salud y que participan del programa y calcular, entre otros índices el “% de desnutrición según el peso esperado para la talla = peso real 100% ”. peso esperado La clasificación del grado de desnutrición la tienen que realizar según las siguientes pautas: Estado Normal Desnutrición leve Desnutrición moderada Desnutrición severa Déficit de peso esperado según la talla 90 – 100% 80 – 90% 70 – 80% < 70% Notas de clase - 2011 7 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Los datos obtenidos en los primeros 15 niños se muestran en la siguiente tabla: Edad (meses) 5 8 8 12 15 4 35 24 24 13 7 6 22 20 33 Sexo Femenino Masculino Masculino Masculino Masculino Femenino Masculino Femenino Masculino Masculino Femenino Femenino Femenino Masculino Masculino Peso (kg) 6 7.2 7.8 7.5 9.2 3.8 8.8 9.5 9.5 8.5 5.5 5.5 9.5 9.7 9.6 Talla (cm) 66 69 70 71 73 55 90 80 82 76 65 63 81 82 95 Peso para la % de talla (kg) desnutrición 6.97 8.27 8.27 8.82 9.33 4.29 12.75 10.80 11.05 9.81 6.97 6.39 10.80 11.05 13.85 Condición a) Complete la tabla con los % de desnutrición según la talla correspondientes. b) Clasifique a los niños según su grado de desnutrición c) Haga un diagrama de puntos comparativo, según el sexo de los niños, de los porcentajes de desnutrición según la talla. d) Haga un gráfico comparativo de los porcentajes de desnutrición agrupando por sexo. e) En este conjunto de datos, ¿son los varones más propensos a padecer desnutrición leve que las mujeres? Histograma El histograma es el más conocido de los gráficos para resumir un conjunto de datos numéricos y con él se pretende “ver” la forma de la distribución del conjunto de datos. Es similar a una gráfica de barras, pero se usa para representar información cuantitativa. Problema 6 Los datos que se presentan a continuación son las edades (en años) de 70 hombres, diabéticos, que concurren a controles periódicos en un Centro especializado en Diabetes en una gran ciudad. 66 67 64 57 67 75 65 74 63 71 67 67 59 69 75 74 55 59 69 56 74 69 73 60 74 54 65 59 65 69 60 62 65 66 65 63 68 76 77 62 58 73 60 75 75 71 73 60 81 62 71 63 73 64 63 65 64 70 65 80 71 80 71 73 67 60 52 53 83 61 Ingresados los datos en un programa computacional estadístico se puede obtener una “tabla de distribución de frecuencias”, que resumirá y organizará al conjunto de datos de manera tal de hacer más legible la información. En esta tabla, los datos numéricos se encuentran divididos en categorías de valores llamadas intervalos de clase. También constan en ella cuántas observaciones pertenecen a cada uno de los distintos intervalos, esto se conoce como frecuencias absolutas (fa). También se puede informar las frecuencias Notas de clase - 2011 8 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL relativas (fr) que se obtienen de dividir las fa de cada clase por el total de datos observados (n) y las frecuencias relativas porcentual que es la anterior multiplicada por 100. Nota: Los programas estadísticos, por defecto, ya determinan el número de intervalos que conviene hacer en cada caso, en función de la cantidad de datos observados. Una regla práctica para quien quiera confeccionar esta tabla por motus propio es calcular el número de intervalos de clases, haciendo la n . Las clases o intervalos de clase es conveniente que sean de igual longitud y que se definan de manera tal que no haya dudas respecto a que si un valor observado pertenece a una u otra y además cubrir todos los datos. Esto último, en términos de Estadística, sería: “Las clases o intervalos de clase en una tabla de distribución de frecuencias deben ser mutuamente excluyentes (cada dato cae en una y sólo una clase) y exhaustiva, es decir, todos los datos deben pertenecer a una clase”. Ver anexo de construcción de “Tablas de distribución de frecuencia”. La tabla correspondiente al problema 6 es la que mostramos a continuación: Clase Límites de la clase Frecuencia absoluta 1 50 a ≤ 55 //// 4 2 3 4 5 6 7 55 a ≤ 60 60 a ≤ 65 65 a ≤ 70 70 a ≤ 75 75 a ≤ 80 80 a ≤ 85 ///// ///// / ///// ///// ///// // ///// ///// /// ///// ///// ///// /// ///// // 11 17 13 18 5 2 Cuenta Frecuencia relativa 4 = 0.06 70 0.16 0.24 0.19 0.26 0.07 0.03 Frecuencia Relativa (%) 6 16 24 19 26 7 3 Ahora tracemos el histograma, sobre una línea horizontal, a escala, ubiquemos los límites de las clases y en cada una de ellas, dibujemos un rectángulo (barra), con altura igual a la frecuencia. El histograma de frecuencias absolutas para los 70 datos de edades de pacientes diabéticos es: 20 18 17 18 16 13 Frecuencia 14 11 12 10 8 6 5 4 4 2 2 0 50-55 55-60 60-65 65-70 70-75 75-80 80-85 Edad (años) Si quisiéramos construir un histograma de frecuencias relativas, lo único que cambia es que la altura del rectángulo correspondiente a cada clase es de una longitud igual a la frecuencia relativa. El histograma correspondiente queda: Notas de clase - 2011 9 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL 0.30 Frecuencia Relativa 0.26 0.24 0.25 0.19 0.20 0.16 0.15 0.10 0.07 0.06 0.05 0.03 0.00 50-55 55-60 60-65 65-70 70-75 75-80 80-85 Edad (años) Ejercicio Nº 2 En el artículo que estamos analizando, los autores presentan dos histogramas. Observe detenidamente el histograma referido a “Control Standard” y complete: La variable que se está estudiando es………………………………………………………………………………………. Y de acuerdo a su clasificación se la llama…………………………………………………………………………………. En el eje horizontal se lee…………………………………………………………………………………………………….. y en el eje vertical se lee………………………………………………………………………………………………………. El número de intervalos es……………………………………………………………………………………………………. Aproximadamente, …………………….. individuos tienen el menor nivel de glucemia. Aproximadamente, ………………… ….individuos tienen el mayor nivel de glucemia. Aproximadamente 15 individuos tienen su nivel de glucemia entre …………………………………………………….. Polígono de frecuencias Para poder dibujar el polígono de frecuencias (absolutas o relativas) necesitamos introducir un nuevo concepto, el de “marca de clase”. Se llama así al punto medio del intervalo de clase. A cada uno de estos puntos se les asigna la frecuencia de todo el intervalo. Para hacer este gráfico, se agregan dos intervalos de clase a los que ya tenemos, uno al principio y otro al final, en este caso agregaríamos el intervalo 45 a 50 y 85 a 90. Como ambos no se observaron, le corresponde a cada uno de ellos frecuencia cero. En el problema que estamos analizando, nos quedaría: Clase Límites de la clase Marca de clase 1 2 3 4 5 6 7 45 a ≤ 50 50 a ≤ 55 55 a ≤ 60 60 a ≤ 65 65 a ≤ 70 70 a ≤ 75 75 a ≤ 80 80 a ≤ 85 85 a ≤ 90 47.5 52.5 57.2 62.5 67.5 72.5 77.5 82.5 87.5 Notas de clase - 2011 Frecuencia absoluta 0 4 11 17 13 18 5 2 0 10 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL El polígono de frecuencias queda así: 20 18 17 18 16 13 Frecuencia 14 11 12 10 8 6 5 4 4 2 2 0 0 0 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90 Edad (años) Si lo construimos solo, es decir, sin el histograma, nos hubiese quedado: 20 18 17 18 16 Frecuencia 14 11 12 13 10 8 5 6 4 4 2 2 0 0 0 45 50 55 60 65 70 75 80 85 90 Edad (años) Ejercicio 3 Los siguientes datos corresponden a la Presión Arterial Sistólica (PAS), en mm de Hg); Edad, en años y Peso, en kg, de 40 individuos que participaron de un estudio. Nro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 PAS (mm Hg) 118 140 130 125 137 114 105 139 154 128 111 119 160 131 127 119 130 142 149 126 Notas de clase - 2011 Edad (años) 35 37 25 20 40 28 23 39 38 30 20 23 45 48 37 31 33 38 38 43 Peso (Kg) 89 76 77 71 89 80 75 85 86 81 75 73 90 91 90 83 82 84 90 81 Nro 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 PAS (mm Hg) 112 133 148 147 154 99 127 145 115 120 106 104 116 119 100 122 124 132 125 125 Edad (años) 24 38 37 26 39 28 42 39 22 31 19 23 27 40 43 42 45 29 35 41 Peso (Kg) 97 98 86 76 72 76 94 84 61 73 55 83 48 78 77 70 63 78 65 68 11 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL a) Identifique la variable PAS, clasifíquela y de su unidad de medida. b) Construya una tabla de distribución de frecuencias para PAS (con 7 clases, que inicie en 95, con intervalos de longitud 10). c) Construya el histograma y polígono de frecuencias. d) ¿Qué intervalo de clase es el que tiene mayor frecuencia? e) ¿Qué porcentaje de las observaciones es menor a 115 mm Hg? f) ¿Cuántos pacientes tienen una PAS mayor a 135 mm Hg? g) La distribución de los datos, ¿es simétrica? Ejercicio 4 Construya Histograma y Polígono de frecuencias relativas para las variables Peso y Edad. Describa lo que observa en ellos. Descripción de datos divariados – Variables cuantitativas I) Variables cualitativas Problema 7 En el problema 4, habíamos relevado, entre otras variables Nivel de dolor y Género de pacientes que concurrían a un servicio de diálisis. En la tabla presentamos estos datos para 50 de ellos. Id 1 2 3 4 5 6 7 8 9 10 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Género F F F M M M M F F M M M M F F F F F F M M F M F M Nivel del dolor L L M M M F F F L M L M F M L F M L M M M L F M M Id 11 12 13 14 15 16 17 18 19 20 36 37 41 42 43 44 45 46 47 38 39 40 48 49 50 Género M F F M F F F F F F M F F F M M M F M M F M F M F Nivel del dolor M M F F L M L F M M F F M L M F F F L M M L M F F Si organizamos la información en lo que se denomina: Tabla de Contingencia, podremos hacer una lectura más rápida de la misma. Notas de clase - 2011 12 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Nivel de dolor Leve Moderado Fuerte Total Género Femenino Masculino 3 12 7 28 22 Total 22 16 50 Ejercicio N° 5 Teniendo en cuenta la tabla anterior, calculemos y respondamos: 1) ¿Qué porcentaje de personas pertenece a género masculino? 2) ¿Qué cantidad de personas está en la categoría nivel del dolor fuerte? 3) 3/12 x 100% representa, en términos del problema,…………………………………. 4) 7/28 x 100% representa, en términos del problema,…………………………………. 5) ¿Qué porcentaje de mujeres pertenece a la categoría nivel del dolor fuerte? 6) Con respecto al total de mujeres, ¿Qué porcentaje pertenece a la categoría nivel de dolor moderado? 7) 10/50 representa la proporción de …………………………………………………….. 8) Con respecto a las personas con nivel del dolor fuerte, ¿qué porcentaje de ellas es varón? 9) ¿Qué proporción de varones pertenece a la categoría nivel del dolor moderado? 10) Se quiere comparar el porcentaje de varones y mujeres para cada nivel de dolor. Para ello se construye un gráfico de barras comparativo, esto permitirá visualizar si en el nivel de dolor fuerte es mayor el porcentaje de varones que de mujeres. Un gráfico de barras comparativo para la Tabla de Contingencia es: Observaciones: 1) Cuando los grupos a comparar tienen diferente tamaño, lo correcto es realizar un gráfico de barras comparativas porcentuales. 2) Cada vez que usted lea un gráfico con una escala porcentual, preste atención qué grupo de barras suman 100%. II) Variables cuantitativas Problema 7 Los enfermeros de un centro de salud están interesados en conocer si existe relación entre el peso (kg) –Y- y la altura (m) –X- de personas adultas de sexo masculino. Para ello registraron de cada persona la altura y el peso, como se muestra en la tabla. Notas de clase - 2011 13 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL X Y X Y X Y X Y X Y 1 1.94 95,8 11 1.59 67,3 21 1.55 61,6 31 1.90 91,3 41 1.89 91,0 2 1.82 80,5 12 1.84 88,8 22 1.71 70,6 32 1.65 66,6 42 1.53 62,1 3 1.79 78,2 13 1.92 93,7 23 1.75 79,4 33 1.78 76,8 43 1.59 69,8 4 1.69 77,4 14 1.84 82,9 24 1.76 78,1 34 1.83 80,2 44 1.55 64,6 5 6 1.80 82,6 15 1.88 87,8 16 1.88 88,4 1.62 69,0 25 26 2.00 90,6 1.66 74,9 35 36 1.98 97,6 1.67 76,0 45 1.97 90,0 46 1.51 63,8 7 1.57 67,6 17 1.86 83,4 27 1.96 88,1 37 1.53 58,0 47 1.59 62,6 8 1.81 82,5 18 1.91 89,1 28 1.56 65,3 38 1.96 95,2 48 1.60 67,8 9 10 1.76 82,5 19 1.63 65,8 20 1.99 95,2 1.76 79,1 29 30 1.55 64,5 1.71 75,5 39 40 1.66 74,5 1.62 71,8 49 1.57 63,3 50 1.61 65,2 La representación de este conjunto de datos es: Este tipo de gráfico se llama diagrama de dispersión. ¿Qué nos sugiere?, ¿podemos decir que a medida que aumentan los valores de altura aumenta el peso de estos adultos? ¿Hay algún individuo de bajo peso muy alto? A continuación mostramos diferentes diagramas de dispersión construidos con distintos ejemplos de pares de variables cuantitativas: A) Los puntos se presentan en forma creciente B) Los puntos están perfectamente alineados “a lo largo” de una “línea recta”, “hay una relación sobre una recta de pendiente positiva. lineal positiva” entre las variables. Notas de clase - 2011 14 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL D) En este caso podemos observar “ausencia C) La nube de puntos está muy dispersa sin un de relación lineal”. patrón aparente, en este caso decimos “ausencia de relación”. E) Los puntos se presentan en forma decreciente “a lo largo” de una línea recta, esto sugiere una relación lineal negativa entre las variables. Podemos distinguir entre relaciones Lineales y No Lineales, además entre Lineales y Ausencia de relación. Para “medir” la asociación lineal entre variables cuantitativas se utiliza un estadístico, llamado Coeficiente de Correlación de Pearson (r). El mismo nos permite medir la fuerza de la asociación lineal entre dos variables cuantitativas. Su valor está entre -1 y 1. El valor de r asociado a cada uno de los diagramas de dispersión resultó: A) r = 0,966 B) r = 1 C) r = 0,221 D) r = - 0,690 E) r = -0,966 Gráfico de líneas. Este tipo de gráficos se utiliza cuando registramos una variable a lo largo del tiempo, en intervalos de igual longitud, por ejemplo diariamente, semanalmente o anualmente. Tienen como objetivo observar un patrón o tendencia a lo largo del tiempo. Consiste en representar en el eje horizontal el tiempo y en el eje vertical la frecuencia (absoluta o relativa) observada de la variable de interés. Problema 8 Notas de clase - 2011 15 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Los datos que presentamos a continuación corresponden al número de cáncer de mama por año, diagnosticados por mamografía, en el Hospital J. B. Iturraspe de la Ciudad de Santa Fe, desde 2002 a 20061. 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 6 5 8 24 24 33 29 33 36 40 38 43 48 48 50 Nro de cáncer de mama 60 50 48 40 40 33 30 33 36 48 50 43 38 29 24 24 20 10 6 5 8 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 ¿Qué observamos en el gráfico? Si graficamos más de una serie de datos para los mismos valores de tiempo, permite comparar el comportamiento de las series representadas. Si en el ejemplo presentado, queremos comparar el número de diagnósticos de cáncer de mama realizados en el Hospital Iturraspe con el número de diagnósticos de cáncer de un Hospital público de la ciudad de Tucumán2 de iguales características que el Iturraspe, tendríamos que agregar una nueva serie de datos, como la que presentamos a continuación: 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 8 4 7 15 20 18 23 25 41 55 57 71 65 80 76 El nuevo gráfico, con las dos series, nos queda: Nro de cáncer de mama 90 80 70 60 50 40 30 20 10 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Santa Fe Tucumán ¿Qué observamos en este gráfico? Ejercicio 6 Se está interesado en aumentar el personal destinado a la atención de lesionados por accidentes de tránsito durante los fines de semana en los Servicios de Guardia de 3 hospitales de Santa Fe, para ello se relevó el 1 Datos reales obtenidos del Servicio de Ginecología del Hospital Iturraspe, obtenidos de una investigación realizada por el Dr, S Seiref. 2 Datos simulados. Notas de clase - 2011 16 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL número de accidentados obtenidos son: Semana S1 S2 Hospital 1 53 50 Hospital 2 50 62 Hospital 3 72 64 por esta causa, en las salas de emergencia respectivas durante 4 meses. Los datos S3 54 64 63 S4 51 61 68 S5 50 76 73 S6 65 73 60 S7 69 68 68 S8 65 69 67 S9 70 77 57 S10 S11 S12 S13 S14 S15 S16 65 47 41 45 40 50 45 76 85 78 73 80 87 78 51 61 69 60 54 54 59 a) Construya un gráfico de líneas para cada hospital y analice el comportamiento del número de accidentados atendidos por cada Servicio de Guardia. b) Construya un gráfico de líneas comparativo (las tres series en el mismo gráfico), describa lo que observa en él. c) ¿En qué Servicio de Emergencia considera, en virtud de lo observado en el gráfico comparativo, que sería conveniente aumentar el personal destinado a la atención de accidentados durante los fines de semana? ¿por qué? Notas de clase - 2011 17