ARTÍCULO DE REVISIÓN MÉTODOS BIOESTADÍSTICOS PARA EL DESARROLLO E IMPLEMENTACIÓN DEL RIGOR CIENTÍFICO EN LAS INVESTIGACIONES Dr. Gerardo Ardila Duarte PARTE III: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN Un conjunto de datos puede ser descrito rápidamente con un solo número. Si el investigador en ortodoncia informa que se necesita una fuerza promedio 25 Mega-Pascales para desprender una resina de un bracket, está indicando un punto central que representa varias medidas; pero puede explicar esta fuerza hablando de la variabilidad de las fuerzas que reflejan la tendencia a desviarse de dicho punto central, para lo cual utiliza medias de dispersión. Nota: Las medidas que se toman generalmente están dadas en Newton’s sin embargo los artículos traen estas medidas en Mega Pascales; para hacer la conversión de Newton a Mega Pascal divida los Newton obtenidos, por el área de la superficie en cm2 y en estas condiciones podrá comparar sus resultados con otros obtenidos. Para el desarrollo de ésta parte se estudia: * Profesor asociado Fundación Universitaria UniCIEO Medidas de tendencia central • Media • Mediana • Moda • Media ponderada • Media geométrica Otras medidas (Medidas de posición) • Percentil • Rango • Rango intercuartilico • Diagramas Box-plot Medidas de dispersión • Varianza • Desviación estándar • Error estándar • Regla empírica de la distribución normal • Error de medición de Dalberg • Cartas de control de Calidad Cubos OLAP • Coeficiente de sesgo a o asimetría de Pearson • Coeficiente de variación A. Medidas de tendencia Central DEFINICIÓN: Media Aritmética es la medida de tendencia central normalmente llamada, media, promedio o valor esperado. Media Poblacional: µ Media Muestral: x Nota: Existe el teorema central de límite que dice: entre mayor sea el tamaño de la muestra aleatoria, más cercano se estará a la media de la población. Artículo de Revisión 83 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones DEFINICIÓN: Mediana ( x ): Es la observación que queda en la mitad, de los datos después que han sido ordenados. Ubicación de la mediana, para una cantidad impar de datos: Ubicación de la mediana, para una cantidad par de datos: x de los dos datos que quedan ubicados en el centro. DEFINICIÓN: Moda (mo): Es la observación que más se repite, pueden existir varias modas. Ejemplo: Una Dra. de Rehabilitación Oral desea calcular los espacios en micrómetros entre el margen del muñón protésico y el margen del borde protésico en una prótesis fija de tres unidades con balanceo sin ser seccionada antes y después de ser tratada con laser. Halle y explique : media, mediana y moda de los espacios en micrómetros entre el margen del muñón protésico y el margen del borde protésico en una prótesis fija de tres unidades con balanceo sin ser seccionada antes de usar láser. Lado de la medición 1AE 1AL 1AV 1BE 1BL 1BV 2AE 2AL 2AW 2BE 2BL 2BV 3AE 3AL 3AW 3BE 3BL 3BV 4AE Prelaser Postlaser 176,2 154,12 68 239 208 32,98 144,01 56,04 110,16 140,01 92 134 114 68,03 78 56,56 80 16 32,98 47,99 16 32 56,04 44,05 4 112,29 48,66 64,5 32,98 32 24 11,31 56 64 14 22,09 8 16,17 Lado de la medición Prelaser Postlaser 4AL 4AW 4BE 4BL 4BV 88,36 40 16,12 32 80 18 8 8 6 48 El promedio de mediciones con prelaser: x = (176,2+154,12+…+80)/24= 94,06µ La mediana: x 1. Ordenamos los datos: Prelaser 16 16,12 32 32,98 32,98 40 56,04 56,56 68 68,03 78 80 80 88,36 92 110,16 114 134 140,01 144,01 154,12 176,2 208 239 2 Hay 24 datos, (un número par de datos), la mediana se ubica en el promedio de los datos del centro: Los datos ubicados en el centro son 80 y 80, entonces se calcula el promedio de ambos. x = (80+80)/2=80 µ Artículo de Revisión 84 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones Ejemplo: Un investigación desarrollada en el CIEO, para la determinación de marcadores de reabsorción ósea, calcio en suero y piridinolinas en orina como predictores precoces de cambios en la densidad ósea, mostró los siguientes indicadores de piridinolina (Nm DPD/mM Creatinuria) y calcio (mg/dl) en 20 pacientes mujeres seleccionadas aleatoriamente con edades entre 48 y 67 años). La moda: Hay dos modas: 32.98 y 80µ La Media ponderada: Donde: = Media ponderada = Observación individual = Peso o ponderación de cada observación. Cuando se estima la media, se asume que todas las observaciones tienen la misma importancia. Sin embargo existen casos en los que se debe dar mayor peso a algunas observaciones. Por ejemplo, si el grupo investigador pone un peso a los costos del desarrollo de su trabajo, el valor promedio a asumir por investigador se estima con: Tema Costo Peso Costo x Peso Reuniones con grupo 10.000 x hora 5% 500 Reuniones con investigador principal 15.000 x hora 10% 1,500 Viajes 800.000 30% 240,000 Levantamiento Muestra 2.000.000 40% 800,000 Análisis 15.000 x hora 10% 1,500 Tiempo organización 15.000 x hora 5% 750 Costo Total promedio por investigador 1,044,250 Media Geométrica: MG= Definición: La media geométrica proporciona una medida precisa de un cambio porcentual promedio de una serie de números. La media geométrica se halla tomando la raíz nésima del producto de los n - números indicadores. Con frecuencia se utiliza para calcular la tasa de crecimiento porcentual promedio de algunas series dadas a través del tiempo. Es decir que se espera que el índice de creatinuaria en una paciente mayor de 47 años sea de 8,84. B. Medidas de dispersión Aunque es muy útil ubicar el centro de los datos y explicarlo, una descripción más completa de ellos se da cuando se analiza la dispersión alrededor del punto central y esto es lo que se hace con las medidas de dispersión, indican cuánto se desvían las observaciones alrededor de su media. Definición: Las Medidas de dispersión miden que tanto se dispersan las observaciones alrededor de su media. Ejemplo: En una investigación desarrollada durante 2010 por Ortodoncistas del CIEO se buscó Comparar las medidas Sn-Sd: Sn (Subnasal (Sn): Punto de unión de la Columnella con el labio superior)-Sd Supradental (Sd: Según la escuela biométrica se localiza en la intersección del plano medio con la línea que une los bordes superiores de los incisivos) en la población de hombres y mujeres. Tres de las medidas encontradas en hombres por 3 de los investigadores fueron: Investigador 1: 11.9; 12 y 12.1mm Investigador 2: 10; 12 y 14mm Investigador 3: 12; 12 y 12mm Las tres medidas tienen una media de 12mm, pero podemos afirmar que los conjuntos de datos son similares? No podemos afirmarlo, de hecho solo Artículo de Revisión 85 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones observando las medias sin tener en cuenta las demás observaciones habría similitud, pero observando cada conjunto de datos, los investigadores 1 y 2 presentan dispersión alrededor de la media, especialmente el 2º investigador, mientras el 3º no muestra dispersión. En este sentido, las medidas de dispersión son muy útiles e informativas. Definición: el Rango R o recorrido es la medida de dispersión más simple, se calcula como la diferencia entre la medida máxima y la mínima. Los rangos de las medidas de los tres investigadores en el ejemplo anterior fueron respectivamente: 0.2, 4 y 0 mm respectivamente. Definición: El promedio de las observaciones respecto a su media, elevadas al cuadrado se llama la varianza. Definición: La varianza poblacional σ2 es: σ2=∑(Xi-µ)2/N Donde: Xi, son las observaciones, µ, es la media poblacional, N, es el tamaño de la población. Definición: La desviación estándar poblacional es la raíz de la varianza: σ= √σ2 La desviación estándar se explica como una medida de dispersión que de halla en las mismas unidades que el promedio. Como rara vez es posible acceder a toda la población para calcular la varianza y desviación estándar, se debe recurrir a calcular estas medidas sobre muestras, las definiciones son: Definición: Varianza de la muestra: Definición: La desviación estándar de la muestra es: s=√(s 2 ) La razón de utilizar n-1 grados de libertad, es que la muestra generalmente es menos dispersa que la población, y por tanto al restar una unidad al cociente se hace mayor para intentar explicar la de la población. Definición: El error estandar de la muestra es: σx=s/√n Es una medida de dispersión que se utiliza como mejor ajuste alrededor de la media para explicarla. Ejemplo: Una investigación llevada a cabo por Rehabilitadores Orales para estudiar “la correlación entre las calibraciones óseas: clínica preoperatoria, tomográfica e intraoperatoria, utilizando el tomógrafo de rayo de cono y el software Galileo como ayudas de diagnóstico en los rebordes edéntulos” para la colocación de implantes dentales arrojo los siguientes resultados (mm): La varianza, desviación estándar y el error típico de las medidas obtenidas en la muestra de los 33 pacientes seleccionados aleatoriamente de la clínica del CIEO para estudiar la Medida Crestal preoperatoria fueron: Promedio: x = (6+9+…+3+3)/33 = 5,14mm, La varianza es: = Artículo de Revisión 86 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones La desviación es: s=√(s 2 ) =√ =√4,54 =2,13 Interpretación: Respecto de la longitud promedio de la medida crestal preoperatoria hay una desviación de 2,13mm. La varianza no se debe interpretar porque está en unidades cuadradas. El error típico σx=s/√n =2,13/√33=0.371 Interpretación: Respecto de la longitud promedio de la medida crestal preoperatoria hay un error de 0.371mm. Artículo de Revisión 87 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones c. DISTRIBUCIÓN NORMAL Y REGLA EMPÍRICA Una distribución normal es un arreglo de datos continuos que produce una curva simétrica en forma de campana (Una discusión minuciosa de ésta distribución se presenta en capítulos posteriores). Si los datos presentan una distribución normal, la desviación estándar puede usarse para sacar conclusiones. Es importante observar que la mitad de las observaciones (área bajo la curva) está por encima de la media y la otra mitad por debajo. Para ilustrar como aplicar la desviación estándar se utiliza la regla empírica donde usamos el promedio y la desviación obtenidos así: • 68.3% de las medidas están entre el promedio ± una desviación: 5,14mm±2,13mm Construyendo una tabla dinámica, se obtiene: Medidas en mm Cuenta de Crestal Preoperatoria 1 — 2,5 2 2, 5 — 4 7 4 — 5,5 8 5, 5 — 7 8 7 — 8,5 6 8,5 — 10 2 Total general 33 Graficando la cantidad de medidas en cada clase: • 95.5% de las medidas están entre el promedio ± dos desviaciones: 5,14mm±1.96x2,13mm • 99.7% de las medidas están entre el promedio ± tres desviaciones: 5,14mm±2.57x2,13mm d. GRÁFICAS DE INTERVALO Aprovechando la regla empírica se pueden trazar gráficas de intervalo, que permiten comparar la dispersión de las medidas en estudio, y en capítulos posteriores se utilizaran para hacer comparaciones, y verificar la existencia de diferencia o no significativa por comparaciones múltiples. Ejemplo: Del ejemplo anterior, la comparación por intervalos de confianza del 95% de las medidas, se grafica de la siguiente forma, donde los datos a utilizar para cada una de las variables, son el máximo x+1.96σ⁄√n , el mínimo x–1.96σ⁄√n y la desviación y/o error típico σ⁄√n se muestran en la tabla: Artículo de Revisión 88 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones En Excel: • Selecciona la información en este caso es de las celdas K1:T5. • Clic en Insertar • Gráficos • Cotizaciones y de acá el primero. Definición: La ubicación de un percentil se define por: Lp= (n+1)P/100 Donde: Lp Es el sitio del percentil deseado en una serie ordenada n Es el número de observaciones P Es el percentil deseado Obteniendo: Ejemplo: Los resultados corresponden a una investigación de ortondocistas por establecer estándares de medidas entre dientes (Ver tabla siguiente). La información está ordenada por las medidas inferiores: ∑16-11 Hombres Determinar los P25, P50, P75, el Rango Intercuatilico La base de datos esta compuesta por medidas de 24 individuos. L25 = (24+1)*25/100=6.25 E. OTRAS MEDIDAS DE DISPERSIÓN Otras medidas de dispersión y/o posición son los cuartiles, deciles y percentiles. Un conjunto de datos ordenado tiene 3 cuartiles que lo dividen en 4 partes iguales, el 1er cuartil está representado por todas las observaciones que están por debajo del 25% de las mismas, el segundo es la mediana o 50%, el 3er cuartil por todas las observaciones por debajo del 75% de las mismas y encima del cual se encuentra el 25% restante. Los deciles separan las observaciones en 10 partes iguales y los percentiles en 100 partes. Es decir el 25% de las medidas ∑16-11, para hombres está ubicada entre la 6ª y 7ª posición, (como esta señalado con amarillo en la base de datos que se anexa a continuación), es decir que: P25 = 18.5 + (1-0.25)(18.59-18.475) = 18.56125 mm, o 25% de los pacientes latinos hombres se espera que presenten medidas entre 17.8 mm y 18.56 mm para la distancia entre los dientes inferiores 16 al 11. L50=(24+1)*50/100=12,5 Es decir el 50% de las medidas ∑16-11, para hombres está ubicada entre la 12ª y 13ª posición, (como esta señalado con amarillo en la base de datos que se anexa a continuación), es decir que: P50= 19.1+ 0.5(19.14-19.09)=19.115= 19.115mm, o 50% de los pacientes latinos hombres se espera que presenten medidas entre 17.8mm y 19.115mm para la distancia entre los dientes inferiores 16 al 11. Artículo de Revisión 89 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones L75=(24+1)*75/100=18,75 Es decir el 75% de las medidas ∑16-11, para hombres está ubicada entre la 18ª y 19ª posición, (como esta señalado con amarillo en la base de datos que se anexa a continuación), es decir que: P75= 20.1+ (1-0.75)(20.335-20.125)=20.1775 mm, o 75% de los pacientes latinos hombres se espera que presenten medidas entre 17.8 mm y 20.1775 mm para la distancia entre los dientes inferiores 16 al 11. Rango Intercuartilico = P75 – P25 = 20.2875-6.25 = 22,0375 mm Es decir que un 50%, de la población masculina presenta medidas de ∑ 16-11 entre 6.25 y 20.2875 mm. Desarrollando el ejercicio con Excel, observe el procedimiento: Artículo de Revisión 90 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones DIAGRAMA DE BOX PLOT DIAGRAMAS BOX-PLOT Los diagramas Box-Plot, llamados también de caja y bigotes o Box and Janquins, se utilizan para comparar, medias, medianas, cuartiles y búsqueda de puntos atípicos o outliers. En el caso de marcadores de reabsorción ósea se tiene: 1.Complementos 2.StatPlus 3. Single variable charts 4.Boxplot 5. Values in separte columns 6. Data values 7. Use Range references 8. Señala los datos incluyendo el titulo 9.Output 10. As a new chart sheet 11. Escribe el nombre que identifique la hoja (allí saldrá el gráfico) Si va a usar a R los pasos gráficos son: 1. Análisis: 1. 25% (Q1=1er Cuartil, corresponde al 25% de los datos ordenados)de los pacientes presentan un índice de creatinuaria entre 5 y 7,5 2. 50% (Q2= 2º Cuartil o mediana, corresponde al 50% de los datos ordenados) de los pacientes presentan índices de creatinuaria entre 5 y 8,7 3. En promedio un paciente esta presentando un índice de creatinuaria de 9,16 4. 75% (Q3= 3er cuartil corresponde al 75% de los datos ordenados) de los pacientes están presentando índices de creatinuaria entre 5 y 9,6 5. Existen 4 datos atípicos (pacientes con muy alto índice de creatinuria) que se encuentran en el intervalo de confianza del 99%. 6. Q3-Q1 (Rango intercuartilico); 9,6-7,5=2,1. La diferencia en creatinuaria entre el 25 y 75% de los pacientes es de 2,1. Como se crea un Box-plot? Si esta instalado Statplus siga los siguientes pasos, en Excel: 2. Artículo de Revisión 91 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones Datos-importar dato-desde Excel. 3. Busca la ubicación de su archivo en Excel 972003 4. Gráficas-Diagrama de caja CUBOS OLAP OnLine Analytical Processing o procesamiento Analítico En Línea Ideados por el Sr. Edgard Cood, de una compañía de software con el objeto de integrar bases de datos, en Excel se pueden generar en forma compleja con tablas dinámicas y macros para relacionar bases de datos, y/o en forma sencilla, utilizando varios campos de variables numéricas (cuantitativas) de una sola base de datos, resumiendo toda la estadística descriptiva de todas estas variables, y haciendo más fácil su análisis. En estadística se ha convertido en una potente herramienta para el análisis descriptivo de bases de datos de variables continuas. Un ejemplo de aplicación: Los estudiantes de primer semestre de especialización en odontología seleccionaron muestras aleatorias en su lugar de trabajo de su especialización, con mínimo dos variables ellos deberían aplicar un Cubo OLAP y analizar los resultados obtenidos. Pasos para generar un Cubo OLAP en Excel. 5. 1. Instalación de la Herramienta Análisis de Datos (Office 2007) 1.1 Haga clic en el botón de Microsoft Office y, a continuación, haga clic en Opciones de Excel. 1.2 Haga clic en Complementos y, en el cuadro Administrar, seleccione Complementos de Excel. 1.3 Haga clic en Ir. 1.4 Active todas las casillas y a continuación, haga clic en Aceptar. 1.5 Pinche en Si, y esperar a que se instale la herramienta. Artículo de Revisión 92 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones Para generar el Cubo OLAP 1. Construya la base de datos con las variables de trabajo 2. Pinche en la ventana de Datos 3. Pinche en el menú de Análisis de Datos 4. Pinche en el reglón de Estadística descriptiva 5. Pinche en el cuadro de rango de entrada y señale la base de datos con sus rótulos (títulos y/o nombres de variables) 6. Pinche cada casilla cuadrada 7.Aceptar Gráficamente Los resultados obtenidos son: En este punto el investigador cuenta con los resultados de estadística descriptiva, básicos para proceder a evaluar y analizar el paciente que está ingresando a la EPS, que problemática está presentando, con el objeto de incentivar programas de salud, cuidado y cultura de aseo dental. La base de datos que se levanto trae en este caso dos variables discretas como son edad, y número de dientes perdidos. Sin embargo los Cubos OLAP son utilizados en general para variables continuas. Artículo de Revisión 93 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones El coeficiente de sesgo o asimetría de Pearson Es una medida de dispersión que determina el sesgo positivo o negativo de los datos, si éste es menor que cero la mayoría de datos se encuentran por encima del promedio, en caso contrario se encuentran por debajo del promedio. Donde: x=promedio y x=mediana. 3 veces el promedio menos la mediana sobre la desviación estandar, si P<0, los datos estan sesgados a la izquierda, es decir hay una cola larga a este lado, la media se verá afectada hacia la izquierda y la moda se halla en el lado derecho, si P>0, sucede lo contrario y los datos afectan la media de esta forma. La importancia que tiene es precisamente que informa el sesgo de los datos. Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica) y/o existencia de puntos atípicos siempre que el coeficiente sea mucho menor que cero. Una curtosis bastante menor que cero (Leptocúrtica), enseña la presencia de datos atípicos. El error de medición DAHLBERG El error de medición de Dahlberg, es una medida muy utilizada, para comparar operadores y determinar el de menor error en la toma de medidas. El Coeficiente de Variación Es una medida relativa de dispersión, determina el grado de dispersión de un conjunto de datos, relativo a su media. Se utiliza para comparar la dispersión de los datos. CURTOSIS Para control debe ejecutarse después de 2 medidas tomadas, sobre los mismos objetivos y el operador seleccionado deberá someterse a juicio nuevamente. Ejemplo: Una investigación de ortodoncia durante 2013 en la Fundación CIEO-UniCIEO llevada a cabo por los Drs. Usgame y Támara cuyo objetivo fue: “Determinar la relación del radio anterior y la inclinación anteroposterior de los dientes con y sin forma de pala”, los Dres. Tuvieron que someterse al juicio de sus mediciones, el error de medición de Dahlberg (e), el coeficiente de variación (CV) y su mediciones de prueba piloto tomados en una fecha determinada y 15 días después fueron: (Ver figura: Prueba piloto) Artículo de Revisión 94 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones Figura 1. Prueba piloto Figura 2. Coeficientes Observe que el operador 1 está cometiendo un error de medición menor en una centésima. Carta de Control de Calidad Los coeficientes de variación de cada operador son: (Ver figura: Coeficientes) Comparar mediciones y operadores pueden ser definidos mediante cartas de control de calidad, para ello debe: Observe que se está que los que se está evaluando es la relación del radio anterior y la inclinación anteroposterior que es el Bolton, y el operador 1 minimiza las variaciones de sus medidas al hacer el ejercicio por 2ª ocasión. Determinar el dato máximo y mínimo permisibles al 99% de confianza, usando el intervalo a continuación, donde el máximo corresponde a la expresión sumada y el mínimo a la expresión restada: x±3σ Artículo de Revisión 95 Métodos bioestadísticos para el desarrollo e implementación del rigor científico en las investigaciones Se grafican las mediciones fijando máximo y mínimo, si se hallan medidas por fuera hay error en el operador. Ejemplo: Para la selección del operador del ejemplo anterior en Bolton se obtiene: Observe que ambos operadores se encuentran dentro de los límites esperados, para el cálculo de estos límites se utiliza el promedio y desviación del operador que comete menor error. BIBLIOGRAFIA 1. Ardila G. Apuntes de Bioestadística aplicada, Fundación UniCIEO 2. Armitage y Berry, Estadística para la investigación Biomédica (1992) .Ed. DOYMA 3. Stell y Torrie, Bioestadística Principios y procedimientos, (1998). Ed 4ª. Mc 4. Devore J. Probabilidad y Estadística para ingeniería y ciencias. (2007), Ed 7ª Thomson. Ortho Market Colombia S.A.S. Sey-Dent Cornerstone Instrumental Productos para ortodoncia RUBÉN DARIO JORDÁN Representante Comercial Cel.: 312 478 0383 PBX: (571) 333 1419 • Fax: (571) 333 1419 E-mail: orthomarketcolombia@hotmail.com • Bogotá, D.C. - Colombia