LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN monográfico metodología en la investigación en urología 595 4 Arch. Esp. Urol., 56, 6 (595-604), 2003 La estadística como una herramienta de apoyo y no como una herramienta de decisión. CRISTINA FERNÁNDEZ PÉREZ1, LAURA BARREALES TOLOSA1, ELISABETH COLL TORRES1 Y JUAN TEJADA CAZORLA2. 1 Servicio de Medicina Preventiva. Hospital Clínico San Carlos. Madrid. Departamento de Estadística e Investigación Operativa. Facultad de Matemáticas. UCM. Madrid. España. 2 Resumen.- El uso de la estadística en los artículos médicos se ha incrementado mucho en las últimas décadas, utilizándose, sin embargo, en muchas ocasiones, de un modo irreflexivo. La estadística es, hoy por hoy, la única herramienta que permite al investigador médico obtener resultados y beneficios en aquellos estudios cuyas relaciones no puedan ser interpretadas desde una perspectiva determinista, puesto que es una rama de las matemáticas aplicadas cuya finalidad es manejar y cuantificar la incertidumbre de la información disponible, para apoyar la toma de decisiones. El objetivo de este artículo es repasar los conceptos estadísticos básicos que todo médico debe conocer, para poder realizar y/o detectar una investigación de calidad, así como subrayar los errores que con más frecuencia se cometen al interpretar los resultados estadísticos. Se abordan conceptos genera- Correspondencia Cristina Fernández Pérez Servicio de Medicina Preventiva Planta 4ª norte Hospital Clínico San Carlos C/ Profesor Martín Lagos s/n 28040 Madrid. España. e-mail: cfernand@iespana.es les acerca de la síntesis de datos y la diferenciación de los distintos tipos de medidas, el contraste de hipótesis y los errores que pueden cometerse al realizarlo, el verdadero significado del valor "p", la distinción entre un resultado estadísticamente significativo y clínicamente relevante, la trascendencia del intervalo de confianza como medida de significación y de relevancia clínica, la confusión que se genera entre dos conceptos distintos como son la desviación estándar y el error estándar y los criterios que rigen la elección de la prueba estadística adecuada al evaluar la relación entre variables. Palabras clave: Estadística/bioestadística. Significación estadística. Artículo científico. Summary.- The use of statistics in medical articles has risen a lot during the last decades, however it is used in a thoughtless manner in many instances. Today, Statistics is the only tool that allows the medical researcher to obtain results and benefits from those studies the relationships of which can not be interpreted from a determinist perspective, because it is a branch of applied mathematics objective of which is to manage and quantify the uncertainty of the available information, to support decision taking. The objective of this article is to review the basic statistical concepts that every doctor should know to be able to perform and/or detect quality research, as well as to underline the most frequent errors committed when interpreting statistical results. We review the general concepts about data synthesis and differentiation of the different types of measurements, hypothesis testing and errors that can be committed doing it, the real meaning of the "p" value, differentiation between statistically significant and clinically relevant results, the importance 596 C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS. of confidence intervals as a measure of significance and clinical relevance, the confusion generated between two concepts that are different as standard deviation and standard error, and the criteria that govern the selection of the adequate statistical tests to evaluate relationships between variables. Keywords: Statistics/Biostatistics. Statistical significance. Scientific article. INTRODUCCIÓN La práctica clínica se apoya, cada vez con más frecuencia, en el conocimiento científico de la realidad circundante. En las ciencias biomédicas es la estadística la herramienta que permite la aproximación del investigador a esa realidad. Es la única herramienta que, hoy por hoy, permite dar luz y obtener resultados y beneficios en aquellos estudios cuyos movimientos y relaciones, por su variabilidad intrínseca, no pueden ser abordados desde la perspectiva de las leyes deterministas; es la ciencia que estudia el correcto uso de la información, permitiendo establecer una guía de actuación en situaciones prácticas que entrañan incertidumbre y facilitando la toma de decisiones (1). La estadística puede clasificarse en dos grandes tipos: descriptiva e inferencial. La primera de ellas se encarga de recoger, organizar, clasificar, resumir y presentar los datos, cumpliendo una función informativa y descriptiva de la que no pueden extraerse conclusiones. El segundo tipo es la estadística inferencial, que permite extraer conclusiones de las muestras que son generalizables, es decir, que pueden hacerse extensibles al total de la población. La estadística inferencial se basa en el cálculo de probabilidades y efectúa estimaciones, decisiones, predicciones y otras generalizaciones. Se basa fundamentalmente en la estimación de parámetros y en el contraste de hipótesis. La estimación de parámetros consiste en estimar el valor de una determinada variable en la población (parámetro) utilizando un menor número de observaciones, es decir, una muestra representativa de esa población (2) (ejemplo: valorar si la media de edad de los niños de varios colegios de Madrid se corresponde con la media de edad de los niños de la Comunidad de Madrid). Es una herramienta fundamental de la investigación sanitaria, necesaria para poder manejar la incertidumbre de los datos clínicos y para tratar la ingente cantidad de información existente, información, por otra parte, cada vez más cuantificada. Sin embargo, los investigadores médicos recurren a la estadística de forma utilitarista, convirtiéndola en un instrumento y utilizándola de forma automática e incluso irreflexiva. Muchos investigadores la consideran el paso final del estudio, es decir, un simple proceso matemático que permite alcanzar el objetivo, cometiendo un craso error al eludir el razonamiento que reside en el fondo de un análisis estadístico (1, 3, 4). Los conceptos estadísticos forman parte del método científico y deben planearse desde el comienzo del estudio y mantenerse hasta el final. Su adecuada utilización permitirá evaluar y cuantificar la variabilidad debida al azar, pudiendo incluso reducirla, con objeto de tener la máxima garantía de alcanzar el objetivo deseado. Pero hay una condición sine qua non para que la estadística sea de utilidad: un buen análisis estadístico comienza con un buen diseño del estudio y una correcta ejecución del mismo, partiendo inicialmente de una pregunta de investigación coherente y adecuada. Un estudio bien diseñado y pobremente analizado puede solucionarse a través de un segundo análisis estadístico correcto, mientras que un estudio mal diseñado está destinado al fracaso, aunque el análisis sea estadísticamente complejo. El mal uso de la estadística es, desafortunadamente, más frecuente de lo que sería deseable. El objetivo de esta revisión es repasar los conceptos estadísticos básicos que todo médico debe conocer si desea realizar y/o detectar una investigación de calidad, así como subrayar los errores metodológicos más frecuentes. SÍNTESIS DE DATOS: CONCEPTOS GENERALES (2, 5) En todo estudio clínico, previamente a la realización de un contraste de hipótesis, debe realizarse un análisis descriptivo de las variables utilizadas, diferenciando entre variables cuantitativas y cualitativas. Las variables cuantitativas (aquellas cuyos valores pueden ser medidos, como por ejemplo la creatinina, el peso o la dosis de un fármaco), deben resumirse con LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN 597 TABLA I PRINCIPALES MEDIDAS DE SÍNTESIS DE DATOS: EJEMPLOS Y CARACTERÍSTICAS GENERALES Medida (ejemplo) Media (x) n=5 3 2 6 3 5 x = 3+2+6+3+5 / 5= 3,8 Mediana n=5 2 3 3 5 6 Mediana es el valor en 3ª posición = 3 Moda n=5 3 2 6 3 5 El valor más frecuente es el 3 Cuartiles n=5 2 3 3 5 6 Variancia n=5 3 2 6 3 5 2 s = Σ(3-3,8...)2 / 4= 2,7 Desviación estándar √s2 = s = √2,7 = 1,64 Rango n=5 2 3 3 5 6 Rango = 6 – 2 = 4 Rango intercuartílico Q1 = 2,5 Q3 = 5,5 Q3 – Q1 = 5,5 - 2,5 = 3 "En un rango de 3 unidades se encuentra el 50% de la muestra" Coeficiente de variación CV =(1,64 / 3,8)100= 43% Características generales Centro de gravedad de la distribución Se afecta por valores extremos No debe usarse cuando la variable no sigue una distribución normal. El valor que reparte los valores de la distribución, ordenados de menor a mayor, en dos mitades exactas No se afecta por valores extremos Indicada para variables de distribución "no normal" El valor más frecuente de la distribución No se afecta por valores extremos Indicada cuando la muestra es grande y la variable tiene poca amplitud Puede haber una, ninguna o varias modas Tres valores que dividen la distribución en cuatro partes iguales Qi = i (n + 1) / 4 Ej: Q1 = 1(5+1) / 4= valor que ocupa la posición 1,5 = 2,5 Media de los cuadrados de las desviaciones a la media Σ(Xi - X)2 __________ 2 Difícil interpretación por dar unidades al cuadrado s= n -1 Raíz cuadrada positiva de la variancia Medida de dispersión indicada cuando la variable es normal: (DE) Diferencia entre el valor máximo y el mínimo Desventaja: no tiene en cuenta cómo se distribuyen los datos y aumenta si se incrementa la muestra Diferencia entre el tercer y el primer cuartil Define el rango de unidades en que se encuentra el 50% central de las observaciones (datos ordenados de menor a mayor) Medida de dispersión indicada cuando la variable no sigue una distribución normal: mediana (RIQ) Medida de dispersión relativa que permite comparar dos o más grupos Se expresa como porcentaje CV = (s /x) x 100 Permite comparar diferentes unidades de medida (Ej: altura vs peso) 598 C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS. medidas de posición (media, mediana, moda, cuantiles) y con medidas de dispersión (variancia, desviación estándar (DE), rango, rango intercuartílico). Las medidas de posición, indican cuál es la situación de las observaciones de la muestra con respecto a ellas; pueden ser de tendencia central (media, mediana y moda) o bien cuantiles. Los cuantiles son valores que indican cuál es la posición relativa de una observación con respecto al resto de la muestra, existiendo cuartiles, deciles y percentiles. Los cuartiles son tres valores que dividen la distribución en cuatro partes iguales, abarcando el 25% de las observaciones cada una. Las segundas medidas describen la dispersión de los datos en torno a, por ejemplo, la media. Un error frecuente en la literatura es escribir media ±DE, dotando a la desviación estándar de un falso significado de intervalo (2, 4). La representación correcta es media (DE). Es fundamental también definir las unidades de la variable y el tamaño muestral del estudio. Asimismo interesa, cuando se describe una variable cuantitativa, conocer si ésta sigue una distribución normal o no, con objeto de escoger la prueba estadística más adecuada para utilizar en el contraste de hipótesis, circunstancia que se analiza más adelante. En la Tabla I se definen las medidas de posición y dispersión de las variables cuantitativas con sus principales características. Ejemplo: en un estudio llevado a cabo en Madrid acerca de la sintomatología de la hiperplasia benigna de próstata (HBP), en una muestra de 1.804 hombres de 40 años o más, la media de edad fue 56,45 años (DE 11,32) (6). Las variables cualitativas (indican cualidad y sus valores no pueden medirse, como por ejemplo sexo del sujeto, grupo sanguíneo o tipo de incontinencia urinaria), se resumen con su distribución de frecuencia, ya sea absoluta (en una muestra de 500 hombres mayores de 50 años 250 tienen HBP) o relativa (en una muestra de 500 hombres mayores de 50 años el 50% tienen HBP). CONTRASTE DE HIPÓTESIS (2, 5, 7, 8) Cuando el investigador se enfrenta a una idea está planteando un contraste de hipótesis. Se plantea una hipótesis nula (Ho) y una alternativa (HA). La primera La verdad El alcohol aumenta la frecuencia de la disfunción eréctil Lo que se obtiene El alcohol aumenta la frecuencia de la disfunción eréctil El alcohol no aumenta la frecuencia de la disfunción eréctil El alcohol no aumenta la frecuencia de la disfunción eréctil conclusión correcta conclusión incorrecta (error tipo I) Poder = 1-β Valor p conclusión incorrecta (error tipo II) conclusión correcta riesgo α riesgo β * Fig. 1: Posibles resultados y errores en un contraste de hipótesis*. Modificada de Plasencia A, Porta Serra M. La calidad de la información clínica (II): significación estadística. Med. Clin. (Barc.), 1988; 90: 122-126. LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN apoya la no diferencia (A≠B) y la segunda la diferencia que se pretende detectar (A=B). Por lo tanto, un paso esencial en toda investigación es la formulación de una hipótesis que se intenta rechazar (hipótesis nula) mediante el uso de una prueba de significación estadística, y la formulación de otra hipótesis que se acepta si se rechaza la hipótesis nula (hipótesis alternativa). Este test de hipótesis mostrará la fuerza de la evidencia en contra de la hipótesis nula en términos de probabilidad. En todo contraste de hipótesis se obtiene un valor "p" de significación estadística (3). Al realizar un contraste de hipótesis pueden acontecer cuatro situaciones diferentes, representadas en la Figura 1. Pueden cometerse dos errores; afirmar que hay diferencia cuando realmente no existe (ejemplo: concluir que el estado civil se asocia con la calidad de vida del paciente con HBP, cuando no existe ninguna asociación entre ambas variables) y se puede cometer el error de concluir que no hay diferencia cuando ésta existe (ejemplo: concluir que el tamaño prostático no se incrementa a medida que aumenta la edad, cuando realmente sí existe esa relación). En el primer caso se está cometiendo un error tipo I y su probabilidad es α. En el segundo caso el error es el denominado error tipo II y la probabilidad de cometerlo es β. Se asume por convenio una probabilidad aceptable de error tipo I de 0,05 (5%), es decir, α es el valor "p", que nos informa de la probabilidad de equivocarnos al decir que el tratamiento A tiene efecto sobre la disfunción eréctil cuando eso no es cierto (falso positivo), por lo tanto, cuanto más pequeño sea el valor de α más probable es que la diferencia encontrada coincida con la verdad (resultado verdaderamente positivo). La "p", sin embargo, no nos informa acerca de la probabilidad de cometer un error tipo II, es decir, de la probabilidad de decir que el consumo de alcohol no tiene efecto sobre la disfunción eréctil (falso negativo). El objetivo de todo estudio es llegar a una conclusión verdaderamente positiva o verdaderamente negativa y la probabilidad de que la conclusión del estudio coincida con la verdad es igual a 1-β. Esta probabilidad se denomina potencia o poder estadístico del estudio y es la capacidad que tiene el estudio de encontrar diferencias cuando éstas existen. Tal y como se ha descrito para el valor α, el valor para el riesgo β se establece con frecuencia en el 20%, o lo que es igual, se considera aceptable un poder estadístico del 80%, es decir, en 8 ocasiones de cada 10 se podrá detectar el efecto real, por 599 ejemplo, en 8 de cada 10 pacientes tratados con tiazidas se podrá detectar un descenso del número de recurrencias de urolitiasis. Es fundamental en el diseño del estudio decidir previamente el riesgo α y β que el investigador desea asumir, y no recurrir de forma rutinaria a los establecidos como estándar (α de 0,05 y β de 0,20). La elección de un valor para el riesgo α debe depender de la magnitud de la evidencia que se requiere para rechazar la hipótesis nula. Por ejemplo, si se está probando la eficacia de un nuevo fármaco para tratar una enfermedad para la que no existe tratamiento eficaz, no conviene asumir un valor α muy pequeño, puesto que la ausencia de una terapia médica actual eficaz puede hacer que se obtengan resultados falsamente positivos. Las consecuencias de tomar la decisión de asumir la existencia de diferencias, es decir, de rechazar la Ho, deben condicionar la elección del valor de α (ejemplo: se valora la eficacia de un nuevo producto para el tratamiento de la incontinencia de esfuerzo, y este producto es muy similar al que se toma como referencia en cuanto a efectos secundarios, coste, administración, etc. Por lo tanto, se precisa un nivel de evidencia más elevado, es decir, un valor α más bajo). A pesar de la amplia aceptación en las publicaciones científicas de esta metodología desde sus orígenes, existe un gran debate respecto a su validez metodológica y, sobre todo, respecto a su aplicación rutinaria, controversia que va calando, aunque de forma muy lenta, en la comunidad investigadora frente a la inercia de su aplicación como meras recetas para la toma de decisiones (9). INTERPRETACIÓN DE LA "p" Uno de los errores más frecuentes en la literatura médica es la interpretación del valor "p" como una medida de efecto, es decir, una medida de la magnitud de la asociación entre dos variables, como por ejemplo entre un factor de riesgo y una enfermedad. El verdadero significado de "p" es la probabilidad de obtener un desenlace por lo menos tan extremo como el que se hubiera esperado si la hipótesis nula fuera cierta. Cuanto menor sea la "p" más fuerte será la evidencia en contra de la hipótesis nula (10). Para ayudar al proceso de decisión se establece, de manera arbitraria, el nivel de evidencia por encima del cual se rechazará la hipó- 600 C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS. Fig. 2: Interpretación gráfica del valor p. tesis nula, asumiendo como aceptable una probabilidad de equivocarse del 5% (p ≤0,05). Por lo tanto, un valor "p" <0,05 significa que la diferencia observada es poco probable que sea debida al azar, es decir, "p" es la probabilidad de equivocarse al afirmar que hay diferencias (por ejemplo, la urolitiasis es más frecuente en fumadores), cuando realmente no las hay (la frecuencia de urolitiasis en fumadores no difiere de la de los no fumadores), es decir, p es equivalente a la probabilidad asociada al error tipo I (α). Al presentar los resultados de un estudio es importante no quedar deslumbrado por la significación estadística, puesto que el tan manido valor p depende, entre otras cosas, del tamaño muestral (será tanto menor, más significativa, cuanto mayor sea el número de sujetos de estudio), y de la magnitud de la diferencia que se estudia (10). De esta forma, y atendiendo a la importancia del tamaño muestral, una muestra lo suficientemente grande permite ver cualquier diferencia, aunque ésta no sea clínicamente relevante. Por el contrario, un tamaño de muestra demasiado pequeño puede no detectar diferencias que realmente existen, al verse excesivamente mermada la potencia del estudio. Por lo tanto, repetir el estudio incrementando el número de sujetos puede resolver el problema de la significación. Si el razonamiento del que se parte es la diferencia a detectar, se aprecia que una diferencia muy pequeña necesita una muestra grande para ser observada, mientras que una diferencia muy grande puede ser detectada con pocos sujetos. Por lo tanto, una p significativa no garantiza un hallazgo clínicamente relevante ni mide la fuerza de la asociación (1, 3, 11). Por este motivo deben reflejarse únicamente aquellos resultados que puedan ser interesantes desde un punto de vista clínico o científico, incluso si la "p" no es del todo satisfactoria (por ejemplo, una p=0,06 puede ser más trascendente en la evaluación de la asociación tabaco/cáncer de próstata que una p=0,03 al estudiar la relación color de pelo/ cáncer de próstata). La Figura 2 representa gráficamen- LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN te el significado de "p", reflejando como, a medida que aumenta el valor p, la probabilidad de encontrar diferencias que no existen (bolas negras) es mayor. En opinión de muchos autores la omnipresencia de los niveles de significación en la literatura clínica es totalmente desafortunada, dado que la práctica clínica se basará más en la magnitud de la diferencia observada que en el nivel de probabilidad, por lo que se aconseja el uso de los intervalos de confianza. INTERVALO DE CONFIANZA A pesar de que la inercia intelectual conduce a la aceptación universal del uso de pruebas de hipótesis para decidir todo o nada, hay otras alternativas que no se quedan en la mera receta, tal es el caso de los intervalos de confianza. En realidad se sustenta sobre la misma teoría, pero el enfoque es mucho más expresivo, proporcionando información y no sólo documentando una mera decisión, como es el caso del contraste de hipótesis (10). El intervalo de confianza (IC) constituye, pues, una manera más informativa de presentar la significación estadística del contraste de hipótesis que el valor "p". El IC nos da el margen de valores en los que es previsible esperar que se encuentre la verdadera diferencia buscada para una probabilidad dada, habitualmente del 95%. Los límites inferior y superior se corresponden, respectivamente, con la mínima y máxima diferencia o asociación compatible con los datos, y dan una idea de la precisión con que se ha efectuado la estimación. El valor de significación estadística, como se ha explicado anteriormente, no mide la magnitud o relevancia de la diferencia o asociación entre los grupos, pudiendo obtener valores muy pequeños de p estudiando un número elevado de sujetos. Por el contrario, el IC, además de informar si los resultados son estadísticamente significativos, tiene la ventaja de expresar los resultados en las unidades en que se han realizado las mediciones, lo que facilita su interpretación en términos de magnitud y relevancia clínica (11, 12). Los IC pueden calcularse para distintos niveles de significación estadística, aunque los más frecuentes son 90, 95 y 99%. Cuando se utiliza como medida del efecto la diferencia de eficacia entre las intervenciones, si el IC incluye elvalor0seconcluyequeelresultadoesestadísticamente no significativo, puesto que el 0 es la no diferencia, es 601 decir, es el resultado compatible con la hipótesis nula. Cuando el interés no se centra en una diferencia absoluta sino en una medida relativa de asociación, por ejemplo el riesgo relativo (RR) u el odds ratio (OR), el IC que indica la no significación estadística es aquel que incluye el 1, puesto que el 1 es el resultado compatible con la hipótesis nula de no asociación (12). Además de informarnos de la significación, el IC permite valorar la relevancia clínica de aquello que se evalúa. Al diseñar un estudio los investigadores deben fijar de antemano la diferencia que se considera clínicamente relevante y calcular, de acuerdo con ella, el tamaño muestral. La interpretación del resultado y de su IC debe tener en cuenta esta magnitud. Se ha de valorar si el IC incluye o excluye el valor de la mínima diferencia de relevancia clínica (12). Si el valor del límite inferior de un IC es mayor que la diferencia considerada clínicamente relevante, el estudio será estadísticamente significativo y concluyente acerca de la existencia de una diferencia clínicamente importante. Si el IC incluye el valor de la diferencia considerado clínicamente relevante el resultado no es concluyente, con independencia de la significación estadística, y se necesita un estudio con muestra y potencia mayores. Algunas revistas recomiendan el uso del IC para sus publicaciones en lugar del valor "p", tal es el caso de Annals of Internal Medicine, British Medical Journal y Lancet (3, 13). Ejemplo: en un estudio llevado a cabo en Madrid acerca de las características clínicas y epidemiológicas de los síntomas del tracto urinario inferior (STUI) relacionados con la hiperplasia benigna de próstata (HBP) (6), se analizó la diferencia de frecuencia de severidad de los STUI (asintomático, leve, moderado y severo) en función del consumo de complejos vitamínicos (sí o no). Las diferencias encontradas no fueron significativas (p=0,17). Esta p dice relativamente poco y, además, de forma simplista: la probabilidad de que las diferencias encontradas se deban al azar es del 17%. Sin embargo, se puede completar la presentación con los IC de cada proporción. Por ejemplo, en el grupo de sujetos asintomáticos había un 12,7% de consumidores de complejos vitamínicos frente a un 22,7% de no consumidores, es decir, un 10% más de asintomáticos en los no consumidores. Los IC de cada frecuencia eran (6,522,5) y (20,7-24,7) respectivamente. Estos IC dan más información y se observa un solapamiento entre ellos, es decir, la no significación, la no diferencia. 602 C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS. TABLA II PRUEBAS DE SIGNIFICACIÓN ESTADÍSTICA UTILIZADAS CON MÁS FRECUENCIA** VARIABLE DEPENDIENTE O RESPUESTA VARIABLE INDEPENDIENTE O PREDICTORA Continua de distribución normal Continua de distribución no normal u ordinal de > 2 categorías Cualitativa de > 2 categorías Dicotómica Continua de distribución normal Continua de distribución no normal u ordinal de > 2 categorías Cualitativa de > 2 categorías Regresión lineal Correlación de Spearman* Análisis de la variancia Correlación de Spearman* Correlación de Spearman* Test de Kruskall-Wallis* U de MannWhitney* Análisis de la variancia Test de Kruskall-Wallis* Tabla de contingencia χ2 o Fisher Tabla de contingencia χ2 o Fisher t de Student U de MannWhitney* Correlación Dicotómica Regresión logística Tabla de contingencia χ2 o Fisher Regresión de Cox (tiempo) Tabla de contingencia χ2 o Fisher RR u OR * Prueba no paramétrica ** Modificada de Hulley SB, Cummings SR. Diseño de la investigación clínica. Un enfoque epidemiológico. Barcelona: Doyma, 1993. DESVIACIÓN ESTÁNDAR Y ERROR ESTÁNDAR Es frecuente la confusión entre la desviación estándar de la media (DE) y el error estándar de la media (EEM). Aunque se relacionan entre sí (EEM= DE/√x) describen aspectos diferentes (14). La desviación estándar describe cómo se distribuye una variable en la población, por ejemplo, cómo de dispersos están los datos de esa variable en torno a la media. Cuando la distribución de esa variable cuantita- tiva es normal la media ±2 DE comprende el 95% central de los valores de la población. El error estándar de la media informa acerca de la precisión con que se ha estimado esa media poblacional a partir de los datos de la muestra, de forma que cuantos más sujetos se empleen mayor será la precisión y menor será el EEM. La media muestral ±2 EEM constituye el intervalo en el que, con una confianza del 95%, se encuentra el verdadero valor de la media de esa variable en la población. LA ESTADÍSTICA COMO UNA HERRAMIENTA DE APOYO Y NO COMO UNA HERRAMIENTO DE DECISIÓN ELECCIÓN DE LA PRUEBA ESTADÍSTICA La elección de la prueba estadística más adecuada depende de cada situación en particular y de la capacidad del investigador para justificar su decisión. No es necesario recurrir a pruebas complejas y sofisticadas, de hecho, los resultados más importantes suelen observarse con un análisis sencillo. Las técnicas complejas se utilizan cuando es necesario aislar el efecto de una variable entre otras muchas, en la búsqueda de la máxima información posible, de forma que se pueda controlar y ajustar el efecto de unas variables sobre otras y eliminar la confusión y la interacción entre ellas (14). La elección de la prueba estadística depende de varios factores que a continuación se describen (2, 15): - La escala en que se ha medido la variable dependiente o respuesta. Si ésta es cuantitativa la potencia de la prueba será mayor, puesto que las variables cuantitativas aportan más información que las cualitativas. - La escala de medición de la variable independiente. Si es cualitativa dicotómica (con dos categorías, por ejemplo sexo o fumador sí/no) la prueba consistirá en la comparación de la variable dependiente en dos grupos. Si es politómica (grupo sanguíneo, tipo de incontinencia, etc.), la comparación se establece en tantos grupos como categorías tenga la variable independiente. Si es cuantitativa se requerirá una prueba específica, según se describe en la Tabla II. - La existencia de medidas repetidas o datos apareados, es decir, distintas mediciones realizadas sobre los mismos sujetos. Por ejemplo, la medición del volumen de orina de los sujetos de un estudio antes y después de la administración de un diurético. Cuando los datos están apareados se utilizan pruebas estadísticas más potentes que las usadas con datos independientes, puesto que trabajar con los mismos sujetos reduce la variabilidad de las mediciones. - La distribución de las variables cuantitativas. Las pruebas estadísticas que utilizan datos cuantitativos parten de ciertas asunciones que sólo se cumplen cuando la variable sigue una distribución normal. Estas pruebas son conocidas como pruebas paramétricas. Cuando las muestras son de pequeño tamaño esas asunciones no pueden asegurarse, por lo que se recurre a otro tipo de pruebas, denominadas no paramétricas, menos potentes y más complejas, utilizadas también 603 cuando se comparan datos ordinales, en los que se comparan los rangos en lugar de los valores de la variable. - El tamaño muestral. La mayoría de las pruebas estadísticas requieren un número mínimo de observaciones para poder ser utilizadas. Si el tamaño muestral es inferior al mínimo deseado (se acepta como valor de referencia 30 observaciones o más), se considera que la distribución no es normal y se emplean las pruebas no paramétricas. En la Tabla II se resumen las pruebas estadísticas utilizadas con mayor frecuencia en los estudios. Cuando ambas variables, dependiente e independiente, son cualitativas, la prueba estadística utilizada es la ji al cuadrado (χ2). Cuando ambas variables son dicotómicas, es decir, cuando la tabla de contingencia que se construye es de 2x2, se puede calcular además el RR (para diseños de cohortes y experimentales) u OR (para diseños de casos y controles y transversales). Ejemplo: se comparan los porcentajes de pielonefritis (variable dependiente) en función del sexo (variable independiente) en un estudio transversal realizado en individuos adultos de un determinado área de salud. Si la frecuencia de pielonefritis en ese estudio es significativamente mayor en las mujeres (p significativa), podría calcularse además el OR para valorar si ser mujer es un factor de riesgo de pielonefritis en los adultos de ese área sanitaria. Cuando se comparan los valores de una variable cuantitativa en dos grupos de sujetos, la prueba estadística más apropiada es la t de Student-Fisher. Si la variable cuantitativa no sigue una distribución normal debe recurrirse al equivalente no paramétrico de la t de Student: U de Mann-Whitney o suma de los rangos de Wilcoxon. Si la variable cualitativa tiene más de dos categoríaslapruebaautilizareselanálisisdelavariancia. El equivalente no paramétrico si la cuantitativa no es normal es el test de Kruskal-Wallis. Ejemplo: se compara la cifra media de tensión arterial sistólica (TAS como variable dependiente) de un grupo de individuos tratados con un nuevo diurético, con la media de TAS de otro grupo tratado con un diurético clásico (tipo de fármaco como variable independiente). Un estudio similar compara la cifra media de TAS en tres grupos: un grupo que toma el nuevo diurético, otro que toma el diurético clásico y un tercer grupo que toma otro tipo de fármaco. En este caso la prueba utilizada es el análisis de la variancia. 604 C. FERNÁNDEZ PÉREZ, L. BARREALES TOLOSA, E. COLL TORRES Y COLS. Si se pretende comparar la posible asociación entre dos variables cuantitativas, el test utilizado es la correlación de Pearson. Si ambas variables, o una de las dos, no siguen una distribución normal, el equivalente no paramétrico es la correlación de Spearman. En este test se obtiene un valor denominado r, que oscila de –1 a 1 e indica el nivel de asociación lineal entre ambas variables, es decir, si es leve, moderada o alta, pero no indica de qué manera una influye en la otra. Un r=0 significa ausencia de correlación entre ellas. Una p significativa en este test sólo indica que el valor de r observado es poco probable que sea debido al azar. En el caso de que pueda asumirse una relación de dependencia lineal de una de las variables respecto a la otra, se habla de regresión lineal. Ejemplo: un estudio (6) evalúa, en hombres con hiperplasia benigna de próstata de 40 años o más, la correlacióndelvolúmenprostáticoconlasintomatología, medida a través del I-PSS. Se obtiene un valor de r=0,39 y una p=0,001, lo que indica una asociación lineal positiva moderada, de manera significativa, entre el volumen prostático y la sintomatología, es decir, a medida que aumenta el volumen prostático aumenta la sintomatología, o bien, a medida que disminuye el volumen disminuye también el I-PSS. Cuando se pretende estudiar la influencia de dos o más variables simultáneamente se necesitan técnicas estadísticas más sofisticadas, englobadas dentro del denominado análisis multivariante. Estas técnicas permiten analizar un número elevado de sujetos y de variables para, a su vez, clasificar a los individuos por similitud respecto a múltiples variables, agrupar variables que miden aspectos similares y/o comprobar hipótesis acerca de la influencia simultánea de varios factores. Sin embargo, no es objeto de este artículo describir estas técnicas, dada su complejidad y la profundidad necesaria para aproximarse a ellas. CONCLUSIÓN La estadística se ha convertido en una herramienta de apoyo fundamental en la investigación, sin embargo, son pocos los investigadores médicos que han recibido una capacitación formal en bioestadística. Es importante no caer en la utilización irreflexiva de la misma; usarla e interpretarla correctamente incrementa la validez de cualquier estudio. La estadística debe utilizarse como apoyo y nunca debe reemplazar al sentido común del investigador. BIBLIOGRAFÍA Y LECTURAS RECOMENDADAS (*lectura de interés y **lectura fundamental) 1. RODRÍGUEZ SALVANÉS, F.J.: "Errores más frecuentes enelusode la estadística enla investigaciónenneumología." Arch. Bronconeumol., 35 (Supl. I): 18, 1999. *2. MARTÍN ANDRÉS, A.; LUNA DEL CASTILLO, J. DE D.: "Bioestadística para las ciencias de la salud." Las Rozas, Ediciones Norma, Madrid, 1999. *3. GONZÁLEZ DE DIOS, J.: "Conocimientos prácticos para elaborarunartículocientífico(IV):manejodelaestadística." Rev. Esp. Pediatr., 54: 340,1998. 4. MORA I RIPOLL, R.: "Cómo mejorar la calidad estadística de los artículos presentados a revistas biomédicas: lista de comprobación para los autores." Med. Clin. (Barc.), 113: 138, 1999. 5. ROSNER, B.: "Fundamentals of biostatistics." Duxbury Press, Boston, 2000. 6. MORENO SIERRA, J.; FERNÁNDEZ PÉREZ, C.: "Caracterización clínica y epidemiológica de los síntomas del tractourinarioinferiorrelacionadosconlahiperplasiabenigna de la próstata en la Comunidad de Madrid." Madrid: 3794. EDIMSA, Madrid, 2002. **7. PLASENCIA, A.; PORTA SERRA, M.: "La calidad de la informaciónclínica(II):significaciónestadística."Med.Clin. (Barc.), 90: 122, 1988. 8. KLEINBAUM, D.G.; KUPPER, L.I.; MORGENSTERN, H.: "Epidemiologic Research. Principles and quantitative methods."186-187,LifetimeLerningPublications,Belmont, California, 1982. 9. SILVA, L.C.: "Cultura estadística e investigación científica en el campo de la salud: una mirada crítica." Ed. Diaz de Santos, Madrid, 1997. 10. PORTA SERRA, M.; PLASENCIA, A.; SANZ, F.: "La calidad de la información clínica (y III): ¿estadísticamente significativooclínicamenteimportante?".Med.Clin.(Barc.), 90: 463, 1988. **11. PORTA SERRA, M.; MORENO, V.; SANZ, F. y cols.: "Una cuestión de poder." Med. Clin. (Barc.), 92: 223, 1989. **12. ARGIMON, J.M.: "El intervalo de confianza: algo más que un valor de significación estadística." Med. Clin. (Barc.), 118: 382, 2002. *13. GARDNER, M.J.; ALTMAN, D.G.: "Confidence intervals ratherthanpvalues:estimationratherthanhypothesistesting." Br. Med. J., 292: 746, 1986. 14. MORENO, V.; VALLESCAR, R.; MARTÍN, M.: "Recomendaciones para evitar errores en el análisis estadístico de un estudio clínico." Atención Primaria , 7: 74, 1990. 15. ARGIMÓN, J.M.; JIMÉNEZ VILLA.: "Métodos de Investigaciónaplicadosalaatenciónprimariadesalud."págs.151166. Doyma, Barcelona, 1991.