VALIDEZ Y PRECISIÓN Begoña Bermejo Fraile Doctora en Metodología de Investigación Biomédica. Si me preguntan: ¿Qué hora es?, les podría dar esta respuesta a prueba de errores: Entre las 5 de la mañana y las 12 de la noche. Y eso es inobjetable. Es imposible equivocarse así. O les podría responder que faltan 23 minutos para las 2, cuando en realidad son las 2 menos 24. ¿Cuál de las respuestas les es más útil? ¿La cierta o la errada? (John Cleese). Los individuos somos y reaccionamos de un modo diferente, y por ello la medicina no es una ciencia exacta. Para describir con un solo dato qué ocurre en un grupo de individuos, calculamos porcentajes de individuos que fuman, medias de tensión arterial, porcentajes de pacientes que cumplen un tratamiento y curan, etc. Para la estimación de estas medias y porcentajes se selecciona una muestra de la población global, lo más representativa posible, pero nada garantiza que esta muestra sea efectivamente representativa, sólo por azar existe una posibilidad de error, que por ello se llama error aleatorio. Esta es la razón por la que las estimaciones se acompañan del intervalo de confianza, llamado así porque es un rango de valores en el que confiamos que se encuentre el verdadero valor. Cuanto mayor es el tamaño de la muestra estudiada, menor es el error aleatorio, más estrecho es el intervalo de confianza, mayor es la precisión en la estimación del dato, hasta el punto de que si lográsemos estudiar a toda la población no existiría la posibilidad de equivocación, el error aleatorio sería nulo. Pero con estudiar grandes muestras no se soluciona el problema, también existe la posibilidad de cometer lo que se denominan errores sistemáticos o sesgos. Son errores que nos llevan a conclusiones que sistemáticamente (en contraposición a aleatoriamente) se apartan de la verdad. Por ejemplo, se lleva a cabo un estudio de casos y controles para evaluar la asociación entre el infarto de miocardio y la ingesta de grasa. Se selecciona un grupo de pacientes con infarto y un grupo de pacientes sin infarto, y se les realiza una encuesta dietética. Si en los casos el infarto ocurrió hace algún tiempo, es probable que ante la enfermedad hayan cambiado sus hábitos dietéticos, y que resulte incluso que comen menos grasa que los controles, con lo que podríamos concluir, erróneamente, que una “dieta sana” es un factor de riesgo de infarto de miocardio. De la ausencia de sesgos depende la validez del estudio. Estos dos tipos de errores, aleatorio y sistemático, no sólo afectan al muestreo, sino también a la medición. La cifra de tensión arterial, por ejemplo, depende de muchos factores (hora del día, postura del paciente, actividad física). Por ello es muy importante tomarla siempre en las mismas condiciones, pero a pesar de todo, pueden seguir dando resultados diferentes. Se llama fiabilidad al grado de estabilidad conseguido cuando se repite una medición en condiciones similares. Para aumentar la fiabilidad es importante estandarizar las condiciones de medida, que no sea que dé resultados distintos porque se mide en condiciones distintas. Pero, si aún y todo, siguen variando los resultados, una solución puede ser realizar varias mediciones y calcular la media. De hecho, el diagnóstico de hipertensión arterial, por ejemplo, se realiza en base a varias tomas. En los estudios de casos y controles puede ser frecuente el sesgo de memoria: los casos, en general, recuerdan aspectos relacionados con su enfermedad mucho mejor que los controles. Con el fin de conocer si había un componente hereditario en la artritis reumatoide, se llevó a cabo un estudio de casos y controles, donde los casos eran personas afectas de artritis reumatoide y los controles sus hermanos no afectados por la enfermedad. A ambos grupos se les preguntaba si tenían familiares que también padecieran la enfermedad. Curiosamente, los hermanos afectos tenían más familiares enfermos que sus hermanos controles. También en los cuestionarios nos encontramos con errores debidos, por ejemplo, a preguntas ambiguas o formuladas de forma negativa. Imagine que a un asmático le preguntan: ¿Qué tratamiento sigue usted? Es difícil saber si debe contestar el tratamiento que le indicó su médico, independientemente de si lo cumple o no, o el tratamiento que hace en realidad, independientemente del que le recomendó su médico. En la siguiente pregunta: ¿No piensa usted que fumar perjudica su salud? Una respuesta afirmativa puede significar: Sí, creo que perjudica mi salud, o bien, Sí, efectivamente no pienso que perjudique mi salud. Cálculo del tamaño de la muestra La precisión con la que presentemos unos resultados, o el que las diferencias resulten o no estadísticamente significativas depende en gran medida del tamaño de la muestra. Si se estudian muchos pacientes cualquier pequeña diferencia resultará estadísticamente significativa y si se estudian pocos pacientes, grandes diferencias no resultarán estadísticamente significativas. Uno podría responder que con estudiar muchos pacientes se soluciona este problema, pero no hay que malgastar recursos estudiando más pacientes de los necesarios, sin olvidarnos de que suele ser difícil reclutar pacientes para un estudio o que no es ético, en un ensayo clínico por ejemplo, someter a la mitad de los pacientes a la opción “perdedora” si con menos pacientes se podía saber cuál era el mejor tratamiento. Hay fórmulas para el cálculo del tamaño de la muestra, y de hecho, ésta una de las preguntas que más frecuentemente nos plantean los clínicos ¿Cuántos pacientes tengo que estudiar? Pero nosotros les respondemos con otras preguntas como las siguientes: Como mínimo, ¿Cuánto piensas que debe disminuir el colesterol para considerar que este tratamiento es un buen hipolipemiante? ¿Cuál debería ser la sensibilidad de esta nueva prueba para sustituir a la anterior? Y además decidimos cuál va a ser el error tipo I (generalmente del 5%) y el error tipo II (entre el 10% y el 20% los más frecuentes). Si por fin todos hemos logrado dar una respuesta, no se puede negar que está cargada de subjetividad. En un curso al que asistimos más o menos 20 personas, nos plantearon un problema y nos pidieron que calculásemos el tamaño de la muestra necesario. Creo que resultaron 21 tamaños diferentes. ¿Cuál es entonces el tamaño de la muestra ideal? Depende de lo que estemos estudiando, no es lo mismo estudiar la prevalencia de diabetes que la prevalencia de la enfermedad de Tay Sachs y no es lo mismo estudiar la asociación de la hipertensión a las enfermedades cardiovasculares que la asociación de un determinado gen al cáncer de colon. Siento romper el hechizo, pero para el cálculo del tamaño muestral, la mejor alternativa sigue siendo la utilización del sentido común, que nos dice que es preciso estudiar un mayor número de pacientes cuando se trata de enfermedades raras o factores de riesgo poco frecuentes. También nos puede ayudar ver qué tamaños muestrales se han utilizado en otros estudios similares. En resumidas cuentas, el problema de determinar el tamaño de muestra más adecuado no es de naturaleza técnica, susceptible de ser resuelto por vía de los cómputos sino que ha de encararse mediante el juicio, la experiencia y la intuición (Rothman). Correspondencia: Begoña Bermejo Fraile. Asesoría en Metodología de Investigación en Medicina w w w .amim.es. E­mail: bbermejo@amim.es