1 Trabajo publicado en www.ilustrados.com La mayor Comunidad de difusión del conocimiento PROPUESTA METODOLÓGICA SOBRE LA RESOLUCIÓN DE PROBLEMAS BIOMÉDICOS QUE CONDUCEN A LAS PRUEBAS O ENSAYOS DE HIPÓTESIS DE MEDIAS. Lorenzo Pérez Milanés Facultad de Ciencias Médicas “Zoilo E. Marinello Vidaurreta” Las Tunas, Cuba E-mail: lorenzopere@yahoo.es lorenzo@cucalambe.ltu.sld.cu 2 Índice Resumen.................................................................... 2 Introducción ............................................................... 3 Desarrollo: ................................................................. 5 Metodología de resolución Bibliografía .............................................................. 21 Datos del autor ......................................................... 25 3 Resumen Este artículo está dirigido fundamentalmente a los profesionales de la Salud y en especial a los estudiantes de 2do. Año de la carrera de Medicina y Estomatología, así como también para los de Enfermería de la Facultad de Ciencias Médicas “Zoilo E. Marinello Vidaurreta” de Las Tunas, los cuales reciben las asignaturas de Informática Médica II, Informática e Investigación II, III y IV respectivamente, en la que se aborda la problemática de la resolución de problemas biomédicos que conducen a las “pruebas de hipótesis de medias” en el marco de la Estadística Inferencial. En el mismo se presentan algunas valoraciones teóricas sobre el tema y una propuesta metodológica con una serie de pasos lógicos para realizar las pruebas de hipótesis que utilizan los modelos de distribución normal de Gauss y la t-student, así como algunas indicaciones en el uso del procesador Statgraphics versión 2,1 en Inglés para el cálculo y análisis de los resultados . Además este material puede ser también útil a otros profesionales que aborden la Estadística Inferencial en general. 4 Introducción En múltiples de ocasiones cuando se trabaja en las ciencias de la salud surge con frecuencia la necesidad de tomar decisiones con relación a diferentes problemas de investigación, generalmente al no contar con el tiempo ni con los recursos para estudiar a toda la población, seleccionamos una muestra aleatoria a partir de la cual nos permita tomar decisiones sobre la población. Las Pruebas de Hipótesis tienen el propósito de ayudar al investigador a tomar decisiones sobre la población basándose en el análisis de una muestra aleatoria de la misma, las decisiones que debemos tomar son en relación con determinadas características de la población, denominados parámetros, que necesitamos conocer, para resolver un problema. De manera que hay que establecer un procedimiento objetivo que permita, sobre la base de la información muestral obtenida, tomar una decisión sobre los parámetros de la población, lo que determinará cierto grado de incertidumbre asociada a la decisión.Este procedimiento se conoce como Prueba de Hipótesis. Existen innumerables de situaciones en el ámbito de la salud en el que las variables de interés, las cuales pueden cuantificarse mediante cantidades numéricas, entre las que el investigador esté interesado en determinar posibles relaciones poblacionales, ejemplos de este tipo de variables pueden ser los niveles de hemoglobina (expresado en g/l), del colesterol en sangre(expresado en mmol/l, de ácido úrico (expresado en mmol/l), estatura en niños varones (expresada en metros ), etc., análisis de las cuales nos pueden conducir a las pruebas de hipótesis de medias con la correspondiente aplicación de las distribuciones normal de Gauss o la t-Student según corresponda como veremos más adelante. La experiencia nos ha conducido a tener en cuenta el fracaso que experimentan los principiantes y estudiantes en el proceso de resolución de problemas que conducen a estas distribuciones y en especial en la realización de pruebas de hipótesis de este tipo por numerosos factores como, prestar su atención solamente en las habilidades computacionales, en el quehacer metodológico o en la rama descriptiva de la Estadística como ciencia, por lo que pretendemos contribuir al éxito de esta temática en el contexto de los nuevos paradigmas de creación, difusión y utilización del conocimiento, de manera que consideramos que los apuntes que se proponen es un elemento a considerar en este sentido. 5 Desarrollo: Pruebas de hipótesis de medias En general estos tipos de ensayos consisten en tomar una muestra de la población de estudio y valorar si debemos asumir, para la variable continua, la desviación estándar conocida o desconocida, aunque en la mayoría de los casos prácticos se asume la misma desconocida y emplear el procedimiento correspondiente. En estos ensayos al igual que los demás conocidos hay que tener claro en el orden teórico una serie de elementos que mostraremos a continuación como: Hipótesis estadísticas. Para tomar decisiones se hacen supuestos o conjeturas acerca de las poblaciones, tales suposiciones que pueden o ser ciertas o no se llaman hipótesis estadísticas. Estas se formulan para rechazarlas o invalidarlas. Ejemplos: I. Supóngase que se quiere examinar la validez o no, de una hipótesis referida a un parámetro de la población, digamos que se quiere probar que la media poblacional no es igual a un valor determinado 0; lo expresado se acostumbra a representar por: H0: = 0 H1: 0 II. Supóngase que se quiere examinar la validez o no, de una hipótesis referida a un parámetro de la población, digamos que se quiere probar que la media poblacional es menor que un valor determinado 0; lo expresado se acostumbra a representar por: H0: = 0 H1: 0 III. Supóngase que se quiere examinar la validez o no, de una hipótesis referida a un parámetro de la población, digamos que se quiere probar que la media poblacional es mayor que un valor determinado 0; lo expresado se acostumbra a representar por: H0: = 0 H1: 0 IV. Supóngase que se quiere examinar la validez o no, de una hipótesis referida a dos parámetros correspondientes a dos poblaciones que poseen iguales condiciones, digamos que se quiere probar que la media poblacional 1 es similar a 2 ; lo expresado se acostumbra a representar por: Ho: 1 = 2 H1: 1 2 Las que se denotan por H0 se les llaman hipótesis Nulas. Cualquier hipótesis “que difiera” de una hipótesis dada se llama alternativa y se denotan por H1 6 Los procedimientos que facilitan el decidir si una hipótesis se acepta o se rechaza o el determinar si las muestras observadas difieren significativamente de los resultados esperados se llaman Ensayos de significación o Reglas de decisión. Errores del tipo I y tipo II. Tipo I: Cuando “se rechaza” una hipótesis, cuando debería ser aceptada. Tipo II: Cuando “se acepta “una hipótesis que debería ser rechazada. En cualquiera de los dos casos se comete “un error “al tomar una decisión equivocada y resumiendo las situaciones anteriores respecto a las decisiones sobre H 0 a partir de los valores observados en la muestra aleatoria tenemos que: Decisión sobre H0 Si H0 es: No rechazar Rechazar Verdadera Falsa Acción correcta Error de tipo II Error de tipo I Acción correcta Nivel de significación. La probabilidad máxima con la que el ensayo de una hipótesis se puede cometer un error del tipo I se llama nivel de significación del ensayo. Se denota por (se fija antes de la extracción de la muestra). En la práctica se acostumbra a utilizar los niveles de significación = 0.05 (5%) o = 0.01 (1 %). En el caso del ejemplo I estamos en presencia de las llamadas hipótesis de “dos colas” como se muestra en el siguiente gráfico: Representa la distribución del muestreo de X, y llegamos al criterio siguiente: Rechazar la hipótesis Ho si Z -1.96 ó Z 1.96. Aceptar la hipótesis (o reservar el juicio) si – 1.96 ≤ Z ≤ 1.96, donde: Z=X-//n ; estadígrafo Z Como se notará hemos asumido que de la población es conocida, que el tamaño de la muestra es grande(n>30), = 0.05, y Z1-=1,96 según tabla 1 de probabilidades de la distribución normal Standard. Como tomamos = 0.05 llegaremos al criterio siguiente a Z está fuera del rango -1.96 1.96 quiere decir que es un suceso con probabilidad de solamente 0.05 si la hipótesis fuera verdadera. 0.05 representa la probabilidad de cometer error al rechazar la 7 hipótesis, es decir, la probabilidad de cometer error del tipo I. Cuando desconocemos a de la población se utilizará la expresión: Z = X - / S / n En esta última expresión se utilizará S obtenida a partir de la varianza muestral S2 como estimador puntual de la varianza poblacional 2 y ésta es una de las razones por lo cual el criterio anterior debiera ser sólo utilizado para muestras grandes, pues se conoce que en este caso Z ya no tiene una distribución normal con parámetros 0 y 1, sino que ( x − µ) / (S/ n ) tiene ahora la distribución t de Student con n-1 grados de libertad: t=X-/s/n En la tabla de la distribución t se puede ver que cuando los grados de libertad son mayores de 30, o lo que es lo mismo, para muestras de tamaño n > 31 los percentiles de la distribución t y de la N (0,1) son muy parecidos También pudiéramos determinar los valores correspondientes a los puntos críticos mediante: Z=X-/S/n X = Z(S / n) + y utilizar un criterio de decisión muy similar al anterior: X X1 ó X X 2 Rechazar la hipótesis Ho X1 ≤ X ≤ X 2 Aceptar la hipótesis Ho En el siguiente gráfico se puede observar que X1=24, 95, X2 = 25,41 y = 25; de tal manera que si la media muestral X pertenece al intervalo de confianza de la poblacional se acepta Ho y si la misma no pertenece al mismo debe rechazarse. Otro criterio de decisión que no queremos pasar por alto es el del p-valor Si el p-valor ≤ se debe Rechazar Ho Si el p-valor se debe aceptar Ho 8 Este estadístico o nivel de significación empírico como se conoce nos informa sobre cuál sería el nivel de significación más pequeño que nos hubiera permitido rechazar la hipótesis nula. En algunos procesadores como el Statgraphics, como veremos más adelante, es de fácil cálculo. En el caso del ejemplo III estamos en presencia de las llamadas hipótesis de “una cola” como se muestra en el siguiente gráfico: Representa la distribución del muestreo de X, y llegamos al criterio siguiente: Rechazar la hipótesis Ho si Z 2,33 Aceptar la hipótesis (o reservar el juicio) si Z ≤ 2,33 Aquí se ha asumido a = 0.01, media poblacional µ = 110 y Z1-= 2,33 según tabla de probabilidades de la distribución normal Standard. Análogamente en el ejemplo II la región de rechazo estará a la izquierda del gráfico y el criterio para decidir será: Rechazar la hipótesis Ho si Z - 2,33 Aceptar la hipótesis (o reservar el juicio) si Z ≥-2,33 Para n ≤ 30 Una limitación lamentable del método que hemos expuesto es que se aplica solamente a muestras grandes. Si n es pequeña, n ≤ 30 tendremos que basar nuestra decisión en el estadístico: t=X-/s/n Cuya distribución del muestreo es la distribución “t“de Student con = n-1 grados de libertad, siempre que la población de la cual estamos tomando la muestra se pueda aproximar con bastante exactitud a una curva normal. El procedimiento es semejante al utilizado cuando tenemos valores de Z pero en este caso los puntos críticos quedan determinados mediante las tabla 2 de distribución “t” para una o dos colas. 9 Diferencias de medias. Sean X1 y X2 las medias muéstrales de dos muestras grandes n1 y n2 extraídas de poblaciones respectivamente que tienen de media a 1 y 2 y desviación típica 1 y 2. Considérese la “hipótesis nula” de que no hay diferencia entre las medias poblacionales, es decir, 1 = 2. Para n 30 La distribución muestral de la diferencia de medias se distribuye aproximadamente como una normal con media y desviación Standard dadas por: x1-x2 = 0 x1-x2 = 1 2 / n1 + 2 2/ n2 La variable estandarizada Z viene dada por: Z = x1 – x2 / 12 /n1 + 22 / n2 Puesto que 1 y 2 son generalmente desconocidas aproximaremos esta fórmula al sustituirlas por las desviaciones estándar muéstrales S1 y S2: Z = x1 – x2 / s12 /n1 + s22 / n2 Esta fórmula ha de ser utilizada solamente para muestras grandes. Al denominador se le suele llamar desviación estándar o error estándar de la diferencia entre las medias. Para n 30 La distribución muestral de la diferencia de medias se distribuye aproximadamente como una distribución de student, el estadígrafo ahora es: t = x1 – x2 / SP 1 /n1 + 1 / n2 , donde: SP = (n1-1)S12 + (n2-1)S22 / n1+ n2-2 Aquí los grados de libertad se determinan por: gl = (n1+ n2- 2). Se observa que si el valor de t cae dentro del intervalo o región crítica cuya expresión es: -tt ≤ t ≤ tt , donde tt se busca en una tabla de Student con (n1+ n 2 -2) grados de libertad en dependencia del nivel de significación prefijado. Si t cae dentro del intervalo, entonces decidimos aceptar Ho, en caso contrario rechazamos Ho. Después de haber analizado los elementos teóricos anteriores aparecen gravitando alrededor del tema que nos ocupa, las siguientes interrogantes: ¿ Cuándo tendríamos que realizar una prueba de medias o de diferencia de medias ?,¿ Cómo se hacen estos tipos de pruebas ?, ¿ Cuáles serían los pasos a seguir para tener éxito en la realización de las mismas ?, ¿ Qué tendríamos que hacer en cada paso ?, en fin para responder a estas y a otras interrogantes que puedan surgir les proponemos a continuación una “metodología” de resolución de problemas biomédicos que conducen a estas pruebas de hipótesis. La misma esta constituida por una serie de pasos lógicos que recomendamos seguir y que han sido extraídos de la experiencia que hemos acumulado en la impartición y en el trabajo metodológico a la Estadística Inferencial por parte del colectivo docente, así como de resultados en la aplicación de exámenes y técnicas cualitativas para conocer el grado de aceptación y satisfacción de esta metodología en 10 los estudiantes con el propósito de facilitar y guiar a los mismos en la obtención del éxito de estos tests. Hemos querido presentarle a continuación la “metodología” mediante la tabla 3 con los pasos que sugerimos seguir para realizar las pruebas y en los que se podrán apreciar vínculos que nos mostraran, a través de tres ejemplos concretos, que debe hacerse en cada uno de ellos, así como su contenido. Metodología de resolución de problemas que conducen a las pruebas de hipótesis de medias I. Identificar el tipo de problema de ensayos de hipótesis. II. Buscar los valores de Z tabulados según el nivel de significación prefijado o los de t según y los grados de libertad. Con conocida Con desconocida Diferencia de medias Tabla de valores críticos de la distribución normal estándar Tabla de valores críticos de la distribución t-de Student III. Planteamiento de las hipótesis nula, alternativa y el criterio de decisión. Con conocida Con desconocida Diferencia de medias IV. Cálculo de los estadígrafos Z o t y del intervalo de confianza. con el procesador estadístico. Con conocida Con desconocida Diferencia de medias V. Análisis e interpretación de los resultados. Con conocida Con desconocida Diferencia de medias VI. Toma de decisión. Ejemplo 1: Prueba de hipótesis de medias con conocida. Ejemplo 2: Prueba de hipótesis de medias con desconocida. Ejemplo 3: Prueba de hipótesis de diferencia de medias. Tabla 3 11 Paso 1 Ejemplo 1 Supongamos que en un determinado país el peso neonatal de los varones tiene una distribución normal con una media de 3.3 Kg. y una desviación estándar de 0.5 Kg y que en una muestra aleatoria de 100 varones recién nacidos, todos procedentes de un determinado subgrupo étnico, el peso medio fue de 3.2 Kg.. Se desea determinar si el peso medio neonatal de este subgrupo étnico difiere del peso medio neonatal del país. a. Plantee la prueba de hipótesis adecuada a este objetivo. b. En base a la prueba del inciso a tome la decisión que corresponda al utilizar un nivel de significación del 5%. Después de leer el problema varias veces debemos identificar el tipo de prueba de hipótesis, para ello debemos darnos cuenta que en el problema clasifica como “continua” la variable peso en Kg. cuyos valores han sido medidos con un instrumento, además de distribuirse según la normal, ser la muestra lo suficiente grande(n 30) y conocida la desviación Standard de la población de estudio. De manera que estos elementos son suficientes para saber que estamos en presencia de una prueba de medias con conocida. Ejemplo 2 Una empresa farmacéutica anuncia un medicamento cuya acción se mantiene sin vencimiento durante un tiempo promedio de 20 meses. Un laboratorio de experimentación lo probó con una muestra de tamaño 5 y obtuvo los resultados siguientes: Tiempo promedio de vencimiento en meses: 19, 18, 22, 20 y 17. ¿Podría decir el laboratorio, con un nivel de significación del 5%, que el anuncio de la empresa no es correcto? Después de leer el problema varias veces debemos identificar el tipo de prueba de hipótesis, para ello debemos darnos cuenta que en el problema clasifica como “continua” la variable tiempo sin vencimiento del medicamento que se anuncia, cuyos valores han sido medidos con un instrumento, que la desviación Standard de la población de estudio es desconocida, la muestra es pequeña (n≤30) y se distribuye según una t de Student. De manera que estos elementos son suficientes para saber que estamos en presencia de una prueba de medias con desconocida. Ejemplo 3 En un hospital clínico quirúrgico se hizo un estudio en las salas del servicio de cirugía general acerca de la estancia postoperatoria. Para ello se estudiaron las historias clínicas de 666 pacientes que habían pasado por el servicio durante un período de 1 año, y se recogió información sobre un conjunto de variables, entre ellas, edad, sexo y 12 número de días que el paciente permaneció hospitalizado después de la operación. Los resultados de las estimaciones puntuales de los días de estancia media postoperatoria y su desviación estándar según edad y sexo se muestran en la tabla siguiente: Tabla. Media (en días) y desviación estándar de la estancia Postoperatoria en un servicio de Variable Media Desviación Número de cirugía general. Edad Hasta 45 años 46 años y más Sexo Masculino Femenino estándar Pacientes 5.0 4.5 6.7 3.5 249 417 5.2 4.6 7.7 4.0 337 329 ¿Cree usted que halla razón para afirmar que la estadía postoperatoria se comporta diferente en cada grupo de edad? Utilice un de 0.05. Después de leer el problema varias veces debemos identificar el tipo de prueba de hipótesis, para ello debemos darnos cuenta que en el problema clasifica como “continua” la variable estancia Postoperatoria (en días), cuyos valores puntuales han sido estimados para dos grupos de edades y sexo, observándose dichos valores medios y sus respectivas desviaciones Standard, así como que estas últimas se desconocen poblacionalmente aunque debemos considerarlas iguales. De manera que estos elementos son suficientes para saber que estamos en presencia de una prueba de diferencia de medias con desconocida. Paso 3 Ejemplo 3,1 Sea el peso neonatal promedio en todo el país en su conjunto, de acuerdo con lo que se desea determinar la prueba de hipótesis será: H0: = 3.3 H1: 3.3, con conocida e igual a 0.5 y de dos colas. Tomaremos un nivel de significación = 0.05 El criterio de decisión será: Rechazar Ho si el valor del estadígrafo Z obtenido mediante la fórmula z = x 0 n es mayor que el tabulado Z1-/2 (Z Z1-/2) o si es menor que -Z1-/2 (Z - Z1-/2 ). Este punto crítico Z1-/2 se obtiene en la tabla 1 para = 0.05, el cual constituye el paso 2 y resultando ser 1,96. 13 Aceptar Ho si - Z1-/2 ≤ Z ≤ Z1-/2 Para la prueba del inciso (a), el estadígrafo adecuado es z = x 0 n Sustituyendo los valores en la expresión de z, se tiene que: z = (3.2 –3.3)/0.5/ 100 = –0.1/0.05 = –2. Como z < 0 hay que comparar con –z0.5-0.05/2 = –z0.475 = –1.96 y puesto que –2 < –1.96, entonces se rechaza la hipótesis nula y se admite que el peso medio neonatal del subgrupo étnico difiere del de la población en su conjunto para un nivel de significación del 5%. Ejemplo 3,2 En este caso tenemos que asumir que el tiempo de vencimiento es una variable aleatoria con distribución normal; entonces, para poder responder la pregunta acerca de la afirmación que hace la empresa se puede plantear la hipótesis: H0: = 20 H1: 20, con desconocida, y de una cola puesto que, si el tiempo de vencimiento fuese mayor de 20 meses también sería favorable a lo que afirma la empresa farmacéutica. Como se desconoce el valor de en la población base y además la muestra es bastante pequeña, para probar la hipótesis se deberá usar el estadígrafo t de Student. El criterio de decisión será: Rechazar Ho si el valor del estadígrafo t obtenido mediante la fórmula t = x 0 s n es menor que el tabulado -t(n-1)1- (t -t(n-1)1-). Este punto crítico t1- se obtiene en la tabla 2 para = 0.05 y 4 grados de libertad, el cual constituye el paso 2, resultando ser 2,132. Aceptar Ho si t ≥-t(n-1)1- Ejemplo 3,3 En este caso supongamos que el tiempo de estadía en cada grupo es una variable aleatoria con distribución normal. Designemos por A y B respectivamente, a los pacientes de cada grupo de edad; si la diferencia entre los promedios de estadía en los grupos A y B resulta significativa y bajo la suposición de que los grupos son homogéneos para cualquier otra característica se puede hablar de un comportamiento diferenciado de la estadía por grupo de edad por lo que la hipótesis a verificar sería: H0: A = B H1: A B, con desconocida pero igual en ambas poblaciones. 14 Como se desconoce el valor de en las poblaciones bases y además la muestra es bastante grande, para probar la hipótesis se deberá usar el estadígrafo t de Student. El criterio de decisión será: Rechazar Ho si el valor del estadígrafo t obtenido mediante la fórmula t = x1 – x2 / SP (1 /n1 + 1 / n2 ) , donde: SP2 = (n1-1)S12 + (n2-1)S22 / n1+ n2-2 y grados de libertad gl = (n1+ n2- 2) es menor que el tabulado -t(n1+n2-2)1-/2 (t-t(n1+ n2-2)1-/2) o si es mayor que t(n1+n2-2)1-/2(t t(n1+n2-2)1-/2). Este punto crítico t (n1+ n2-2)1-/2 se obtiene en la tabla 2 para = 0.05 y 664 grados de libertad, el cual constituye el paso 2, resultando ser 1,96. Aceptar Ho si -t(n1+ n2-2)1-/2 ≤ t ≤ t(n1+ n2-2)1-/2 Paso 5 Ejemplo 5,1 Este es el paso más importante de la prueba, pues utilizando los resultados obtenidos en el procesamiento, especialmente los del paso 2 y planteamientos del 3, es que se hacen los análisis e interpretaciones finales del problema. De acuerdo a lo planteado en el problema hacemos los razonamientos siguientes: Utilizando el nivel de significación = 0.05 se obtuvo que z < 0 hay que comparar con – -Z1-/2 = –1.96 tomado de la tabla 1 y puesto que –2 < – 1.96, entonces se rechaza la hipótesis nula y se admite que el peso medio neonatal del subgrupo étnico difiere del de la población en su conjunto para un nivel de significación del 5%. Teniendo en cuenta los resultados por el procesador Statgraphics: El StatAdvisor ----------------Este análisis muestra los resultados de realizar el contraste de hipótesis referente a la media (µ) de una distribución normal. Las dos hipótesis a considerar son: Hipótesis Nula: µ = 3,3 Hipótesis Alternativa: µ <> 3,3 Dada una muestra de 100 observaciones con una media de 3,2 y una desviación típica de 0,5, el estadístico t calculado es igual a -2,0. Puesto que el p-valor para el test es inferior a 0,05, la hipótesis nula se rechaza para el 95,0% de nivel de confianza. El intervalo de confianza muestra que los valores de µ soportado por los datos se encuentran entre 3,10079 y 3,29921. Ejemplo 5,2 Este es el paso más importante de la prueba, pues utilizando los resultados obtenidos en el procesamiento, especialmente los del paso 2 y planteamientos del 3, es que se hacen los análisis e interpretaciones finales del problema. De acuerdo a lo planteado en el problema hacemos los razonamientos siguientes: 15 Al tomar en la tabla 2 de valores críticos de la distribución t de Student el valor del percentil 1– , es decir tn-1,1- = t4,0.95 = 2.132 y teniendo en cuenta que en el caso de la prueba estamos considerando la región crítica como : {x: t < – tn-1,1-}, el valor calculado de t = –0.93 no está en la región crítica por lo que no se puede rechazar la hipótesis nula , y el laboratorio no puede decir que lo que afirma la empresa no sea correcto. También podíamos haber hecho nuestro análisis teniendo en cuanta la región de aceptación: {x: t ≥-t(n-1)1- }. Teniendo en cuenta los resultados por el procesador Statgraphics: El StatAdvisor ----------------Esta ventana muestra los resultados del test concerniente al centro de la población de la que procede la muestra. La hipótesis nula es que la media es igual a 20,0 frente a la hipótesis alternativa en la que la media es inferior a 20,0. Puesto que el P-valor para este test es superior a 0,05, no podemos rechazar la hipótesis nula para un nivel de confianza del 95,0%. Ejemplo 5,3 Este es el paso más importante de la prueba, pues utilizando los resultados obtenidos en el procesamiento, especialmente los del paso 2 y planteamientos del 3, es que se hacen los análisis e interpretaciones finales del problema. De acuerdo a lo planteado en el problema hacemos los razonamientos siguientes: Al tomar de la tabla 2 de valores críticos de la distribución t de Student el valor del punto crítico t (n1+ n2-2)1-/2 = t664, 0.975, el cual constituye el paso 2, para = 0.05 y 664 grados de libertad vimos que el mismo es 1,96 y como establecimos mediante el criterio de decisión la región de aceptación por -t(664, 0.975 ) ≤ t ≤ t(664, 0.975 ) = -1,96 ≤ t ≤ 1,96 se puede observar que el valor 1,2637 calculado por el estadígrafo t se encuentra dentro del intervalo, por lo no existe razón para afirmar que la estadía postoperatoria tenga un comportamiento diferente según los grupos de edad del paciente intervenido quirúrgicamente. Teniendo en cuenta los resultados por el procesador Statgraphics: El StatAdvisor ----------------Las dos hipótesis a considerar son: Hipótesis Nula: µ1 - µ2 = 0,0 Hipótesis Alternativa: µ1 - µ2 <> 0,0 Dada una muestra de 249 observaciones con una media de 5,0 y una desviación típica de 6,7 y una segunda muestra de 417 observaciones con una media de 4,5 y una desviación típica de 3,5, el estadístico t calculado es igual a 1,26282. Puesto que el pvalor para el test es superior a 0,05, la hipótesis nula no puede rechazarse para el 16 95,0% de nivel de confianza. El intervalo de confianza muestra que los valores de: µ1 - µ2 soportado por los datos se encuentran entre -0,276026 y 1,27603. NOTA: en la aplicación de este test, se ha asumido que las desviaciones típicas de ambas muestras son iguales. Puede prescindir de esta asunción pulsando el botón derecho del ratón y seleccionando Opciones del Análisis. Recomendamos ver la página Web: http://www.ltu.sld.cu/curso_introductorio/informatica_medica1/bioest/pag/tutoral.h tm mediante la cual acceder a un tutoral del procesador Statgraphics 2,1 sobre cómo realizar el procesamiento en las pruebas de hipótesis de media. Paso 6 Es en este paso donde usted debe decidir si a los resultados de la prueba de hipótesis los toma, los deja o se abstiene de ellos, en fin todo lo que hicimos antes fue para “DECIDIR”. Paso 2 Tabla 1 Valores críticos de la distribución normal estándar Las cabeceras de columna muestran el alfa (nivel de significación) para un contraste a una cola. Para un contraste a dos colas, elija el valor de encabezado que muestre la mitad del nivel alfa deseado. (Por ejemplo, para un contraste a dos colas al nivel de significación del 10 %, use la columna 0,05). 0,10 0,05 0,025 0,01 0,005 0,001 1,282 1,645 1,960 2,326 2,576 3,090 Como se observa en los resultados del caso 1, para /2=0.025 el valor del estadígrafo Z es 1,96 Tabla 2 Tabla de probabilidades de la distribución t-student para una cola Valores críticos de la distribución t de Student Las cabeceras de columna muestran el alfa (nivel de significación) para un contraste a una cola. 17 Para un contraste a dos colas, elija el valor de encabezado que muestre la mitad del nivel alfa deseado. (Por ejemplo, para un contraste a dos Grados t.55 t.95 t.975 colas al nivel de significación del 10%, de use la columna 0,05) libertad gl = 4 0,10 0,05 0,025 0,01 1,533 2,132 2,776 3,747 0,10 gl = 664 ~ inf. 1,282 Como.158 se observa los resultados del 6.31 en12.7 31.8 63.7 para =0.05 y4.30 gl = 4 6.96 el valor9.92 del 2 caso 2, .142 2.92 3 estadígrafo .137 3.18 4.54 5.84 t2.35 es 2,132 7,173 0,025 0,01 1,645 1,960 2,326 0,001 3,090 4 .134 2.13 2.78 3.75 4.60 5 .132 2.01 2.57 3.36 4.03 .129 1.81 2.23 2.76 3.17 Como .131 se observa los resultados del 1.94 en2.45 3.14 3.71 7 caso 3 .130 1.90 2.36 3.00 3.50 para /2=0.025 y 664 grados 8 de libertad .130 1.86valor2.31 2.90 3.36t el del estadígrafo 9 .129 1.83 2.26 2.82 3.25 es 1,96 6 10 p gl 1 2 3 4 5 6 7 8 9 t.995 1 0,001 0,05 t.99 0.50 0.25 0.10 0.05 0.025 1.00000 0.81650 t0.76489 p 0.74070 0.72669 0.71756 0.71114 0.70639 0.70272 2.4142 1.6036 1.4226 1.3444 1.3009 1.2733 1.2543 1.2403 1.2297 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 12.706 4.3027 3.1825 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 25.452 6.2053 4.1765 3.4954 3.1634 2.9687 2.8412 2.7515 2.6850 Tabla de probabilidades de la distribución tstudent para dos colas En la primera columna aparecen los grados de libertad y en la primera fila las probabilidades para t que excede numéricamente al valor de entrada. (Dos colas). 18 Paso 4 Ejemplo 4,1 Utilizando la calculadora de nuestro PC podemos procesar el valor del estadígrafo Z por la expresión, z = x 0 con conocida e igual a 0.5 n Sustituyendo los valores en la expresión de z, se tiene que: z = (3.2 –3.3)/0.5/ √100 = –0.1/0.05 = –2. Utilizando el Statgraphic los resultados son los siguientes: Contraste de Hipótesis ---------------------Media de la Muestra = 3,2 Desviación Típica de la Muestra = 0,5 Tamaño de la Muestra = 100 95,0% intervalo de confianza para la media: 3,2 +/- 0,099211 [3,10079; 3,29921] Hipótesis Nula: media = 3,3 Alternativa: no igual Estadístico t calculado = -2,0 P-Valor = 0,0482398 Rechazar la hipótesis nula para alpha = 0,05. Recomendamos ver la página Web: http://www.ltu.sld.cu/curso_introductorio/informatica_medica1/bioest/pag/tutoral.h tm mediante la cual acceder a un tutoral del procesador Statgraphics 2,1 sobre cómo realizar el procesamiento en las pruebas de hipótesis de media. Ejemplo 4,2 Utilizando la calculadora de nuestro PC podemos procesar los valores de los estadígrafos x y s. x = (19+18+22+20+17)/5 = 19.2 2 xi2 n x 1858 5 19.22 2 s 3.7 y s = 1.92 n 1 4 Sustituyendo en t = x 0 se tiene que t = –0.93 s n Utilizando el Statgraphics los resultados son los siguientes: Contraste de Hipótesis Media muestral = 19,2 Contraste t ------------- 19 Hipótesis nula: media = 20,0 Alternativa: menor que 20,0 Estadístico t = -0,929981 P-valor = 0,202512 No se rechaza la hipótesis nula para alpha = 0,05. Recomendamos: Ver la página Web: http://www.ltu.sld.cu/curso_introductorio/informatica_medica1/bioest/pag/tutoral.h tm mediante la cual acceder a un tutoral del procesador Statgraphics 2,1 sobre cómo realizar el procesamiento en las pruebas de hipótesis de media. Ver ejemplo de cómo realizar el procesamiento de los datos con el Statgraphics 2,1 en este caso con desconocida. Ejemplo 4,3 Utilizando la calculadora de nuestro PC podemos procesar los valores de los estadígrafos SP2 y t mediante las expresiones: t = x1 – x2 / SP (1 /n1 + 1 / n2) y SP2 = (n1-1) S12 + (n2-1) S22 / n1+ n2-2 Resultando ser SP = 248. (6,7)2+ 416. (3,5)2 / 664 = 4,94 y t = (5,0-4,5) /4,94. (1/249 + 1 / 417) = 1,2637 Utilizando el Statgraphics los resultados son los siguientes: Contraste de Hipótesis -------------------------Medias de la Muestra = 5,0 y 4,5 Desviaciones Típicas de la Muestra = 6,7 y 3,5 Tamaños de la Muestra = 249 y 417 95,0% intervalo de confianza para la diferencia entre medias: 0,5 +/- 0,776026 [0,276026; 1,27603] Hipótesis Nula: diferencia entre medias = 0,0 Alternativa: no igual Estadístico t calculado = 1,26282 P-Valor = 0,206652 No rechazar la hipótesis nula para alpha = 0,05. (Se asumen varianzas iguales). Recomendamos ver la página Web: http://www.ltu.sld.cu/curso_introductorio/informatica_medica1/bioest/pag/tutoral.h tm mediante la cual acceder a un tutoral del procesador Statgraphics 2,1 sobre cómo realizar el procesamiento en las pruebas de hipótesis de media. 20 P-valor Definición del P valor o nivel de significación empírico en un contraste de hipótesis Definición. Si pretendemos desarrollar el siguiente contraste de hipótesis estadísticas, donde θ es un parámetro, es decir una constante que puede ser determinada con ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o multivariantes el P valor o nivel de significación empírico del contraste es el dato obtenido a partir del valor del estadístico del contraste ,Θ, en las observaciones que corresponden a la realización de la muestra de tamaño n extraída de la población X, tal y como puede deducirse del ejemplo expuesto más abajo, y que nos informa sobre cuál sería el nivel de significación más pequeño que nos hubiera permitido rechazar la hipótesis nula. Se rechazará la hipótesis nula si el P valor es menor o igual al nivel de significación adoptado por el experimentador. Por ejemplo, al contrastar la existencia de diferencias apreciables entre los valores medios de dos poblaciones normales e independientes: siendo el estadístico a utilizar : 21 con distribución T de Student con (n1+ n2-2) grados de libertad; el P-valor se define de la forma siguiente: En el caso de que el contraste considerado sea unilateral superior, el P-valor se define como: Asimismo, el P-valor para un contraste unilateral inferior será: Bibliografía 1. Cursos de Maestrías. Metodología de la Investigación, Promoción y Educación para la salud. [en CD-ROM User Guide]. ENSAP. Versión 1,0 La Habana, 2004. 2. Freund E. John. Estadística Elemental Moderna. Edición Revolucionaria. La Habana. 1987. 3. Colectivo de autores. Laboratorio de Estadística Matemática II. Editorial Félix Varela, la Habana,2004. 4. Guerra Bustillo W. Caridad y otros. Estadística. Editorial Félix Varela, la Habana,2004. 5. Oliva G. Leonardo, O´Farril M. Esperanza. Bioestadística y Computación, quía de estudio. Edit. Pueblo y Educación. La Habana. 1988. 6. Oliva G. Leonardo y otros. Bioestadística. Cuaderno de ejercicios. Edit. Pueblo y Educación. La Habana. 1988. 7. Colectivo de autores. Bioestadística y Computación. Editorial Pueblo y Educación. La Habana, 1987. 8. Colectivo de autores. Informática Médica Tomo II. Editorial Ciencias Médicas. La Habana. 2005. 22 Procesador Le recomendamos utilizar el Zoom 200 % para ver mejor contenidos de las ventanas. Pasos 1 y 2 Paso 1: Selección de la escala de medición de la variable… Describe...Numeric Data...One-Variable Análisis del menú y hacemos clic… Paso 2 : Seleccionar la variable en la base de datos…DATA…nombre de la variable que contiene los datos que se quieren analizar...Hacemos clic en Ok 23 Siguiente Pasos 3 y 4 Paso 3: Seleccionar la opción para realizar la tabulación de la variable en el botón…Tabular Options de la barra de herramientas y hacemos clic. Paso 4: Selección de la prueba...Hypothesis Tests y Intervals Confidence…del cuadro de diálogo y hacemos clic en el botón OK 24 Siguiente Pasos 5 y 6 Paso 5: Hacer clic derecho en la ventana…clic izquierdo en Pane Options…introduzca en el cuadro de diálogo Hypothesis Tests Options…la hipótesis nula, y seleccione la hipótesis alternativa Paso 6: Extraer los resultados obtenidos en ambas ventanas y efectuar el análisis e interpretación que se plantea en el punto V de la metodología 25 Datos del autor Lic. Profesor Asistente Lorenzo Pérez Milanés Facultad de Ciencias Médicas “Zoilo E. Marinello Vidaurreta” Las Tunas, Cuba E-mail: lorenzopere@yahoo.es lorenzo@cucalambe.ltu.sld.cu Página Web: 26 http://www.ltu.sld.cu/curso_introductorio/informatica_medica1/bioest/pag/lorenz o.php