ESTAOISTICA ESPAÑO^A Núm. 88, 1980, p^gs. 115 a 128 Análisis de robustez del test F al faliar algunas de las hipótesis que permiten la inferencia en el modelo lineal por JAVIER CALATRAVA REQUEI^fA INIA GRIDA-10, Cárdoba por RAFAELA DlOS PA^OMARES ETSIA ( Unlversidad de Córdoba) RESUMEN El objeto del presente trabajo es el de analizar la robustez del test F al fallar algunas de las hipótesis que permiten la inferencia en el modelo iineal. Se han estudiado los efectos, sobre los resultados del test, del fallo de la no-norrnalidad ^(distribuciones uniformes) y de la homogeneidad de las varian^as, considerando, asimismo, otras variaciones en la naturaleza del conjunto de datos experimentales. Para ello se han utilizado técnicas Montecarlo de Simulación, obteniendo conclusiones sobre el grado de «sensitividad^ del test F en los casos considerados. Asimismo, se exponen algunas ideas tendentes a señalar futuras lineas de investigación sobre el tema. Palabras clave: Test F, robustez, hipótesis modelo lineal. EI análisis de robustez de estimadores puntuales, o de tests estadísticos, al fallar una o varias de las hipótesis realizadas sobre el modelo, ha sido, durante mucho tiempo, uno de los problemas rnás interesantes con los que han debido enfrentarse estadísticos y matemáticos en cuanto a su solución teórica, y experimentadores en todos los campos ^ IÓ ESTADISTICA ESPAÑULA científicos (fundamentalmente en el agro-biológico), por lo que a las consecuencias prácticas del no cumplimiento de hipótesis se refiere. Las técnicas Montecarlo, basadas en la generación de números pseudoaleatorios, que permiten simular series de valores provenientes de variables aleatorias con determinadas distribuciones de frecuencia, han solucionado el problema de forma bastante satisfactoria. Ya en 1931, PEARSON, plantea el dilema de la resolución del Analisis de la Varianza en el posible caso de observaciones que no provengan de una ley aleatoria normal. Más tarde, DAVtD y JoHNSOtv (1951) analizan la función de potencia del test F en dicho caso, intentando así resalver el problema planteado por PEARSOtv (1931), siendo dicho tipo de análisis Ileva,do a cabo posteriormente por SRtvASTAVA (1958) para el test de Student. Respecto a la hipótes is de homogeneidad de las varianzas, la respuesta del test F a su no cumplimiento fue analizada por HoRSivELL (1953) y posteriormente, empleando ya técnicas de muestreo simulado, por BRADLEY (19f^4). Dicho irab^jo de BRADLEY, junto con el llevado a cabo por el mismo autor en 19á3 (ver referencias), relativo a la robustez de tests paramétricos de tipo general referentes a una muestra, forman el primer análisis global existente sobre la robustez de los distintos tests estadísticos. En BRADLEY (1964) se desarrolla el método comúnmente empleado de transformación de datas en experimentación para corregir la heterogeneidad de varianzas. 1Viás recientemente, y empleando ya de forma sistemática técnicas Montecarlo con ,^eneración de números pseudoaleatorios, se han realizado algunos estudios sobre robustez de estimaciones y contrastes, tratando varios de ellos el test F de forma siempre p^areial, dada la dificultad de asumir en un salo estudio ei no cumplimiento de todo el cor>junto de hipótesis del rnodela lineal y los efeetos de interaccián de dicho incumplimiento de hipótesis. De los distintos trab^,jos, ser3alaremos aqui, como bastante gen^rico, el llevado a cabo por poNAL.soN (19á6 y 1968} quien, empleando técnicas Montecarlo, analiza el comportamiento del test F respecto a la no-normalidad de las observaciones, simulando observa^ciones «artificiales» provenientes de distribuciones exponenciales y lognormales, considerando asimismo el caso de no homogeneidad de las varianzas, y estudiando la relacián entre dicho comportarniento y la correlación existente entre el numera,dor y el denominador del ratio F, aspecto que, habiendo sido apuntado por PEARSON (1931) en el primer estudio sobre robustez de tests estadísticos, ya citado, había venido siendo ignorado en la literatura estadística. La existencia de diversos trab^os de Simulación, tendentes al análisis de la robustez del test F, no sólo no invalida el interés de posteriores estudios, sino que 1o incrernenta, pues como se desprende de los traba^jos de BRAI3LEY (19ó3 y 1964), y se explicita concretamente en ei de DorrALSON (1968), es muy arriesgado generalizar a partir de los R08USTEZ DEL TEST F' AL FALLAR ALGCINAS NIPOTES1S I^7 resultados de unos estudios realizados con unos tipos determinadas de distribucianes y b^jo un conjunto prefyado de condiciones experimentales, y será necesaria el realizar análisis específicos para cada caso particular. Basado en esta necesidad, el presente trabajo trata de estudiar la eficacia del test F considerando el fallo simultáneo de distintas hipótesis del madelo lineal, y baja diferentes condiciones. La idea inicial con la que se comenzó este análisis fue, exclusivamente, la de estudiar dicha eficacia b^o la na-normalidad de las observaciones expresada en valores extremos de la Kurtosis de las distribuciones (de Uniforme a Doble expanencial). Posteriarmente, al añadir nuevas variantes al problema, se restringió, por operatividad, el estudio del efecto de la no-normalidad sólo para valores bajos de la Kurtosis (uniforme), dejando para una segunda parte de este estudio la realización de un análisis similar para valores elevados (doble exponencial). Las condiciones en las que se realiza el presente análisis pueden resumirse como sigue: a) Hipótesis nula de igualdad de medias verdadera o falsa, alternativamente, considerando diferentes valores de las mismas en el primer caso. b) En los casos de hipótesis nula falsa, se han considerado diversas diferencias entre medias. c} Igualdad o desigualdad de las varianzas. d) En el caso de desigualdad de varianzas y medias se han considerad^ varianzas inversa y directamente proporcionales a las medias. e) Diferentes coeficientes de variación. ,f) Uniformidad o normalidad en la distribucián de las observaciones y errores experimentales, dejando para un traba^jo posterior, comca se ha indicado, la cansideración del contraste normaJ-doble expanencial. Para llevar a cabo el análisis se han generado, en principio, 1G0 veces tres muestras de 10 elementos provenientes de distribuciones normales y uniformes, con medias iguales entre sí e iguales sucesivamente a 12, 12,5, 13, 13,5, 14, I4,5, 15, y con desviaciones típicas iguales entre sí, e iguales sucesivamente a cr = 5, 10 y 15 por 100 de las medias. La variable retenida ha sido el número de veces, de entre las 100 repeticiones de la experiencia, que el test F ha dado signiticación de diferencia entre medias, para « = 0,01 y 0,05, respectivamente. 1IS ESTAU^STIC:A ESPAIYOLA L,c^s resultados pueden verse en la tabla [, donde en la parte superior de cada celda se encuentra el valor correspondiente a^c = O,OI y en la inferior a^c = 0,05. Se ha repetido después todo lo anterior, pero considerando además desviaciones 4 2 tlpicas desiguales en cada generación, siendo a, ^ a y 3 a, respectivamente, y los resultados obtenidos se expresan en la tabla II. Del análisis de ambas tablas se sigue que las diferencias entre los valores de ^c admitidos (U,O1 y O,OS) y los simulados, son debidas exctusivamente al muestreo en todos los casos, si queremos realizar la inferencia con un 99 por 100 de probabilidad, y en casi todos, si sólo exigimos el 95 por t00 (en las tablas I y li se indica ccan un asterisco aquellos valores que difieren significativamente para 9S por l00 de su correspondiente teórico). Como puede verse, sólo en un caso dicha diferencia aparece en el par de valores obtenidos, correspondiendo a µ= 13,5, varianzas iguales y distribución nvrmal. TABLA 1 RESPUESTAS SIMULADAS DEL TEST F PARA MEDíAS Y VARIANZAS IGUALES Y OBSERVACIONES NORMALES Y UNiFORMES, CONSIDERANDfJ DISTINTOS VALORES DE µ Y CV =^ µ (^c = 0,01 y 0,05 en la parte superior e inferior de cada casilla, respectivamente} Tipc^ de distribución NORMALES UNIFORMES CV CV CV CV CV CV l S°^0 1 O%O S % 1 S%O 1 O% S% o 0 o a a 3 S S S 3 4 8 1 Z,S 0 S 1 8 1 S 0 S 2 4 2 4 13 1 8 1 4 1 S 0 3 1 S 1 S 13.5 1 4 4* 10* 0 S 1 4 l ? i 7 4* 10 0 S 0 3 0 3 2 7 2 7 14.5 0 S 0 S 0 S 0 3 2 4 2 4 1S 1 S 2 6 1 4 2 8 0 S 1 S Valores de N I^ 14 119 ROBUSTEZ DE[. TEST F Al. F,ALLAR ALCUNAS HIPOTESIS TweLw II RESPUESTAS SIMULADAS DEL TEST F PARA MEDIAS IGUALES Y VARIAN2AS DIFERENTES CON O$SERVACIONES NORMALES Y L,INIFORMES, CONSIDERANDO DISTINTOS VALORES DE N Y CV = a u (ac = 0,01 y O,OS en la parte superíor e inferior de cada casilla, respectivamente) Tipa de distr^bucibn NORMALES UNIFORMES CV CV CV CV i S% 10 % S% 1 S °Ja CV 10 %o' S%a 12 2 9 1 S 1 4 4 ^9 2 9 1 4 12,50 2 9 1 S 1 ó 2 6 1 4 1 4 13 1 S S 9 1 S 3 9 2 S 2 S 13,50 S* 9 1 1 0 S 0 b 0 2 0 2 14 1 1 Z 9 0 3 4* 9 2 S 2 S 14,50 2 9 0 3 2 9 4* 9 3 10* 3 6 1S 1 S 0 4 1 8 2 ? 1 4 2 9 Valores de N CV _ La simple observación de la posición que ocupa dicho caso en las tablas, asY como el hecho de que cumple las hipótesis, nos indica que se trata de un fenómeno de azar, encontrándonos en el S por 100 de los casos que escapan a la inferencia. Puede afirmarse que el test F es muy «robusto^, cuando la hipótesis nula es cierta, aunque se trate de distribuciones uniformes con b^ja Kurtosis, las varianzas sean distintas y cambien sensiblemente los coeficientes de variación de las distribuciones para distintos valores de µ{esta afirmación es válida para muestras de tamaño n= 10, o valores aproximados). Para valores sensiblemente inferiores a l0 (n = 4) se han simulado al azar alguno de los casos estudiados y la robustez del test permanece, en general, si bien habña que repetir todo el análisis para los distintos valores de n para poder inferir al respecto con cierto rigor. Evidentemente, para n> 10 la robustez del test debe en principio afirmarse . ESTADISTICA ESPAÑOL,^ ^ Para analizar fa robustez en el caso de hipótesis alternativa cierta [caso mucho menos estudiado que el anterior como afirma DoNALSON (19b8)), se han realizado l00 ^enerawciones de tres scries de I O observaciones con mcdias 1 S ± 1^µ , siendo eµ , respectivamente, 4.5, 1, 1,5, 2, 2,5 y 3, correspondiente en porcent^je de 1S a 3,33, 6,b6, 10, í3,33, 16,66 y 20, respectivamente, Las generaciones se han realizado simulando distribuciones normales y uniformes alternativamente. Repitiendo las anteriores variantes se han considerado, asimismo, tres casos distintos, a saber: a} Heterogeneidad de las varianzas, ordinalmente proporcionales de forma directa a las medias: Desviaciones tipicas iguales a c^", ^ a" y? cs"' en cadageneración, orde3 3 nadas proporcionalmente al valor de las medias ( los cs' son distintos al ser distintas las medias). Heterogeneidad de las varianzas, ordinalmente proporcionales de forma inversa a 4 2 las medias: I3esviaciones típicas igual a a', ^ a", 3 a"' en cada generación, ordenab) das inversarnente al valor de ías medias. c) Homogeneidad de las varianzas. Desviación típica c^ = porcentaje correspondiente del CV aplicado a l5 (media de las tres medias). ^ En los tres casos se han considerado las tres variaciones en las desviaciones típicas respectivamente a= S, 10 y IS por l00 de sus medias correspondientes en cada caso. Los resultados pueden verse en las tablas 1 II, I V y V, donde, como anteriormente, la variable retenida ha sido el número de veces que el test ha detectado diferencia significativa para x= 0,01 y x= 0,05 ( parte superior e inferior de cada casilla}. Vemos que los factores que fundamentalmente afectan los resultados son, lógicamente, los valores de aµ (separación entre medias} y CV (coeficiente de variación). No siendo significativamente diferentes los resultados obtenidos generando normales o uniformes, ni apreciándose efecto por el hecho de ser la heterogeneidad de las varianzas directa o inversamente proporcional a las medias, existiendo diferencia entre ambos casos y los resultados obtenidos en el caso de varianzas homogéneas, en el que, a igualdad de otras condiciones, el test es mucho más potente que en los dos casos de heterogeneidad considerados. En las bguras I, II y IIi se han representado para x= 0,01 las curvas de potencia del test respecto a la separación entre medias expresada en porcentaje de la media que hemos considerado base (µ„ = l S) para la operatividad de las simulaciones. Vemos que el test es más patente para mayor separación entre medias y menor coeficiente de variación, y que la diferencia de resultados, entre el caso de homogenei- Rnfl USTEZ DEL TEST F AL FALLAR ALGUNAS H tPOTESIS 121 TABLA iii RESPUESTAS SIMULADAS DEL TEST F PARA HIPOTESIS ALTERNATIVA CIERTA; HOMOGENEIDAD DE VARIANZAS Y OBSERVACIONES NORMALES Y UNIFORMES, COi^SIDERANDO DISTINTOS VAL(3RES I3E ^µ Y CV =^ µ ( = 0,01 y O,OS en la pnrte superior e inferior de cada casilla, respectivarnente) Tipo de distribucisn Valures de Oµ NORMALES UNIF©1tMES CV CV CV CV CV CV IS% 10%- S% 1S^lo 10% S% ± O,S 1 7 ? 24 27 S6 6 íS 18 30 37 S1 ^- l,0 11 25 S3 77 94 99 l0 19 47 67 91 100 ± l, S 20 37 94 99 í 00 100 1S 43 94 97 100 100 ± 2,0 58 78 10^0 l00 í00 100 41 ?3 100 100 i00 100 ± 2,5 8^0 96 100 100 100 100 73 92 100 100 100 100 ^ 3,0 96 97 100 100 100 l00 94 99 100 100 100 100 dad y heterogeneidad de las varianzas, aparece patente para pequeñas diferencias entre medias, y pequeños coefcientes de variación. Así por ejemplo: Para oµ = 1,5, ^100 e µ = 10 ). La potencia del test es según las casos; Distribución CV Humugeneidad Heterogeneidad directa H. ^nversa Normal . . . . , . . . . . S% 10 °,^0 1 S °l0 1,00 0,94 0,20 1,00 0,94 0,1 S 0.8#3 0,41 0,10 0,85 0,33 0,07 0.85 U,46 0,05 0,91 0,4b 0,09 Uniforme ....... ,^0 S ^ 10 % l S °Io Para valores menores de Aµ las diferen^ias entre valores del CV y homogeneidadheterogeneidad se agrandan y para valores mayores desaparecen. 122 E STADISTICA ESPAI^OL,A TAH^A IV RESFUESTAS SIMULADAS DEL TEST F PARA HIPOTESIS ALTERNATIVA CIERTA. HETEROGENEIDtAD DIRECTA DE VARIANZAS Y OBSERVACIONES NORMALES Y UNIFORI^^^ES, CONSIDERANDO DISTINTOS VALORES DE a ^u Y CV = -N (x - O,OI y O,OS en !a parte superior e inferior de cada casilla, respectivamenie) ^1'ip° dc distribución UNIFORMES NORMALES cv Iv % cv s ^o 5 I1 2 15 7 18 4b 73 10 22 11 35 43 73 41 63 8K 99 7 21 33 ó2 85 98 8 25 75 9Q 100 1()í} 13 35 82 94 100 100 ^ 2,S 28 49 89 l00 100 l00 25 48 97 100 100 100 ± 3, U 39 7U 104 l00 l 00 l00 49 66 100 100 100 l0U cv ^o % cv s ^^ 2 6 5 l4 11 25 *^ 1,0 S ló 22 31 ± 1,5 10 24 -*- 2,0 va^f^^ d^ dµ cv is ^o ^- 0,5 cv rs ^a Resumienda las conclusiones: l. Si la hipótesis nula es cierta, el test es muy robusto frente a la consideración de no-normalidad (uniformidad de las distribuciones) o de heterogeneidad de las varianzas, independientemente de la dimensión de las medias y su coeficierite de variación. 2. Si la hip©tesis alternativa es cierta, la potencia del test se ve afectada por la diferencia entre medias, el coeficiente de variación y la heterogeneidad de varianzas, pero no por la uniformidad de las distribuciones. E1 test es muy robusto para ,grandes diferencias entre medias y pequeños coefícientes de variacián. Se da la círcunstancia que, cumpliéndose las hipótesis, el test falla frecuentemente para valores del coeficiente de variación grandes (10 por lOQ de la media). Asimismo, para diferencias de medias de1 orden del 6 por 100, o inferiores, el test falla con frecuencia en cualquier caso. Esto nos parece enormemente importante en el momento de utilizacián práctica del test en experimentacián. 123 ROBUSTEZ DEL. TEST F AL FALLAR ALGUNAS NlP'OTESIS TwBLA V RESPUESTAS SIMULADAS DEL TEST F PARA HIFOTESIS ALTERNATIVA CIERTA: HETEROGENEIDAD INVERSA DE VARIANZA Y OBSERVACIONES NORMALES Y UNIFiC)RMES, CONSIDERANDO DISTINTOS VALORES DE AµYCV= ^ µ (a = 0,01 y O,OS en la po^rte superior e inferior de cada casilla, respectivamente) Tipo de Distnbución V alore s de Aµ UNIFORMES NORMALES CV 15°/'0 CV l0% CV S% CV 1S% CV 10% CV S°^o ±0,5 1 8 6 12 10 19 4 12 8 12 9 22 ± 1,0 S 1S 12 29 44 67 1 9 9 21 33 ó9 ± 1,S 5 23 4b 68 8S 96 9 23 4b 70 91 99 ± 2,0 1S 29 78 92 98 99 2S 44 79 95 100 100 ± 2,5 21 43 95 100 100 100 23 48 97 1{IO 100 100 ± 3,0 34 b0 99 99 100 100 44 b3 99 100 100 100 A la vista de los resultados anteriores, consideramos interesante como lineas de investigación sobre el tema: la realizacibn del análisis anteri©r para distintos valores de las muestras, y el estudio de la no-normalidad hacia valores elevados de la Kurtosis en la distribución de las observaciones (doble exponencial). Esto nos proporcionará un espectro bastante completo de su robustez. Para la generación de variables aleatorias y realización sucesiva del test se ha preparado un programa en BASIC para el microordenador H-F 9830 A del Centro de Cálculo de la E. T. S. I. A. de la Universidad de Córdoba. Para la generación de variables uniformes se ha utilizado una subrutina congruencial multiplicativa anexa al i= 12 sistema, y para las normales, la subruiina ^ U(0, t)- 6 para la N(0,1), siendo por tanta ;_ ^ ;=^z un valor de la N (µ, a) = a ^ V(0, l} - 6 + µ. i= 1 ESTADISTICA ESPAÑULA 0. 9 ^ 0.8 ^ 0.7 -^ 0,6 ,.^ 0.5 -^ 0. 4 -^ 0.3 ^ 0.2 -1 0.^ -^ - T- ^o Figura I ' en e! caso de heterogeneidad directa de ^µ N varianuts. N-n = Curva cornespondient^e a distribuciones normales con coeficiente de variación n por cien. U-n = Idem para distribuciones uniformes. Curva de potencia del test respecto a 1 U!) RC}^USTEZ DEL TEST F AL FALLAR ALCiUNAS HIPOTES^S Í.0 0.9 o.a o.s 0.5 0.4 0,3 0.2 0.1 _ ^._ -1 10 20 Figura 2 Curva de pr^tencia del test respecto a en el caso de homogeneidad de varianzas ^^`µ µ varian zas 11U0 N-n = Curva corr+esponáicntc a distríb^uciones normalas con coeficiente de variación n por cien. U-n = Idem para distribuciones uniformes. 126 ESTADiSTFCA ESPAÑOGA 1.0 ^ 0.9 -^ 0. 8 ~ 0.? -^^ 0.6 ^ 0.5 -^^ 0.4 ^ 0.3 -^ 0.2 ^ 0.1- Figura 3 Curva de potencia del test respecto a 10^0 ^µ µ en et caso de homogeneidad de varianzas N-n = Curva correspondiente a distribuci©nes normales con co+eticiente de variacitín n por cien. U-n = Idem p^ara distribuciones un^formes. RO^B USTEZ DEL TEST F AL FALLAR ALGUNAS NIPOTESIS 127 BIBLIGGRAFIA BRADLEY, J. V.: «A Sampling Study of the Central limit theorem and the Robustness of One-Sample Paramctric Test», en Studies in Research Methodology IV AMRL Tech^tica! Doc u^nent Report. C^hio (U. S. A.) (1963). BRwDLEY, J. V.: «The Central Limit Effect f©r a Variety of Populations and the Robustness of 2, and F», en Studies in Researrh Mtthodo!©gy ^i Technical Document Report. Ohio (U. S. A.) C1 9^4). Dwv^o, F. N., y.JONNSON, N. L.: «The Effect of Nonnormality on the Power Function of the F-test in the analysis of Variance» . Biometrlka, 38, pp. 43-57 { 1951). DONAI.S4N: «Power of the F-test for Non-normal Distributions and Unequal Error Variances». RA1VD Ccrrporation Report. Santa Mónica (Califarnia), 19ó6. DONALSON, T. S.: «R©bustness of the F-test io errors of both Kinds and the correlation between the numerator and denominator of the F-ratio». .^ourn. Arrieric•. Stat. Assoc. June, pp, 660-676 (1968). HORSNE[,L, G.: «The Effect of Unequa! Group variances of the F-test for the Homogeneity of Groups Means». Biornetrika, 40, pp. 128-36 (1953). PEARSON, E. S.: «The Analysis of variance in cases of Non-normal Variations». Biometrika, 28, pp. 114-33 (1931). SRivwsTwvw, A. B. L.: «Effect of Nonnomarlity on the Power Function of t-Test^^ . Biometrika, 45, pp. 421-430 (1958). SUMMARY The aim of the present work is to anatyse the robustness of the F-test when sorne of t ^e hipotheses for inference are not true. The effects of departure from the hypotheses of normally distributed ta uniforrn populations, and equal to unequal variances, are studied, considering some variations in the nature of the set of experimental data. For doing the analysis, Montecarlo Simulation Thechniques has been used. Conclusions have been taken related with the «insensitivity» of the test investigated to the underlying assumptions and variations. Finally, some ideas concerning future research on the field have been commented. Key wurds: F, test, robustness, linear model assumptions. AMS. 1970. Subject classification: GOE05.