LLIÇÓ 8. ANÀLISI DE LA VARIÀNCIA Experiments estadístics El propòsit d’un experiment és determinar l’efecte d’una o més variables independents sobre una o diverses variables dependents, controlant i neutralitzant la influència que altres factors poden exercir sobre la variable que es vol estudiar. V a ria b le In d e p e n d e n t E F E C T E C o n tro l V a ria b le s E x te rn e s V a ria b le dependent L’experimentació és un procediment científic de contrastació d’hipòtesis sobre qualsevol àrea del coneixement humà. Fases 1. Formulació del problema. 2. Identificació de la variable dependent. 3. Identificació de la o les variables independents. 4. Elecció dels nivells o tractaments. 5. Elecció de les unitats experimentals. 6. Eliminació o control de les variables externes. 72 Anàlisi de la variància És una tècnica d’anàlisi estadística que permet comprovar si la diferència de mitjanes de més de dues poblacions és significativa o si les diferències observades poden assignar-se a fluctuacions del mostreig. El propòsit de l’anàlisi de la variància és analitzar la variabilitat de la variable dependent i assignar components d’aquesta variabilitat a les variables independents, més un residu que és l’error aleatori. Variabilitat de la variable dependent Variabilitat de la variable independent 1 Variabilitat de la variable independent 2 Variabilitat de la variable independent … Variabilitat de la variable independent n Variabilitat aleatòria o error La variabilitat o dispersió es mesura mitjançant la suma de quadrats de les desviacions. N SQ = ∑( yi − y ) 2 i=1 Variació total = variació entre grups (var. ind.) + variació intragrup. (Var. error) Models d’anàlisi de la variància N’hi ha molts, de models. Estudiem només els dos següents: 1. Model d’un factor d’efectes fixos completament aleatoritzat. (Una variable independent). 2. Model d’un factor d’efectes fixos aleatoritzat en blocs. (Dues variables independents). Model d’un factor d’efectes fixos completament aleatoritzat Donats diversos grups, a cada un se li assigna un tractament. Es calcula la mitjana de cada grup. Això fa que cada grup tingui una mitjana diferent per a la mateixa variable. La qüestió és si aquestes mitjanes són significativament diferents o si les diferències són degudes a l’atzar. 73 Situació experimental Nivell 1 Nivell 2 Nivell 3 Variable independent Grup 1 Grup 2 Grup 3 Variable dependent ANOVA UNIDIRECCIONAL Hipòtesi nul.la Hipòtesi alternativa Contrast F Hipòtesis que s’han de contrastar: H0= µ1=µ2= µ3=… H1= µ1≠µ2≠ µ3≠… A priori se suposa que en les dades hi ha dues variacions: Variació deguda als tractaments o entre grups i variació deguda a l’atzar o intragrup. Origen Suma quadrats Graus Mitjanes F llibertat quadràtiques 2 Tractament entre grups Intragrups 2 nj N ∑ xij x ∑ k r i =1 − k =1 SQE = ∑ nj N j =1 SQI = SQT - SQE 74 r-1 SQE/(r-1) =MQE N-r SQI/(N-r) = MQI F=MQE/MQI Total N ∑ xk N SQT = ∑ x k2 − k =1 N k =1 2 Resum del model ANOVA d’un factor d’efectes fixos completament aleatoritzat 1. Hipòtesi: H0: µ1 = µ2 = ... = µr H1: µ1 ≠ µ2 ≠ ... ≠ µr 2. Supòsits: • Les mostres són aleatòries i independents. • Les poblacions són normals. • Les poblacions tenen la mateixa variància (homoscedasticitat). 3. Estadístic de contrast: F = MQE/MQI 4. Decisió: Si F > Fα (r-1)(N-r) rebutjarem H0. 5. Conclusió. Si rebutgem H0, les mitjanes de les poblacions no són iguals, és a dir, hi ha diferències significatives en els tractaments. Model d’un factor d’efectes fixos, aleatoritzat en blocs • S’aplica quan tenim dues variables independents per analitzar. • En aquest cas s’han de verificar dues hipòtesis, una per a cada variable independent: H0: µ1 = µ2 = ... = µr H1: µ1 ≠ µ2 ≠ ... ≠ µr H0: µ1 = µ2 = ... = µn H1: µ1 ≠ µ2 ≠ ... ≠ µn 75 Origen Suma quadrats Graus llibertat Mitjanes quadràtiques F r-1 SQE/(r-1)=MQE Fj=MQE/MQI n-1 SQB/(n-1)=MQB Fk=MQB/MQI (r-1)(n-1) SQI/((r-1)(n-1))= MQI 2 Tractament entre grups 2 nj N ∑ xij ∑ xk r i =1 k =1 SQE = ∑ − n N j =1 j 2 Blocs entre grups r N x ∑ xk ∑ ij nj − k =1 SQB = ∑ 1 r N i =1 Intragrups SQI = SQT – (SQE+SQB) Total N ∑ xk N SQT = ∑ x k2 − k =1 N k =1 2 2 Resum del model ANOVA d’un factor d’efectes fixos aleatoritzat en blocs 1. Hipòtesi: H0: µ1 = µ2 = ... = µr H1: µ1 ≠ µ2 ≠ ... ≠ µr H0: µ1 = µ2 = ... = µn H1: µ1 ≠ µ2 ≠ ... ≠ µn 2. Supòsits: • Les mostres són aleatòries i independents. • Les poblacions són normals. • Les poblacions tenen la mateixa variància (homoscedasticitat). 3. Estadístics de contrast: Ft = MQE/MQI Fb = MQB/MQI 4. Decisió: Si Ft > Fα (r-1),(r-1)(n-1) rebutjarem H0. 76 Si Fb > Fα (n-1),(r-1)(n-1) rebutjarem H0. 5. Conclusió Si rebutgem H0, les mitjanes de les poblacions no són iguals, és a dir, hi ha diferències significatives en els tractaments. Si rebutgem H0, les mitjanes de les poblacions no són iguals, és a dir, hi ha diferències significatives en els blocs. 77 EXEMPLE D’APLICACIÓ DEL MODEL Una empresa es dedica a la fabricació i venda de un licor extret de canya de sucre i coco. Fins al moment, la seva promoció s’ha basat en publicitat a la premsa d’àmbit nacional. Actualment, els seus directius estan considerant la possibilitat d’introduir la publicitat en tanques publicitàries. Per estudiar els efectes d’aquesta variable en les vendes, han realitzat un experiment consistent a agafar tres ciutats de característiques similars i fer una forta campanya de publicitat d’aquest tipus en una (ciutat 1), una campanya de tipus mitjà en una altra ciutat (ciutat 2) i cap a la tercera. Transcorregut cert temps des del començament de les campanyes, es mesuren les vendes en les tres ciutats durant vuit setmanes. Els resultats es recullen a la taula següent: Vendes (u.f.) Setmana Ciutat 1 Ciutat 2 Ciutat 3 1 110 90 85 2 115 95 90 3 120 100 95 4 125 110 100 5 130 115 100 6 120 110 90 7 115 100 90 8 110 100 90 945 820 740 Total Gran total = 945 + 820 +740 = 2.505 Per resoldre el problema, primer plantejarem les hipòtesis: H0: µ1 = µ2 = µ3 H1: µ1 ≠ µ2 ≠ µ3 Assumim que es compleixen els quatre supòsits teòrics necessaris per a l’aplicació del model d’anàlisi de la variància. 78 Vendes (u.f.) (Ciutat 1)2 (Ciutat 2)2 (Ciutat 3)2 1 12.100 8.100 7.225 2 13.225 9.025 8.100 3 14.400 10.000 9.025 4 15.625 12.100 10.000 5 16.900 13.225 10.000 6 14.400 12.100 8.100 7 13.225 10.000 8.100 8 12.100 10.000 8.100 Total 111.975 84.550 68.650 Setmana Suma total = 265.175 Si cerquem la F(Taules): F(2,21);0.01 = 5,78 F(2,21);0.05 = 3,47 Conclusió: Com que F > F(Taules), es rebutja la hipòtesi nul·la, és a dir, hi ha una diferència significativa entre les mitjanes. Per tant, la publicitat a les tanques influeix en les vendes. 79