LLIÇÓ 6. INFERÈNCIA Els temes que es tractaran són els següents: INFERÈNCIA ESTIMACIÓ MITJANA, PROPORCIÓ CONTRAST HIPÒTESI V. QUANTITATIVES ANÀLISI VARIÀNCIA CONTRAST HIPÒTESI V.QUALITATIVES REGRESSIÓ KHI QUADRAT Inferència És el coneixement del comportament d’una població a partir de l’estudi d’una mostra. És un procés inductiu, se suposa que tota la població es comportarà igual que la mostra. La inferència, per ser vàlida, és imprescindible que treballi amb mostres autènticament representatives de tota la població. Problemes de la inferència Elecció d’una mostra representativa; això s’aconsegueix mitjançant: • Grandària adequada. • Mètode de selecció correcte. Mètodes de selecció de la mostra Aleatoris Aleatori simple. Tots els elements de la població tenen la mateixa probabilitat de ser elegits per formar part de la mostra. Mostreig estratificat. Si la població està dividida en estrats naturals, per exemple, sexe, edat, etc. Es pot fer un mostreig aleatori simple en cada estrat. 60 Mostreig per conglomerats. Com per estrats, però els estrats són zones geogràfiques. Sol fer-se per etapes. Mostreig sistemàtic. S’elegeix un element a l’atzar i a partir d’aquest, sistemàticament, cada n elements formaran part de la mostra. Per seleccionar una mostra representativa s’ha d’utilitzar un mètode aleatori. No aleatoris. Els elements de la mostra no són elegits per cap procediment a l’atzar. Errors La coincidència total entre l’estadístic mostral i la població no es produeix. Error és la diferència entre el valor desconegut de la població i el que s’obté de la mostra. • • Error de biaix. Es pot evitar utilitzant un bon mètode de selecció de la mostra. Error aleatori. No es pot evitar però es pot quantificar. Distribucions en el mostreig Paràmetres poblacionals. Són les mesures relatives a la població. Característiques mostrals. Són les mesures relatives a la mostra. Variables quantitatives Variables qualitatives Paràmetres poblacionals Mitjana poblacional µ Variància poblacional σ2 Desviació tipus poblac. σ Proporció poblacional Mida de la població π N Característiques mostrals Mitjana mostral x Variància mostral s2 Desviació tipus mostral s Proporció mostral Mida de la mostra p n Valors mostrals Cada un dels elements de la mostra els simbolitzem amb xi . D’una població determinada és possible seleccionar diverses mostres possibles d’una mateixa mida n. No totes les mostres proporcionen la mateixa informació, n’hi ha que s’aproximen més que altres a la població. Com que la inferència utilitza una única mostra, hi ha el problema de valorar la qualitat de la informació mostral. L’elecció d’aquesta única mostra, com que s’utilitza un mètode aleatori, depèn exclusivament de l’atzar. És una variable aleatòria. 61 Distribució de probabilitat d’un valor mostral Cada valor mostral és una variable aleatòria, per tant, podem fer-ne la distribució de probabilitat. Tot valor mostral xi seguirà la mateixa distribució de probabilitat que la població. L’esperança de la distribució de probabilitat de cada valor mostral és igual a la mitjana poblacional. E [xi ] = µ La variància de la distribució de probabilitat de cada valor mostral és igual a la variància de la població. 2 i V [x ] = σ Estadístic És qualsevol funció efectuada amb els valors mostrals. Estadístics més importants: les característiques mostrals (x, p, etc.). Tot estadístic serà també una variable aleatòria i tindrà una distribució de probabilitat. Distribució de probabilitat de la mitjana mostral La mitjana mostral és una variable aleatòria. x = x1 + x 2 + Λ + x n n L’esperança de la distribució de probabilitat de la mitjana mostral és igual a la mitjana poblacional. E[x] = µ La variància de la distribució de probabilitat de la mitjana mostral és igual a la variància poblacional dividida per la mida de la població. V [x La distribució de la mitjana ]= mostral σ N µ, n 62 σ n 2 segueix una distribució normal. Exemple Població. Distribució de probabilitat Edat 21 22 23 24 25 Prob. 1/5 1/5 1/5 1/5 1/5 µ = 23 σ2 = 2 Mostres possibles, amb reemplaçament i mitjana mostral 21 (21,21) 21 (22,21) 21,5 (23,21) 22 (24,21) 22,5 (25,21) 23 21 22 23 24 25 σ n 22 (21,22) 21,5 (22,22) 22 (23,22) 22,5 (24,22) 23 (25,22) 23,5 23 (21,23) 22 (22,23) 22,5 (23,23) 23 (24,23) 23,5 (25,23) 24 Mitjana mostral 21 21,5 22 22,5 Probabilitat 1/25 2/25 3/25 4/25 23 5/25 23,5 24 24,5 25 4/25 3/25 2/25 1/25 1 2 = 2 = 1 2 63 24 (21,24) 22,5 (22,24) 23 (23,24) 23,5 (24,24) 24 (25,24) 24,5 E [x ] = 23 V [x ] = 1 25 (21,25) 23 (22,25) 23,5 (23,25) 24 (24,25) 24,5 (25,25) 25 Mostres possibles, sense reemplaçament i mitjana mostral 21 21 22 23 24 25 σ n 2 (22,21) 21,5 (23,21) 22 (24,21) 22,5 (25,21) 23 22 (21,22) 21,5 23 (21,23) 22 (22,23) 22,5 (23,22) 22,5 (24,22) 23 (25,22) 23,5 (24,23) 23,5 (25,23) 24 Mitjana mostral 21,5 22 22,5 Probabilitat 2/25 2/25 4/25 23 4/25 23,5 24 24,5 Total 4/25 2/25 2/25 1 24 (21,24) 22,5 (22,24) 23 (23,24) 23,5 25 (21,25) 23 (22,25) 23,5 (23,25) 24 (24,25) 24,5 (25,24) 24,5 E [x ] = 23 V [x ] = 0 , 75 N − n 2 5 − 2 = = 0 , 75 N −1 2 5 −1 Distribució de probabilitat de la proporció mostral La proporció mostral és una variable aleatòria. L’esperança de la distribució de probabilitat de la proporció mostral és igual a la proporció poblacional. E [ pi ] = π La variància de la distribució de probabilitat de la proporció mostral és: V [p] = π (1 − π ) n Si la població és normal, la proporció mostral segueix una distribució normal: π (1 − π ) N π , n 64 ESTIMACIÓ Definició Estimar un paràmetre poblacional és assignar-li un valor aproximat a partir de la informació que ens dóna la mostra. Estimar 1. Per punt. Donar un número com a estimació del paràmetre poblacional. 2. Per interval. Donar un interval on s’estima que es troba el vertader valor del paràmetre poblacional amb una determinada probabilitat. Estimador Tota funció dels valors mostrals que ens serveix per estimar puntualment un paràmetre poblacional. Estimacions Els diferents valors que obtenim en aplicar l’estimador a les diferents mostres. Propietats dels estimadors Asimptòticament no esbiaixat No esbiaixat lim E[x ] = µ E[x] = µ n→∞ Eficient. El que té la variància més petita. Òptim = no esbiaixat + eficient Consistent. Ha de ser no esbiaixat o asimptòticament no esbiaixat i la variància ha de tendir a zero quan n tendeix a infinit. Estimadors puntuals Població Mostra µ x σ π ŝ p Estimació per interval Donar un interval on s’estima que es troba el vertader valor del paràmetre poblacional amb una determinada probabilitat. D’aquesta probabilitat que serà la probabilitat d’encertar se’n diu nivell de confiança (1- α ). α és el nivell de significació o probabilitat d’errar. 65 Per una mateixa mida de la mostra, en augmentar el nivell de confiança, augmenta la longitud de l’interval. El més habitual és treballar amb nivells de confiança del 95 % i del 99 %. Hi ha una relació inversa entre la mida de la mostra i la longitud de l’interval. Mitjana poblacional µ σ coneguda σ desconeguda x ± zα σ / 2 n s sˆ = x ± t (n −1 )α / 2 n −1 n x ± t (n −1 )α / 2 Proporció poblacional π π desconegut p ± zα / 2 p .q n Diferència de mitjanes µ1 - µ2 Variàncies desconegudes σ1 ≈ σ2 (n > 30) (x 1 Variàncies desconegudes σ1 ≈ σ2 (n ≤ 30) ( x1 − x 2 ) ± t ( n + n − x 2 ) ± t ( n 1 + n 2 − 2 )α 1 S 2 p 66 = ∑ (x 1 /2 Sp 2 − 2 )α / 2 − x1 )2 + n1 + n ∑ (x 2 − 2 sˆ12 sˆ 22 + n1 n2 1 1 + n1 n 2 2 − x 2 )2 Diferència de proporcions π1 - π2 ( p1 − Vàlid per a valors grans de n1 i n2 p 2 ) ± zα / 2 p1 q1 p 2 q 2 + n1 n2 Grandària de la mostra L’estadística proporciona les millors fórmules per trobar una mostra que sigui representativa de la població. Les fórmules es deriven de les de l’estimació per intervals. Abans de calcular la fórmula s’ha de decidir: 1. Nivell de confiança al qual volem treballar (95 %, 99 %, etc.). 2. Marge d’error sobre el paràmetre poblacional que estem disposats a assumir; se simbolitza amb d (±1, ±2, etc.). Les fórmules que utilitzarem són les següents: Una mostra Per µ σ coneguda Interval pobl. infinita pobl. finita pobl. infinita σ desconegud a Pobl. finita x ± z α/2 . σ n x ±z α /2 x ±t x ±t α /2 α /2 . σ n n= N-n N-1 . s n . s n n= n= N-n N-1 z α /2 2 . σ2 d2 z α /2 2 . σ2. N d2 . N - 1 + z α /2 2 . σ2 zα/2 2 . S Pobl. infinita Pobl. finita p ± zα/2 p ± z α /2 0,25 n 0,25 n 67 2 d2 2 z α /2 2 . S . N . n= d2 . N - 1 + z α /2 2 . S Interval Per π π desconegut Mida 2 Mida n≅ N-n n ≅ N-1 1 d2 es pren p = q = 0,5 N d . (N - 1) + 1 2