Capítulo V: Variables ficticias Aplicaciones Informáticas 3. APLICACIONES INFORMÁTICAS Fichero: ci5p1.wf1 Series: SAL : Salario, en millones de pesetas. AE : Años de experiencia. NE : Nivel de estudios. Muestra: 1 - 17 3.1. Introducción Seleccionadas al azar varias personas que ejercen una misma profesión, se ha obtenido la información recogida en el fichero ci5p1.wf1 sobre salarios (medidos en millones de pesetas), años de experiencia y nivel de estudios (nº de años de estudio después de la enseñanza primaria), según sexo, donde las primeras 9 observaciones corresponden a hombres y las siguientes 8 corresponden a mujeres. En esta práctica pretendemos, haciendo uso de las variables ficticias, resolver las siguientes cuestiones: • • • Determinar si el sexo influye en la determinación del salario. Analizar si el tener la enseñanza secundaria concluida (cuatro años de estudios o más), afecta a la relación entre remuneración y nivel de estudios. Finalmente, estimar el salario medio de un hombre que tenga ocho años de estudio después de la enseñanza primaria y dos de experiencia y construir un intervalo de confianza al 95% para dicha predicción. 3.2. Estudio de la influencia del sexo en el salario Para analizar si el sexo influye en la determinación del salario los dos procedimientos que vamos a utilizar son: uso de ficticias y contraste de Chow. 3.2.1. Primer procedimiento (Ficticias) Lo primero es generar las ficticias: • Ficticia aditiva: 1 si i ∈ Mujer Fi = 0 si i ∉ Mujer QUICK/Generate Series... F = 0 Sample: 1 9 F = 1 Sample: 10 17 • Ficticia multiplicativa: QUICK/Generate Series... FAE = F*AE Sample: 1 17 FNE = F*NE Sample: 1 17 Estimación del modelo sin ficticias (modelo restringido): SALi = β 0 + β1 AEi + β 2 NEi + ε i QUICK/Estimate Equation... SAL C AE NE 83 Capítulo V: Variables ficticias Aplicaciones Informáticas ============================================================ LS // Dependent Variable is SAL Sample: 1 17 Included observations: 17 ============================================================ Variable CoefficienStd. Errort-Statistic Prob. ============================================================ C 0.492563 0.028372 17.36084 0.0000 AE 0.081499 0.001151 70.81006 0.0000 NE 0.154153 0.003312 46.53898 0.0000 ============================================================ R-squared 0.997813 Mean dependent var 2.520000 Adjusted R-squared 0.997501 S.D. dependent var 0.875985 S.E. of regression 0.043793 Akaike info criter-6.097779 Sum squared resid 0.026850 Schwarz criterion -5.950741 Log likelihood 30.70917 F-statistic 3193.919 Durbin-Watson stat 2.848249 Prob(F-statistic) 0.000000 ============================================================ A continuación, estimamos el modelo con ficticias (modelo no restringido): SAL i = β 0 + δ 0 Fi + β 1 AE i + δ 1 FAE i + β 2 NE i + δ 2 FNE i + ε i QUICK/Estimate Equation... SAL C F AE FAE NE FNE ============================================================ LS // Dependent Variable is SAL Sample: 1 17 Included observations: 17 ============================================================ Variable CoefficienStd. Errort-Statistic Prob. ============================================================ C 0.529209 0.045413 11.65330 0.0000 F -0.067373 0.063685 -1.057916 0.3128 AE 0.080402 0.001626 49.44935 0.0000 FAE 0.002310 0.002739 0.843138 0.4171 NE 0.150001 0.005592 26.82308 0.0000 FNE 0.006061 0.007394 0.819720 0.4298 ============================================================ R-squared 0.998039 Mean dependent var 2.520000 Adjusted R-squared 0.997148 S.D. dependent var 0.875985 S.E. of regression 0.046780 Akaike info criter-5.854042 Sum squared resid 0.024072 Schwarz criterion -5.559967 Log likelihood 31.63740 F-statistic 1119.886 Durbin-Watson stat 2.725458 Prob(F-statistic) 0.000000 ============================================================ Para contrastar si el sexo influye o no en el salario se hará el contraste: H0 : δ0 = δ1 = δ2 = 0 H A : ∃ δ j ≠ 0 , j = 0,1,2. F= (SCE R − SCE ) q SCE ( N − K ) = (0,026850 − 0,024072 ) 3 0, 024072 (17 − 6) 84 = 0 , 423317 Capítulo V: Variables ficticias Aplicaciones Informáticas que es menor que F3 ,11;0 ,05 = 3,59 , y por tanto no RH0. Luego no hay diferencias en el salario por cuestiones de sexo. 3.3. Efecto sobre el nivel de estudios de tener la enseñanza secundaria Ahora tenemos que generar una ficticia nueva para representar la característica de tener o no la enseñanza secundaria concluida. Llamémosle a esta variable S. Entonces: 0 si NEi ≥ 4 Si = 1 si NEi < 4 Para generar la ficticia se hace: QUICK/Generate Series... S=0 Sample: 1 17 IF NE>=4 S=1 Sample: 1 17 IF NE<4 QUICK/Generate Series... SNE = S*NE Sample: 1 17 El modelo a estimar será, entonces: SAL i = β 0 + β 1 AE i + β 2 NE i + δ SNE i + ε i Y la estimación por MCO es: QUICK/Estimate Equation... SAL C AE NE SNE ============================================================ LS // Dependent Variable is SAL Sample: 1 17 Included observations: 17 ============================================================ Variable CoefficienStd. Errort-Statistic Prob. ============================================================ C 0.529957 0.027402 19.34004 0.0000 AE 0.081024 0.000974 83.20649 0.0000 NE 0.150621 0.003053 49.32776 0.0000 SNE -0.031656 0.011779 -2.687516 0.0186 ============================================================ R-squared 0.998594 Mean dependent var 2.520000 Adjusted R-squared 0.998270 S.D. dependent var 0.875985 S.E. of regression 0.036437 Akaike info criter-6.421990 Sum squared resid 0.017260 Schwarz criterion -6.225940 Log likelihood 34.46496 F-statistic 3078.112 Durbin-Watson stat 2.478175 Prob(F-statistic) 0.000000 ============================================================ A continuación se hará el contraste: H 0 : δ = 0, H A : δ ≠ 0. t= δ$ -0,031656 = $S 0,011779 $ = -2,687516 δ 85 Capítulo V: Variables ficticias Aplicaciones Informáticas y como |-2,687516| > 2,16 ( = t 13;0,025 ) , entonces RH0. Luego el modelo debe incluir a la variable SNE. 3.4. Cálculo de una predicción y de su intervalo de confianza Finalmente, se pretende llevar a cabo el cálculo de una predicción para el nivel de salario de un hombre que tenga ocho años de estudio después de la enseñanza primaria y dos de experiencia. El modelo a utilizar es: SALi = 0,529957 + 0,081024 A E i + 0,150621 NE i - 0,031656 S NEi + ei • Predicción puntual: 0,529957 0,081024 ' = 1,896973 SAL0 = X 0 β$ = [1 2 8 0 ] 0,150621 -0,031656 • Intervalo de confianza para la predicción: ( ) s2p = s2 1 + X '0 X 'X −1 ( ) X 0 = s2 + X '0 s2 X 'X 0,000751 +[1 2 8 0] −1,78 ⋅ 10 −5 −7 9 ,48 ⋅ 10 −1 () X 0 = s2 + X '0 V$ β$ X 0 = 1,327654 ⋅ 10 −3 + −6 ,52 ⋅ 10 −5 5,99 ⋅ 10 −7 9 ,32 ⋅ 10−6 − 0,000164 1 2 ,08 ⋅ 10 −6 2 = 1,58435841 ⋅ 10 −3 −5 8 1,55 ⋅ 10 0,000139 0 sp = 0,039804 NOTA: Para calcular la matriz de varianzas-covarianzas estimada de β se hace: QUICK/Estimate Equation... SAL C AE NE SNE VIEW/Covariance Matrix lo cual nos da la matriz que hemos usado arriba. Ahora ya podemos calcular el intervalo de confianza para la predicción: SAL0 ± Sp ⋅ t13; 0 ,025 ⇒ 1,896973 ± 0,039804 ⋅ 2,16 (1,8109963 ; 1,9829496) 86 Capítulo V: Variables ficticias Aplicaciones Informáticas que, como sabemos, tiene una probabilidad del 95% de incluir el verdadero valor del salario de un hombre con ocho años de estudio y dos de experiencia laboral. 87