Variables Dummy (parte I) Fortino Vela Peón Universidad Autónoma Metropolitana fvela@correo.xoc.uam.mx 19/10/2010 Octubre, 2010 México, D. F. 1 Introducción Algunas de las variables son por su naturaleza propia cualitativas. Ejemplos de este tipo son: Hombre/Mujer; Unido/ No Unido, Rural/Urbano; Jefe/ No jefe. Su participación en un modelo de regresión puede considerarse: única Yi = β1 + β 2Urbanoi + ui Yi = β1 + β 2Urbanoi + β 3 X 3i + ui cómo variable mixta independiente Variable Yi = β1 + β 2Urbanoi + ui interacción Yi = β1 + β 2Urbanoi + β3 X 3iUrbanoi + ui cualitativa cómo variable dependiente Urbanoi = β1 + β 2 X i + ui 19/10/2010 2 Estas variables reciben el denominativo de variables dummy, artificiales o indicadoras. Recordemos que dentro de las variables cualitativas se encuentran: − Nominales − Ordinales En cualquiera de los casos, cuando la variable solo presenta dos categorías, se trata de una variable dicotómica. Una forma de volver numérica a una variable cualitativa, por ejemplo, el género, es: D1 = 19/10/2010 1 , si es mujer 0 , cualquier otra cosa (coc) 3 No obstante, una variable cualitativa puede presentar más de dos categorías, multicategórica, por ejemplo: 1. 2. 3. 4. 5. es Soltero Casado (civil, iglesia o ambos) Unión Separado o divorciado Viudo decir, puede No Unido Alguna vez unido En este caso se puede considerar 1 , soltero 1, unión 1 , viudo D1 = D3 = D5 = 0 , coc 0, coc 0 , coc 1 , casado 1 , separado o divorciado D2 = D4 = 0 , coc 0, coc 19/10/2010 ser 4 i) Modelos ANOVA Técnica estadística que se utiliza para comparar dos o más valores medios o promedios. En el contexto de regresión lineal corresponde a Yi = β1 + β 2 D1 + ui donde 1 , presencia atributo D1 = 0 , ausencia atributo Pudiera coexistir más de una variable dummy. Su interpretación indica el diferencial en el valor promedio de Y. Interesa saber si es estadísticamente significativo ese diferencial. 19/10/2010 5 Ejemplo: ¿Son los autos importados más “caros”? Se desea conocer si el precio de los autos difiere según su procedencia (local / extranjera). Considere el archivo autos.dta que ofrece Stata. Es posible obtener el precio promedio simple según el lugar de fabricación, esto es: sum price if foreign==1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------price | 22 6384.682 2621.915 3748 12990 . sum price if foreign==0 Observe que 6384.682-6072.423= 312.259 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------price | 52 6072.423 3097.104 3291 15906 ¿Es estadísticamente 19/10/2010 significativa esta diferencia? 6 ¿Son los autos importados más “caros”? Sea el modelo de regresión lineal siguiente: pricei = β1 + β 2 foreign i + ui donde regress 1 , local foreign = D1 = 0 , importado price foreign Source | SS df MS -------------+-----------------------------Model | 1507382.66 1 1507382.66 Residual | 633558013 72 8799416.85 -------------+-----------------------------Total | 635065396 73 8699525.97 Number of obs F( 1, 72) Prob > F R-squared Adj R-squared Root MSE = 74 = 0.17 = 0.6802 = 0.0024 = -0.0115 = 2966.4 -----------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------foreign | 312.2587 754.4488 0.41 0.680 -1191.708 1816.225 _cons | 6072.423 411.363 14.76 0.000 5252.386 6892.46 19/10/2010 7 ------------------------------------------------------------------------------ La forma de asimilar este resultado es E ( pricei \ D1 ) = β1 + β 2 D1 + ui Si D1 = 1 entonces E ( pricei \ D1 = 1) = βˆ1 + βˆ2 D1 pero si D1 = 0 entonces E ( pricei \ D1 = 0) = βˆ1 Gráficamente 19/10/2010 8 0 5,000 Price 10,000 15,000 Diagrama de dispersión 0 .2 .4 .6 .8 C ar type 19/10/2010 9 1 0 5,000 10,000 15,000 Diagrama de dispersión y recta de ajuste (yhat) 0 .2 .4 .6 .8 C ar type Price 19/10/2010 Fitted values 10 1 Diagrama de dispersión y diferencial 0 5,000 Price 10,000 15,000 sc price foreign, yline(6072.423 ) yline( 6384.682) 0 19/10/2010 .2 .4 .6 C ar type .8 11 1 Variables Dummy en Stata Suponga un archivo con 5 observaciones como el siguiente: id 1 2 3 4 5 Salario 4500 12000 8000 5210 6804 género Mujer Hombre Hombre Mujer Mujer La idea es crear una nueva variable numérica asociada a la variable género. encode genero, generate(genero2) list genero genero2, nolab 19/10/2010 id 1 2 3 4 5 Salario 4500 12000 8000 5210 6804 género Mujer Hombre Hombre Mujer Mujer genero2 2 1 1 2 2 12 Ahora se crea en Stata a la variable D11 donde 1 , hombre D11 = 0 , mujer siguiendo la siguiente sintaxis: tab genero2, gen(D1) list genero genero2 D11 D12 +------------------------------+ 1. 2. 3. 4. 5. | genero genero2 D11 D12 | |------------------------------| | Mujer Mujer 0 1 | | Hombre Hombre 1 0 | | Hombre Hombre 1 0 | | Mujer Mujer 0 1 | | Mujer Mujer 0 1 | +------------------------------+ Podemos eliminar a la variable genero2 mediante drop genero2 19/10/2010 13 Ejercicio 1: Salarios de maestros de escuelas por región. Gujarati y Porter (2010:278) Retome los datos de la tabla 9.1 y replique los resultados encontrados por Gujarati y Porter (2010: 278-280) . www.mhhe.com/gujarati5e eliminar las comas de los datos). Datos (no olvide El modelo a considerar esta dado por: salary i = β1 + β 2 D2i + β 3 D3i + ui donde 19/10/2010 1 región noreste o norte-centro D2 i = 0 coc 1 región sur D3i = 0 coc 14 Los resultados que se obtienen son: regress salary d2 d3 Source | SS df MS -------------+-----------------------------Model | 98985177.3 2 49492588.6 Residual | 2.1523e+09 48 44839670.6 -------------+-----------------------------Total | 2.2513e+09 50 45025787.3 Number of obs F( 2, 48) Prob > F R-squared Adj R-squared Root MSE = = = = = = 51 1.10 0.3399 0.0440 0.0041 6696.2 -----------------------------------------------------------------------------salary | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------d2 | 1524.099 2363.139 0.64 0.522 -3227.311 6275.509 d3 | -1721.027 2467.151 -0.70 0.489 -6681.566 3239.512 _cons | 48014.62 1857.204 25.85 0.000 44280.46 51748.77 ------------------------------------------------------------------------------ ¿Cómo se interpretan? 19/10/2010 15 Gráficamente se tiene salary d2) (sc salary d3) 30000 40000 Salary 50000 60000 70000 twoway (sc 0 .2 .4 Salary 19/10/2010 .6 .8 Salary 16 1 70000 dis 48014.52 - 1524.099 = 46490.421 dis 48014.52 - -1721.027 = 49735.547 twoway (sc salary d2) (sc salary d3), yline (48014.62) yline(46490.421) yline(49735.547 Salary 50000 60000 Comparación de medias: los resultados indican que “no son significativas las diferencias, es decir, los profesores de las distintas regiones ganan en promedio lo mismo”. 49735.55 = Noreste y norte 48014.52= Oeste 30000 40000 46490.42= Sur 0 .2 .4 S a lar y 19/10/2010 .6 .8 Sa la ry 17 1 Ejercicio 2: Salarios por género. Fox (2008) Retome los datos correspondientes a la Encuesta de la Dinámica Laboral y de Ingreso de Ontario, Canada (Survey of Labour and Income Dynamics). http://socserv.socsci.mcmaster.ca/jfox/Books/Applied- Regression-2E/datasets/index.html (SLID en formato txt). Seleccione el “Data Set“ Canadian Survey of Labour and Income Dynamics (SLID) y el “Data File” SLID-Ontario.txt. Las variables incluidas en ese archivo son: age: edad en años. sex: Hombre (Male) o Mujer (Female). compositeHourlyWages: Tasa salarial por hora, en dólares. yearsEducation: años completos de educación. Se busca establecer si existe “discriminación salarial” por género y si 19/10/2010 existen rendimientos a la educación. 18 Una vez que tenga los datos en formato Stata, se le pide estimar los siguientes modelos. wages i = β1 + β 2 D2 i + ui Modelo 1 donde 1 mujer D2 i = 0 hombre wages i = β1 + β 2 D2 i + ui Modelo 2 1 secundaria o más D3i = 0 coc wages i = β1 + β1 D1i + β 2 D2i + ui Modelo 3 Interprete sus resultados. ¿Qué concluye acerca del objetivo inicial de análisis? 19/10/2010 19 Construcción del archivo A continuación se presenta la sintaxis para la estimación de los modelos. encode sex, generate (genero) list sex genero, nolab tab genero, gen(D) tab2 sex D1 D2 list genero D1 D2 Para construir a D3 se considera que la primaria es equivalentes a 6 años completos de estudio. Por lo tanto, un nivel educativo mayor a la primaria es una cantidad de años mayor a 6 años. sum education recode education (1/6=0) (7/20=1), gen(D3) tab education tab D3 19/10/2010 20 Modelos Modelo 1: reg wages D1 Source | SS df MS -------------+-----------------------------Model | 11697.7866 1 11697.7866 Residual | 235000.144 3995 58.8235655 -------------+-----------------------------Total | 246697.931 3996 61.7362189 Number of obs F( 1, 3995) Prob > F R-squared Adj R-squared Root MSE = = = = = = 3997 198.86 0.0000 0.0474 0.0472 7.6697 -----------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------D1 | -3.421517 .2426289 -14.10 0.000 -3.897205 -2.945829 _cons | 17.26262 .171929 100.41 0.000 16.92555 17.5997 ------------------------------------------------------------------------------ Modelo 2: reg wages D3 Source | SS df MS -------------+-----------------------------Model | 436.573061 1 436.573061 Residual | 246261.358 3995 61.6423924 -------------+-----------------------------Total | 246697.931 3996 61.7362189 Number of obs F( 1, 3995) Prob > F R-squared Adj R-squared Root MSE = = = = = = 3997 7.08 0.0078 0.0018 0.0015 7.8513 -----------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------D3 | 2.695896 1.013011 2.66 0.008 .709828 4.681963 12.82 0.000 10.91898 14.86069 _cons | 12.88984 1.005252 19/10/2010 21 ------------------------------------------------------------------------------ Modelo 3: reg wages D1 D3 Source | SS df MS -------------+-----------------------------Model | 12203.9999 2 6101.99996 Residual | 234493.931 3994 58.71155 -------------+-----------------------------Total | 246697.931 3996 61.7362189 Number of obs F( 2, 3994) Prob > F R-squared Adj R-squared Root MSE = = = = = = 3997 103.93 0.0000 0.0495 0.0490 7.6623 -----------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------D1 | -3.432063 .2424244 -14.16 0.000 -3.90735 -2.956776 D3 | 2.903281 .9887444 2.94 0.003 .96479 4.841772 14.60 0.000 12.47404 16.34385 _cons | 14.40895 .9869135 ----------------------------------------------------------------------------- Conclusiones − Si hay discriminación por género (las mujeres ganan en promedio menos que los hombres) controlando por educación. − En promedio los más educados ganan más que los menos educados (el diferencial de ingresos por nivel educativo es 19/10/2010 22 significativo) controlando por género.